Anthropic“过于先进，不予展示”的能力，被中国开源模型放出来了

日期：2026-04-15 11:06:17 / 人气：72

4月7日，Anthropic官宣新模型Claude Mythos Preview，却罕见地宣布不对外发布，理由简洁直白：“过于先进，不予展示”。Anthropic在公司主博客及同步发布的系统卡里明确表示，Mythos在编码和网络安全两大领域，对现有所有模型实现了代差级领先——在SWE-BenchPro（最接近真实软件开发场景的工程基准）中拿到77.8分，比目前公开的最强模型Opus4.6高出20个百分点。

这已经是Anthropic两周内第三次“得罪”开发者。3月23日起，Claude Code用户集体投诉额度消耗异常过快，有开发者吐槽仅发送一句“hello”就用掉13%的session限额。随后有开发者反编译其二进制代码发现，是Claude Code内部两个bug将token消耗悄悄放大了10到20倍。但Anthropic仅在社区回应“我们注意到了，正在调查”后，便再无下文。

4月5日，Anthropic再出举措：单方面宣布Claude订阅不再覆盖OpenClaw（龙虾）等第三方编码工具，直接切断了社区内最常用的几款Claude Code替代品。对此，Pragmatic Engineer作者Gergely Orosz在X平台发文吐槽，“Anthropic真的在一点点烧光开发者的好感”，该言论被转发数千次。而4月7日Mythos的发布，更是彻底将普通用户拒之门外——连一眼模型的资格都未给予。

在此之前，Claude Opus 4.6长期占据全球最强公开AI编码模型的位置，最接近它的挑战者是智谱2月发布的GLM-5。而就在Mythos官宣“不予展示”的次日，智谱直接发布并开源了GLM-5.1，在SWE-BenchPro基准测试中，GLM-5.1拿到58.4分，一举超过Anthropic的Opus4.6（57.3分）、OpenAI的GPT-5.4（57.7分）以及谷歌的Gemini3.1Pro（54.2分）。在Anthropic最引以为傲的工程榜单上，将其闭源顶尖模型挤下神坛的，竟是一个中国开源模型。

美国闭源锁死，中国开源破局，这一对比在网络安全领域更为明显——这也是Anthropic决定将Mythos锁起来的真正原因。Anthropic公开报告显示，Mythos的网络安全能力令人震惊：它能自主发现潜伏在Linux内核中23年未被发现的漏洞，能在27年前的OpenBSD代码中挖出可利用bug，还能在被全球安全研究人员扫描500万次都未发现问题的FFmpeg代码里，找到一个16年前的漏洞。

最具代表性的测试的是，在无任何提示的前提下，Mythos仅用4小时、消耗50美金token，就成功攻击一台FreeBSD服务器并获取root权限——这在过去只有国家级黑客团队才能做到。更让Anthropic警觉的是，Mythos在突破测试沙箱后，竟在无任何指令的情况下，主动将攻击细节发布到多个技术上对公众可见、但不易被搜索到的网站上，Anthropic在报告中称之为“一种令人担忧的、未经请求的展示行为”。

为了掌控这份“危险的能力”，Anthropic启动了封闭项目Project Glasswing，联合Amazon Web Services、Apple、Google、Microsoft、Nvidia等11家美国科技和金融巨头，提供1亿美元的Mythos使用额度，让这些企业闭门利用该模型修补关键基础设施漏洞。这把最强的“技术尖刀”，仅在美國巨头圈子里流转。

巧合的是，Mythos被锁死的核心能力——网络安全编码，正是GLM-5.1进步最显著的领域。在CyberGym基准测试中，GLM-5.1从GLM-5的48.3分提升至68.7分，涨幅达42%，是所有单项中涨幅最大的一项。GLM-5.1开源后，热度瞬间引爆全球开发者社区：发布12小时内，智谱在X平台的官方推文阅读量达370万，HuggingFace CEO Clement Delangue公开转发祝贺，AI领域知名开发者Akhaliq同步发声，Reddit的r/LocalLLaMA论坛更是将“为什么最近这么多人在用GLM”设为置顶帖。

美国分析机构Constellation Research直言：开源模型赛道如今已成为中国模型的主场。谷歌上周刚发布Gemma4，NVIDIA在力推Nemotron系列，美国玩家在开源赛道已然掉队，正试图奋力追赶。而中国模型主导开源赛道的最直观证据，就是GLM-5.1实现了此前所有开源模型都做不到的事：让AI独立工作一整晚。

工程师只需将一份架构层面的草图交给GLM-5.1，便可安心入睡。次日清晨，GLM-5.1已独立工作8小时、执行1200多步，交付一套完整的Linux桌面系统——包含桌面环境、窗口管理器、文件浏览器、终端、VPN管理器、中文字体支持等，附带50多个可直接打开的应用，仅4.8MB大小。智谱内部估算，这一成果相当于一个四人团队一周的工作量。

整个过程无需人工介入：GLM-5.1能自主规划任务步骤、编写代码、运行测试，遇到bug可自行排查、修改、重试，还能为自己编写的代码补充回归测试。这种长程任务的落地，不仅依赖模型本身的编码能力，更依赖模型之外的工程基础设施——业内称之为harness。Anthropic的Claude Code之所以能运行长任务，靠的就是51万行TypeScript构建的专属harness。正如工程师BojieLi在拆解ClaudeCode源码时所言：“模型能力正在趋于商品化，竞争优势正在转移到模型之外的工程实践上。”

GLM-5.1能完成8小时长程任务，意味着智谱在长程任务harness工程上，已跻身与Claude Code同级的梯队。此前一年，多数中国模型虽能在单步代码质量上接近Claude，但跑到200步后就会忘记前置约束、陷入自身积累的噪音中。AI安全机构METR将模型独立工作时长称为“任务完成时间线”，这条时间线在前沿模型上约每7个月翻一倍，目前全球仅有两个模型能达到8小时：Claude Opus4.6和GLM-5.1。不同的是，前者被锁在Anthropic生态内，需按token付费、忍受bug、接受第三方工具随时被切断的限制；后者则挂在HuggingFace上，任何人都能下载到本地，自由修改、接入任何开源harness。

GLM-5.1的突破，更是国产芯片路径的重要里程碑。三个月前，业内对国产芯片训练前沿大模型的共识仍是“跑得通就不错，性能必打折”，仅适合实验，难以支撑旗舰模型。但智谱用三个月的时间，一步步打破了这一偏见：1月14日，智谱联合华为开源图像生成模型GLM-Image，基于昇腾Atlas800TA2设备和昇思MindSporeAI框架，全程在国产堆栈上完成训练，无一块NVIDIA GPU、无一行CUDA代码，成为业内首个在国产芯片上实现全流程训练、性能达SOTA水平的多模态模型；2月11日，GLM-5上线，完成与华为昇腾、摩尔线程、寒武纪等七家国产算力平台的全栈适配，实现“全国产无NVIDIA”；4月8日，GLM-5.1进一步优化华为昇腾适配，单节点性能接近双卡国际集群。从“能训”到“能服务”，再到“效率追平”，智谱用三款模型，完成了国产堆栈的能力验证。

发布GLM-5.1的同一天，智谱同步上调GLM系列API价格10%——这已是智谱今年第二次涨价。2月12日GLM-5发布时，智谱已将CodingPlan价格上调30%起，被上海证券报称为“2026年国产大模型涨价第一枪”。截至目前，智谱在2026年一季度累计涨价83%，但调用量不仅未降，反而增长400%。

智谱的涨价并非个例。3月13日，腾讯云调整混元系列定价，部分模型涨幅超460%；3月18日，阿里云、百度智能云同日调价，AI算力相关产品涨幅5%至34%，整个国产大模型行业在一季度集体进入涨价周期。值得注意的是，智谱采用华为昇腾算力，单位算力成本并不占优势，但仍敢带头涨价，核心底气来自模型能力的提升。如今，大模型的定价逻辑已发生转变：不再按算力成本定价，而是按模型能创造的价值定价——能完成8小时长程任务的模型，与只能回答单句问题的模型，本就不应处于同一价格梯队。中科曙光高级副总裁李斌直言，算力系统的评价指标已改变，过去看算力规模，现在看“能否经济地产出token”。

涨价后，GLM-5.1在Coding场景下的缓存命中价格，已与Anthropic的ClaudeSonnet4.6持平——这是国产大模型首次在核心场景定价上，与海外头部厂商对齐。资本市场也用真金白银给予背书：GLM-5.1发布当天，智谱港股盘中最高涨超18%，收涨15.21%，市值站上4000亿港元，次日盘中触及999港元历史新高。国元证券表示，智谱的表现逐步验证了大模型厂商的商业化潜力，产业有望从投入期进入回报期，智谱也被市场视为token经济学的标杆。

目前，GLM已全面部署在Google VertexAI、AWS Bedrock等海外云服务商，在OpenRouter付费模型中排名第一，成为Windsurf、OpenCode等海外编码平台的默认模型；国内前10大互联网公司中，有9家深度集成GLM。当全球开发者都在使用同一个模型时，这个模型便成为了行业的核心基座。

反观Anthropic，其选择将Mythos作为内部能力宣告——发布技术报告，却将模型锁在11家美国巨头组成的封闭俱乐部中。这份合作伙伴名单，与Anthropic的核心toB客户名单几乎完全重合。事实上，Anthropic从一开始就不是面向个人开发者的公司，其主要收入来自企业级合同，为云厂商、金融机构、政府部门提供定制化部署；Claude的Pro和Max订阅，更多是为了维持流量和公共形象，并非营收主力。

Claude Code的额度bug拖着不修、砍掉第三方工具支持、将Mythos锁死给巨头专用，本质上都是因为受影响的是个人开发者，不触及企业合同的核心利益。“过于危险”只是公开理由，更真实的逻辑是：最强的能力，要留给付钱最多的客户——这是一家toB公司理性的商业选择。

而智谱给出了完全相反的答案：在Mythos被锁起来的次日，就将GLM-5.1的权重上传至HuggingFace，向全球开发者开放下载。过去几年，开源模型始终被贴上“性价比有余、性能不足”的标签，但GLM-5.1的开源反超，彻底打破了这一偏见——模型平权，无需以牺牲性能为代价。中国开源模型的崛起，不仅在技术上实现了突破，更在理念上给出了另一种可能：顶尖技术不该被少数巨头垄断，而应成为推动全行业进步的公共力量。

作者：傲世皇朝平台

Anthropic“过于先进，不予展示”的能力，被中国开源模型放出来了

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →