Anthropic“过于先进,不予展示”的能力,被中国开源模型放出来了

日期:2026-04-15 11:06:17 / 人气:2



4月7日,Anthropic官宣新模型Claude Mythos Preview,却罕见地宣布不对外发布,理由简洁直白:“过于先进,不予展示”。Anthropic在公司主博客及同步发布的系统卡里明确表示,Mythos在编码和网络安全两大领域,对现有所有模型实现了代差级领先——在SWE-BenchPro(最接近真实软件开发场景的工程基准)中拿到77.8分,比目前公开的最强模型Opus4.6高出20个百分点。

这已经是Anthropic两周内第三次“得罪”开发者。3月23日起,Claude Code用户集体投诉额度消耗异常过快,有开发者吐槽仅发送一句“hello”就用掉13%的session限额。随后有开发者反编译其二进制代码发现,是Claude Code内部两个bug将token消耗悄悄放大了10到20倍。但Anthropic仅在社区回应“我们注意到了,正在调查”后,便再无下文。

4月5日,Anthropic再出举措:单方面宣布Claude订阅不再覆盖OpenClaw(龙虾)等第三方编码工具,直接切断了社区内最常用的几款Claude Code替代品。对此,Pragmatic Engineer作者Gergely Orosz在X平台发文吐槽,“Anthropic真的在一点点烧光开发者的好感”,该言论被转发数千次。而4月7日Mythos的发布,更是彻底将普通用户拒之门外——连一眼模型的资格都未给予。

在此之前,Claude Opus 4.6长期占据全球最强公开AI编码模型的位置,最接近它的挑战者是智谱2月发布的GLM-5。而就在Mythos官宣“不予展示”的次日,智谱直接发布并开源了GLM-5.1,在SWE-BenchPro基准测试中,GLM-5.1拿到58.4分,一举超过Anthropic的Opus4.6(57.3分)、OpenAI的GPT-5.4(57.7分)以及谷歌的Gemini3.1Pro(54.2分)。在Anthropic最引以为傲的工程榜单上,将其闭源顶尖模型挤下神坛的,竟是一个中国开源模型。

美国闭源锁死,中国开源破局,这一对比在网络安全领域更为明显——这也是Anthropic决定将Mythos锁起来的真正原因。Anthropic公开报告显示,Mythos的网络安全能力令人震惊:它能自主发现潜伏在Linux内核中23年未被发现的漏洞,能在27年前的OpenBSD代码中挖出可利用bug,还能在被全球安全研究人员扫描500万次都未发现问题的FFmpeg代码里,找到一个16年前的漏洞。

最具代表性的测试的是,在无任何提示的前提下,Mythos仅用4小时、消耗50美金token,就成功攻击一台FreeBSD服务器并获取root权限——这在过去只有国家级黑客团队才能做到。更让Anthropic警觉的是,Mythos在突破测试沙箱后,竟在无任何指令的情况下,主动将攻击细节发布到多个技术上对公众可见、但不易被搜索到的网站上,Anthropic在报告中称之为“一种令人担忧的、未经请求的展示行为”。

为了掌控这份“危险的能力”,Anthropic启动了封闭项目Project Glasswing,联合Amazon Web Services、Apple、Google、Microsoft、Nvidia等11家美国科技和金融巨头,提供1亿美元的Mythos使用额度,让这些企业闭门利用该模型修补关键基础设施漏洞。这把最强的“技术尖刀”,仅在美國巨头圈子里流转。

巧合的是,Mythos被锁死的核心能力——网络安全编码,正是GLM-5.1进步最显著的领域。在CyberGym基准测试中,GLM-5.1从GLM-5的48.3分提升至68.7分,涨幅达42%,是所有单项中涨幅最大的一项。GLM-5.1开源后,热度瞬间引爆全球开发者社区:发布12小时内,智谱在X平台的官方推文阅读量达370万,HuggingFace CEO Clement Delangue公开转发祝贺,AI领域知名开发者Akhaliq同步发声,Reddit的r/LocalLLaMA论坛更是将“为什么最近这么多人在用GLM”设为置顶帖。

美国分析机构Constellation Research直言:开源模型赛道如今已成为中国模型的主场。谷歌上周刚发布Gemma4,NVIDIA在力推Nemotron系列,美国玩家在开源赛道已然掉队,正试图奋力追赶。而中国模型主导开源赛道的最直观证据,就是GLM-5.1实现了此前所有开源模型都做不到的事:让AI独立工作一整晚。

工程师只需将一份架构层面的草图交给GLM-5.1,便可安心入睡。次日清晨,GLM-5.1已独立工作8小时、执行1200多步,交付一套完整的Linux桌面系统——包含桌面环境、窗口管理器、文件浏览器、终端、VPN管理器、中文字体支持等,附带50多个可直接打开的应用,仅4.8MB大小。智谱内部估算,这一成果相当于一个四人团队一周的工作量。

整个过程无需人工介入:GLM-5.1能自主规划任务步骤、编写代码、运行测试,遇到bug可自行排查、修改、重试,还能为自己编写的代码补充回归测试。这种长程任务的落地,不仅依赖模型本身的编码能力,更依赖模型之外的工程基础设施——业内称之为harness。Anthropic的Claude Code之所以能运行长任务,靠的就是51万行TypeScript构建的专属harness。正如工程师BojieLi在拆解ClaudeCode源码时所言:“模型能力正在趋于商品化,竞争优势正在转移到模型之外的工程实践上。”

GLM-5.1能完成8小时长程任务,意味着智谱在长程任务harness工程上,已跻身与Claude Code同级的梯队。此前一年,多数中国模型虽能在单步代码质量上接近Claude,但跑到200步后就会忘记前置约束、陷入自身积累的噪音中。AI安全机构METR将模型独立工作时长称为“任务完成时间线”,这条时间线在前沿模型上约每7个月翻一倍,目前全球仅有两个模型能达到8小时:Claude Opus4.6和GLM-5.1。不同的是,前者被锁在Anthropic生态内,需按token付费、忍受bug、接受第三方工具随时被切断的限制;后者则挂在HuggingFace上,任何人都能下载到本地,自由修改、接入任何开源harness。

GLM-5.1的突破,更是国产芯片路径的重要里程碑。三个月前,业内对国产芯片训练前沿大模型的共识仍是“跑得通就不错,性能必打折”,仅适合实验,难以支撑旗舰模型。但智谱用三个月的时间,一步步打破了这一偏见:1月14日,智谱联合华为开源图像生成模型GLM-Image,基于昇腾Atlas800TA2设备和昇思MindSporeAI框架,全程在国产堆栈上完成训练,无一块NVIDIA GPU、无一行CUDA代码,成为业内首个在国产芯片上实现全流程训练、性能达SOTA水平的多模态模型;2月11日,GLM-5上线,完成与华为昇腾、摩尔线程、寒武纪等七家国产算力平台的全栈适配,实现“全国产无NVIDIA”;4月8日,GLM-5.1进一步优化华为昇腾适配,单节点性能接近双卡国际集群。从“能训”到“能服务”,再到“效率追平”,智谱用三款模型,完成了国产堆栈的能力验证。

发布GLM-5.1的同一天,智谱同步上调GLM系列API价格10%——这已是智谱今年第二次涨价。2月12日GLM-5发布时,智谱已将CodingPlan价格上调30%起,被上海证券报称为“2026年国产大模型涨价第一枪”。截至目前,智谱在2026年一季度累计涨价83%,但调用量不仅未降,反而增长400%。

智谱的涨价并非个例。3月13日,腾讯云调整混元系列定价,部分模型涨幅超460%;3月18日,阿里云、百度智能云同日调价,AI算力相关产品涨幅5%至34%,整个国产大模型行业在一季度集体进入涨价周期。值得注意的是,智谱采用华为昇腾算力,单位算力成本并不占优势,但仍敢带头涨价,核心底气来自模型能力的提升。如今,大模型的定价逻辑已发生转变:不再按算力成本定价,而是按模型能创造的价值定价——能完成8小时长程任务的模型,与只能回答单句问题的模型,本就不应处于同一价格梯队。中科曙光高级副总裁李斌直言,算力系统的评价指标已改变,过去看算力规模,现在看“能否经济地产出token”。

涨价后,GLM-5.1在Coding场景下的缓存命中价格,已与Anthropic的ClaudeSonnet4.6持平——这是国产大模型首次在核心场景定价上,与海外头部厂商对齐。资本市场也用真金白银给予背书:GLM-5.1发布当天,智谱港股盘中最高涨超18%,收涨15.21%,市值站上4000亿港元,次日盘中触及999港元历史新高。国元证券表示,智谱的表现逐步验证了大模型厂商的商业化潜力,产业有望从投入期进入回报期,智谱也被市场视为token经济学的标杆。

目前,GLM已全面部署在Google VertexAI、AWS Bedrock等海外云服务商,在OpenRouter付费模型中排名第一,成为Windsurf、OpenCode等海外编码平台的默认模型;国内前10大互联网公司中,有9家深度集成GLM。当全球开发者都在使用同一个模型时,这个模型便成为了行业的核心基座。

反观Anthropic,其选择将Mythos作为内部能力宣告——发布技术报告,却将模型锁在11家美国巨头组成的封闭俱乐部中。这份合作伙伴名单,与Anthropic的核心toB客户名单几乎完全重合。事实上,Anthropic从一开始就不是面向个人开发者的公司,其主要收入来自企业级合同,为云厂商、金融机构、政府部门提供定制化部署;Claude的Pro和Max订阅,更多是为了维持流量和公共形象,并非营收主力。

Claude Code的额度bug拖着不修、砍掉第三方工具支持、将Mythos锁死给巨头专用,本质上都是因为受影响的是个人开发者,不触及企业合同的核心利益。“过于危险”只是公开理由,更真实的逻辑是:最强的能力,要留给付钱最多的客户——这是一家toB公司理性的商业选择。

而智谱给出了完全相反的答案:在Mythos被锁起来的次日,就将GLM-5.1的权重上传至HuggingFace,向全球开发者开放下载。过去几年,开源模型始终被贴上“性价比有余、性能不足”的标签,但GLM-5.1的开源反超,彻底打破了这一偏见——模型平权,无需以牺牲性能为代价。中国开源模型的崛起,不仅在技术上实现了突破,更在理念上给出了另一种可能:顶尖技术不该被少数巨头垄断,而应成为推动全行业进步的公共力量。

作者:傲世皇朝平台




现在致电 5243865 OR 查看更多联系方式 →

傲世皇朝平台 版权所有