国产 “十万卡” 集群落地:挑战与机遇并存,开启算力新时代

日期:2025-06-30 21:15:12 / 人气:4


在人工智能浪潮席卷全球的当下,算力已成为各国竞争的核心焦点。随着 AGI 概念持续升温,十万卡集群成为全球顶尖大模型企业争夺的 “战略高地”。面对国际巨头的抢先布局,国内企业迎难而上,推动国产 “十万卡” 集群加速落地,在挑战中探寻机遇,为我国 AI 产业发展注入强劲动力。
十万卡集群建设:挑战重重的 “算力高地”
全球范围内,OpenAI、微软等头部企业纷纷布局超 10 万卡规模的 GPU 集群,高昂的资金投入令人咋舌,仅服务器成本就超 40 亿美元。在国内,单是万卡集群的 GPU 采购成本就高达几十亿,十万卡集群的 “烧钱” 程度更是难以想象。
除了资金压力,技术难题也横亘在前。电力与散热是首要挑战,十万卡 H100 集群关键 IT 设备需约 150MW 电力,远超单个数据中心承载能力,同时还需解决高密度 GPU 运行产生的巨量热量,以及气温波动对 GPU 故障率的影响。网络传输方面,大模型训练对网络要求极高,采用传统方案成本呈指数级增长,而 “计算岛” 模式虽能控制成本,但需精准平衡通信任务分配,避免带宽瓶颈。此外,国内企业因无法采用英伟达方案,使用异构芯片导致算力规模难以与美国企业抗衡。
国产 “十万卡” 集群:突破困境,加速落地
尽管困难重重,国产 “十万卡” 集群仍稳步推进。“算海计划” 二期瞄准十万卡超大规模算力单体集群建设,一期项目已在内蒙古和林格尔上线运营,二期将容纳 10 万卡算力资源。甘肃亿算计划出资 55 亿元,在庆阳建设全部采用国产芯片与自主架构的 “国产十万卡算力集群”,预计 2027 年建成,助力构建 “西部算力 + 东部智慧” 全国联动格局 。
字节跳动在智算领域大手笔投入,2024 年资本开支达 800 亿人民币,2025 年预计翻倍至 1600 亿人民币,其训练和推理算力需求巨大,未来推理算力需求有望突破 230 万张卡 。
国产 AI 芯片与技术:借势发展,实现突破
国产 “十万卡” 集群落地的热潮,为国产 AI 芯片公司带来发展机遇。华为在 HDC 2025 上推出基于 CloudMatrix384 超节点的新一代昇腾 AI 云服务,可构建 16 万卡超算集群,满足十万亿参数级大模型训练需求,单卡推理吞吐量大幅提升,还实现了训推算力一体部署 。
百度的百舸 4.0、腾讯升级的星脉网络 2.0、阿里云的高效协同方案,都能支持十万卡量级的集群规模,分别在集群管理、网络通信效率、资源协同等方面实现创新突破,为国产 “十万卡” 集群建设提供技术支撑。
算力优化:算力互联网与东数西算协同发力
我国智能算力供需失衡问题突出,2023 年智能算力需求达 123.6EFLOPS,而供给仅为 57.9EFLOPS。算力互联网和东数西算成为解决市场堵点的关键举措。
算力互联网基于现有互联网,连接各地算力资源,实现全网异构算力的智能感知与随需获取,提升算力使用效率与用户体验。中国信通院会同三大运营商启动 “算力互联网试验网” 建设,未来用户有望按 “卡时” 灵活购买算力 。
东数西算工程通过引导东部算力需求至西部,优化数据中心布局,既缓解东部能源紧张问题,又为西部发展开辟新路径。二者协同推进,将有效优化算力资源配置,推动我国 AI 产业持续健康发展。
从 2024 年万卡集群元年,到 2025 年十万卡集群加速落地,我国在算力领域不断突破。国产 “十万卡” 集群的建设,不仅是算力规模的提升,更是我国在 AI 技术自主创新道路上的重要里程碑,将为 AI 产业发展筑牢坚实底座,助力我国在全球 AI 竞争中占据一席之地。

作者:傲世皇朝平台




现在致电 5243865 OR 查看更多联系方式 →

傲世皇朝平台 版权所有