英伟达AMD遭边缘化 DeepSeek下一代模型押注国产算力
英伟达AMD遭边缘化?DeepSeek下一代模型押注国产算力,一场静默的算力革命正在上演
ongwu | 深度观察
“当所有人都盯着聚光灯下的明星时,真正的变革往往在阴影中悄然发生。”
—— ongwu 科技评论
一、风暴前夜:DeepSeek V4的“非典型”发布节奏
据多方信源证实,DeepSeek 最快将于下周发布其下一代大模型 V4。与以往高调预热、全球同步测试的惯例不同,此次 V4 的发布策略显得异常低调,甚至带着一丝“排他性”——首批内测资格几乎全部向华为昇腾、摩尔线程、寒武纪等国产算力芯片厂商倾斜,而英伟达(NVIDIA)与 AMD 的高端 GPU 则被明确排除在早期测试队列之外。
这一举动并非偶然。它标志着中国 AI 大模型发展路径的一次关键转折:从“依赖进口算力”向“构建自主算力生态”的战略迁移。DeepSeek 作为国内最具技术前瞻性的 AI 公司之一,其选择具有强烈的风向标意义。
二、为何是“现在”?国产算力已跨过临界点
长期以来,英伟达的 H100、A100 以及 AMD 的 MI300 系列被视为大模型训练与推理的“黄金标准”。其 CUDA 生态、高带宽内存(HBM)和成熟的软件栈,构成了难以逾越的技术护城河。然而,过去两年间,国产算力芯片在性能、能效比和软件适配层面取得了突破性进展。
以华为昇腾 910B 为例,其在 FP16 精度下的算力已达 320 TFLOPS,接近 A100 的水平;配合自研的 CANN 异构计算架构和 MindSpore 框架,已能支撑千亿参数级模型的稳定训练。更关键的是,昇腾芯片在稀疏计算、动态形状支持等面向大模型优化的特性上,展现出比传统 GPU 更高的灵活性。
与此同时,摩尔线程的 MTT S4000 和寒武纪的思元 590 也在特定场景下实现了对 NVIDIA T4 甚至 A10 的替代。尽管整体生态仍显稚嫩,但“能用、可用、逐步好用”的闭环正在形成。
ongwu 认为:国产算力并非“全面超越”,而是在“关键路径上实现了功能对齐”。对于 DeepSeek 这类注重成本效率与供应链安全的公司而言,这已足够构成切换的理由。
三、DeepSeek 的算盘:成本、安全与生态三重考量
DeepSeek 押注国产算力,绝非一时冲动,而是基于三重现实压力的理性决策:
1. 成本压力陡增
大模型训练成本呈指数级上升。据估算,训练一个千亿参数模型在英伟达 H100 集群上的电费与硬件折旧成本超过 2000 万美元。而国产芯片虽单价不低,但得益于本地化供应链和政策补贴,综合 TCO(总拥有成本)可降低 30%-40%。尤其在推理阶段,国产芯片的能效比优势更为明显。
2. 供应链安全不可忽视
美国对华高端芯片出口管制持续加码,H100 和 A100 的供货周期已从数月延长至一年以上,且存在随时断供风险。DeepSeek 若将核心模型训练完全寄托于海外芯片,无异于将命脉交予他人。“去美化”不仅是政治正确,更是生存必需。
3. 构建自主生态的长期价值
DeepSeek 深知,仅靠“替代”无法赢得未来。通过深度参与国产芯片的优化迭代——例如为昇腾定制算子、为寒武纪优化编译器——DeepSeek 实际上在扮演“生态共建者”的角色。这种协同进化模式,有望加速国产 AI 芯片从“可用”到“好用”的跃迁。
ongwu 点评:这不是一场简单的“国产替代”,而是一次以应用驱动底层创新的逆向工程。大模型公司正从被动使用者,转变为主动定义者。
四、英伟达与 AMD 的“失语”:生态壁垒遭遇地缘挑战
面对 DeepSeek 的“冷处理”,英伟达与 AMD 显得颇为被动。尽管两家公司均表示“持续关注中国市场”,并推出“特供版”芯片(如 H20、MI300C)以规避出口限制,但这些产品往往在显存带宽、互联能力等关键指标上大幅缩水,难以满足大模型训练的真实需求。
更深层的问题在于:CUDA 生态的封闭性正在成为双刃剑。虽然 CUDA 提供了极致的开发体验,但其与 NVIDIA 硬件的深度绑定,使得迁移成本极高。当国产芯片厂商纷纷推出兼容 CUDA 语法的开源替代方案(如华为的 HCCL、摩尔线程的 MUSA)时,生态壁垒的坚冰正在融化。
此外,AMD 在软件栈上的长期滞后,使其在大模型时代愈发边缘化。ROCm 平台对 PyTorch、TensorFlow 的支持仍不完善,社区活跃度远不及 CUDA。在“时间就是模型”的竞赛背景下,开发者更倾向于选择“开箱即用”的方案。
五、国产算力的隐忧:软件栈与人才缺口仍是短板
尽管前景乐观,但国产算力之路绝非坦途。DeepSeek 的勇敢尝试,也暴露出一系列深层挑战:
- 软件生态碎片化:各家芯片厂商自研编译器、运行时和通信库,导致模型迁移需重复适配,极大增加研发负担。
- 工具链成熟度不足:调试工具、性能分析器、自动化调优系统等关键环节仍依赖开源社区或自研,效率低下。
- 人才储备断层:熟悉国产芯片架构的算法工程师极度稀缺,企业不得不投入大量资源进行内部培训。
更严峻的是,大模型训练对芯片一致性与稳定性的要求极高。国产芯片在量产良率、长期运行可靠性方面仍需经受大规模集群的考验。一旦出现硬件故障导致训练中断,损失可能高达数百万美元。
ongwu 提醒:切勿将“能用”误判为“可靠”。真正的替代,必须经得起千卡万卡规模的压力测试。
六、未来图景:算力多极化时代的来临
DeepSeek V4 的发布,或许将成为中国 AI 算力格局的分水岭。我们正迈向一个**“算力多极化”的新时代**:
- 英伟达:仍主导高端市场,但在地缘政治夹击下,其在中国大模型领域的份额将持续萎缩;
- AMD:若不能快速补齐软件短板,恐将进一步边缘化;
- 华为、寒武纪、摩尔线程等:凭借“芯片+框架+应用”的全栈能力,有望在特定场景建立壁垒;
- 开源生态:如 RISC-V 架构的 AI 加速芯片、开源编译器(如 LLVM 扩展)可能成为长期变量。
值得注意的是,DeepSeek 并未完全放弃海外芯片。据内部人士透露,其部分实验性项目仍在使用 H100,但核心生产管线已明确向国产算力倾斜。这种“双轨制”策略,既保障了技术探索的灵活性,又确保了主业务的供应链安全。
结语:一场静默的革命
DeepSeek 的选择,表面上是一次技术路线的调整,实则是对中国 AI 产业自主化进程的一次强力助推。它告诉我们:真正的创新,不在于追逐最新的硬件,而在于定义未来的计算范式。
当英伟达还在为 H20 的销量焦虑时,DeepSeek 已经在用国产芯片训练下一代模型。这或许就是“边缘化”最真实的写照——不是被市场抛弃,而是被时代超越。
ongwu 最后说:算力之争,从来不只是芯片之争,更是生态、战略与远见的较量。DeepSeek 的这一步,走得艰难,却无比坚定。而我们,正站在一场静默革命的起点。
ongwu 将持续关注国产算力与 AI 模型的协同演进,欢迎订阅深度分析专栏。