英伟达AMD遭边缘化？DeepSeek下一代模型押注国产算力，一场静默的算力革命正在上演

ongwu | 深度观察

“当所有人都盯着聚光灯下的明星时，真正的变革往往在阴影中悄然发生。”
—— ongwu 科技评论

一、风暴前夜：DeepSeek V4的“非典型”发布节奏

据多方信源证实，DeepSeek 最快将于下周发布其下一代大模型 V4。与以往高调预热、全球同步测试的惯例不同，此次 V4 的发布策略显得异常低调，甚至带着一丝“排他性”——首批内测资格几乎全部向华为昇腾、摩尔线程、寒武纪等国产算力芯片厂商倾斜，而英伟达（NVIDIA）与 AMD 的高端 GPU 则被明确排除在早期测试队列之外。

这一举动并非偶然。它标志着中国 AI 大模型发展路径的一次关键转折：从“依赖进口算力”向“构建自主算力生态”的战略迁移。DeepSeek 作为国内最具技术前瞻性的 AI 公司之一，其选择具有强烈的风向标意义。

二、为何是“现在”？国产算力已跨过临界点

长期以来，英伟达的 H100、A100 以及 AMD 的 MI300 系列被视为大模型训练与推理的“黄金标准”。其 CUDA 生态、高带宽内存（HBM）和成熟的软件栈，构成了难以逾越的技术护城河。然而，过去两年间，国产算力芯片在性能、能效比和软件适配层面取得了突破性进展。

以华为昇腾 910B 为例，其在 FP16 精度下的算力已达 320 TFLOPS，接近 A100 的水平；配合自研的 CANN 异构计算架构和 MindSpore 框架，已能支撑千亿参数级模型的稳定训练。更关键的是，昇腾芯片在稀疏计算、动态形状支持等面向大模型优化的特性上，展现出比传统 GPU 更高的灵活性。

与此同时，摩尔线程的 MTT S4000 和寒武纪的思元 590 也在特定场景下实现了对 NVIDIA T4 甚至 A10 的替代。尽管整体生态仍显稚嫩，但“能用、可用、逐步好用”的闭环正在形成。

ongwu 认为：国产算力并非“全面超越”，而是在“关键路径上实现了功能对齐”。对于 DeepSeek 这类注重成本效率与供应链安全的公司而言，这已足够构成切换的理由。

三、DeepSeek 的算盘：成本、安全与生态三重考量

DeepSeek 押注国产算力，绝非一时冲动，而是基于三重现实压力的理性决策：

1. 成本压力陡增

大模型训练成本呈指数级上升。据估算，训练一个千亿参数模型在英伟达 H100 集群上的电费与硬件折旧成本超过 2000 万美元。而国产芯片虽单价不低，但得益于本地化供应链和政策补贴，综合 TCO（总拥有成本）可降低 30%-40%。尤其在推理阶段，国产芯片的能效比优势更为明显。

2. 供应链安全不可忽视

美国对华高端芯片出口管制持续加码，H100 和 A100 的供货周期已从数月延长至一年以上，且存在随时断供风险。DeepSeek 若将核心模型训练完全寄托于海外芯片，无异于将命脉交予他人。“去美化”不仅是政治正确，更是生存必需。

3. 构建自主生态的长期价值

DeepSeek 深知，仅靠“替代”无法赢得未来。通过深度参与国产芯片的优化迭代——例如为昇腾定制算子、为寒武纪优化编译器——DeepSeek 实际上在扮演“生态共建者”的角色。这种协同进化模式，有望加速国产 AI 芯片从“可用”到“好用”的跃迁。

ongwu 点评：这不是一场简单的“国产替代”，而是一次以应用驱动底层创新的逆向工程。大模型公司正从被动使用者，转变为主动定义者。

四、英伟达与 AMD 的“失语”：生态壁垒遭遇地缘挑战

面对 DeepSeek 的“冷处理”，英伟达与 AMD 显得颇为被动。尽管两家公司均表示“持续关注中国市场”，并推出“特供版”芯片（如 H20、MI300C）以规避出口限制，但这些产品往往在显存带宽、互联能力等关键指标上大幅缩水，难以满足大模型训练的真实需求。

更深层的问题在于：CUDA 生态的封闭性正在成为双刃剑。虽然 CUDA 提供了极致的开发体验，但其与 NVIDIA 硬件的深度绑定，使得迁移成本极高。当国产芯片厂商纷纷推出兼容 CUDA 语法的开源替代方案（如华为的 HCCL、摩尔线程的 MUSA）时，生态壁垒的坚冰正在融化。

此外，AMD 在软件栈上的长期滞后，使其在大模型时代愈发边缘化。ROCm 平台对 PyTorch、TensorFlow 的支持仍不完善，社区活跃度远不及 CUDA。在“时间就是模型”的竞赛背景下，开发者更倾向于选择“开箱即用”的方案。

ongwu 观察：英伟达或许仍是性能王者，但在“可及性”与“可控性”维度上，它正在失去中国最顶尖的 AI 客户。

五、国产算力的隐忧：软件栈与人才缺口仍是短板

尽管前景乐观，但国产算力之路绝非坦途。DeepSeek 的勇敢尝试，也暴露出一系列深层挑战：

软件生态碎片化：各家芯片厂商自研编译器、运行时和通信库，导致模型迁移需重复适配，极大增加研发负担。
工具链成熟度不足：调试工具、性能分析器、自动化调优系统等关键环节仍依赖开源社区或自研，效率低下。
人才储备断层：熟悉国产芯片架构的算法工程师极度稀缺，企业不得不投入大量资源进行内部培训。

更严峻的是，大模型训练对芯片一致性与稳定性的要求极高。国产芯片在量产良率、长期运行可靠性方面仍需经受大规模集群的考验。一旦出现硬件故障导致训练中断，损失可能高达数百万美元。

ongwu 提醒：切勿将“能用”误判为“可靠”。真正的替代，必须经得起千卡万卡规模的压力测试。

六、未来图景：算力多极化时代的来临

DeepSeek V4 的发布，或许将成为中国 AI 算力格局的分水岭。我们正迈向一个**“算力多极化”的新时代**：

英伟达：仍主导高端市场，但在地缘政治夹击下，其在中国大模型领域的份额将持续萎缩；
AMD：若不能快速补齐软件短板，恐将进一步边缘化；
华为、寒武纪、摩尔线程等：凭借“芯片+框架+应用”的全栈能力，有望在特定场景建立壁垒；
开源生态：如 RISC-V 架构的 AI 加速芯片、开源编译器（如 LLVM 扩展）可能成为长期变量。

值得注意的是，DeepSeek 并未完全放弃海外芯片。据内部人士透露，其部分实验性项目仍在使用 H100，但核心生产管线已明确向国产算力倾斜。这种“双轨制”策略，既保障了技术探索的灵活性，又确保了主业务的供应链安全。

结语：一场静默的革命

DeepSeek 的选择，表面上是一次技术路线的调整，实则是对中国 AI 产业自主化进程的一次强力助推。它告诉我们：真正的创新，不在于追逐最新的硬件，而在于定义未来的计算范式。

当英伟达还在为 H20 的销量焦虑时，DeepSeek 已经在用国产芯片训练下一代模型。这或许就是“边缘化”最真实的写照——不是被市场抛弃，而是被时代超越。

ongwu 最后说：算力之争，从来不只是芯片之争，更是生态、战略与远见的较量。DeepSeek 的这一步，走得艰难，却无比坚定。而我们，正站在一场静默革命的起点。

ongwu 将持续关注国产算力与 AI 模型的协同演进，欢迎订阅深度分析专栏。