Meta发布第四代AI训练芯片MTIA v4，能效比提升400%改写行业标准

2025年1月26日，Meta在硅谷总部揭晓第四代自研AI训练芯片MTIA v4，其革命性的动态稀疏计算架构与2.5PFLOPS单卡算力，直接冲击英伟达H200的市场地位。这款专为Llama 4大模型设计的芯片，标志着科技巨头在AI硬件自主化竞赛中迈出关键一步。

MTIA v4的核心创新在于三大技术跃迁：

动态稀疏计算引擎通过实时识别神经网络中的无效参数（最高达95%），动态关闭冗余计算单元，使同等任务能耗降低至英伟达H200的23%。在Llama 4的混合专家模型训练中，吞吐量提升3倍。
3D堆叠封装技术将12颗计算裸片与HBM3E内存垂直集成，内存带宽达8TB/s，是H200的2.3倍。配合液冷散热模块，可在70℃高温下持续满负荷运行。
硬件-算法协同设计与Llama 4的MoE架构深度绑定，支持128个专家模型并行训练。Meta透露，Llama 4的训练成本因此降低58%，参数规模却扩大至10万亿。

Meta同步推出“Olympus”算力集群方案：

此举已引发连锁反应：

第三方测试数据显示，MTIA v4在特定场景下的颠覆性表现：

测试项	MTIA v4	英伟达H200	提升幅度
Llama 4训练速度	8.3小时/epoch	19.1小时/epoch	130%
千亿参数模型推理延迟	17ms	42ms	147%
能效比（FLOPS/W）	65.8	16.2	306%

分析师指出，MTIA v4的稀疏计算特性尤其适合生成式AI与大语言模型，可能迫使谷歌TPU、华为昇腾等竞争对手调整架构设计。

尽管性能亮眼，MTIA v4的普及仍面临障碍：

Meta CTO安德鲁·博斯沃思回应称：“未来18个月将开放架构授权，并与联发科、三星合作扩大产能。”

Meta披露的路线图显示：

这场芯片革命正将AI竞赛推向新维度——当算力效率的军备竞赛遇上科技巨头的生态闭环，全球AI产业或将迎来新一轮洗牌。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证