微软这颗芯片,撼动英伟达?
微软不仅是OpenAI模型的全球最大用户,也是OpenAI构建最新GPT模型时为其提供计算、网络和存储支持的最大合作伙伴。这给了微软两个理由去打造更强大的Maia AI加速器,而微软也刚刚宣布他们已经完成了这项工作。
所有的大型云服务和超大规模云服务商,以及四大GenAI模型开发商中的三家——OpenAI、Anthropic和Meta Platforms——都在竭力打造各自的定制AI XPU,以降低GenAI推理工作负载的单代币成本。第四家独立模型开发商xAI似乎准备采用特斯拉与Dojo合作开发的任何产品(如果其可扩展性足够强,并能适应GenAI的训练和推理任务),但目前看来,xAI对Nvidia的GPU感到满意。
虽然仍有一些玩家对人工智能训练感兴趣,但实际上,英伟达几乎垄断了这个市场。随着全球企业和政府直接或间接通过云技术将人工智能推理投入生产,预计人工智能推理所需的计算能力将比人工智能训练高出一个数量级,因此,一百多家人工智能计算引擎初创公司有机会开辟一片新天地,并从中获利。
与所有超大规模数据中心运营商一样,微软希望在部署人工智能驱动的自动驾驶系统时掌控自身的硬件资源。但作为一家云服务商,它也必须保留通用型 x86 CPU 和英伟达 GPU(以及越来越多地使用 AMD GPU),以便客户在架构偏好方面能够租用这些设备。与其他云服务商一样,微软乐于向那些希望使用 AMD 或英伟达 GPU,或者英特尔、AMD 甚至英伟达 CPU 的用户收取高额溢价。但它也希望自主研发计算引擎,并以低于第三方产品的价格竞争。这样一来,当你租用 Cobalt CPU 或 Maia XPU 时,实际上就是在支持微软摆脱对这些芯片供应商的依赖。
同样的逻辑也适用于亚马逊网络服务(AWS)、谷歌、百度、阿里巴巴、腾讯以及其他一些自行设计CPU和XPU的公司。Meta Platforms并非严格意义上的基础设施云,但它像OpenAI和Anthropic分别运营GPT和Claude GenAI模型那样,出租其硬件资源来运行Llama模型API,因此它正在成为面向各类主权国家的GenAI平台云——并寻求这些国家的资金来构建支撑其“超级智能”愿景的基础设施。
谷歌十多年前就开始研发张量处理单元(Tensor Processing Unit,简称TPU),因为它知道,如果只是每天在安卓设备上提供三分钟的AI语音搜索服务,就必须将数据中心的容量翻倍。几年前,微软也经历了类似的“糟糕时刻”,当时它与OpenAI的合作迅速发展,其GPT(广义图形处理模型)的应用规模似乎要呈指数级增长。因此,微软在2023年11月发布了名为“Athena”的Maia 100 XPU,但只公布了极少的细节和一些机架照片。
Maia 100 芯片的设计初衷是支持 AI 训练和推理,并且专门用于运行 OpenAI 的 GPT 模型,作为微软 OpenAI API 服务及其辅助工具的后端。虽然有传言说这种情况并未发生,Athena 芯片在这方面的表现实际上并不出色,但我们对此并不太相信。然而,令人疑惑的是,Azure 上从未出现过搭载 Maia 100 加速器的虚拟机实例可供租用。或许 OpenAI 并不想在 Athena 芯片上部署其训练或推理任务,因此微软才没有扩大其部署规模。
但这似乎不会发生在“Braga”Maia 200上,它是Athena的继任者,专门针对人工智能推理,这简化了设计。
要了解 Maia 200 是什么,我们需要回过头来挖掘有关 Maia 100 的信息,Maia 100 在发布时并未提供,而且随着时间的推移,它的相关信息也零零散散地透露出来。
这就是Athena Maia 100芯片的样子:

您可以在封装图中看到四个 HBM 堆叠内存库的轮廓。
每个 Athena 核心都包含一个张量单元和一个向量单元,分别标记为 Tile 张量单元 (TTU) 和 Tile 向量处理器 (TVP,注意不是纹理化植物蛋白)。还有一个控制处理器负责管理 Athena 核心的工作流程,以及一个 Tile 数据移动引擎,负责协调数据在每个 tile 上的 L1 缓存集合之间的移动。这些 tile 聚合在一起,构成微软所谓的集群。(我们称之为核心和流处理器,而集群的集合则构成计算引擎。)

如上图所示,一个集群中有四个图块,每个集群都有自己的集群控制处理器 (CCP) 和集群数据移动引擎 (CDMA),用于管理对 L2 缓存 SRAM 的访问。
微软从未透露每个芯片的具体L1 SRAM容量,也未说明集群中四个芯片共享的L2 SRAM容量,但它暗示整个Athena计算引擎的L1和L2缓存总容量约为500MB。该计算引擎共有16个集群,通过二维网格互连,总共包含64个我们称之为“核心”的组件。如下图所示:

我们认为Athena芯片拥有64个核心(如图所示),但我们并不清楚这些核心的良率,因此也无法确定实际Maia 100处理器的有效性能。我们很难相信它的良率接近100%。考虑到微软公布的性能数据是基于良率完美的部件,52到56个核心似乎更为合理。
Athena芯片的面积为820平方毫米,非常接近台积电5纳米工艺的掩模版尺寸极限。微软最终表示,Athena芯片复合体拥有1050亿个晶体管,看起来像是单片芯片,但这一点尚未得到证实。我们认为Maia 100的运行频率约为2.86GHz,并估计芯片上约500MB的SRAM总带宽为132TB/秒。Athena计算引擎上的四组HBM2E内存总容量为64GB,带宽为1.8TB/秒——即使在两年前,这样的性能也并不算出色。
每个 Athena 核心上的张量单元都支持微软特有的 MX6 6 位和 MX9 9 位格式。这两种格式使用微指数,其精度略高于 FP4 和 FP8 格式,并且由于 Maia 核心中的硬件辅助功能,吞吐量损失并不大。MX9 格式原本用于训练(它以更低的硬件开销取代了 BF16 和 FP32 格式),而 MX6 格式则用于推理。由此可知,微软希望通过 Athena 芯片同时满足这两种 AI 工作负载的需求。
尽管微软和 Meta Platforms 开发的 MX9 和 MX6 格式非常出色,但唯一实现这些格式的芯片只有 Maia 100。而且,OpenAI 是否对这些格式感到兴奋也不得而知。或许并非如此,因为 Braga Maia 200 芯片的张量单元仅支持 FP4 和 FP8,而向量单元则支持 BF16 和 FP32。
Maia 100 不仅拥有高带宽和相当高的 SRAM 容量,其互连 I/O 带宽也相当可观——至少对于一款以以太网作为底层互连传输方式的芯片而言是如此。Maia 100 配备了 12 个 400 Gb/s 的端口,可为每个 Athena 计算引擎提供总计 4,800 Gb/s(600 GB/s)的带宽,这相当于 NVLink 端口为“Hopper”H100 或 H200 GPU,或 Blackwell 插槽中一对“Blackwell”B200 或 B300 芯片组之一提供的带宽的三分之二。

然而,这并非全部实现在一个聚合端口上。十二条通道中的九条分配给芯片间链路,用于连接一个 Athena 芯片和构成 Athena 系统底板的四路阵列中的其他三个芯片。剩余的三个端口分布在三条不同的互连轨道上,为系统中的其他 Athena 四路阵列提供 150 GB/s 的带宽。数据包通过这三条轨道分散传输,以减少拥塞。根据我们的计算,Maia 100 的一个完整集群域包含 576 个节点,总共有 2304 个计算引擎——对于一个功能强大的以太网来说,这相当不错。
如下面的主要特性表所示,Maia 200 对 RoCE 以太网进行了进一步的改进,现在称为 AI 传输层 (ATL),并像 Maia 100 计算引擎中的网卡一样,集成在一个网络接口上。不同之处在于,ATL 网络拥有八条链路,可以实现更大规模的数据包传输,并支持更大的集群域,最多可达 1536 个节点和 6144 个计算引擎。

我们认为这款集成网卡拥有 56 条 SerDes 通道,运行速率为 400 Gb/s,可为 Maia 200 芯片提供 2.8 TB/s 的双向聚合带宽。与之前一样,我们认为这 56 条通道中有 9 条用于构建 Braga 四核系统板的全连接链路。剩余的 47 条通道用于实现 ATL 互连的八条链路。目前尚不清楚这些通道如何进行数据包分发,以及如何连接到可扩展内存域的双层以太网网络,但我们会尽快研究这个问题。
微软在 Maia 200 芯片上采用了台积电 (TSMC) 的 N3P 高性能版 3 纳米工艺进行芯片蚀刻。得益于这一工艺改进,我们认为微软可以将时钟频率提升 8% 至 3.1 GHz,并将芯片面积增加 2% 至 836 平方毫米,这更接近当前光刻技术 858 平方毫米的掩模版尺寸极限。然而,大部分工艺改进都用于在芯片上集成 1440 亿个晶体管,这才是 Athena 和 Braga 芯片性能差异的最直接影响因素。
虽然Athena到Braga的I/O带宽提升了2.33倍,但每个计算引擎的SRAM容量却减少了一半以上。我们估计,即使核心数量增加了50%(达到96个),总SRAM带宽也下降了61%。我们认为Braga核心的良率约为92%,这意味着主流产品中将有88个可用核心。
虽然晶体管数量增加了 1.5 倍,但 HBM 内存容量却增加了 3.4 倍,达到 216 GB(由 6 组 12 层 3 GB 芯片组成,每组 36 GB),内存带宽也增加了 3.9 倍,达到 7 TB/秒,这得益于增加了两组芯片以及采用了 HBM 3E 内存。(事实证明,这些内存来自 SK 海力士。)

微软尚未公布 Braga 芯片的技术规格或框图,但我们知道其张量单元的 FP4 精度性能为 10.15 petaflops,FP8 精度性能为 5.07 petaflops,向量单元的 BF16 精度性能为 1.27 petaflops。所有这些性能都集成在一个 750 瓦的散热封装内。
这是一台 Maia 200 刀片服务器,右侧有四个 AI XPU,还有一个看起来像是 CPU 的处理器——很可能是去年 11 月发布的 Cobalt 200,其性能比微软之前的 Cobalt 100 芯片提高了约 50%。

最后,这里展示一些机架。这是一对空的 Maia 200 机架,左侧是冷却液分配机架:

以下是微软 Azure 数据中心中一些只使用了一半的 Maia 200 机架:

位于爱荷华州得梅因市郊外的美国中部Azure云区域目前已部署了Maia 200机架,而位于亚利桑那州凤凰城郊外的美国西部3区域也将紧随其后。微软表示,将使用Maia 200计算引擎为OpenAI GPT-5.2大型语言模型提供推理令牌,从而驱动Microsoft Foundry AI平台以及Office 365 Copilot。微软的AI研究人员还将使用Maia 200生成合成数据,用于训练内部模型。
目前还没有关于 Azure 何时会租用基于 Maia 200 的 VM 实例的消息,这将使技术人员能够在各种 AI 模型上对其进行测试。
https://www.nextplatform.com/2026/01/28/microsoft-takes-on-other-clouds-with-braga-maia-200-ai-compute-engines/
(来源:编译自nextplatform)
【版权声明】
本网站内容主要源自网络公开渠道转载,所有文字、图片、视频等内容版权归原作者及原始出处所有。本站仅作信息分享用途,不用于商业目的。若涉及版权问题,请权利人及时联系(邮箱
),本站将立即删除相关内容。

