双英集团上市- 畅鱼网

ChatGPT的横空出世，不但为行业指明了可行的AI技术落地方向，也掀起新一轮AI硬件技术比拼。但AGI和LLM通过ChatGPT带动至今，尚无能和英伟达GPU正面对决的AI产品。

就像当年汉武帝那句“寇能往，我亦能往”名言，前有AMD，后有英特尔，都用实际行动亮明了“英伟达能做，我亦能做”的态度。

7月11日，英特尔以中国市场为目标，推出高端AI处理器Habana Gaudi 2，支持加速AI训练和推理任务。特别之处在于，这是一颗搭载在英特尔至强CPU之上的AI加速器。也就是说，这并不是GPU。

Gaudi 2，给予了市场在GPU之外的新选择。英特尔能否凭此，成功将英伟达拉下马？

第二种选择有哪些优点

Gaudi 2，在2022年5月已在海外发布。这次发布了中国定制版，就像英伟达为中国市场推出专门的合规版“A800”和“H800”。

Gaudi 2由Habana Labs研发，这家公司成立于2016年，总部在以色列，是一家为数据中心提供可编程深度学习加速器的AI芯片创业公司。2019年，Habana Labs推出首代Gaudi；当年12月，为其早期投资人英特尔以20亿美元的代价收购。

目前，Habana Labs共推出两个系列的AI产品。其中，用于AI训练的为Gaudi（高迪）系列，而用于AI推理的则为Goya（戈雅）系列。

此次英特尔为中国市场推出的是定制版Gaudi 2，这也是Habana Labs设计的第二代AI硬件加速器。单个服务器包含8个加速器设备（HPU：Habana Processing Units），每个设备包含96GB内存；显存容量为96GB HBM2E，显存带宽高达2.4TB/s。

英特尔执行副总裁、数据中心与人工智能事业部总经理Sandra Rivera没有详细介绍Gaudi 2的参数，但“性价比”得以被重点强调；同时，英特尔 Labs首席运营官Eitan Medina还强调了Gaudi 2相对于国际版在百兆端口数量上虽有所减少，但“从客户使用情况来看，预计影响会非常小”。

目前，就已知的信息看，浪潮信息已采用Gaudi 2，已有支持8颗Gaudi 2深度学习加速器的新一代AI服务器NF5698G7落地。另据英特尔称，紫光新华三、超聚变和百度智能云也会成为Gaudi 2用户。

简单说，Gaudi 2深度学习加速器以首代Gaudi高性能架构为基础，采用台积电7nm工艺，专为训练大语言模型构建。

以MLCommons MLPerf基准测试（主流AI性能测试基准）看，Gaudi 2整体性能高于英伟达A100，但弱于英伟达H100。运行ResNet-50 的每瓦性能约是英伟达 A100 的2倍，运行1760亿参数的BLOOMZ模型时，其每瓦性能约为A100 的1.6倍。

MLPerf每年做两次测评。在今年6月的测评中，除了英伟达H100，Gaudi 2是唯一一套向GPT-3大模型训练基准提交性能结果的解决方案。

除了适配GPT大模型（基于Transformer架构），在最近的Hugging Face评估中，Gaudi 2在大规模推理方面的表现，包括运行Stable Diffusion（高通端侧模型）、70亿及1760亿参数BLOOMz模型时，均有优异推理表现。

比如，与英伟达A100相比，在做Stable Diffusion模型推理时，Gaudi 2加速器时延降低2.21倍。

可以说，Gaudi 2虽然不能取代英伟达H100，但英特尔为LLM推理和训练提供了一个除GPU之外的“CPU（至强）+加速器（Gaudi 2）”的新方案。

原来，做AGI或LLM训练和推理，并不限于用GPU，也可以用CPU和AI加速器配合训练。

Rivera认为，实际上用户存在不同的产品需求：比如中小型模型用户，可选英特尔第四代至强（CPU）处理器（英特尔AMX：高级矩阵扩展）作推理；若要做千亿级新模型训练，想要高等级算力，那么也可采用Gaudi。

在需要大规模业务部署时，Gaudi 2能通过集群横向扩展获得更线性的性能增长。

从MLCommons新公布的MLPerf训练3.0结果可以发现，Gaudi 2在运行1750亿参数的GPT-3模型时，当加速器数量从256个增加到384个时，能实现接近线性的95%的性能扩展效果。

英特尔可扩展至强是向MLPerf 3.0提交的众多解决方案中，唯一的基于CPU通用处理器版本；支持“开箱即用”，也就是说，可以在通用系统上部署AI，以此提高易用性和降低成本。

看着美：丰满和骨感之间

既然强调性价比，那么Gaudi 2的目标，必然不会是顶尖的旗舰定位，而更注重“跑量”。这就相当于智能手机的“中高端”类型，侧重的是抢占尽可能多的市场份额。

这种“从中端入手”的市场策略，已成为近年来英特尔的主要努力方向。

在这场生成式AI战役中，英特尔结合了原本自身的CPU技术优势，结合AI加速芯片，以第四代至强可扩展CPU芯片（英特尔AMX：Advanced Matrix Extensions）叠加Gaudi 2，在中端市场与英伟达展开角逐。

其中，英特尔AMX的CPU AI推理性能不容忽略；而AMX在CPU AI推理和训练方面的能力，更成为英特尔结合其传统技术优势、推进强力竞争策略的底气。

在AI推理工作负载中，AMX的推理性能与英伟达A100 GPU相比超越5倍，与AMD的64核EPYC CPU相比可超2倍；在执行训练工作时，AMX的性能较英伟达A100 GPU有近3倍的性能提升，能在数秒或数分钟内完成训练，同时还能大幅降低用户成本。

英特尔公开展示了至强Max芯片运行Stable Diffusion模型的生成效果。Stable Diffusion模型能以文生图和以图生图，结果显示，基于AMX芯片运行，该模型仅用5.34秒，就生成了一张图像。

英特尔采用的以“CPU+AI加速器”的产品组合为基础的AI解决方案，用英特尔自己的话说，即“为在封闭生态系统中，寻求摆脱当前效率与规模限制的客户，提供极具竞争力的选择”。

在这个组合中，英特尔用兼具性能和每瓦能耗优势的Gaudi 2，做了用户细分需求的场景划分，并强调了目前超越英伟达A100 GPU、未来超越英伟达H100 GPU的性能、降低获取GPU的时间成本、能耗等方面的高性价比标签——什么是性价比——性价比的核心标签就是“省钱”，以此在中高端市场侵蚀英伟达的市场份额。

易用性和与原有系统的丝滑过渡也是英特尔AI市场策略的一部分。

“开箱即用”体现了易用性，Gaudi 2的SynapseAI软件套件集成了PyTorch和TensorFlow两种常见深度学习框架，还包括Megatron和DeepSpeed等主流LLM训练框架，这意味着开发者能做快速在不同硬件平台上做代码迁移。

迁移速度有多快？10分钟，还包括阅读文档的时间。

从推出专门的中国版Gaudi 2、采用Gaudi 2和两颗AMX芯片的浪潮新一代AI服务器NF5698G7落地速度看，英特尔尤为重视中国市场。

英特尔的中国用户也表达了对英特尔AI产品的认可。浪潮信息高级副总裁、AI&HPC产品线总经理刘军宣称，他们的算法工程师在实际体验中国版Gaudi 2后认为，其使用体验“与GPU基本没太大区别”。

没有太大区别，不等于毫无区别。

华尔街见闻注意到，英特尔此次推出的中国版Gaudi 2（也包括国际版在内），相对于英伟达A100的性能优势，集中在基于Residual（残差）结构的ResNet（残差网络）模型，而非GPT通用的Transformer架构的AGI模型，两者存在较大区别。

因此中国版Gaudi 2市场接受度究竟如何，在丰满和骨感之间，天平会侧重哪一端，仍需要时间做出回答。

本文来自华尔街见闻，欢迎下载APP查看更多

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com