每秒110万个token!微软(MSFT.US)和英伟达(NVDA.US)联手刷新AI推理纪录 ...

来自: 智通 收藏 邀请

阡乐科技获悉,微软(MSFT.US)宣布,其AzureND GB300v6虚拟机在Meta的Llama270B模型上实现了每秒推理速度达110万token的行业新纪录。据悉,AzureND GB300虚拟机采用英伟达(NVDA.US)的BlackwellUltraGPU,具体为NVIDIAGB300NVL72系统,配置72个NVIDIA BlackwellUltraGPU和36个NVIDIAGrace CPU,采用单机架构设计。这款虚拟机专为推理工作负载优化,具有50%的GPU内存提升和16%的热设计功率(TDP)提高。

微软首席执行官萨提亚・纳德拉在社交媒体上表示:“这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。”

资料显示,为了验证性能提升,微软在一个NVIDIAGB300NVL72域下的18台ND GB300v6虚拟机上运行了Llama270B(FP4精度)模型,使用NVIDIA TensorRT-LLM作为推理引擎。微软表示:“一个NVL72机架的AzureNDGB300v6实现了总计110万个token/秒的推理速度。” 这一新记录超越了微软之前在NVIDIAGB200NVL72机架上实现的86.5万个token/秒的成绩。

对此,Signal65的实验室副总裁拉斯・费洛斯指出:“这一里程碑不仅突破了每秒百万token的障碍,还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。” 他补充称,AzureNDGB300相较于上一代NVIDIAGB200在推理性能上提升了27%,而仅增加了17%的功率规格。


鲜花

握手

雷人

路过

鸡蛋
相关推荐
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:贵州省贵阳市观山湖区长岭街道长岭路与观山路西北角中天会展城TA-1、TA-2栋(2)16层14号
电子邮箱:599599113@qq.com
客服电话:13765656037

Powered by 贵州阡乐科技有限公司 © 2025 qianlew.com Inc.( 黔ICP备2025043673号-1 )贵公网安备52011502009694号