今日,寒武纪正式发布了全新的训练加速卡——MLU370-X8,这款训练加速卡搭载了双芯片的四芯粒思元 370,集成寒武纪 MLU-Link 多芯互联技术,主要面向训练任务。
寒武纪表示,在业界应用广泛的 YOLOv3、Transformer 等训练任务中,8 卡计算系统的并行性能平均达到 350W RTX GPU 的 155%。MLU370-X8 采用了 7nm 工艺,配备 48GB LPDDR5 内存,FP32 单精度浮点性能达到 24 TFLOPS。
据介绍,MLU370-X8 智能加速卡提供 250W 最大训练功耗,可充分发挥 AI 训练加速中常见的 FP32、FP16 或 BF16 计算性能。寒武纪首次将双芯片四芯粒思元 370 整合在 MLU370-X8 智能加速卡中,提供了两倍于标准思元 370 加速卡的内存、编解码资源,同时搭载 MLU-Link™多芯互联技术。
MLU370-X8 智能加速卡支持 MLU-Link™多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了 MLU-Link 桥接卡,可实现 4 张加速卡为一组的 8 颗思元 370 芯片全互联,每张加速卡可获得 200GB / s 的通讯吞吐性能,带宽为 PCIe 4.0 的 3.1 倍,可高效执行多芯多卡训练和分布式推理任务。
生活常用 53.52MB 8.8分
寒武纪发布新款 AI 训练卡 MLU370-X8:7nm 工艺,48GB LPDDR5 内存
今日,寒武纪正式发布了全新的训练加速卡——MLU370-X8,这款训练加速卡搭载了双芯片的四芯粒思元 370,集成寒武纪 MLU-Link 多芯互联技术,主要面向训练任务。
寒武纪表示,在业界应用广泛的 YOLOv3、Transformer 等训练任务中,8 卡计算系统的并行性能平均达到 350W RTX GPU 的 155%。MLU370-X8 采用了 7nm 工艺,配备 48GB LPDDR5 内存,FP32 单精度浮点性能达到 24 TFLOPS。
据介绍,MLU370-X8 智能加速卡提供 250W 最大训练功耗,可充分发挥 AI 训练加速中常见的 FP32、FP16 或 BF16 计算性能。寒武纪首次将双芯片四芯粒思元 370 整合在 MLU370-X8 智能加速卡中,提供了两倍于标准思元 370 加速卡的内存、编解码资源,同时搭载 MLU-Link™多芯互联技术。
MLU370-X8 智能加速卡支持 MLU-Link™多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了 MLU-Link 桥接卡,可实现 4 张加速卡为一组的 8 颗思元 370 芯片全互联,每张加速卡可获得 200GB / s 的通讯吞吐性能,带宽为 PCIe 4.0 的 3.1 倍,可高效执行多芯多卡训练和分布式推理任务。
谷歌浏览器使用技巧
生活常用 53.52MB 8.8分
-
谷歌 Gboard 输入法获推 13.6 版本更新,大屏安卓设备新增“快捷工具栏”功能 更新时间:2024-01-11 -
谷歌宣布与三星合作推出安卓系统统一的 Quick Share 附近共享应用 更新时间:2024-01-10 -
谷歌 Pixel Watch 2 智能手表现身 FCC,不支持 UWB 技术 更新时间:2023-08-14 -
中国电信:全球首次 S 频段 5G NTN 技术外场上星实测验证完成 更新时间:2023-01-20 -
微软今年 3 月后将停止发布旧版 Win10 的一部分更新 更新时间:2023-01-20
查看更多文章 >