来源:平头哥官网
而随着真武810E的正式亮相,阿里的“AI全栈战略”也首次浮出水面。通义实验室、阿里云和平头哥组成的阿里巴巴AI黄金三角“通云哥”,同时拥有全栈自研芯片平头哥、亚太第一的阿里云,以及全球最强的开源模型“千问”,可以在芯片架构、云平台架构和模型架构上协同创新,从而实现在阿里云上训练和调用大模型时达到最高效率。
GPGPU路线,超越英伟达A100,多个万卡集群落地
在去年九月的央视新闻画面中,平头哥PPU采用HBM2e显存,单卡显存容量96GB,片间带宽为700GB/s,采用PCIe5.0×16通道 接口,单卡功耗为400W。从这些外围硬件参数来看,平头哥PPU的规格介于英伟达A800和H20之间。而近期也有外媒报道称,升级版的“真武”PPU性能强于英伟达A100。
而本次平头哥官网公布的信息基本与此前央视曝光的参数相同。据平头哥官网介绍,“真武”PPU采用自研并行计算架构和片间互联技术,配合全栈自研软件栈,实现软硬件全自研。其内存为96G HBM2e,片间互联带宽达到700 GB/s,Host总线支持PCIe5.0 x 16,可应用于AI训练、AI推理和 自动驾驶。
此前央视曝光的表格里也展示了华为和壁仞两款算力卡的一些外围参数数据:华为昇腾910B单卡采用6 4GB HBM2显存,片间带宽392GB/s,接口为PCIe4.0×16,功耗350W;壁仞104P单卡搭载32GB HBM2e显存,片间带宽256GB/s,采用PCIe5.0×16接口,功耗为300W。平头哥PPU在外围硬件上领先于另外两款国产算力卡。
值得一提的是,“真武”采用了GPGPU的技术路线,区别于华为昇腾、 寒武纪当前产品的 ASIC路线。这也是此前真武810E使用“PPU”作为代号的主要原因。
除此之外,真武810E采用了全自研并行计算架构和ICN片间互联技术,配合全栈自研软件栈实现软硬结合。ICN(Inter-Chip-Network)是平头哥自研的片间互联技术,具有高性能、高带宽、低延迟优势,适用于大模型训练和推理应用。每颗真武810E芯片配备7个ICN片间互联 端口,配合平头哥自研互联加速库,实现多卡协同工作,从而高效支持大模型训练及推理需求。
平头哥自主研发的AI产品软件栈,拥有独立知识产权,具备统一的 编程接口,可端到端支持用户自主业务落地和扩展。具备高效性和高兼容性的特点:通过软件栈提供的A PI,用户可以基于 SDK直接开发真武应用程序,支持自研生态;沿用当今主流编程环境, 开发者可调用软件栈中统一的API,支持主流AI生态,无需修改应用代码。
同时平头哥AI产品软件栈具备完备的软件生态及工具链,向上支持开发者和业务快速展开,向下兼容底层硬件和优化性能,实现软硬件高效协同。据业内人士透露,对CUDA兼容极佳是真武PPU一大特点。
真武810E在应用场景上较为广泛,首先该芯片被定义为“AI训推一体芯片”,在AI训练上,真武810E原生支持多种框架,凭借自研片间互联技术和自研软件栈,通过软硬结合解决大规模训练中的 通信瓶颈问题,打造高集群线性加速比。兼容主流AI生态,高效适配各类主流模型、框架、算子库、OS等,并提供编译器及多种类型的开源加速库支持,充分挖掘软硬件性能潜力,加速训练迭代效率。
在AI推理端,真武810E原生支持主流推理引擎,并提供平头哥自研专用推理框架和算子库,结合大容量内存,为大模型推理提供针对性优化。支持主流AI生态,为业务实现快速、低成本的应用迁移,通过 CPU与GPU的灵活配比、弹性伸缩等能力,为客户提供高性价比的AI推理平台。
真武810E还具备硬件视频编解码能力,在文生视频、图文生视频、图文生文等场景的推理和训练实测中均表现出不俗的性能,为基于多模态模型的应用场景提供高性价比算力。
另外自动驾驶也是平头哥着重介绍的一个应用场景,据介绍,真武810E经过验证兼容超过50个自动驾驶常见模型,在感知、预测和端到端等多种模型架构下,全面支持智驾模型训推,并已形成多个万卡级别集群的部署应用。
目前真武810E已在阿里云落地多个万卡集群,为头部车企及方案商提供算力服务,包括国家电网、中科院、小鹏汽车、新浪微博等400多家客户,证明其卓越的稳定性与可靠性。在去年9月的报道中,我们也发现中国联通三江源绿电智算融合示范园中,中国联通·阿里云万卡绿色算力项目已经落地真武PPU,该项目是国内首个国产化万卡智算集群,规划16000卡算力规模,全部采用自主研发技术和设备,是青海联通打造“新型一体化智算基础设施建设工程”的标志性成果。
同时阿里内部也已经将“真武”PPU大规模用于千问大模型的训练和推理,并结合阿里云完整的AI软件栈进行深度优化,为客户提供一体化产品和服务。
8年芯片布局,7年大模型研发,打通全栈AI布局
阿里自研AI芯片的历史其实也已经有一段时间。自2018年,阿里收购中天微,成立平头哥半导体后,阿里就一直在推动自研云端AI算力芯片。2019年,平头哥推出了首颗数据 中心芯片含光800,这是一颗面向AI推理的芯片,目前官网信息显示该芯片基于12nm工艺, 集成170亿 晶体管,性能峰值算力达820 TOPS。 在业界标准的ResNet-50测试中,推理性能达到78563 IPS(每秒处理7.8万张照片),能效比达500 IPS/W。
2021年,阿里又推出了倚天710服务器CPU,采用 Arm架构,128核,主频为2.7 5GHz。不过近年阿里的CPU布局重点已经转向玄铁 RISC-V IP,以及打造芯片设计生态。
平头哥PPU从去年年初开始部署,到一年后的正式官方亮相,也意味着经过一年的验证,真武810E PPU已经从性能、生态等多个维度具备大规模应用的能力,宣告阿里自研GPGPU的阶段性成功。
在1月26日,通义实验室发布千问旗舰推理模型Qwen3-Max-Thinking,创下多项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro。全球最大AI开源社区Hugging Face的最新数据显示,千问开源模型的衍生模型数量突破20万个,下载量突破10亿次,稳居全球第一。
阿里巴巴2009年创建阿里云,2018年成立平头哥芯片公司,2019年启动大模型研究,经过长达17年的战略投入和垂直整合,本次真武810E 的正式亮相,正是代表着“通云哥”全栈AI的完整布局终于实现。
小结:
真武 810E 的亮相标志着阿里 “通云哥” 全栈 AI 战略的正式落地,未来,依托平头哥自研芯片的硬核算力、阿里云的平台优势以及千问大模型的技术积淀,三者将持续深化协同创新,朝着打造 AI 超级计算机的方向迭代升级,进一步推动算力基础设施的自主可控,加速 AI 技术向各行业渗透,助力国产 AI 在全球竞争中占据更主动的地位。



