支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统
2025-09-09 08:20:49【导语】2025重庆世界智能产业博览会(9月5日至8日)上,中科曙光重磅发布国内首个基于AI计算开放架构设计的曙光AI超集群系统,该系统以GPU为核心实现全要素一体化紧耦合,兼具高效性能与开放生态,支持多品牌硬件及主流软件,在算力规模、能效比、可靠性等方面实现多项突破,为万亿参数大模型等场景提供强效算力支撑。

在 9 月 5 日至 8 日的 2025 重庆世界智能产业博览会上,中科曙光发布了国内首个基于 AI 计算开放架构设计的产品 ——曙光 AI 超集群系统。
该系统以 GPU 为核心,实现了“算、存、网、电、冷、管(guǎn)、软(ruǎn)”一(yī)体(tǐ)化(huà)紧(jǐn)耦(ǒu)合(hé)设(shè)计(jì),可(kě)为(wèi)万(wàn)亿(yì)参(cān)数(shù)大(dà)模(mó)型(xíng)训(xun)练(liàn)推(tuī)理(lǐ)、行(xíng)业(yè)大(dà)模(mó)型(xíng)微(wēi)调(diào)、多(duō)模(mó)态(tài)大(dà)模(mó)型(xíng)开(kāi)发(fā)、AI4S 等(děng)场景提供算力底座。
相比封闭系统,曙光 AI 超集群系统除了通过紧耦合设计像一台计算机般高效工作外,还支持多品牌 AI 加速卡以及兼容 CUDA 等主流软件生态,为用户提供更多开放性选择,并降低硬件成本和软件开发适配成本,保护前期投资。
附曙光 AI 超集群系统技术特点:
单机(jī)柜(guì)可(kě)搭(dā)载(zài) 96 张(zhāng) GPU 卡(kǎ)、算(suàn)力(lì)规(guī)模(mó)达(dá)百(bǎi) P 级(jí)、访(fǎng)存(cún)总(zǒng)带(dài)宽(kuān)超(chāo) 180TB/s;支(zhī)持(chí)多(duō)精(jīng)度(dù)、混(hùn)合(hé)精(jīng)度(dù)运(yùn)算(suàn);支(zhī)持(chí)百(bǎi)万(wàn)卡(kǎ)超(chāo)大(dà)集群(qún)扩(kuò)展(zhǎn)。
千(qiān)卡(kǎ)集群(qún)大(dà)模(mó)型(xíng)训(xun)练(liàn)推(tuī)理(lǐ)性(xìng)能(néng)达(dá)到(dào)业(yè)界(jiè)主流(liú)水平 2.3 倍、开发效率提升 4 倍、人天投入减少 70%;存算传协同,提升 GPU 计算效率 55%;先进冷板液冷,394 项节能设计 PUE 低于 1.12。
121 项设备和链路 RAS 可靠性设计;平均无故障时间(MTBF)提高 2.1 倍;平均故障修复时间(MTTR)降低 47%;超 30 天长稳运行集群可靠性测试;实现百万级部件故障自动分析与秒级隔离。
基于 AI 计算开放架构设计;硬件适配多品牌 AI 加速卡;软件兼容主流 AI 计算生态;多项技术能力开放与共享。
热门资讯
猜你喜欢
——工业智能全场景解决方案专家








