曦智。种根科技
。据分架构联合北京大学、布式阶跃星斗为下一代万亿参数大模型练习的光交高带基础设施建造提出全新解决计划。 跟着大模型参数规划的宽域扩展,分布式练习成为 。种根人工智能 。据分架构展开的布式中心途径 。分布式练习能够将模型数据分配给多个核算节点,光交高带进行并行核算和数据管理,宽域然后明显加快模型练习的种根进程 ,而高带宽域(High Bandwidht Domain,据分架构 HBD)的规划对提高模型算力利用率至关重要
。 但是布式 ,现有的光交高带HBD架构在可扩展性、本钱和容错才能等方面存在根本性约束
: 以。宽域交流机
。为。中心
。的HBD(如NVIDIA NVL72)本钱昂扬
、不易扩展规划
。 以以 。AI 。加快器(包含
。GPU。与专用 。ASIC。)为中心的HBD(如Google TPUv3和。Te 。sla Dojo)存在严峻的毛病传达问题。 2022 年Google发布TPU v4 集群,初次选用光交流计划(Op
。ti 。cal Circuit Switch ,以下简称“OCS”),这种交流机-GPU混合的HBD在互连本钱与体系扩展性之间采取了折中计划
,但仍存在毛病爆破半径问题,其本钱和容错才能仍不甚抱负
。 
在此布景下,曦智科技联手北京大学、阶跃星斗的研讨团队提出了一种以光交流(OCS)模组为中心的高带宽域架构InfiniteHBD,经过在。光电
。转化模组中集成OCS才能,InfiniteHBD完成了动态可重构的单点对多点衔接 ,具有节点级毛病阻隔和低资源碎片化的才能。 InfiniteHBD在可扩展性和本钱上全面优于现有计划 :InfiniteHBD的单位本钱仅为NVL72的31% ,GPU冗余率比NVL72和TPUv4低一个数量级,且与NVIDIA DGX(单机8卡)比较,模型算力利用率最高提高3.37 倍。 该计划以论文方式被国际。通讯网络 。范畴尖端会议SIGCOMM 2025[1]接纳。 曦智科技在集成硅光范畴具有十余年的工业经历,在InfiniteHBD 计划中
,立异性的开发了根据硅光子技能的分布式光交流dOCS(distributed Optical Circuit Switch) ,将根据马赫曾德(MZI,Mach-Zehnder Interfe。rom。eter)交流矩阵的光交流芯片集成到商用Q
。SFP 。-DD 800Gbps光电转化模组中
,大幅简化了器材结构的一起
,有用提高了器材集成度,然后降低了本钱和功耗,明显提高了InfiniteHBD 的性价比和体系可扩展性。 
分布式光交流计划关于建造超大规划练习集群具有以下收益 : dOCS自带光电转化,供给交流才能的一起可构成跨机超节点; 光交流芯片选用老练制程,降低了关于先进制程电交流芯片的依靠; 光交流芯片对协议不灵敏,适用于当时GPU衔接协议碎片化的现状。 InfiniteHBD为高带宽域架构的高效扩展供给了新的解决计划,为下一代万亿参数大模型练习的基础设施建造带来了重要启示。 注释: [1]SIGCOMM,Special Interest Group on Data Communication
,即数据。通讯。专业组,是。AC。M(美国核算机协会)安排在通讯网络范畴的旗舰会议。本年的SIGCOMM 将于9 月8日-11日在葡萄牙科英布拉举办。 关于曦智科技 |