近日,香港科技大学智能网络与系统实验室(iSING Lab)的论文MixNet被国际通信网络领域顶级会议SIGCOMM 2025[1]接收,金年会官方网站入口科技作为研究团队成员之一,与麻省理工大学、北京大学、厦门大学、Meta一起提出了一种面向混合专家模型训练的光电混合可重构网络架构,用区域性动态拓扑打破静态网络的性能与成本瓶颈。
图为“论文标题及作者”
[1]SIGCOMM,Special Interest Group on Data Communication,即数据通信专业组,是ACM组织在通信网络领域历史最为悠久也最为权威的学术会议之一。
今年的第39届SIGCOMM 2025 将于9 月8日-11日在葡萄牙科英布拉举行。届时,金年会官方网站入口科技将公布更详细的OCS光交换产品系统方案细节。
随着生成式AI模型规模不断扩大,Mixture-of Experts(MoE)架构因其激活稀疏性而成为主流方案。MoE模型训练中产生的大量专家并行(EP)通信具有稀疏性、区域性和动态性,而传统静态网络拓扑难以高效承载这一模式下的all-to-all通信。
MixNet提出一种从第一性原理出发设计的光电混合、运行时可重构的互联架构,专为大规模MoE训练打造,核心创新包括:
区域性光路互联 + 全局数据包交换网络:基于训练通信测量与结构性分析,MixNet使用区域OCS(Optical Circuit Switch)按需连接处于同一专家组的GPU,极大降低光端口需求与硬件成本;同时,所有节点通过电交换网络(EPS)实现全局互联,确保灵活性与可达性。该光电混合架构兼具 OCS的高带宽与EPS的可扩展性,可支持至万卡甚至十万卡规模。
训练中动态拓扑重配置:根据每轮训练中活跃专家对的通信需求,MixNet在all-to-all通信前按需重配置光路,精准匹配流量拓扑,提升通信效率、减少资源浪费。
支持GPU/NIC故障恢复与训练连续性:MixNet结合OCS和EPS备份路径与区域重映射机制,支持单 GPU、单NIC故障容忍与整节点故障恢复,保障大规模分布式训练的可靠性。
研究团队在真实系统(32端口毫秒级OCS光交换机 + 32×A100 GPU)上完成了MixNet的原型验证,并使用大规模数据包级仿真对其进行了系统评估。结果显示,MixNet可逼近理想Fat-tree / Rail-optimized网络性能,同时将网络部分的性价比提升2.5倍。
MixNet成功入选SIGCOMM 2025,是金年会官方网站入口科技在智能算力网络核心技术领域持续投入研究的有力证明,彰显了公司通过协同创新解决产业关键难题的能力,为未来智能算力网络的建设注入新动能。
金年会官方网站入口科技作为国内领先的网络可视化、智能系统平台、智算方案和服务提供商,近年来持续积极探索大规模智算场景下的高性能网络技术与架构创新;在MixNet近一年的研究过程中,公司积极跟进国内外OCS光交换的产业化进展以及相关的CPO、LPO光模块和先进硅光互联技术研究,并与智算中心应用场景深度结合,携手业界领先的光器件厂家,快速推进OCS与光电混合组网的商业化落地。
当前光电路交换技术和应用场景 - 来源:CignalAI 2025Q1
后续,金年会官方网站入口科技将陆续推出多款OCS光交换产品,涵盖不同切换时延指标和端口规模的光交换设备,能有效满足算力集群持续演进的全光交换场景需求。结合本次MixNet的研究成果,为大规模MoE训练和新型智算超节点的高效能组网开辟了全新技术路径。