计算机系师生在高性能计算领域顶级会议PPoPP’22上发表论文

2022.04.11 08:56

第27届并行编程原理与实践会议(PPoPP, ACM SIGPLAN Annual Symposium Principles and Practice of Parallel Programming)于4月2日-4月6日在线上召开。并行编程原理与实践会议是高性能计算领域的顶级会议,中国计算机学会推荐的A类会议。本届大会共有118篇论文投稿,29篇被接收,接收率为24.6%。计算机系高性能所在本次会议上共发表了5篇论文,占总接收论文的17.2%。

论文《八卦炉:在3700万以上核心训练脑规模预训练模型》(BAGUALU: Targeting Brain Scale Pretrained Models with over 37 Million Cores)由清华大学、阿里巴巴达摩院、之江实验室、北京智源研究院在PPoPP2022上共同发表。该论文作者中有计算机系师生马子轩、何家傲、曹焕琦、王元炜、孙桢波、郑立言、王豪杰、唐适之、冯冠宇、钟闰鑫、师天麾、郑纬民、唐杰、翟季冬、陈文光。论文第一作者是计算机系硕士生马子轩,论文通讯作者为唐杰、杨红霞、刘鑫、翟季冬、陈文光。本论文工作基于新一代神威超级计算机,设计了高效的并行训练平台“八卦炉”,成功将预训练模型扩展到新一代神威超级计算机的整机规模,参与训练核心数超过3700万个,使人类首次获得了人脑神经元突触规模(百万亿参数量)的神经网络训练能力。“八卦炉”可以以E级混合精度性能训练万亿、十万亿参数量模型,同时支持最大174万亿参数量模型的训练,是世界上第一个支持人脑神经元突触规模的神经网络的训练平台。

论文《扩展图遍历程序到281万亿条边和4000万处理器核》(Scaling graph traversal to 281 trillion edges with 40 million cores),作者是曹焕琦、王元炜、王豪杰、林恒、马子轩、尹万旺、陈文光,论文通讯作者为陈文光。本论文提出了一种全新的三类顶点度数感知的1.5维图划分方法,并在此基础上针对宽度优先搜索进行了算法优化、针对国产高性能计算机的体系结构进行了硬件相关优化,最终在新一代神威国产超级计算机上取得了180792GTEPS的Graph 500 BFS性能,超过当前世界第一名“富岳”约1.8倍,同时处理的图规模是其8倍,达到281万亿条边。

论文《Vapro:并行应用程序的性能异常检测和诊断》(Vapro: performance variance detection and diagnosis for production-run parallel applications),作者是郑立言、翟季冬、汤雄超、王豪杰、余腾、金煜阳、宋帅文、陈文光,论文通讯作者为翟季冬。本论文针对高性能计算机并行程序的性能异常问题,提出了基于状态转移图和性能异常分解模型,分别用于支持运行时固定计算量代码段的鉴别和性能异常诊断。基于上述模型,Vapro在测试中以1.38%的平均性能开销,实现了不依赖程序源代码的在线性能异常检测,并相对于现有工具有30.0%的检测覆盖率提升。

论文《FasterMoE:大规模动态预训练模型训练的建模和优化》(FasterMoE: modeling and optimizing training of large-scale dynamic pre-trained models),作者是何家傲、翟季冬、TiagoAntunes、王豪杰、罗富文、石尚锋、李钦,论文通讯作者为翟季冬。本论文针对当前流行的MoE 模型的分布式训练问题, 引入精确的性能模型进行分析,发现了负载不均衡,粗粒度操作效率低,网络拥塞等挑战,并提出影子专家,细粒度调度和拓扑相关专家选择模块等技术来提升训练效率,获得了高达17.87 倍的性能加速。

论文《PerFlow:面向并行应用程序性能分析的领域特定编程框架》(PerFlow: a domain specific framework for automatic performance analysis of parallel applications),作者是金煜阳、王豪杰、钟闰鑫、张晨、翟季冬,论文通讯作者为翟季冬。本论文提出了面向性能分析的领域特定编程框架PerFlow,创新地设计了基于数据流图的编程抽象以表示性能分析任务。PerFlow成功部署于真实生产环境中,有效地降低了性能分析系统的开发复杂性。

关闭