港中文团队用全光信号处理芯片,突破AI数据中心传输瓶颈,成果登Science (opens in new tab)
马斯克 xAI 的 Colossus 数据中心里有着高达 55 万张 GPU,然而训练时平均每张卡的利用率只有大约 10%。剩下的 90% 算力其实被数据搬运拖了后腿,也就是说 GPU 大部分时间都是在等数据。6 月 11 日,香港中文大学博士生王本善和他所在的黄超然教授团队在《科学》杂志上发表了一篇论文。港中文黄超然教授为文章的通讯作者,港中文博士研究生王本善和肖洽荣为文章的共同第一作者。其他共同作者包括来自港中文的博士研究生徐滕基、范理、刘少杰和孔秋强教授,华中科技大学董建绩教授和复旦大学张俊文教授。他们打造了一款全光信号处理芯片(OSP,Optical Signal Processor),可以降低数据在 GPU 之间传输延迟,把被耽搁的效率找回来,让 GPU 不再干等。本次芯片的总吞吐量达到 1.6Tbps,延迟仅有 60 皮秒。1.6Tbps 意味着一秒就能传上百部蓝光电影,60 皮秒则比一个电脑时钟周期还要短。(来源:《科学》)光信号无需转成电,直接在半路修好在当前的数据中心里,大部分 GPU 之间依靠光互联实现数据传输。光模块发射端将数字信号转成光然后传出去,接收端再...
Read the original article