热搜词: 马頔爷们儿要脸

巨头们的互连“军备竞赛”

本文由半导体产业纵横(ID:ICVIEWS)编译自eetimes

最大的挑战在于AI仍在“学习如何学习”。

AI工作负载的巨大计算需求,正推动着将GPU/AI加速器互连成集群的趋势,使其作为单一单元运行以提高性能效率。

作为AI加速器领域的领导者,英伟达(Nvidia)的NVLink互连技术已成为AI加速器最常用的接口。然而,直到最近,NVLink一直是一项专有技术,仅在基于英伟达的平台上可用。今年早些时候,英伟达通过NVLink Fusion计划开放了NVLink互连,允许其他半导体平台通过许可协议使用NVLink。

与此同时,行业其他公司一直在扩展PCIe和以太网的能力以与NVLink竞争,同时还成立了超级加速器链接联盟(Ultra Accelerator Link Consortium, UALink),以提供NVLink的替代方案。关键问题是,哪些技术将能幸存下来?其中又有没有任何一个能够取代NVLink?

网络发展简史

数据中心网络中有两个关键术语:纵向扩展(scale-up)和横向扩展(scale-out)。历史上,纵向扩展指的是在单个服务器机箱内扩展资源,而横向扩展则指通过连接多个服务器来创建集群。

然而,随着向加速计算的过渡,纵向扩展的含义已变为在单个机柜内(甚至可能超越机柜)连接资源,使其作为单一系统运行。横向扩展则指将这些计算资源连接成集群,跨越整个数据中心乃至数据中心之间。值得注意的是,英伟达最近引入了第三个关键网络术语——横向贯通(scale-across)——用于连接不同的数据中心。

另一个历史注脚是,科技行业通常会为新一代技术开发新的互连标准。原因是最新半导体的能力和应用程序的需求,往往超越了像IEEE(负责以太网标准)和PCI-SIG(负责PCIe标准)等标准组织的能力,它们无法足够快地响应。然而,这些独特的互连技术中,只有少数能够经受时间的考验。

专有互连并非新鲜事

连接计算资源的趋势长期以来一直驱动行业走向专有解决方案。英特尔开发了其QPI,随后是UPI用于CPU间互连,以及Xe Link用于GPU互连架构;AMD开发了HyperTransport用于CPU间互连,后来又推出了Infinity Fabric来连接系统中所有的AMD计算资源;而英伟达则推出了NVLink作为GPU互连架构,并将其扩展至CPU。随着包括超大规模云服务提供商的定制处理器和AI加速器在内的新AI解决方案日益增多,行业正在寻求一个统一的解决方案。

纵向扩展网络的成败

纵向扩展网络最常见的选项包括:

PCIe:在PCIe Gen3和Gen4之间经历了长达七年的间隔后,PCI-SIG已加快步伐,推出了Gen5和Gen6以满足系统日益增长的性能需求。

纵向扩展以太网(SUE):一种支持纵向扩展网络的以太网版本。

NVLink:由英伟达开发的快速且支持内存一致性的链接。

UALink:AMD Infinity Fabric的扩展,由UALink联盟支持。

虽然每种互连都有其优点,但它们的局限性很可能决定其在纵向扩展网络中的最终成败,尤其是在性能至关重要的AI应用中。

PCIe是行业标准,但由于其协议开销,与其他纵向扩展互连相比,其性能有限且延迟较长。

SUE基于以太网标准,但利用修改后的协议栈来降低延迟。尽管它提供了高可扩展性和通往极高性能的路线图,SUE的延迟仍高于其他互连,并且像PCIe一样,它不提供内存一致性。此外,SUE需要新的交换机芯片,目前只有博通的Tomahawk Ultra支持。

UALink的独特之处在于它受益于AMD的持续投资作为基础技术,并且将运行在PCIe或SUE之上,但延迟更低,支持内存一致性,并得到了包括苹果、英特尔和一些超大规模云服务提供商在内的大型科技公司的支持。

NVLink现已发展到第五代,是理想的纵向扩展互连,提供高性能、低延迟和内存一致性。其主要限制一直是其专有性。应一些超大规模客户的要求,英伟达推出了NVLink Fusion,首个宣布的被许可方是富士通,将用于其服务器处理器。

互连能否跟上AI的步伐?

比较这些互连技术的一个更关键的问题是,它们是否有能力跟上创新的步伐。行业历史表明,由联盟制定的标准由于需要满足所有参与者的多样化需求,往往难以跟上技术发展的步伐。

这可能成为PCIe的一个重要限制因素。SUE主要由博通驱动,可以保持快速的创新进度,但这使得行业在前沿领域仅依赖一家公司。只要AMD仍然是UALink的主要驱动力,它就有潜力保持可接受的步伐。然而,如果联盟其他成员提出变更请求,或PCIe/SUE出现延误,它可能会面临延误。

相比之下,NVLink由英伟达开发,其增强功能旨在满足行业最前沿AI加速器的需求。NVLink也被明确设计为加速器互连,而非更通用的网络互连。此外,AI需求以及英伟达的Spectrum-X(横向扩展)和Spectrum-XGS(横向贯通)解决方案,很可能在不久的将来推动最新的共封装光学技术应用于英伟达的机柜解决方案中。

结语

最大的挑战在于AI仍在“学习如何学习”。基础模型在规模和复杂性上持续增长,模型优化和执行技术正在迅速演变,硬件正以前所未有的速度发展。因此,对纵向扩展网络的需求将继续挑战互连技术的极限。目前,NVLink是AI的最佳解决方案,特别是在如果英伟达能以一种惠及整个行业的方式构建其许可协议。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!