百家乐AG

AG百家乐下载 反英伟达定约的里程碑,UA Link 1.0:负责发布
发布日期:2024-11-14 00:46    点击次数:194

要是您但愿可以通常碰面,接待标星储藏哦~

在很早之前,咱们就报谈了UAlink。

该定约于2024 年 5 月由一群供应商设立,其中包括 AMD、AWS、博通、、谷歌、HPE、英特尔、Meta、微软和 Astera Labs,他们觉得全国需要一个 Nvidia NVLink 时间的怒放替代决策,以允许创建运行大鸿沟 AI 责任负载所需的联网 GPU 集群。

UALink 的会员们但愿创建一个更低廉的替代决策,他们可以自行戒指和部署超大鸿沟,或者通过创建咱们其他东谈主购买的硬件从中赚钱。他们还觉得,全国也曾准备好理财一种可应用于多个供应商的 GPU 的集聚模范,而不需要用户为每个加快器供应商创建专用的集聚孤岛。为了结束这些打算,UAC 还但愿在大多数组织也曾运营的以太网集聚上开展责任。

在此前的著作中,咱们对此有了长远的形容。

目下,这个模范的第一个版块,终于负责发布。

UALink 1.0:集聚1024个GPU,带宽200 GT/s

据官方先容,这个名为UALink 200G 1.0 的范例界说了 AI 计较舱中加快器和交换机之间通讯的低延伸、高带宽互连。UALink 1.0 范例维持 AI 计较舱内最多 1024 个加快器结束每通谈 200G 的膨胀集聚,为下一代 AI 集群性能提供怒放模范互连。

UALink 定约董事会主席 Kurtis Bowman 示意:“跟着对 AI 计较的需求束缚增长,咱们很愉快大约提供一项必不行少的怒放行业模范时间,使下一代 AI/ML 应用大约推向市集。UALink 是唯独一款针对膨胀 AI 的内存语义惩处决策,它针对缩短功耗、延伸和本钱进行了优化,同期加多了灵验带宽。UALink 200G 1.0 范例带来的冲破性性能将绝对改变云作事提供商、系统 OEM 和 IP/芯片提供商处理 AI 责任负载的形态。”

UALink 为加快器创建了一个交换机生态系统,为新兴的 AI 和 HPC 责任负载提供要害性能维持。它使用读取、写入和原子事求结束跨系统节点的加快器到加快器通讯,并界说了一组左券和接口,从而为 AI 应用要害创建多节点系统。

英特尔公司集聚和角落处事部高等副总裁兼总司理Sachin Katti在谈到这个新模范的时候示意:“UALink 是东谈主工智能计较发展的进攻里程碑。英特尔很自强大约共同率领这项新时间,并期骗咱们的专科常识来创建怒放、动态的 AI 生态系统。四肢这个新定约的创举成员,咱们期待通过 UALink 模范带来新一波行业改革和客户价值。这一举措扩大了英特尔对 AI 集聚改革的承诺,包括在超等以太网定约和其他模范机构中担任率领变装。”

UALink 为加快器创建了一个交换机生态系统,为新兴的 AI 和 HPC 责任负载提供要害性能维持。它使用读取、写入和原子事求结束跨系统节点的加快器到加快器通讯,并界说了一组左券和接口,从而为 AI 应用要害创建多节点系统。

据定约顾忌说,UALink 的主要上风包括以下几点:

1

高性能

为一个舱内的数百个加快器提供低延伸、高带宽的互连;

提供简便的加载/存储左券,具有与以太网相通的原始速率和 PCIe 交换机的延伸;

专为结束 93% 灵验峰值带宽的敬佩性性能而瞎想;

2

低功耗

结束高效的开关瞎想,缩短功耗和复杂性;

3

本钱效益

使用彰着更小的芯单方面积进行链路堆栈,缩短功耗和采购本钱,从而缩短总领有本钱 (TCO);

擢升带宽后果可进一步缩短 TCO;

4

怒放、模范化

多家供应商正在开发 UALink 加快器和交换机;

期骗成员公司的改革来将顶端功能纳入范例并将可互操作的居品推向市集;

UALink 定约总裁 Peter Onufryk 示意:“跟着 UALink 200G 1.0 范例的发布,UALink 定约的成员公司正在积极构建一个怒放的生态系统,以扩大加快器集聚。咱们很愉快看到多样惩处决策行将进入市集,并维持将来的 AI 应用。”

正如Dell'Oro Group 副总裁 Sameh Boujelbene 所说,AI 正过去所未有的速率发展,开启了具有新膨胀定律的 AI 推理新期间。跟着计较需求激增和速率条款连接呈指数级增长,膨胀互连惩处决策必须束缚发展,以跟上这些快速变化的 AI 责任负载条款。咱们很愉快看到 UALink 1.0 范例的发布,该范例通过在团结 AI 计较舱内为多达 1,24 个加快器结束每通谈 200G 的膨胀集聚来应酬这一挑战。这一里程碑记号着咱们在得志下一代 AI 基础步伐需求方面迈出了进攻一步。

究竟是怎样作念到的?

其实当 UALink 小组设立时,其成员关于他们究竟会怎样作念和作念什么有些拖拉其辞。有东谈主说 PCI-Express 和以太网不是符合的东西,因为也曾作念的事情简便而优雅,集聚生态系统应该很容易遴荐和居品化。制造 PCI-Express 交换机的公司(Astera Labs、Broadcom、Marvell 和 Microchip)将但愿制造 UALink 交换机,咱们将其称为 UASwitch,以分别于计较引擎上的 UALink 端口。

具体到UALink 1.0 范例,则界说了一种用于加快器的高速、低延伸互连,维持每通谈 200 GT/s 的最大双向数据速率,信号传输速率为 212.5 GT/s,以适应前向纠错和编码支拨。UALink 可树立为 x1、x2 或 x4,四通谈链路在发送和禁受方朝上均可结束高达 800 GT/s 的速率。

一个 UALink 系统维持通过 UALink 交换机集聚的最多 1024 个加快器(GPU 或其他),每个加快器分派一个端口和一个 10 位唯独标记符以结束精准路由。UALink 电缆长度优化为 <4 米,在 64B/640B 灵验载荷下结束 <1 µs 的来回延伸。这些链路维持跨一到四个机架的敬佩性性能。

UALink 左券栈包括四个硬件优化层:物理层(physical)、数据链路层(data link)、事务层(transaction)和左券层(protocol)。物理层使用模范以太网组件(举例 200GBASE-KR1/CR1),并包括使用 FEC 减少延伸的修改。数据链路层将来自事务层的 64 字节 flit 打包成 640 字节单元,应用 CRC 和可选重试逻辑。该层还处理开发间音信传递并维持 UART 形势的固件通讯。

事务层结束压缩寻址,在实质责任负载下以高达 95% 的左券后果简化数据传输。它还维持平直内存操作,举例加快器之间的读取、写入和原子事务(atomic transactions),从而保留腹地和良友内存空间之间的法例。

由于它面向当代数据中心,UALink 左券维持集成的安全和经管功能。举例,UALinkSec 为整个流量提供硬件级加密和身份考证,退避物理更动,并通过田户戒指的确凿扩充环境(如 AMD SEV、Arm CCA 和 Intel TDX)维持奥密计较。该范例允许凭空 Pod 分区,其中加快器组通过交换机级树立在单个 Pod 内休止,以在分享基础架构上结束并发多田户责任负载。而UALink Pod 将通过专用戒指软件和固件代理使用 PCIe 和以太网等模范接口进行经管。通过 REST API、遥测、责任负载戒指和故障休止维持全皆可经管性。

具体而言,从外到内,UALink 堆栈从稍稍修自新的以太网 SerDes 运转,其信号速率为 215.5 GT/秒,一朝讨论到编码支拨,每个 UALink 通谈的带宽就会减少到 200 Gb/秒:

此以太网物理层具有模范前向纠错 (FEC) 并校服 IEEE P802.3dj 范例。通过单向和双向代码字交汇改善了延伸,况兼略有变化以维持 680 字节 flit。(flit 或流戒指单元是链路级别的数据原子单元。)这是巧妙之处,PCI-Express 已随 6.0 范例发生变化并为 UALink 奠定了基础。

跟着 PCI-Express 6.0 的推出,戒指该模范的 PCI-SIG(主要由主导)不再只是实施模范 FEC(这会大幅加多 PCI-Express 数据传输的延伸),而是转向羼杂使用流量戒指和轮回冗余校验 (CRC) 乖张检测,这实质上擢升了信号传输的可靠性,同期缩短了延伸。一些智能功能正在添加到 UALink 中,而内存结构不需要的多半功能并未包含在内。

“咱们从 200 Gb/秒 SerDes 运转,”受老板请托从事 UALink 责任的英特尔盘考员 Peter Onufryk 示意:“它每个端口有四个通谈,速率为 800 Gb/秒,百家乐AG您可以团聚多个端口。您还可以在结构中使用多达 1,024 个加快器,因此它在咱们所处的空间中可膨胀性极端高。”

UALink 是一种简便的左券,因此它不是 PCI Express,但它针对膨胀结构进行了优化,具有简便的内存读写和原子操作以及大型操作。它肃清了 PCI-Express 的排序扫尾,因此唯独的排序是在 256 字节领域内。但要是跳动,您可以从头排序。

“UALink 的想考形态是,它具有 PCI-Express 交换机的延伸、PCI-Express 交换机的功率、PCI-Express 交换机的面积,但具有以太网 SerDes。”Peter Onufryk强调。

趁机说一句,1024 个计较引擎一致性扫尾仅限于 UALink 交换基础步伐的单层。要是要添加更多层级(这会加多延伸),您可以为计较引擎构建更大的 NUMA 域。

UALink 1.0 范例维持每通谈 100 Gb/秒和 200 Gb/秒的速率,前者用于构建 100 Gb/秒、200 Gb/秒和 400 Gb/秒的端口,后者用于构建 200 Gb/秒、400 Gb/秒和 800 Gb/秒的端口。咱们不知谈将来的 UASwitch 会有几许个端口,是以咱们不知谈它与任何现存的 NVSwitch 比较如何。但显著,要是 Nvidia 大约整合端口以从开发中赢得更多带宽,那么 UALink 的遴荐者也可以作念到。

专为敬佩性性能而瞎想

在UALink 1.0 的演示文稿中,有一句话很真理,那即是——“专为敬佩性性能而瞎想,可结束 93% 的灵验峰值带宽。”这是在之前的尊府中莫得看到过的。

UALink 成员在本年早些时候的演示中示意,UALink 的功耗仅为同等以太网 ASIC 芯单方面积的一半到三分之一(每个端口),况兼每个内存结构加快器可从简 150 瓦到 200 瓦的功耗。更小的芯片尺寸意味着更低廉的芯片,更低的功耗意味着更少的电力和冷却消费,从而缩短全体 TCO。

这些演示还示意,UALink 端口到端口的跳变延伸将低于 100 纳秒。Onufryk 示意,阐明 PCI-Express 交换机的基数和品牌,PCI-Express 交换机的端口跳变延伸最低为 70 纳秒,最高为 250 纳秒。在 21 世纪初的商用芯片刻代,咱们看到 10 Gb/秒以太网交换机的延伸为 350 纳秒到 450 纳秒,而普通以太网交换机的延伸达到 1 毫秒致使 2 毫秒的情况也很常见。与 InfiniBand 交换机 100 纳秒到 120 纳秒的延伸比较,这个延伸极端高。UALink 定约并未强制扩充延伸扫尾,因此供应商可以自行决定。

AMD 架构与政策总监、UALink 名目长入负责东谈主兼 UALink 定约主席库蒂斯·鲍曼 (Kutis Bowman) 示意,UALink 交换机的延伸时辰在 100 纳秒到 150 纳秒之间“嗅觉符合”。

“就像任何事情相似,”鲍曼说。“一朝第一批Switch推出,他们就会想宗旨雠校。咱们可能会看到一些可以的中端数据,然后,跟着时辰的推移,他们会把这个数字往左移。”

至于这些交换机的基数(即它们驱动几许条通谈和端口,以及总带宽是几许),这也取决于 UALink 交换机制造商。

“咱们也曾指定了物理层,也指定了数据包如何阐明ID路由,东谈主们可以操纵自若地构建,”Onufryk说。“这就像PCI-Express——有些东谈主构建微型交换机,有些东谈主构建大型交换机,他们皆在致力找到正确的位置。”

从见地上讲,UALink 机架式机柜可能如下所示:

只是因为 UALink 1.0 左券大约维持 1024 个开发互连的加快器 NUMA 内存域,并不虞味着东谈主们会立即插足其中,运转构建大约膨胀到如斯鸿沟的东西。(不外,要是有东谈主确凿这样作念了,那可就太真理了。)

咱们来望望 Nvidia 有多保守。

表面上,使用 NVLink 4 端口的 NVSwitch 3 结构可以在分享内存池中跳动多达 256 个 GPU,但 Nvidia 的生意居品仅维持 8 个 GPU。 借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 表面上可以维持跳动多达 576 个 GPU 的内存池,但实质上,仅在 DGX B200 和 B300 NVL72 系统中最多具有 72 个 GPU 的机器上提供生意维持。况兼 Nvidia 在其阶梯图上最大的域(至少目下)在单个内存映像中唯独 576 个 GPU 芯片,每个插槽有 4 个 GPU 芯片,每个机架有 72 个插槽。

看起来,在某种历程上,UALink 可能具有扩大鸿沟的上风,但这很猛历程上取决于维持 AI 处理的全集聚在具稀有百个分享高带宽内存的计较引擎的机器上运行得如何。

进攻的是要意志到 UALink 并非 NVLink 的盗窟版。尽管 NVLink 看起来像是 PCI-Express 和 InfiniBand 的链接体,但它们确乎不同。(而且 NVLink 和 NVSwitch 的出现早于 Nvidia 收购 Mellanox Technologies。)

Bowman 示意:“UALink 和 NVLink 之间存在相反。NVLink 是 x2 的,是以它们老是将两个通谈组合在全部。UALink 允许端口使用 x1、x2 或 x4,之后你可以组合端口,就像 Nvidia 可以组合 NVLink 端口相似。是以它们之间存在一些相反,诚然这些相反很轻飘,但阐明你试图构建的系统类型和所需的带宽,它们确乎会有所匡助。咱们觉得,单向 800 Gb,即双向 1.6 Tb,在这些 UALink 开刊行将面世的时辰段内,提供的带宽富饶了。”

通常情况下,当一项集聚范例发布后,首批使用该时间的开发插足使用约莫需要两年时辰。但鲍曼示意,这一次只需要十二到十八个月,因为需求量相称大,而且每个制造 UALink 交换机的东谈主皆知谈我方在作念什么。

https://www.tomshardware.com/tech-industry/ualink-has-nvidias-nvlink-in-the-crosshairs-final-specs-support-up-to-1-024-gpus-with-200-gt-s-bandwidth

https://www.businesswire.com/news/home/20250408050548/en/UALink-Consortium-Releases-the-Ultra-Accelerator-Link-200G-1.0-Specification

https://www.nextplatform.com/2025/04/08/ualink-fires-first-gpu-interconnect-salvo-at-nvidia-nvswitch/

半导体极品公众号保举

专注半导体领域更多原创内容

矜恤各人半导体产业动向与趋势

*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或维持,要是有任何异议,接待干系半导体行业不雅察。

今天是《半导体行业不雅察》为您分享的第4089期内容,接待矜恤。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

心爱咱们的内容就点“在看”分享给小伙伴哦



友情链接:

Powered by 百家乐AG @2013-2022 RSS地图 HTML地图