在 2025 年的 CES 行径上,Nvidia (NVDA.US)这告示与联发科协作开垦了一款售价 3000 好意思元的新式台式电脑,该电脑搭载了基于 Arm 的全新精简版 Grace CPU 和 Blackwell GPU 超等芯片。新系统名为“Project DIGITS”(不要与 Nvidia 的深度学习 GPU 磨砺系统:DIGITS沾污)。该平台为 AI 和 HPC 阛阓提供了一系列新功能。
Project DIGITS 袭取具有 20 个 Arm 中枢的全新 Nvidia GB10 Grace Blackwell 超等芯片,旨在提供“千万亿次”(FP4 精度)的 GPU-AI 筹画性能,用于原型设想、微长入驱动大型 AI 模子。(强制性浮点阐明器可能在这里有所匡助。)
自 G8x 系列显卡发布(2006 年)以来,Nvidia 一直用功于于提供适用于悉数 GPU 系列的 CUDA 用具和库。概况使用低资本客户显卡进行 CUDA 开垦有助于创建充满活力的行使才能生态系统。由于高性能 GPU 的资本和稀缺性,DIGITS 方法应该概况已毕更多基于 LLM 的软件开垦。与低资本 GPU 一样,在桌面上驱动、建设和微调绽放式变压器模子(举例 llama)的才智应该对开垦东说念主员具有诱惑力。举例,通过提供 128GB 内存,DIGITS 系统将有助于克服很多低资本滥用级显卡上的 24GB 适度。
规格不及
新款 GB10 超等芯片袭取 Nvidia Blackwell GPU,配备最新一代 CUDA 中枢和第五代 Tensor 中枢,通过 NVLink-C2C 芯片到芯片互连邻接到高性能 Nvidia Grace 类 CPU,其中包括20 个节能的 Arm 中枢(十个 Arm Cortex-X925 和十个 Cortex-A725 CPU 中枢)。
固然莫得可用的规格,但 GB10 的 GPU 端被以为提供的性能低于Grace-Blackwell GB200。需要明确的是;GB10 不是分档或激光修剪的GB200。GB200超等芯片有 72 个 Arm Neoverse V2 中枢和两个 B200 Tensor Core GPU。
DIGITS 系统的界说特征是 CPU 和 GPU 之间合并、一致的内存 128GB(LPDDR5x)。这种内存大小在 GPU 上驱动 AI 或 HPC 模子时阻拦了“GPU 内存禁锢”;举例,80GB Nvidia A100 确面前阛阓价钱从 18,000 好意思元到 20,000 好意思元不等。有了合并、一致的内存,CPU 和 GPU 之间的 PCIe 传输也被放手了。下图中的渲染标明内存量是固定的,用户无法推广。该图还标明ConnectX 网罗(以太网?)、Wifi、蓝牙和 USB 邻接可用。
该系统还提供高达 4TB 的 NVMe 存储。在电源方面,Nvidia 提到了尺度电源插座。莫得特定的电源条款,但尺寸和设想可能会提供一些痕迹。当先,与 Mac mini 系合并样,小尺寸(见图 2)标明产生的热量一定不会那么高。其次,把柄 CES 展厅的图像,莫得电扇透风口或切口。机箱的正面和后面似乎有一种海绵状的材料,不错提供气流,并可能充任悉数系统的过滤器。由于散热设想标明功率,功率标明性能,因此 DIGITS 系统可能不是一款为已毕最大性能(和功耗)而诊治的尖叫器,而是一款具有优化内存架构的冰寒、烦嚣、高效的 AI 桌面系统。
如上所述,该系统至极小。下图提供了一些键盘和显现器的视角(莫得显现电缆。把柄咱们的警戒,其中一些袖珍系统可能会因电缆分量而从桌面上拉下来。)
桌面上的东说念主工智能
Nvidia 文书称,AG百家乐是真的么开垦东说念主员不错驱动多达 2000 亿个参数的大型谈话模子,以增强 AI 翻新。此外,使用 Nvidia ConnectX 网罗,两台 Project DIGITS AI 超等筹画机不错邻接起来,驱动多达 4050 亿个参数的模子。借助 Project DIGITS,用户不错使用我方的桌面系统开垦和驱动模子推理,然后在加快云或数据中心基础设施上无缝部署模子。
Nvidia 独创东说念主兼首席履行官黄仁勋暗示:“AI 将成为九行八业中每一种行使的主流。借助 Project DIGITS,Grace Blackwell 超等芯片将惠及数百万开垦者。将 AI 超等筹画机放在每一位数据科学家、AI 磋磨东说念主员和学生的桌子上,将使他们概况参与并塑造 AI 期间。”
这些系统不适用于磨砺,而是设想用于在腹地驱动量化的 LLM(减少模子权重的精度大小)。Nvidia 援用的 1 petaFLOP 性能数字适用于 FP4 精度权重(四位,或 16 个可能的数字)很多模子不错在此级别充分驱动,但量化不错加多到 FP8、FP16 或更高,以赢得更好的恶果,具体取决于模子的大小和可用内存。举例,对 Llama-3-70B 模子使用 FP8 精度权重需要每个参数一个字节或大致 70GB 的内存。将精度减半到 FP4 会将其减少到 35GB 的内存,但加多到 FP32 将需要 140GB,这比 DIGITS 系统提供的内存还要大。
有东说念主用 HPC 集群吗?
可能不为东说念主所知的是,DIGITS 并不是第一款桌边 Nvidia 系统。2024年,GPTshop.ai推出了一款基于 GH200 的桌边系统。HPCwire提供了包括 HPC 基准测试在内的报说念。与 DIGITS 方法不同,GPTshop 系统在桌边机箱中提供了 GH200 Grace-Hopper 超等芯片和 GB200 Grace-Blackwell 超等芯片的悉数功能。性能的普及也伴跟着更高的资本。
将 DIGITS 方法系统用于桌面 HPC 可能是一种深嗜深嗜的步调。除了驱动更大的 AI 模子除外,集成的 CPU-GPU 全局内存对 HPC 行使才能也至极有益。请琢磨最近HPCwire 的一篇对于仅在英特尔两颗 Xeon 6 Granite Rapids 处罚器(无 GPU)上驱动的 CFD 行使才能的故事。把柄作家 Moritz Lehmann 博士的说法,模拟的促成身分是他概况用于模拟的内存量。
一样,很多 HPC 行使才能不得不念念方设法绕过常见 PCIe 邻接视频卡的小内存域。使用多张卡或 MPI 有助于推广行使才能,但 HPC 中最成心的身分永恒是更多内存。
天然,需要基准测试来细目 DIGITS 方法是否十足适用于桌面 HPC,但还有另一种可能性:“用这些构建一个 Beowulf 集群”。这句话频繁被以为是一个打趣,但对于 DIGITS 方法来说可能更严肃一些。天然,集群是用劳动器和(多个)PCEe 邻接的 GPU 卡构建的。可是,一个袖珍、中等功率、十足集成的全局内存 CPU-GPU 可能会成为更均衡、更有诱惑力的集群构建块。还有一个平允:它们照旧驱动 Linux 并具有内置的 ConnectX 网罗。
本文转自“半导体行业不雅察”微信公众号;智通财经裁剪:陈筱亦。

株连裁剪:郭明煜 AG百家乐技巧打法