AG百家乐下三路技巧打法传DeepSeek绕过CUDA？业内东谈主士称或为适配国产GPU作念准备

Ag百家乐

热点资讯

你的位置：Ag百家乐 > ag平台百家乐 > AG百家乐下三路技巧打法传DeepSeek绕过CUDA？业内东谈主士称或为适配国产GPU作念准备

ag平台百家乐

发布日期：2024-08-04 22:06 点击次数：183

尽管春节假期如故由半，然而“来自东方的好意思妙力量的 DeepSeek”仍在引起全寰宇热议，各路业内东谈主士也仍在从不同角度分析 DeepSeek 的模子和时刻著述。

韩国 Mirae Asset Securities Research 的又名分析师在 X 撰写长文分析称：“这一杂乱是通过实施多数细粒度优化和使用的汇编式 PTX 编程，而非通过英伟达 CUDA 中的某些功能来已矣的。”

也就是说 DeepSeek 在研发大模子时绕过了 CUDA。CUDA（Compute Unified Device Architecture，息争诡计架构），是由英伟达缔造的一种通用编程框架，它允许缔造者欺诈英伟达的图形处理器（GPU，Graphics Processing Unit）进行通用诡计。

如果 DeepSeek 的确绕过了 CUDA，那么这能说明什么？围绕这一主题，DeepTech 采访了北京航空航天大学黄雷副培育。

关于措施缔造东谈主员来说，CUDA 好比是一种高档谈话，缔造者只需要专注于措施和算法最有关的初始逻辑，而不太需要琢磨具体的措施是如安在 GPU 等硬件上具体奈何践诺诡计的，从而八成裁减缔造难度。

例如来说，假如一个东谈主会写汇编谈话，诚然能独特高效地操作诡计机，然而，汇编谈话关于非专科出生的东谈主员难度独特高，哪怕践诺一个给变量赋值操作王人需要好几条号令，况且还要了解寄存器、内存等诡计机基础想法。

因此，缔造者们纷繁转去使用高档谈话进行编程。这时，要思已矣相似操作，缔造者只需使用一个变量赋值就不错。CUDA 即是为了纰漏缔造基于 GPU 的算法瞎想的。

大模子缔造商在使用英伟达的 GPU 的时候，一般是基于 CUDA 去作念研发。使用 CUDA 的话关于缔造者的要求较低，因为 CUDA 里面如故封装好一些函数，使用时班师调用接口就行，统统无需管待太多的细节，然而这么细目会耗费践诺着力。

也就是说，CUDA 等于是给缔造者框定好了一些常用东西是以具有通用性，这在容易使用的同期也会耗费一些天真性。譬如其瞎想的矩阵乘法算子，数据加载传输算子等，是深度学习缔造者常用的算子，因此其在瞎想时会琢磨通用性（即平均条款下最优）。

但关于有特定需求的 GPU 缔造者来说，除了缔造常用的才能以外，它还需要有更雄伟的才能，如比较精致地末端某个节点上某个 GPU 主淌若用来干啥，以及奈何精致化不同 GPU 之间传输数据、权重和梯度等，这在大模子这种要求多机多卡老师时比较常见。关于这些特定需求下的高效编程，CUDA 咫尺还未针对性瞎想一个高效的处置有贪图。

前边提到，由于 CUDA 是通用型编程框架，因此会耗费一些天真性。当只是使用单个 GPU 的时候，CUDA 真实独特适用。然而，当在不同节点使用多个 GPU 的时候，就需要在细粒度上已矣更好的末端。

而在这时，如果依然使用 CUDA 那么在玄虚层面的着力就会比较低。原因在于 CUDA 被瞎想得具备通用性，它要琢磨到悉数缔造者的情况。假如又名缔造者但愿高效欺诈 CUDA 的性能，那就不错通过组合一些由 GPU 驱动提供的函数接口，来写出更高效的措施。

也就是说，如果一位缔造者懂得更接近于底层硬件的编程，那么就不错班师调用硬件提供的接口，ag百家乐在线从而就能让大模子研发变得愈加高效。与此同期，跟着同类的开源通用编程框架的出现，东谈主们认为 CUDA 越来越“闭塞”。而绕过 CUDA，不错班师左证 GPU 的驱动函数作念一些新的缔造，从而已矣愈加细粒度的操作。

譬如 DeepSeek 在多节点通讯时绕过了 CUDA 班师使用 PTX（Parallel Thread Execution），其最多只可已矣以算法的形貌来高效欺诈硬件层面的加快。

天然，一朝速率变得更快，打个比喻这就意味着别东谈主家的模子要老师十天，而 DeepSeek 只需要老师五天，那么就能给模子喂更多的数据，即能让模子在同等时候内看到更多的数据，曲折提升模子的终结。

事实上，绕过 CUDA 也并非一种簇新作念法。咫尺也有一些和 CUDA 对标的编程框架，如 Triton 况且其是开源的。此前北京智源参议院的有关参议东谈主员也专诚基于 Triton 去加快英伟达以及国产的 GPU，且也不错认为这是一种绕过了 CUDA 去调用 GPU 驱动提供的有关函数的作念法。

以咫尺 AI 办法时刻东谈主员为例，时时在本科阶段基本上只会搏斗到基于深度学习框架（时时为 Python 谈话）来老师神经收罗，还不会班师搏斗到各样深度学习框架提供的用 C++ 来写 CUDA 有关的编程任务（有一些勤学者或者有参与科研项方针东谈主员有可能会欺诈 C++ 来写 CUDA 已矣有关算法的提速）。

这些东谈主员在职责以后有可能由于 AI 技俩落地的需要，会搏斗到针对具体的硬件资源来适配模子的编程，但要绕过 CUDA 来写模子的老师算法，时时莫得这么的需求。

但咫尺大模子的老师真实有这些需求，譬如由于这么或者那样的原因导致英伟达 GPU 算力枯竭，逼得大模子老师东谈主员琢磨在有限得算力资源下，奈何尽可能地高效欺诈算力。

在 DeepSeek-V3 的时刻博文中，DeepSeek 默示其使用了英伟达的 PTX（Parallel Thread Execution）谈话。

假如 DeepSeek 的缔造者八成很好地使用 PTX（Parallel Thread Execution）谈话，那么比拟使用 CUDA 提供的编程接口，细目不错更精致地末端 GPU 之间传输数据、权重和梯度等。然而，使用 PTX 写出来的代码独特复杂，且很难保重，因此需要专科度较高的缔造者。

也就是说，绕过 CUDA 的作念法具有一定的时刻难度，这需要缔造者既要懂 AI 模子的算法，又要懂诡计机系统架构来高效分派硬件资源。如果莫得同期掌抓这两方面妙技的缔造者，那就要辞别招聘懂这些妙技的缔造者，即需要配合好不同东谈主员。

从 DeepSeek 的时刻文牍来看，其主体已矣照旧基于 CUDA 的有关接口，其表情中也进展绕开了 CUDA 来写通讯，那就意味着它招聘了掌抓不同妙技的东谈主才，并能将这些东谈主才很好地串了起来。

这也说明 DeepSeek 领有一些擅长写 PTX 谈话的里面缔造者。那么，假如它之后使用国产 GPU，其在硬件适配方面将会更如臂使指，其独一了解这些硬件驱动提供的一些基本函数接口，就不错仿照英伟达 GPU 硬件的编程接口去写有关的代码，从而让自家大模子愈加容易适配国产硬件。

与此同期，从 DeepSeek 的时刻文牍来看，当时刻从学术参议角度并莫得胜出一筹，然而在工程上头真实独特有技巧。琢磨到 AMD 如故文牍集成 DeepSeek-V3 到 MI300X GPU，因此夙昔不抹杀会有更多 GPU 厂商牵手 DeepSeek。

同期，也正如上述韩国分析师在并吞篇 X 著述中所说的：“这突显了 DeepSeek 超越的工程水平，并标明好意思国对华制裁加重的“GPU 枯竭危急”激勉了他们紧要感和创造力。”

运营/排版：何晨龙

上一篇：Ag百家乐时间差陈建斌接蒋勤勤春晚放工，路边吃暖锅，畅通2年陪爱妻在重庆过年

下一篇：下载AG百家乐库里：中场时给巴特勒发了信息；但愿他或者积极超过尽心参加

首页

百家乐ag真人曝光

ag百家乐在线

ag平台百家乐