你的位置:Ag百家乐 > ag平台百家乐 > AG百家乐下三路技巧打法 传DeepSeek绕过CUDA?业内东谈主士称或为适配国产GPU作念准备
ag平台百家乐
AG百家乐下三路技巧打法 传DeepSeek绕过CUDA?业内东谈主士称或为适配国产GPU作念准备
发布日期:2024-08-04 22:06    点击次数:183

尽管春节假期如故由半,然而“来自东方的好意思妙力量的 DeepSeek”仍在引起全寰宇热议,各路业内东谈主士也仍在从不同角度分析 DeepSeek 的模子和时刻著述。

韩国 Mirae Asset Securities Research 的又名分析师在 X 撰写长文分析称:“这一杂乱是通过实施多数细粒度优化和使用的汇编式 PTX 编程,而非通过英伟达 CUDA 中的某些功能来已矣的。”

也就是说 DeepSeek 在研发大模子时绕过了 CUDA。CUDA(Compute Unified Device Architecture,息争诡计架构),是由英伟达缔造的一种通用编程框架,它允许缔造者欺诈英伟达的图形处理器(GPU,Graphics Processing Unit)进行通用诡计。

如果 DeepSeek 的确绕过了 CUDA,那么这能说明什么?围绕这一主题,DeepTech 采访了北京航空航天大学黄雷副培育。

关于措施缔造东谈主员来说,CUDA 好比是一种高档谈话,缔造者只需要专注于措施和算法最有关的初始逻辑,而不太需要琢磨具体的措施是如安在 GPU 等硬件上具体奈何践诺诡计的,从而八成裁减缔造难度。

例如来说,假如一个东谈主会写汇编谈话,诚然能独特高效地操作诡计机,然而,汇编谈话关于非专科出生的东谈主员难度独特高,哪怕践诺一个给变量赋值操作王人需要好几条号令,况且还要了解寄存器、内存等诡计机基础想法。

因此,缔造者们纷繁转去使用高档谈话进行编程。这时,要思已矣相似操作,缔造者只需使用一个变量赋值就不错。CUDA 即是为了纰漏缔造基于 GPU 的算法瞎想的。

大模子缔造商在使用英伟达的 GPU 的时候,一般是基于 CUDA 去作念研发。使用 CUDA 的话关于缔造者的要求较低,因为 CUDA 里面如故封装好一些函数,使用时班师调用接口就行,统统无需管待太多的细节,然而这么细目会耗费践诺着力。

也就是说,CUDA 等于是给缔造者框定好了一些常用东西是以具有通用性,这在容易使用的同期也会耗费一些天真性。譬如其瞎想的矩阵乘法算子,数据加载传输算子等,是深度学习缔造者常用的算子,因此其在瞎想时会琢磨通用性(即平均条款下最优)。

但关于有特定需求的 GPU 缔造者来说,除了缔造常用的才能以外,它还需要有更雄伟的才能,如比较精致地末端某个节点上某个 GPU 主淌若用来干啥,以及奈何精致化不同 GPU 之间传输数据、权重和梯度等,这在大模子这种要求多机多卡老师时比较常见。关于这些特定需求下的高效编程,CUDA 咫尺还未针对性瞎想一个高效的处置有贪图。

前边提到,由于 CUDA 是通用型编程框架,因此会耗费一些天真性。当只是使用单个 GPU 的时候,CUDA 真实独特适用。然而,当在不同节点使用多个 GPU 的时候,就需要在细粒度上已矣更好的末端。

而在这时,如果依然使用 CUDA 那么在玄虚层面的着力就会比较低。原因在于 CUDA 被瞎想得具备通用性,它要琢磨到悉数缔造者的情况。假如又名缔造者但愿高效欺诈 CUDA 的性能,那就不错通过组合一些由 GPU 驱动提供的函数接口,来写出更高效的措施。

也就是说,如果一位缔造者懂得更接近于底层硬件的编程,那么就不错班师调用硬件提供的接口,ag百家乐在线从而就能让大模子研发变得愈加高效。与此同期,跟着同类的开源通用编程框架的出现,东谈主们认为 CUDA 越来越“闭塞”。而绕过 CUDA,不错班师左证 GPU 的驱动函数作念一些新的缔造,从而已矣愈加细粒度的操作。

譬如 DeepSeek 在多节点通讯时绕过了 CUDA 班师使用 PTX(Parallel Thread Execution),其最多只可已矣以算法的形貌来高效欺诈硬件层面的加快。

天然,一朝速率变得更快,打个比喻这就意味着别东谈主家的模子要老师十天,而 DeepSeek 只需要老师五天,那么就能给模子喂更多的数据,即能让模子在同等时候内看到更多的数据,曲折提升模子的终结。

事实上,绕过 CUDA 也并非一种簇新作念法。咫尺也有一些和 CUDA 对标的编程框架,如 Triton 况且其是开源的。此前北京智源参议院的有关参议东谈主员也专诚基于 Triton 去加快英伟达以及国产的 GPU,且也不错认为这是一种绕过了 CUDA 去调用 GPU 驱动提供的有关函数的作念法。

以咫尺 AI 办法时刻东谈主员为例,时时在本科阶段基本上只会搏斗到基于深度学习框架(时时为 Python 谈话)来老师神经收罗,还不会班师搏斗到各样深度学习框架提供的用 C++ 来写 CUDA 有关的编程任务(有一些勤学者或者有参与科研项方针东谈主员有可能会欺诈 C++ 来写 CUDA 已矣有关算法的提速)。

这些东谈主员在职责以后有可能由于 AI 技俩落地的需要,会搏斗到针对具体的硬件资源来适配模子的编程,但要绕过 CUDA 来写模子的老师算法,时时莫得这么的需求。

但咫尺大模子的老师真实有这些需求,譬如由于这么或者那样的原因导致英伟达 GPU 算力枯竭,逼得大模子老师东谈主员琢磨在有限得算力资源下,奈何尽可能地高效欺诈算力。

在 DeepSeek-V3 的时刻博文中,DeepSeek 默示其使用了英伟达的 PTX(Parallel Thread Execution)谈话。

假如 DeepSeek 的缔造者八成很好地使用 PTX(Parallel Thread Execution)谈话,那么比拟使用 CUDA 提供的编程接口,细目不错更精致地末端 GPU 之间传输数据、权重和梯度等。然而,使用 PTX 写出来的代码独特复杂,且很难保重,因此需要专科度较高的缔造者。

也就是说,绕过 CUDA 的作念法具有一定的时刻难度,这需要缔造者既要懂 AI 模子的算法,又要懂诡计机系统架构来高效分派硬件资源。如果莫得同期掌抓这两方面妙技的缔造者,那就要辞别招聘懂这些妙技的缔造者,即需要配合好不同东谈主员。

从 DeepSeek 的时刻文牍来看,其主体已矣照旧基于 CUDA 的有关接口,其表情中也进展绕开了 CUDA 来写通讯,那就意味着它招聘了掌抓不同妙技的东谈主才,并能将这些东谈主才很好地串了起来。

这也说明 DeepSeek 领有一些擅长写 PTX 谈话的里面缔造者。那么,假如它之后使用国产 GPU,其在硬件适配方面将会更如臂使指,其独一了解这些硬件驱动提供的一些基本函数接口,就不错仿照英伟达 GPU 硬件的编程接口去写有关的代码,从而让自家大模子愈加容易适配国产硬件。

与此同期,从 DeepSeek 的时刻文牍来看,当时刻从学术参议角度并莫得胜出一筹,然而在工程上头真实独特有技巧。琢磨到 AMD 如故文牍集成 DeepSeek-V3 到 MI300X GPU,因此夙昔不抹杀会有更多 GPU 厂商牵手 DeepSeek。

同期,也正如上述韩国分析师在并吞篇 X 著述中所说的:“这突显了 DeepSeek 超越的工程水平,并标明好意思国对华制裁加重的“GPU 枯竭危急”激勉了他们紧要感和创造力。”

运营/排版:何晨龙



Powered by Ag百家乐 @2013-2022 RSS地图 HTML地图