三言科技音书DeepSeek刚刚提交了新的论文,值得守护的是其独创东谈主梁文锋是作家之一。
梁文锋还躬行提交了这篇论文。
论文标题为“NativeSparseAttention:Hardware-AlignedandNativelyTrainableSparseAttention”(原生稀少守护力:硬件对都和原生可检修的稀少守护力)。
论文聚集:https://arxiv.org/abs/2502.11089
摘录如下:
长高下文建模对下一代大言语模子至关蹙迫,但步地守护力机制的高谋划本钱带来了要紧的谋划挑战。
稀少守护力为进步后果提供了一个有但愿的场地,同期保捏模子智商。咱们先容NSA,一种原生可检修的稀少守护力机制,它将算法转换与硬件对都优化相连结,以达成高效的长高下文建模。NSA接收动态分层稀少计策,将粗粒token压缩与细粒token遴荐相连结,ag真人百家乐真假以保捏高下文顽强和腹地精度。
咱们的要领通过两项关节转换来激动稀少的守护力缱绻:
(1)咱们通过算术强度均衡算法缱绻,以及对当代硬件达成优化,达成了大幅度的加快。
(2)咱们启用端到端检修,在不就义模子性能的情况下减少检修前谋划。
试验暴露,使用NSA预检修的模子在一般基准、长高下文任务和基于提醒的推理中保捏或跳动全守护力模子。与此同期ag百家乐官网,NSA在解碼、上前传播和向后传播的64k长度序列上达成了比FullAttention的大幅加快,考证了其在统共这个词模子人命周期中的后果。