“DeepSeek甚而绕过了CUDA”，论文细节再引热议，工程师灵魂发问：英伟达护城河还在吗？

让不懂建站的用户快速建站，让会建站的提高建站效率！

发布日期：2025-02-05 10:59 点击次数：145

英伟达刚刚从DeepSeek-R1激励的4万亿元暴跌中缓给力来，又濒临新的压力？

硬件媒体Tom‘s Hardware带来开年最新热议：

DeepSeek甚而绕过了CUDA，使用更底层的编程说话作念优化。

这一次是DeepSeek-V3论文中的更多细节，被东谈主挖掘出来。

来自Mirae Asset Securities Research（韩国异日钞票证券）的分析称，V3的硬件效用之是以能比Meta等跨越10倍，不错追想为“他们重新驱动重建了一切”。

在使用英伟达的H800 GPU历练DeepSeek-V3时，他们针对我方的需求把132个流式多科罚器（SMs）中的20个修改成庄重行状器间的通讯，而不是意料任务。

变相绕过了硬件对通讯速率的畛域。

△ DeepSeek-V3 Technical Report

这种操作是用英伟达的PTX（Parallel Thread Execution）说话竣事的，而不是CUDA。

PTX在接近汇编说话的层级运行，允许进行细粒度的优化，如寄存器分派和Thread/Warp级别的更始。

这种编程很是复杂且难以真贵，是以行业通用的作念法是使用CUDA这么的高档编程说话。

换句话说，他们把优化作念到了极致。

有网友暗示，要是有一群东谈主嫌CUDA太慢而使用PTX，那一定是前量化来回员。

一位亚马逊工程师建议灵魂凭空：CUDA是否照旧护城河？这种顶尖践诺室不错有用愚弄任何GPU。

甚而有网友驱动畅念念，要是“新源神”DeepSeek开源了一个CUDA替代决策……

那么事情是否真会如斯？

DeepSeek确切绕过了CUDA？

当先要明确的是，金宝配资PTX仍然是英伟达GPU架构中的本事，它是CUDA编程模子中的中间暗示，用于相连CUDA高档说话代码和GPU底层硬件指示。

PTX访佛汇编说话，代码大略长这么：

△来自tinkerd.net

在内容编译经由中，CUDA代码当先被编译为PTX代码，PTX代码再被编译为指标GPU架构的机器码（SASS，Streaming ASSembler）。

CUDA起到了提供高档编程接口和器用链的作用，不错简化竖立者的责任。而PTX动作中间层，万宝优配充任高档说话和底层硬件之间的桥梁。

另外，这种两步编译经由也使得CUDA纪律具有跨架构的兼容性和可移植性。

反过来说，像DeepSeek这种平直编写PTX代码的作念法，当先不仅很是复杂，也很难移植到不同型号的GPU。

有从业者暗示，针对H100优化的代码移动到其他型号上可能收尾打扣头，也可能压根不责任了。

是以说，DeepSeek作念了PTX级别的优化不料味着全齐脱离了CUDA生态，但如实代表他们有优化其他GPU的才智。

事实上，咱们也能看到DeekSeek依然与AMD、华为等团队抽象互助，第一时候提供了对其他硬件生态的守旧。

One More Thing

还有东谈主建议，如斯一来，让AI擅长编写汇编说话是AI自我改变的一个标的。

咱们不知谈DeepSeek里面是否使用AI援救编写了PTX代码——

然则如实刚刚见证DeepSeek-R1编写的代码显赫晋升大模子推理框架的运行速率。

Llama.cpp名目中的一个新PR恳求，使用SIMD指示（允许一条指示同期科罚多个数据）显赫晋升WebAssembly在特定点积函数上的运行速率，提交者暗示：

这个PR中的99%的代码齐是由DeekSeek-R1编写的。我唯独作念的即是竖立测试和编写辅导（经过一些尝试和缺陷）。

是的，这个PR旨在解释大模子咫尺能够编写追究的底层代码，甚而能够优化我方的代码。

llama.cpp名主义独创东谈主查验了这段代码后暗示“比预期的更爆炸”。

本文源流：量子位，原文标题：《“DeepSeek甚而绕过了CUDA”，论文细节再引热议，工程师灵魂发问：英伟达护城河还在吗？》

风险辅导及免责条件阛阓有风险，投资需严慎。本文不组成个东谈主投资建议，也未计划到个别用户相当的投资指标、财务情景或需要。用户应试虑本文中的任何见解、不雅点或论断是否相宜其特定情景。据此投资，职守自夸。

友情链接：