“DeepSeek甚而绕过了CUDA”,论文细节再引热议,工程师灵魂发问:英伟达护城河还在吗?
英伟达刚刚从DeepSeek-R1激励的4万亿元暴跌中缓给力来,又濒临新的压力?
硬件媒体Tom‘s Hardware带来开年最新热议:
DeepSeek甚而绕过了CUDA,使用更底层的编程说话作念优化。
这一次是DeepSeek-V3论文中的更多细节,被东谈主挖掘出来。
来自Mirae Asset Securities Research(韩国异日钞票证券)的分析称,V3的硬件效用之是以能比Meta等跨越10倍,不错追想为“他们重新驱动重建了一切”。
在使用英伟达的H800 GPU历练DeepSeek-V3时,他们针对我方的需求把132个流式多科罚器(SMs)中的20个修改成庄重行状器间的通讯,而不是意料任务。
变相绕过了硬件对通讯速率的畛域。
△ DeepSeek-V3 Technical Report
这种操作是用英伟达的PTX(Parallel Thread Execution)说话竣事的,而不是CUDA。
PTX在接近汇编说话的层级运行,允许进行细粒度的优化,如寄存器分派和Thread/Warp级别的更始。
这种编程很是复杂且难以真贵,是以行业通用的作念法是使用CUDA这么的高档编程说话。
换句话说,他们把优化作念到了极致。
有网友暗示,要是有一群东谈主嫌CUDA太慢而使用PTX,那一定是前量化来回员。
一位亚马逊工程师建议灵魂凭空:CUDA是否照旧护城河?这种顶尖践诺室不错有用愚弄任何GPU。
甚而有网友驱动畅念念,要是“新源神”DeepSeek开源了一个CUDA替代决策……
那么事情是否真会如斯?
DeepSeek确切绕过了CUDA?当先要明确的是,金宝配资PTX仍然是英伟达GPU架构中的本事,它是CUDA编程模子中的中间暗示,用于相连CUDA高档说话代码和GPU底层硬件指示。
PTX访佛汇编说话,代码大略长这么:
△来自tinkerd.net
在内容编译经由中,CUDA代码当先被编译为PTX代码,PTX代码再被编译为指标GPU架构的机器码(SASS,Streaming ASSembler)。
CUDA起到了提供高档编程接口和器用链的作用,不错简化竖立者的责任。而PTX动作中间层,万宝优配充任高档说话和底层硬件之间的桥梁。
另外,这种两步编译经由也使得CUDA纪律具有跨架构的兼容性和可移植性。
反过来说,像DeepSeek这种平直编写PTX代码的作念法,当先不仅很是复杂,也很难移植到不同型号的GPU。
有从业者暗示,针对H100优化的代码移动到其他型号上可能收尾打扣头,也可能压根不责任了。
是以说,DeepSeek作念了PTX级别的优化不料味着全齐脱离了CUDA生态,但如实代表他们有优化其他GPU的才智。
事实上,咱们也能看到DeekSeek依然与AMD、华为等团队抽象互助,第一时候提供了对其他硬件生态的守旧。
还有东谈主建议,如斯一来,让AI擅长编写汇编说话是AI自我改变的一个标的。
咱们不知谈DeepSeek里面是否使用AI援救编写了PTX代码——
然则如实刚刚见证DeepSeek-R1编写的代码显赫晋升大模子推理框架的运行速率。
Llama.cpp名目中的一个新PR恳求,使用SIMD指示(允许一条指示同期科罚多个数据)显赫晋升WebAssembly在特定点积函数上的运行速率,提交者暗示:
这个PR中的99%的代码齐是由DeekSeek-R1编写的。我唯独作念的即是竖立测试和编写辅导(经过一些尝试和缺陷)。
是的,这个PR旨在解释大模子咫尺能够编写追究的底层代码,甚而能够优化我方的代码。
llama.cpp名主义独创东谈主查验了这段代码后暗示“比预期的更爆炸”。
本文源流:量子位 ,原文标题:《“DeepSeek甚而绕过了CUDA”,论文细节再引热议,工程师灵魂发问:英伟达护城河还在吗?》
风险辅导及免责条件 阛阓有风险,投资需严慎。本文不组成个东谈主投资建议,也未计划到个别用户相当的投资指标、财务情景或需要。用户应试虑本文中的任何见解、不雅点或论断是否相宜其特定情景。据此投资,职守自夸。