英伟达:帝国裂痕一条条-国际期货

2023-11-01 15:45 文章来源: 作者:网络 阅读(

外界常有这样一种错觉,由于英特尔CPU卖的好就将其归于一家乐成的硬件公司,而事实上,英特尔统治桌面处置器的元勋是降生于1978年的X86架构。

同样的错觉在英伟达身上也有。

英伟达之以是能够垄断人工智能训练芯片市场,CUDA架构*是幕后元勋之一。

这个降生于2006年的架构,已经涉及盘算机盘算的各个领域,险些被塑造成了英伟达的形状。航空航天、生物科学研究、机械和流体模拟及能源探索等领域的研究,80%在CUDA的基础上举行。

而在最火爆的AI领域,险些所有的大厂都在准备Plan B:谷歌、亚马逊、华为、微软、OpenAI、百度……谁也不想让自己的未来攥在别人手中。

创业服务咨询机构Dealroom.co宣布过一组数据,在这波天生式AI的热浪中,美国获得了全球投融资的89%,而在AI芯片的投融资中,中国AI芯片投融资天下*,跨越美国两倍。

也就是说,只管中 美企业在大模子的生长方式和阶段都存在诸多差异,但在掌控算力这件事,人人却显得格外一致。

01 为什么CUDA有这种魔力?

2003年,英伟达为了与推出4核CPU的英特尔竞争,最先着手生长统一盘算装备架构手艺,也就是CUDA。

CUDA的初衷是为GPU增添一个易用的编程接口,闪开发者无需学习庞大的着色语言或者图形处置原语。英伟达最初的想法是为游戏开发者提供一个图形盘算领域的应用,也就是黄仁勋口中的"make graphics programmable"。

不外CUDA推出后一直找不到要害应用,也缺少主要客户支持。而且英伟达还要破费大笔款项来开发应用、维持服务并推广与行销,到2008年遭遇金融风暴,显卡销售欠好的英伟达营收大跌,股价一度跌到只剩1.5美元,比AMD最惨的时刻还要惨。

直到2012年,Hinton的两个学生用英伟达的GPU加入了一个叫做ImageNet的图像识别速率竞赛。他们使用GTX580显卡,行使CUDA手艺举行训练,效果算出的速率跨越第二名数十倍,正确度也比第二名高10%以上。

让业内震惊的不只是ImageNet模子自己。这个需要1400万张图片、总计262万万亿次浮点运算训练的神经网络,一个星期的训练历程中仅用了四颗GTX 580。作为参考,谷歌猫用了1000万张图片、16000颗CPU和1000台盘算机。

这次竞赛不仅是AI的一次历史转折,也为英伟达打开了突破口。英伟达最先与业界相助推动AI生态,推广开源AI框架,并与Google、Facebook等公司相助推动TensorFlow等AI手艺生长。

这即是完成了黄仁勋口中的第二步,"open up GPU for programmability for all kinds of things"。

当GPU的算力价值被发现后,大厂也蓦地醒悟,英伟达此前数年迭代和铺垫的CUDA,已然成为AI绕不开的一堵高墙。

为了筹建CUDA生态,英伟达为开发者提供了厚实的库和工具,如cuDNN、cuBLAS和TensorRT等,利便开发者举行深度学习、线性代数和推理加速等义务。此外,英伟达还提供包罗CUDA编译器和优化器在内的完整开发工具链,使开发者能够更利便地举行GPU编程和性能优化。

与此同时英伟达也与许多盛行的深度学习框架(如TensorFlow、PyTorch和MXNet)慎密相助,为CUDA提供了在深度学习义务中的显著优势。

这种“扶上马,送一程”的奉献精神,使英伟达仅用了两年半时间,就将CUDA生态的开发者数目翻了一倍。

这还不够,已往十余年里英伟达将CUDA的教学课程推广到跨越350所大学,平台内有专业的开发者和领域专家,他们通太过享履历息争答疑难问题,为CUDA的应用提供了厚实的支持。

更要害的是,英伟达深知硬件作为护城河的缺陷在于没有用户粘性,于是将硬件与软件捆绑,GPU渲染要用CUDA、AI降噪要用OptiX、自动驾驶盘算需要CUDA……

只管英伟达现在依附GPU NVlink CUDA垄断了AI算力90%的市场,但帝国的裂痕已经不止一条了。

一条条裂痕

AI厂商苦CUDA久矣,并不是危言耸听。

CUDA的神奇之处就在于它处在软硬连系的要害位置,对软件来说它是整个生态的基石,竞争对手难以绕过CUDA去兼容英伟达的生态;对硬件来说,CUDA的设计基本就是英伟达硬件形态的软件抽象,基本每个焦点观点都和GPU的硬件观点相对应。

那么对于竞争对手来说,就只剩两个选择:

1 绕开CUDA,重修一套软件生态,这就要直面英伟达用户粘性的伟大挑战;

2 兼容CUDA,但也要面临两个问题,一是若是你的硬件蹊径和英伟达纷歧致,那么就有可能实现的低效且难受,二是CUDA会追随英伟达硬件特征演进,兼容这也只能选择追随。

自己不愿打工,那就生孩子替你打工

但为了脱节英伟达的钳制,两种选择都有人实验。

2016年,AMD推出的基于开源项目的GPU生态系统ROCm,提供HIP工具完全兼容CUDA,就是一种追随蹊径。

但由于工具链库资源匮乏、开发和迭代兼容性价值较大等掣肘,使ROCm生态难以壮大。在Github上,孝顺CUDA软件包客栈的开发者跨越32600位,而 ROCm只有不到600个。

走兼容英伟达CUDA蹊径的难点在于,其更新迭代速率永远跟不上CUDA而且很难做到完全兼容:

1 迭代永远慢一步:英伟达GPU在微架构和指令集上迭代很快,上层软件客栈的许多地方也要做响应的功效更新。但AMD不能能知道英伟达的产物蹊径图,软件更新永远会慢英伟达一步。例如AMD有可能刚宣布支持了CUDA11,然则英伟达已经推出CUDA12了。

2 难以完全兼容反而会增添开发者的事情量:像CUDA这样的大型软件自己架构很庞大,AMD需要投入大量人力物力用几年甚至十几年才气追遇上。由于难免存在功效差异,若是兼容做欠好反而会影响性能(虽然99%相似了,然则解决剩下来的1%差异之处可能会消耗开发者99%的时间)。

也有公司选择绕开CUDA,好比2022年1月确立的Modular。

Modular的思绪是尽可能降低门槛,但更像是一种奇袭。它提出“用于提高人工智能模子性能”的AI引擎,通过“模块化”方式解决“当前AI应用栈常与特定硬件和软件耦合”的问题。

为了配合这个AI引擎,Modular还开发了开源编程语言Mojo。你可以把它想象成一个“专为AI而生”的编程语言,Modular用它开发种种工具整合到前面提到的AI引擎里,同时又可以无缝衔接上Python,降低学习成本。

但Modular的问题在于,其所设想的“全平台开发工具”太过理想化。

虽然顶着“逾越Python”的头衔,又有Chris Lattner名声作为背书,但Mojo作为一种新语言,在推广上还需要经由众多开发者的磨练。

而AI引擎要面临的问题就更多,不仅需要与众多硬件公司之间杀青协议,还要思量各平台之间的兼容。这些都是需要长时间的打磨才气完成的事情,到时刻的英伟达会进化成什么样子,生怕没人会知道。

03 挑战者华为

10月17日,美国更新了针对AI芯片的出口管制划定,阻止英伟达等公司向中国出口先进的AI芯片。凭证最新的规则,英伟达包罗A800和H800在内的芯片对华出口都将受到影响。 

此前英伟达A100及H100两款型号限制出口中国后,为中国*的“阉割版”A800和H800就是为了相符划定。英特尔同样也针对中国市场,推出了AI芯片Gaudi2。现在看来,企业们又要在新一轮出口禁令下再举行调整应对。

今年8月,搭载华为自研麒麟9000S芯片的Mate60Pro突然开售,瞬间引发了伟大舆论浪潮,使得险些统一时间的另外一条新闻很快被淹没。

科大讯飞董事长刘庆峰在一个果然流动上罕有亮相,称华为GPU可对标英伟达A100,但条件是华为派出专门事情组在讯飞确立专班事情优化的靠山下。

这种突然的亮相往往都有深条理的意图,虽然没有预知能力但其效用仍是为了应对两个月后的芯片禁令。

华为GPU,也就是升腾AI全栈软硬件平台,全栈包罗5层,自底向上为Atlas系列硬件、异构盘算架构、AI框架、应用使能、行业应用。

基本上可以明晰为华为针对英伟达做了一套平替,芯片层是升腾910和升腾310,异构盘算架构(CANN)对标英伟达CUDA CuDNN焦点软件层。

固然差距不能能没有,有相关从业者总结了两点:

1 单卡性能落伍,升腾910与A100尚有差距,但胜在价钱廉价可以堆量,到达集群规模后整体差距不大;

2 生态劣势简直存在,但华为也在起劲追赶,好比经由PyTorch社区与升腾的相助,PyTorch 2.1版本已同步支持升腾NPU,意味着开发者可直接在PyTorch 2.1上基于升腾举行模子开发。

现在华为升腾主要照样运行华为自家闭环的大模子产物,任何果然模子都必须经由华为的深度优化才气在华为的平台上运行,而这部门优化事情严重依赖于华为。

而在当前靠山下,升腾又具有特殊的主要意义。

今年5月,华为升腾盘算营业总裁张迪煊就已透露,“升腾AI”基础软硬件平台已孵化和适配了30多个主流大模子,我国一半以上的原生大模子是基于“升腾AI”基础软硬件平台打造,包罗鹏程系列、紫东系列、华为云盘古系列等。今年8月,百度也官宣了推进在升腾AI上与飞桨 文心大模子的适配。

04 尾声

在英伟达睁开远大叙事的2006年,没有人以为CUDA会是一个革命性的产物,黄仁勋要语重心长的说服董事会每年投入5亿美金,来赌一个回报期跨越10年的未知,而昔时英伟达的营收也不外30亿美金而已。

但在所有以手艺和创新作为要害词的商业故事里,总有人由于对久远目的的持久坚持而收获伟大的乐成,英伟达和华为都是其中的佼佼者。

上一篇:这个双十一,为何品牌内容营销纷纷押注短剧?
下一篇:TikTok Shop在印尼峰回路转,一场跨境电商的本土化
我要开户 我要开户 软件下载 客户端