国产GPU，谁能突破算力封锁，推动中国AI高速生长

2023-03-30 16:17 文章来源：作者：网络阅读（）

克日，英伟达在美国加州总部举行了面向软件开发者的年度手艺峰会GTC。在会上，英伟达首创人黄仁勋披露了最新人工智能相关的软硬件手艺，并在演说中将“AI的iPhone时刻”这句话重复强调了三遍。

事实上，英伟达与AI可谓是缘分不浅，停止现在，英伟达的GPU芯片正在为全球绝大多数的人工智能系统提供最基础的算力支持，而ChatGPT母公司OpenAI，即是依附着10000片英伟达的GPU芯片，乐成训练出了GPT-3大语言模子，震惊了全天下。

那么，提供了全球高端人工智能泰半算力的英伟达CEO黄仁勋，为何在此次大会中将ChatGPT带来的转变称为“人工智能的iPhone时刻”？在“人工智能的iPhone时刻”背后，又是哪些基础硬件设施与相关的企业支持着AI行业不停前行呢？

本文将以英伟达公布会为切入点，先容海内GPU行业相关企业的生长现状，进而讲述为何算力缺乏的缘故原由，以期为读者展现GPU行业的现状与未来生长。

01 大秀肌肉的英伟达与火种初现的中国厂商

作为全球算力硬件当之无愧的龙头公司，英伟达每年的GTC大会都吸引着众多尖端科技事情者的眼光，尤其是在2023这个ChatGPT的出圈元年，作为人工智能硬件的主要提供商，英伟达GTC的曝光量更是获得了显著的增添。

而在此次大会中，英伟达展示了其针对训练、推理、云服务等多维度的ChatGPT领域结构。

在AI训练领域，英伟达助力算力延续提升，赋能大模子突破。

基于GPU并行盘算的特征以及英伟达在AI领域的前瞻结构，英伟达在AI训练领域拥有*优势，同时十分重视人工智能赛道，不停提升其人工智能硬件的盘算能力。

而且，随着GPT大模子对于算力需求的提升，全球科技巨头均已最先或即将搭载英伟达的H100产物：Meta已在内部为团队部署了基于H100的Grand Teton AI超级盘算机；OpenAI将在其Azure超级盘算机上使用H100来为其延续的AI研究提供动力。

而在此次GTC 2023上，基于Hopper架构及其内置Transformer Engine，英伟达H100针对天生式AI、大型语言模子（LLM）和推荐系统的开发、训练和部署都举行了优化，行使FP8精度在LLM上提供较上一代A100更快的训练及推理速率，助力简化AI开发。

而在AI推理领域，AI视频、图像天生、大型语言模子部署及推荐系统也在加速部署。

在今年的GTC 2023中，英伟达推出了全新的GPU推理平台：基于加速AI视频、图像天生、大型语言模子部署和推荐系统，形成了4种设置、1个系统架构和1个软件栈的产物系统。

其中H100 NVL GPU受到了市场较为普遍的关注：英伟达在GTC 2023果然示意，该产物将配备双GPU NVLink，或将实现比现用A100快10倍的速率，可处置拥有1750亿参数的GPT-3大模子，并支持商用PCIe服务器扩展，适用于训练大型语言模子。

黄仁勋称，相较于现在*可以实时处置ChatGPT的HGX A100，一台搭载四对H100和双NVLink的尺度服务器能将速率提升10倍，而且还可以将大语言模子的处置成本降低一个数目级。黄仁勋也将NVIDIA DGX H100称作全球客户构建AI基础设施的蓝图。

黄仁勋也示意，ChatGPT仅仅是人工智能*个出圈的应用，也只是一个起点。在人工智能浪潮来临之时，全球局限内必将泛起一批进武士工智能大模子硬件的企业。但英伟达在短期内拥有*的手艺优势，未来也将延续发力。

毫无疑问，英伟达公布的最新硬件对于人工智能企业来说，是解决算力问题的*福音，但对于中国企业来说，这却并非是一则喜讯。

2022年8月，美国羁系机构以国家平安为由，对NVIDIA A100、H100两款GPU实行禁令，不得销售给中国企业，意在通过“卡脖子”的方式来降低海内AI模子的传输速率，拖延中国人工智能生长。

从久远来看，未来大模子的研发和部署是一定趋势，而每个大模子训练和部署的背后，都有几万个 GPU 芯片在支持。因此，未来随着这方面的研发和应用的普及，通用 GPU 市场需求将会迎来发作式增进。

而中国能获得的*替换品，则是英伟达*中国的A800芯片，也是A100的“阉割版”，其传输速率只有A100的70%，而在H100大规模供货后，中国和美国的AI公司的差距则将进一步拉大。

高性能的GPU，已经成为了限制中国AI行业生长的最直接因素之一。

但也正是在算力需求激增、硬件供应被切断、难以真正“市场化”的靠山下，海内才涌现了一批GPU的“火种”企业。

这些新兴的企业中，焦点团队基本都是业内*专家，许多手艺专家来自英伟达、AMD 等国际龙头企业。初创企业们接连完成新融资，并陆续推出新品加速商业化。

首先，是借军工信息化之风迈向周天下产替换的GPU企业——景嘉微。

景嘉微的手艺焦点团队来自于国防科技大学，公司营业也是依赖军工营业图形显控模块芯片起身，延续投入研发结构全自主研发GPU芯片的图形显控传统营业。

在后续的生长中，随同着国家专项基金的支持与企业芯片研发的推进，公司的GPU芯片营业逐渐“开枝散叶”，渗透入了民用市场，在“8 N”个行业中举行着快速的生长。

停止现在，公司是海内首家乐成研制国产GPU芯片并实现大规模工程应用的企业，也是海内*具备完全自主研发GPU能力并产业化的上市公司，现在已拥有267项专利，在图形显控领域走在行业前线。

而公司的产物，也正在从“能用”迈向“好用”的阶段。

凭证景嘉微2021年通告，公司研发的JM9系列图形处置芯片将支持OpenGL 4.0、HDMI 2.0等接口，以及H.265/4K 60-fps 视频解码。其焦点频率至少为1.5GHz，配备8GB显存，浮点性能约 1.5 TFlops，与英伟达GeForce GTX 1050 相近。

而在与公司的交流中，相关职员示意，之前的7系列分为多个版本，凭证客户的需求、价钱和价位蒙受能力来配合出货，以是取得了较大的乐成。而9系现在还在谈价的历程中，也信托9系列会促使全球显卡价钱的下行。

而且对方还示意，公司对标的是外洋竞争对手几年前的产物，而当利润低于一定水平后，外洋的公司会自动放弃市场。公司也会从相对的低端做起，随着手艺的提高，逐渐追赶英特尔、AMD的措施。

只管目远景嘉微的产物与国际尖端GPU存在着极大的差距，但作为一颗由中国企业完全自力研发、接纳正向设计、具有自主知识产权的GPU，已经迈出了国产自主蹊径上的一大步，成为中国算力的“希望之火”。

接着，是依赖CPU、DCU双轮驱动，深度受益国产化替换的企业——海光信息。

首个国产新冠药停产，也好

海光信息确立于2014年，主营营业为研发、设计和销售应用于服务器、事情站等盘算、存储装备中的高端处置器，现在拥有海光通用处置器（CPU）和海光协处置器（DCU）两条产物线。

而其中，DCU作为专注通用盘算、单纯提供人工智能算力的产物，成为了企业新的业绩增进极。

海光信息于2018年切入DCU领域，坚持自主研发，现在已经乐成掌握高端协处置器微结构设计等焦点手艺，并以此为基础推出了性能优异的DCU产物，具备壮大的盘算能力和高速并行数据处置能力，性能基本能与国际同类型主流产物同台竞技。

选取公司深算一号产物和国际*的GPU厂商英伟达的高端GPU产物（A100）及AMD高端GPU产物（MI100）举行对比，在典型应用场景下，海光信息深算一号单颗芯片的指标基本到达国际上同类型高端产物的水平。

对标现在国际主流人工智能企业都在使用的NVIDIA A100产物，海光DCU单芯片产物基本能到达其70%的性能水平，同时，公司DCU产物的片间互联性能尚有较大的提升空间。

而在硬件之外，海光信息也为打破CUDA生态专门制作了软件设置：海光 DCU 协处置器周全兼容 ROCm GPU盘算生态，由于ROCm与CUDA的高度相似性，CUDA用户可以以较低价值快速迁徙至 ROCm平台，因此，海光DCU协处置器能够较好地适配、顺应国际主流商业盘算软件和人工智能软件，软硬件生态厚实。

此外，海光还努力介入开源软件项目，加速了DCU产物的推广速率，并乐成实现了与GPGPU主流开发平台的兼容。

近些年来，在海内诸多创企的起劲下，GPU硬件的突破喜报频传，但现在我国CPU厂商距离英伟达等国际头部厂商的距离仍然尚有很远。

以是对于中国GPU企业来说，做好国产的Plan B，再钻营生长，或许才是准确的偏向。

但可以确定的是，随着科技的提高，中国GPU算力行业一定要、也一定会脱节被“卡脖子”的问题，让中国的AI企业用上中国的GPU，打赢这场算力之战。

02 算力，为何云云紧缺？

上文谈到了英伟达的算力“肌肉”展示与国产CPU的迎头遇上，那么，当前人工智能企业的算力需求事实几何？为何“AI芯片”*股英伟达，能在短短不到四个月的时间内，股价暴涨83%？

从算力需求端来看，人工智能模子的参数目随换代出现着指数型增进的态势。

以GPT-3.5为例，作为一种大型语言模子，有着海量的参数。纵然OpenAI现在没有宣布ChatGPT所使用的 GPT-3.5 的相关数据，但由图可得，随着新模子的推出，参数目需求出现翻倍式增进。

而在参数目的增添之外，ChatGPT的下一代GPT-4还可以通过多模态来拓展应用场景。

GPT-4作为一个多模态大模子（接受图像和文本输入，天生文本），相比GPT-3.5可以更准确地解决难题，具有更普遍的知识息争决问题的能力，文本处置能力更是到达了ChatGPT上限的8倍。

不外，随同着人工智能的成熟而增进的，自然是其背后的算力需求：OpenAI预计，人工智能科学研究要想取得突破，所需要消耗的盘算资源每3~4个月就要翻一倍，以是泛起了算力需求爆炸式增添的情形。

而在人工智能企业需求大幅增进的情形下，算力的供应却逐步放慢了脚步。

在半导体行业中，一直有着这样一种说法：“当价钱稳固时，集成电路上可容纳的元器件的数目，约每隔18-24个月便会增添一倍，性能也将提升一倍。换言之，每一美元所能买到的电脑性能，将每隔18-24个月翻一倍以上。这一定律展现了信息手艺提高的速率。”

这就是我们所熟知的摩尔定律，现实上，人人身边最直观的感受即是每也许两年左右，你的电脑或手机就要面临镌汰的田地了，尤其是当今的智能手机，基本主流设置的手机，2年就得准备换新了。

然则，随同着半导体制程的延续演进，短沟道效应以及量子隧穿效应带来的泄电、发烧等问题愈发严重，追求经济效能的摩尔定律已经日趋放缓，甚至靠近失效。

也就是说，哪怕在需求稳固的情形下，算力基础设施就已经该走上增添数目的赛道了，更况且算力需求正在以指数爆炸的速率增进。

因此， AI 模子训练算力需求增进与摩尔定律泛起了极不匹配的征象，这势必推动对算力基础设施需求的快速增进，而这，也是英伟达等众多GPU硬件企业被资金追捧的基本缘故原由——他们手中握着开启AI时代的金钥匙。

03 写在最后

或许正如黄仁勋所说，“人工智能的iPhone时刻”已经来临，走向下一个时代的路，早就摆在了众人眼前。

然则众多最尖端的人工智能企业，还在为AI时代的“入场券”而发愁犯难，高昂的算力价钱、永远缺货的高端GPU，成为了企业*的软肋。

由此可见，对于未来的数字经济而言，算力等基础设施的舞台将会成为AI企业们甚至国家之间的*个角力场。正如全球著名投资机构a16z评价ChatGPT时所说，“基础设施服务商可能才是*赢家，获得最多的财富。”

包罗AI在内的新手艺在取得突破后，要想走入“寻常国民家”，实现大规模的部署和应用，算力的平安、高速、高可靠、高性能等能力缺一不能。甚至可以说，算力的增强真正驱动了数字经济的增进。

而对于中国企业来说，短期的封锁或许是逆境，但从另外一个角度来想也未必不是时机，以景嘉微、海光信息为代表的的中国高算企业，也必将在层层封锁中杀出，以*的产物，推动中国滔滔的数字化大潮！

参考资料：

1.《全球AI大模子浪潮汹涌，算力芯片有望迎来发作式需求》，东方财富证券；

2.《走进“芯”时代系列深度之六十：“AI算力GPU”-AI产业化再加速，智能大时代已开启》，华金证券；

3.《ChatGPT对GPU算力的需求测算与相关剖析》，中信证券；

4.《AI算力产业链梳理——手艺迭代推动瓶颈突破，AIGC场景增多驱动算力需求提升》，安信证券

国产GPU，谁能突破算力封锁，推动中国AI高速生长

猜您喜欢

开户通道