半导体行业专题：ChatGPT对GPU算力的需求测算与相关分析-20230216-中信证券-71页

半导体行业专题 ChatGPT对GPU算力的需求测算与相关分析中信证券研究部雷俊成/王子源/徐涛/杨泽原 2023年2月16日核心观点：单个大模型可带来2万GPU销售量，搜索引擎带来成倍空间核心观点： 1. 短期内GPU增量与市场规模：参考OpenAI算法，假设每日1亿用户，每人进行10条交互，每个问题的回答长度为50词，算力利用率30%，则单个大语言模型（LLM）的日常需求有望带来2.13万片A100的增量，对应市场规模2.13亿美元。假设有5家大企业推出此类LLM，则总增量为10.7片A100，对应市场规模10.7亿美元。 2. 短期服务器增量与市场规模：单个服务器包含8个GPU，因此单个LLM带来2669台服务器需求，对应市场规模3.39亿美元，5家大企业共需要13345台，对应市场规模20亿美元。 3. 长期市场空间：参考谷歌，若每日搜访问30亿次，需要106.74万张A100，对应13.3万台服务器DGX A100，带来市场空间200亿美元。市场规模相关参数/假设 A100单卡算力：19.5TFLOPS/s 日常算力利用率：30%（依据经验） GPU单价：1万美元（A100）每台服务器搭载GPU数量：8 服务器单价：15万美元（DGX Station A100）做LLM模型的企业数量：5（BAT、华为、字节）关键中间变量：GPU与服务器增量短期国内GPU/服务器增量市场规模远期GPU增量空间 1亿用户所需GPU数量：21348（A100） 1亿用户带来国内GPU总市场规模：2.13亿美元谷歌+LLM所需GPU数量：1067415（A100）近期单日交互+训练总算力1.08E+10TFLOPS A100单卡算力19.5T/s 算力利用率30% 1亿用户所需服务器数量：2669（DGX A100）一个LLM模型所需GPU数量：21348（A100）远期总算力需求：5.4 E+11 TFLOPS GPU单价：1万美元（A100） A100单卡算力：19.5TFLOPS/s 1亿用户带来国内服务器市场规模：3.39亿美元一个LLM模型所需GPU数量：21348（A100）一个LLM所需服务器数量：2669 每台服务器搭载GPU数量：8 服务器单价：15万美元（A100） 5家企业对应10.7万片A100、1.33万台服务器 5家企业对应10.7亿美元GPU、20亿美元服务器算力利用率：30% 谷歌+LLM所需服务器数量：133427（GPU/8）注：远期由于更高算力的GPU出现或更高效的计算方式，对应市场空间可能变化。资料来源：Raconteur，OpenAI：Language Models are Few-Shot Learners，NVIDIA官网，Amazon，中信证券研究部 1 核心观点      技术差距：GPGPU的核心壁垒是高精度浮点计算及CUDA生态。从高精度浮点计算能力来看，国内GPU产品与国外产品的计算性能仍或有一代以上差距；在软件和生态层面与英伟达CUDA生态的差距则更为明显。  AI计算GPU领域，国内壁仞科技发布的BR100产品在FP32单精度计算性能上实现超越NVIDIA A100芯片，但是不支持FP64双精度计算；天数智芯推出的天垓100的 FP32单精度计算性能实现超越A100芯片，但是在INT8整数计算性能方面却低于A100；海光推出的DCU实现了FP64双精度浮点计算，但是其性能为A100的60%左右，大概相当于其4年前水平。因此，从高精度浮点计算能力来看，国内GPU产品与国外产品的计算性能仍或有一代以上差距。  但是，GPU不仅在硬件上需要提升算力，软件层面对于GPU的应用和生态布局尤其重要，英伟达凭借CUDA构建生态壁垒占领全球GPU市场90%的份额。目前国内企业多采用开源的OpenCL进行自主生态建设，但这需要大量的时间进行布局；我们对比AMD从2013年开始建设GPU生态，近10年时间后用于通用计算的ROCm开放式软件平台才逐步有影响力，且还是在兼容CUDA的基础上。因此我们认为国内厂商在软件和生态层面与英伟达CUDA生态的差距较计算性能更为明显。  虽然目前国内产品的计算性能和软件生态实力与国际厂商还有差距，但是，国内厂商依然在奋起直追，努力实现GPGPU的国产化突破。我们认为长久来看，美国对中国高端GPU的禁售令反而给国产GPGPU和AI芯片厂商带来快速发展的机会。  短期来看，我们认为对高端通用计算GPU的禁令可能会影响英伟达和AMD的GPU产品在中国的销售，中国AI计算、超级计算和云计算产业进步受到一定的阻碍。可使用英伟达和AMD还没有被禁止的及国产厂商的中高计算性能CPU、GPU、ASIC芯片等替代。  长期来看，国产CPU、GPU、AI芯片厂商受益于庞大的国内市场，叠加国内信创市场带来国产化需求增量，我们预期国内AI芯片的国产化比例将显著提升，借此机会进行产品升级，逐渐达到国际先进水平，突破封锁。对于国内厂商，建议重点关注实现自主创新，打造自主生态体系，打磨产品实现稳定供货的公司。  重点关注能够实现GPU领域的自主创新，实现架构、计算核、指令集及基础软件栈的全自研的设计公司。  同时，不止成功点亮，要能满足测试、客户适配、稳定供货等一系列要求，成功量产并实现规模应用，实现GPGPU的国产替代。建议关注：  国内企业：1）芯片：龙芯中科（国内PC CPU龙头，自主研发GPGPU产品）、海光信息（国内服务器CPU龙头，推出深度计算处理器DCU）、景嘉微（国内图形渲染GPU龙头）、寒武纪（国内ASIC芯片龙头）、澜起科技（国内服务器内存接口芯片龙头）；2）PCB：胜宏科技、兴森科技、沪电股份；3）先进封装：通富微电、甬矽电子、长电科技、长川科技等。  海外企业：英伟达（全球GPU龙头）、AMD（全球CPU/GPU领先厂商）、英特尔（全球CPU龙头）、美光（全球存储芯片龙头）。风险因素：用户拓展不及预期风险，AI技术及新产品开发发展不及预期风险，外部制裁加剧风险，宏观经济需求下行风险。 2 相关上市公司 ChatGPT相关上市公司及近期涨跌幅（截至2023年2月14日）分类 CPU GPU AI芯片 FPGA DPU IP AI SoC PCB 先进封装存储公司名代码龙芯中科海光信息中科曙光英特尔 AMD 景嘉微英伟达寒武纪-U 澜起科技 Mobileye 紫光国微复旦微电安路科技-U 左江科技芯原股份-U 瑞芯微晶晨股份富瀚微兴森科技胜宏科技生益电子沪电股份长电科技通富微电甬矽电子华峰测控长川科技美光 688047.SH 688041.SH 603019.SH INTC.O AMD.O 300474.SZ NVDA.O 688256.SH 688008.SH MBLY.O 002049.SZ 688385.SH 688107.SH 300799.SZ 688521.SH 603893.SH 688099.SH 300613.SZ 002436.SZ 300476.SZ 688183.SH 002463.SZ 600584.SH 002156.SZ 688362.SH 688200.SH 300604.SZ MU.O 资料来源：Wind，中信证券研究部市值（亿元人民币） 488.78 1,235.85 425.88 8,049.41 9,134.63 381.51 36,527.90 342.62 713.46 2,343.44 1,032.70 443.24 283.43 136.25 308.66 368.62 348.41 152.06 205.11 155.63 94.00 294.93 513.58 334.58 112.76 276.32 289.65 4,470.81 ChatGPT 2022年11月30日上线至今涨跌幅 49% 28% 24% -4% 7% 45% 29% 35% -7% 50% -8% -9% 13% 4% 30% 14% 12% 18% 1% 28% 11% 23% 15% 28% -1% 23% -17% 5% 2023年初至今涨跌幅 43% 33% 31% 9% 28% 54% 49% 57% 0% 22% -8% -1% 10% 2% 41% 28% 20% 32% 25% 39% 21% 31% 25% 34% 27% 10% 8% 20% 3 CONTENTS 目录 1. 2. 3. 4. 5. ChatGPT是什么——OpenAI开发的聊天机器人，拥有创造能力 GPGPU是什么 GPGPU的壁垒是什么 GPGPU主要应用场景国内GPGPU发展水平 4 1.1 生成式AI：实现创造，部分领域的能力超越人类的基准水平  不同于分析式AI只能做些分析型或机械式的认知计算，生成式AI可以创造有意义并具备美感的东西，而且在某些情况下，其生成的结果可能比人类手工创造的还要好。   机器可以分析数据，并针对不同用例需求找到相应的规律，且在不断迭代，变得越来越聪明，这种机器被称为“分析式人工智能” （Analytical AI），或者传统AI。机器并非如之前那样仅分析已有的数据，而是创造了全新的东西，这一新型的AI被称为“生成式人工智能”（Generative AI）。 2017年谷歌推出一种用于自然语言理解的新型神经网络架构——Transformers模型，不但能生成质量上乘的语言模型，同时具有更高的可并行性，大大降低了所需的训练时间。这些小样本学习模型，可以更容易地针对特定领域做定制修改。  2015-2020年，用于训练这些模型的计算量增加了6个数量级，其表现在手写、语音和图像识别、阅读理解和语言理解方面超过了人类的基准水平。随着AI模型逐渐发展壮大，已经开始超越人类的基准水平资料来源：《机器学习三个时代的计算趋势》——Sevilla等人，arXiv，2022，《生成式AI：充满创造力的新世界》——红杉汇内参微信公众号生成式AI的应用格局资料来源：《生成式AI：充满创造力的新世界》——红杉汇内参微信公众号 5 1.2 预训练模型：大模型提高准确率，2018年开始步入快车道  预训练模型使得模型的训练可以被复用，大幅降低训练成本，但是前期需要大量的数据进行预训练。   预训练模型是一种迁移学习的应用，对句子每一个成员的上下文进行相关的表示，通过隐式的方式完成了语法语义知识的