AI大模型引发科技革命-20230331-国泰君安-33页

股票研究 [Table_Invest] 评级： [Table_MainInfo] [Table_Title] 2023.03.31 AI 大模型引发科技革命行业专题研究增持上次评级：增持细分行业评级 [Table_subIndustry] 李沐华(分析师) 李雪薇(分析师) 010-83939797 021-38031656 limuhua@gtjas.com lixuewei@gtjas.com 证书编号 S0880519080009 S0880520120006 本报告导读：随着大模型底层架构初步成熟，以大模型作为基础模型支撑 AI产业应用逻辑已然明 [Table_DocReport] 相关报告朗。在国内外各大模型百花齐放背景下，模型训练优化与产业落地将成为新战场。计算机《文心千帆发布， AI 应用发展有望超预期》 2023.03.28 摘要：证券研究报告计算机 [Table_industryInfo] [Table_Summary]  MaaS 产业趋势明朗，海外大模型角逐激烈。Transformer 基于“预训练”和“大规模”两个主要手段，使得千亿参数规模的大模型成为可能。同时，随着预训练模型趋向于大一统以及不同模态交互日益成熟，基于标准化的大模型，有助于为大范围产业化提供基础和可能，从而助力实现 MaaS 生态；大型语言模型研究的发展有三条技术路线：Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的 GPT 技术路线。同时，各个大语言模型路线各有聚焦， GPT 模式在生成类任务表现最优。 OpenAI 正是基于 Transformer 基础模型推出了 GPT 系列大模型，GPT 模型依托于 Transformer 解除了顺序关联和对监督学习的依赖性的前提，同时对基础模型架构的更改最小，且进行了显著简化。最终 GPT-4 的发布成为 OpenAI 在深度学习扩展方面的里程碑， GPT-4 已经可被视为通用人工智能的早期版本，除了生成能力，GPT-4 还具有解释性、组合性和空间性能力。  国内大模型赶超迅速，各玩家布局各有侧重。百度经过 11 年积累了全栈人工智能技术，从芯片层、框架层、模型层到应用层，实现 AI 应用场景全覆盖。同时，属国内独家的从软件到 AI 芯片全栈打通的 Paddle 训练框架生态，结合其传统业务优势，助力百度获得海量中文问答式搜索反馈数据，形成“数据飞轮”效应；腾讯自发布混元 AI 大模型以来，持续探索改进大模型优化策略，打造高效率开发工具，降低模型训练成本。而且混元商业化拓展迅速，大模型效益得到验证；阿里在国内率先探索通用统一大模型，快速提升参数量级，并实施开源来释放大模型应用潜力；华为依托昇腾 AI 打造的全栈使能体系，聚焦以视觉为主的数字化场景，开启工业化 AI 行业适配。  随着算力及硬件性能需求大幅提升，模型训练开始多路径优化。大模型海量参数训练所需算力日益攀升，长时间的 GPU 集群训练任务，对网络互联底座的性能、可靠性、成本等各方面都提出极致要求，而 GPU 硬件发展的速度难以满足 Transformer 模型规模发展的需求。因而国内外业界厂商纷纷提出各自的大模型训练提效方案。  投资建议：AI 的技术更迭以及应用场景的大幅拓展正推动着人工智能产业全新的发展，我们基于核心应用场景视角，推荐拥有垂直场景优势的科大讯飞、金山办公、凌志软件、杰创智能。  风险提示：大模型应用不及预期风险，竞争加剧风险。请务必阅读正文之后的免责条款部分计算机《浪潮已到，AI 产业化快速推进》 2023.03.26 计算机《大模型将彻底改变 AI 模型的开发模式》 2023.03.19 计算机《华为官宣 MetaERP，重塑新生态》 2023.03.18 计算机《微软发布 Copilot，彻底改变人类办公方式》 2023.03.17 行业专题研究目录 1. 大模型构筑 AI 基石，MaaS 未来可期 ........................................... 3 1.1. NLP 五级进阶，大模型应运而生 ............................................ 3 1.2. 从 CNN 到 Transformer，大模型底层架构显著优化................. 3 1.3. 大模型技术路线各有侧重，MaaS 已成产业趋势 ..................... 5 2. GPT 系列一路领先，海外大模型角逐激烈.................................... 6 2.1. OpenAI:GPT 系列大模型一骑绝尘，智能化程度提升迅速 ....... 6 2.2. 微软：与 OpenAI 深度绑定，占得行业先机 .......................... 10 2.3. 谷歌：扎根基础模型研发，引领技术革新 ............................ 13 3. 国内大模型蓄力已久，赶超动能强劲 ......................................... 16 3.1. 百度：全栈技术积累颇丰，AI 应用场景全覆盖 .................... 16 3.2. 腾讯：优化大模型训练，加速大模型应用落地 ..................... 20 3.3. 阿里：聚焦通用底层技术，开源释放大模型应用潜力 ........... 21 3.4. 华为：昇腾 AI 打造全栈使能体系，定位行业级 CV 应用 ...... 23 4. 算力及硬件承压，模型训练多路径优化 ...................................... 25 4.1. 海量参数开路，算力瓶颈渐至 .............................................. 25 4.2. 模型日益复杂，硬件需求承压 .............................................. 27 4.3. 聚焦技术路线优化，突破模型算力瓶颈 ................................ 28 5. 投资建议 ................................................................................... 31 6. 请务必阅读正文之后的免责条款部分风险提示 ................................................................................... 31 2 of 33 行业专题研究 1. 大模型构筑 AI 基石，MaaS 未来可期 1.1. NLP 五级进阶，大模型应运而生从基于规则到基于人的意识，大型语言模型是技术进步的必然产物。自然语言处理发展到大型语言模型的历程可分为五个阶段：规则、统计机器学习、深度学习、预训练、大型语言模型。考虑到机器翻译是 NLP 中难度最高、综合性最强的任务，可借助该功能来论述不同技术阶段的典型特点。从 1956 年到 1992 年，基于规则的机器翻译系统在内部把各种功能的模块串到一起，由人先从数据中获取知识，归纳出规则后教给机器，然后由机器执行这套规则，该阶段为规则阶段；从 1993 年到 2012 年是统计机器学习阶段，在此期间，机器翻译系统可拆成语言模型和翻译模型，该阶段相比上一阶段突变性较高，由人转述知识变成机器自动从数据中学习知识，当时人工标注数据量在百万级左右；从 2013 到 2018 年，进入深度学习阶段，其相比于上一阶段突变性较低，从离散匹配发展到 embedding 连续匹配，模型变得更大，标注数据量提升到千万级；预训练阶段存在于 2018 年到 2022 年，跟之前比较，最大变化是加入了 NLP 领域杰出的自监督学习，将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段，将预训练数据量扩大 3 到 5 倍，典型技术栈包括 Encoder-Decoder、Transformer、Attention 等。图 1 从基于规则到遵循人的价值观，大型语言模型变迁由来已久数据来源：北京 AIGC 论坛，智东西，国泰君安证券研究大模型阶段在数据标注、算法、人机关系三方面的性能均有跨越式提升。从 2023 年起开始进入大模型阶段，该阶段的突变性很高，已经从专用任务转向通用任务或是以自然语言人机接口的方式呈现，旨在让机器遵循人的主观意志。在数据标注方面，大模型已经从原来需要大量标注数据进化到运用海量非标注数据，越来越多数据被利用起来，人的介入越来越少，未来会有更多文本数据、更多其它形态的数据被模型运用。在算法方面，大模型的表达能力越来越强、规模越来越大，自主学习能力越来越强，从专用向通用趋势显著。 1.2. 从 CNN 到 Transformer，大模型底层架构显著优化从 CNN 到 RNN 再到 LTSM，语言处理性能得到有效提升。早期 NLP注重语请务必阅读正文之后的免责条款部分 3 of 33 kVcXdVuWsPqNnQ9P9R6MtRqQnPsReRmMsRkPmPmN8OqRtMNZrRtPNZmMsP 行业专题研究法分析，通过设计语法方向实现句子分析。伴随着语料数据复杂化、多样化，句子分析难度也提升。随后卷积神经网络（CNN）引发计算机视觉领域的变革，因此 CNN 也逐步用在 NLP 上。但传统神经网络擅长图像识别，考虑到语言的顺序属性，直接进行文字处理则效果有限。所以，随后循环神经网络（RNN）模型应用铺开，RNN 将顺序作为权重因子，实现了较好的效果。但 RNN 单元的记忆力短和梯度不稳定，因而用于长序列时也有一定局限性。后来长短期记忆网络（LTSM）成为关注点，一定程度解决了 RNN 的痛点，但针对长段落的处理能力仍需提升。 Transformer 模型可以替代当前的递归模型，消减对输入输出的顺序依赖。Transformer 模型作为完全基于注意力机制的新神经网络架构，在技术特征上主要体现为可以并行、速度更快。过往要训练一个深度学习模型，必须使用大规模的标记好的数据集合来训练，这些数据集合需要人工标注，成本极高。在 Transformer 下，通