股 票 研 究 [Table_Invest] 评级: [Table_MainInfo] [Table_Title] 2023.03.31 AI 大模型引发科技革命 行 业 专 题 研 究 增持 上次评级: 增持 细分行业评级 [Table_subIndustry] 李沐华(分析师) 李雪薇(分析师) 010-83939797 021-38031656 limuhua@gtjas.com lixuewei@gtjas.com 证书编号 S0880519080009 S0880520120006 本报告导读: 随着大模型底层架构初步成熟,以大模型作为基础模型支撑 AI产业应用逻辑已然明 [Table_DocReport] 相关报告 朗。在国内外各大模型百花齐放背景下,模型训练优化与产业落地将成为新战场。 计算机《文心千帆发布, AI 应用发展有望 超预期》 2023.03.28 摘要: 证 券 研 究 报 告 计算机 [Table_industryInfo] [Table_Summary] MaaS 产业趋势明朗,海外大模型角逐激烈。Transformer 基于“预训 练”和“大规模”两个主要手段,使得千亿参数规模的大模型成为可 能。同时,随着预训练模型趋向于大一统以及不同模态交互日益成熟, 基于标准化的大模型,有助于为大范围产业化提供基础和可能,从而 助力实现 MaaS 生态;大型语言模型研究的发展有三条技术路线:Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式,多数主流 大型语言模型走的 GPT 技术路线。同时,各个大语言模型路线各有 聚焦, GPT 模式在生成类任务表现最优。 OpenAI 正是基于 Transformer 基础模型推出了 GPT 系列大模型,GPT 模型依托于 Transformer 解 除了顺序关联和对监督学习的依赖性的前提,同时对基础模型架构的 更改最小,且进行了显著简化。最终 GPT-4 的发布成为 OpenAI 在深 度学习扩展方面的里程碑, GPT-4 已经可被视为通用人工智能的早期 版本,除了生成能力,GPT-4 还具有解释性、组合性和空间性能力。 国内大模型赶超迅速, 各玩家布局各有侧重。百度经过 11 年积累了 全栈人工智能技术,从芯片层、框架层、模型层到应用层,实现 AI 应用场景全覆盖。同时,属国内独家的从软件到 AI 芯片全栈打通的 Paddle 训练框架生态,结合其传统业务优势,助力百度获得海量中文 问答式搜索反馈数据,形成“数据飞轮”效应;腾讯自发布混元 AI 大模型以来,持续探索改进大模型优化策略,打造高效率开发工具, 降低模型训练成本。而且混元商业化拓展迅速,大模型效益得到验证; 阿里在国内率先探索通用统一大模型,快速提升参数量级,并实施开 源来释放大模型应用潜力;华为依托昇腾 AI 打造的全栈使能体系, 聚焦以视觉为主的数字化场景,开启工业化 AI 行业适配。 随着算力及硬件性能需求大幅提升, 模型训练开始多路径优化。 大模 型海量参数训练所需算力日益攀升,长时间的 GPU 集群训练任务, 对网络互联底座的性能、可靠性、成本等各方面都提出极致要求,而 GPU 硬件发展的速度难以满足 Transformer 模型规模发展的需求。因 而国内外业界厂商纷纷提出各自的大模型训练提效方案。 投资建议:AI 的技术更迭以及应用场景的大幅拓展正推动着人工智 能产业全新的发展,我们基于核心应用场景视角,推荐拥有垂直场景 优势的科大讯飞、金山办公、凌志软件、杰创智能。 风险提示:大模型应用不及预期风险,竞争加剧风险。 请务必阅读正文之后的免责条款部分 计算机《浪潮已到,AI 产业化快速推进》 2023.03.26 计算机 《大模型将彻底改变 AI 模型的开发 模式》 2023.03.19 计算机《华为官宣 MetaERP, 重塑新生态》 2023.03.18 计算机《微软发布 Copilot, 彻底改变人类 办公方式》 2023.03.17 行业专题研究 目 录 1. 大模型构筑 AI 基石,MaaS 未来可期 ........................................... 3 1.1. NLP 五级进阶,大模型应运而生 ............................................ 3 1.2. 从 CNN 到 Transformer,大模型底层架构显著优化................. 3 1.3. 大模型技术路线各有侧重,MaaS 已成产业趋势 ..................... 5 2. GPT 系列一路领先,海外大模型角逐激烈.................................... 6 2.1. OpenAI:GPT 系列大模型一骑绝尘,智能化程度提升迅速 ....... 6 2.2. 微软:与 OpenAI 深度绑定,占得行业先机 .......................... 10 2.3. 谷歌:扎根基础模型研发,引领技术革新 ............................ 13 3. 国内大模型蓄力已久,赶超动能强劲 ......................................... 16 3.1. 百度:全栈技术积累颇丰,AI 应用场景全覆盖 .................... 16 3.2. 腾讯:优化大模型训练,加速大模型应用落地 ..................... 20 3.3. 阿里:聚焦通用底层技术,开源释放大模型应用潜力 ........... 21 3.4. 华为:昇腾 AI 打造全栈使能体系,定位行业级 CV 应用 ...... 23 4. 算力及硬件承压,模型训练多路径优化 ...................................... 25 4.1. 海量参数开路,算力瓶颈渐至 .............................................. 25 4.2. 模型日益复杂,硬件需求承压 .............................................. 27 4.3. 聚焦技术路线优化,突破模型算力瓶颈 ................................ 28 5. 投资建议 ................................................................................... 31 6. 请务必阅读正文之后的免责条款部分 风险提示 ................................................................................... 31 2 of 33 行业专题研究 1. 大模型构筑 AI 基石,MaaS 未来可期 1.1. NLP 五级进阶,大模型应运而生 从基于规则到基于人的意识,大型语言模型是技术进步的必然产物。 自 然语言处理发展到大型语言模型的历程可分为五个阶段:规则、统计机 器学习、深度学习、预训练、大型语言模型。考虑到机器翻译是 NLP 中 难度最高、综合性最强的任务,可借助该功能来论述不同技术阶段的典 型特点。从 1956 年到 1992 年,基于规则的机器翻译系统在内部把各种 功能的模块串到一起,由人先从数据中获取知识,归纳出规则后教给机 器,然后由机器执行这套规则,该阶段为规则阶段;从 1993 年到 2012 年是统计机器学习阶段,在此期间,机器翻译系统可拆成语言模型和翻 译模型,该阶段相比上一阶段突变性较高,由人转述知识变成机器自动 从数据中学习知识,当时人工标注数据量在百万级左右;从 2013 到 2018 年,进入深度学习阶段,其相比于上一阶段突变性较低,从离散匹配发 展到 embedding 连续匹配,模型变得更大,标注数据量提升到千万级; 预训练阶段存在于 2018 年到 2022 年,跟之前比较,最大变化是加入了 NLP 领域杰出的自监督学习,将可利用数据从标注数据拓展到了非标注 数据。该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大 3 到 5 倍,典型技术栈包括 Encoder-Decoder、Transformer、Attention 等。 图 1 从基于规则到遵循人的价值观,大型语言模型变迁由来已久 数据来源:北京 AIGC 论坛,智东西,国泰君安证券研究 大模型阶段在数据标注、算法、人机关系三方面的性能均有跨越式提升。 从 2023 年起开始进入大模型阶段,该阶段的突变性很高,已经从专用任 务转向通用任务或是以自然语言人机接口的方式呈现,旨在让机器遵循 人的主观意志。在数据标注方面,大模型已经从原来需要大量标注数据 进化到运用海量非标注数据,越来越多数据被利用起来,人的介入越来 越少,未来会有更多文本数据、更多其它形态的数据被模型运用。在算 法方面,大模型的表达能力越来越强、规模越来越大,自主学习能力越 来越强,从专用向通用趋势显著。 1.2. 从 CNN 到 Transformer,大模型底层架构显著优化 从 CNN 到 RNN 再到 LTSM,语言处理性能得到有效提升。早期 NLP注重语 请务必阅读正文之后的免责条款部分 3 of 33 kVcXdVuWsPqNnQ9P9R6MtRqQnPsReRmMsRkPmPmN8OqRtMNZrRtPNZmMsP 行业专题研究 法分析,通过设计语法方向实现句子分析。伴随着语料数据复杂化、多 样化,句子分析难度也提升。随后卷积神经网络(CNN)引发计算机视觉 领域的变革,因此 CNN 也逐步用在 NLP 上。但传统神经网络擅长图像识 别,考虑到语言的顺序属性,直接进行文字处理则效果有限。所以,随 后循环神经网络(RNN)模型应用铺开,RNN 将顺序作为权重因子,实现 了较好的效果。但 RNN 单元的记忆力短和梯度不稳定,因而用于长序列 时也有一定局限性。后来长短期记忆网络(LTSM)成为关注点,一定程 度解决了 RNN 的痛点,但针对长段落的处理能力仍需提升。 Transformer 模型可以替代当前的递归模型, 消减对输入输出的顺序依 赖。Transformer 模型作为完全基于注意力机制的新神经网络架构,在 技术特征上主要体现为可以并行、速度更快。过往要训练一个深度学习 模型,必须使用大规模的标记好的数据集合来训练,这些数据集合需要 人工标注,成本极高。在 Transformer 下,通
AI大模型引发科技革命-20230331-国泰君安-33页
温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
本文档由 于 2023-06-13 15:02:58上传分享