构建模型理解能力，商业落地未来可期-20230330-西南证券-48页

GPT-4专题构建模型理解能力，商业落地未来可期西南证券研究发展中心计算机团队王湘杰 2023年3月核心要点  AI大模型持续演进，GPT-4理解能力大幅提升。2022年11月30日，OpenAI发布ChatGPT，5天后即达到100万用户，是历史上用户增长最快的应用程序。2023年3月15日，OpenAI发布GPT-4， GPT4相比ChatGPT基于的GPT-3.5模型，其在多模态、理解能力、角色认知、长文本支持方面有了明显进展。我们认为，无论从应用上的用户增长，还是在模型上的能力提升方面，均具备极大优势。  AI大模型加速应用升级，AIGC有望对多个行业带来颠覆式创新。2023年2月8日，微软正式将 ChatGPT引入Bing，3月17日微软宣布其正在将基于GPT-4的AI技术植入Office办公软件中，标志着以GPT-3.5和GPT-4为代表的大模型开启了办公和搜索新方式，我们认为，未来AI大模型的发展和推广将率先带来游戏、代码编码、生命科学3个行业的变革。此外，多模态将赋能生成式AI，在文本、音频、图像和视频等场景实现商业化落地，软件端和硬件端有望迎来新机遇，其中，我们将重点关注大模型对工具类软件和多场景的赋能，在工具侧有望带来以CAD、EDA、ERP为主的工具类软件的估值重构。  GPT-4引发海量算力需求，把握算力产业链机会。根据测算，我们认为，在中性假设下，ChatGPT 一年产生的API调用费用约为6.2亿美元，与此同时，ChatGPT将在训练和推理层面对GPU产生巨大需求。根据OpenAI公开信息，GPT-3.5模型的API价格为0.002美元/千token，而GPT-4在请求方面的API价格为0.06美元/千token，回复方面为0.12美元/千token，以0.06美元/千token计算， GPT-4的API调用成本是GPT-3.5的30倍以上，算力相关需求有望翻倍增长。  投资建议：1）大模型相关标的：微软（MSFT.O）、谷歌（GOOG.O）、百度（BIDU.O）等海内外大厂；2）算力相关标的：联想集团（LNVGY.OO/0992.HK）、英伟达（NVDA.O）；3）应用端相关标的：网易（9999.HK）、阅文集团（0772.HK）、创梦天地（1119.HK）。  风险提示：大模型进展不及预期风险、市场竞争加剧风险、AI应用的道德伦理风险、商业模式变现与落地不及预期风险、下游需求不及预期风险。 1 目录 1 模型演进：AI大模型能力不断强化，GPT系列模型持续迭代 1.1 ChatGPT ：基于GPT-3.5模型构建，成为史上用户增长最快应用 1.2 GPT-4 ：更强大的多模态大模型，关注理解能力的构建 2 应用落地：大模型加速AGI实现，GPT-4推动模型进入可实用时代 2.1 AGI ：全球加速布局，AGI成为未来重点发展方向 2.2 GPT-4 具体应用：多领域初步试水，商业化落地未来可期 3 关注方向：AIGC产业链完善，把握四层架构及海内外受益主体四层架构：数据层 — 算力层 — 模型层 — 应用层 4 海外相关标的 2 hYcXcUuWrMqNmR8OcM9PsQrRtRtQeRqQsReRsRnN8OoPrPvPtOzQMYsPmQ 1 模型演进：AI大模型能力不断强化，GPT系列模型持续迭代  AI之路：从AI 1.0到AI 2.0再到AGI，能力越来越强，使用越来越简单，结果越来越可控。 AI 1.0 AI 2.0 【单个任务的专用模型】  为每一项任务开发一个模型  需要针对具体任务进行微调  开发周期长、投入资源高  微调了什么能力，则具备什么能力，不会出现“涌现”能力  例如：基于规则、统计、大模型 Bert、GPT2等模型的引擎 AGI 【广泛任务的通用模型】  一般用提示词调动相关能力 (zero-shot)  可对长上下文(如32K字符)进行建模，具备超强多轮对话能力  由于“涌现”能力、思维链和简单推理，可具备处理未见过的任务的能力  例如：GPT3.5、ChatGPT等【通用人工智能AGI】  更加强大的提示词和“涌现能力 ”以应对新的任务  对结果具备可解释性和具备不断自我学习能力  对能力和结果可控，符合人类伦理和社会规范  例如：未来不断发展的模型及未来其他更新的模型。  GPT系列模型演进：GPT-4是OpenAI发布的最新GPT系列模型，作为大规模多模态模型，它可以接受图像和文本输入，产生文本输出，是目前最强的文本生成模型。 2018.06 【GPT-1】  1.17亿参数  有一定泛化能力，可接下有任务微调 2019 【GPT-2】  15亿参数  生成能力突出，包括聊天、续写、摘要 2020.05 【GPT-3】  1750亿参数  上下文小样本学习能力强大，可完成大多数 NLP任务 2022.01 instructGPT  1750亿参数  指令微调，不真实/有害化/无用回复减少 2022.11 【chatGPT】  约1750亿  基于人类反馈数据，对齐人类喜好，强大意图理解能力 2023.03 【GPT-4】  万亿级别  数据源扩充；增加训练后处理和行为预测；幻觉问题下降资料来源：大语言模型和资产管理论坛，西南证券整理 3 1.1 ChatGPT：基于GPT-3.5模型构建，成为史上用户增长最快应用  ChatGPT简介：由OpenAI研发的AI技术驱动的自然语言处理工具，于2022年11月30日发布。  GPT—Generative Pre-trained Transformer（生成预训练变换器），是openAI推出的一种用于处理自然语言文本大型神经网络模型。ChatGPT基于GPT-3.5模型构建、使用Transformer架构，通过连接大量的语料库来训练模型，在GPT大模型能力的加持下，ChatGPT对于文本、任务的理解能力有了新的飞跃，能根据聊天的上下文进行互动，做到与真正人类几乎无异的聊天场景进行交流。在聊天场景以外，ChatGPT还能完成撰写邮件、视频脚本、文案、翻译、代码等任务。 ChatGPT发展历程时间事件 2022年11月底人工智能对话聊天机器人ChatGPT推出，迅速在社交媒体上走红，推出5天，注册用户数超过100万 2023年1月末 ChatGPT的月活用户已突破1亿，成为史上增长最快的消费者应用 2023年2月2日美国人工智能公司OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus。ChatGPT Plus将以每月20美元的价格提供，订阅者可获得比免费版本更稳定、更快的服务，及尝试新功能和优化的优先权 2023年2月2日微软官方公告表示，旗下所有产品将全线整合ChatGPT，除此前宣布的搜索引擎必应、Office外，微软还将在云计算平台Azure中整合ChatGPT，Azure的OpenAI服务将允许开发者访问AI模型微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing和Edge浏览器。微软CEO表示，“搜索引擎 2023年2月7日迎来了新时代”；8日凌晨，在华盛顿雷德蒙德举行的新闻发布会上，微软宣布将OpenAI传闻已久的GPT-4模型集成到Bing及Edge浏览器中资料来源：百度百科，讯飞易听说，西南证券整理 4 1.1 ChatGPT：基于GPT-3.5模型构建，成为史上用户增长最快应用  ChatGPT在发布5天后即达到100万用户，是历史上用户增长最快的应用程序。  根据UBS发布的研究报告，ChatGPT在2023年1月的月活用户数已经超过1亿。各应用达到100万用户所需时间 ChatGPT Instagram Spotify Dropbox Facebook Foursquare Twitter 各应用达到1亿用户所需时间（单位：月） 5 Days 2.5 ChatGPT Months 5 Months Tik Tok 7 Months 10 Instagram Months 13 WhatsApp Months 2 Years Kickstarter 2.5 Years Airbnb 2.5 Years Netflix 3.5 Years 2 9 30 42 Meta 54 Spotify 54 Twitter 90 资料来源：World of Engineering，TRTWORLD，西南证券整理 5 1.1 ChatGPT：基于GPT-3.5模型构建，成为史上用户增长最快应用  ChatGPT工作原理：  ChatGPT 使用的 GPT-3.5模型包含大量的语言数据，当用户输入问题时，GPT-3.5模型会根据语言数据生成回答候选集，并从中选择最佳回答，ChatGPT再将生成的回答以自然语言的形式输。  ChatGPT在基础语言模型的基础上，通过RLHF（从人类反馈中强化学习）训练，使用户的反馈可以即时反馈到模型上，形成自我学习能力，根据新数据不断迭代更新。  模型训练过程主要分三步：1）收集提示信息和人工形成的任务示例，通过监督学习训练模型。2）将初始模型用在新的对比数据上，生成多个输出，人工对这些输出进行排序，排序结果用于训练奖励模型。3）使用PPO（Proximal Policy Optimization）深度强化学习算法训练奖励模型。 ChatGPT工作原理资料来源：上游新闻，稀土掘金技术社区，腾讯云开发者，西南证券整理 6 1.2 GPT-4 ：更强大的多模态大模型，关注理解能力的构建 GPT-3.5 自然语言处理模型  一图看懂GPT-4 新变化 1.模型升级 GPT-4 多模态模型看图作答文字问答文字问答 2.功能升级数据推理分析图表剧本写作角色扮演 3000字 3.文字输入长度司法考试排名倒数10% SAT数学考试590分司法考试排名前10% 4.考试能力生物奥林匹克竞赛排名前69% $0.002美元/1000 token （请求响应相同） 25000字 SAT数学考试700分生物奥林匹克竞赛排名前1% 请求$0.06美元/1000 token 5.API价格回复$0.12美元/1000 token 6.其他升级英文准确度提升到85.5%；中文准确性提升80.1%；事实准确性大幅提升 7.GPT-