计算机行业AIGC专题二：ChatGPT更懂人类的叙事-20230214-德邦证券-41页

2023年2月14日证券研究报告|行业专题 AIGC专题二：ChatGPT更懂人类的叙事证券分析师姓名：马笑资格编号：S0120522100002 邮箱：maxiao＠tebon.com.cn 0 投资要点：ChatGPT加速商业化，AI将带来泛娱乐的革新  ChatGPT是OpenAI推出的聊天机器人模型，月度用户已破亿，正在逐步探索商业化途径。ChatGPT能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。根据UBS统计数据显示，ChatGPT上线2个月后月度用户数量破1亿。  OpenAI的商业模式为，会员收费、开放API以及与微软的战略合作。会员服务：2023年2月1日，OpenAI推出付费订阅项目ChatGPT Plus，价格为$20/月，目前面向美国用户。API服务：ChatGPT将在未来加入OpenAI的API，目前已在包括游戏虚拟人等泛娱乐内容产业和互联网的多方面进行应用。1）办公软件：微软计划将包括ChatGPT等AI工具整合进旗下的所有产品中。ChatGPT已加入浏览器扩展程序，集成了ChatGPT-4的BING短暂上线。2）泛娱乐：AI或将不断趋近人类思维叙事，AIGC是踏入元宇宙的重要一步，且已有公司在直播场景、游戏场景等泛娱乐中应用ChatGPT。  谷歌、百度等众多公司推出自有AI产品，百度文心一言（ERNIE Bot）预计三月份完成内测。百度拥有飞桨（深度学习开源框架）、百度AI大底座（全栈AI基础设施）和文心大模型（AI应用场景全覆盖）。ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架。 ERNIE3.0参数量增大到了10B，训练数据集为4TB。产品应用或可期待。  投资建议：把握AIGC技术催化和商业落地的投资机会。技术发展有望促进生产效率提升，并进一步创造新的消费和需求，有利于文娱内容和互联网行业。在AIGC和ChatGPT方面，我们建议持续关注技术发展和应用情况，把握技术催化和商业化落地带来的投资机会：1）具备 AIGC和ChatGPT的技术探索和应用的公司：百度、商汤、万兴科技、拓尔思等；2）具有海量内容素材且具有AIGC探索布局的，图片/文字 /音乐/视频等内容及平台公司腾讯控股，阅文集团、美图公司、视觉中国、昆仑万维、蓝色光标、中文在线、汉仪股份、天娱数科、风语筑等。风险提示：技术发展不及预期、监管政策变化、知识产权问题等。请务必阅读正文之后的信息披露及法律声明。 1 目录 CONTENTS 01 ChatGPT概述 02 核心优势 03 技术应用场景 04 其他类似产品 05 投资建议&风险提示请务必阅读正文之后的信息披露及法律声明。 2 qRmPnNmMyQrPtOsOmMnRpMbRaO7NmOrRsQpMjMnNsQfQoPmR8OpOmQwMrNnPMYoOpN 01 ChatGPT概述 SEPARATOR PAGE 3 1.1 OpenAI：人工智能研究领域最前沿的公司之一  OpenAI深耕AI领域研究，特色产品包括ChatGPT、DALL·E2、Whisper等。  OpenAI是于2015年12月在美国成立的人工智能研究公司，由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立。  研究方向可以分为三类：训练生成模型算法，即深度学习生成模型；从数据中推断算法的算法，即神经图灵机；强化学习方法，可以理解为深度增强学习。表2：OpenAI的特色产品表1：OpenAI部分重点研究领域及成果研究领域模型/成果重要技术发布时间用途语言：ChatGPT、InstructGPT GPT系列深度学习生成模型代码：Codex 图像：Image GPT、DALL·E、DALL·E2 音乐：Jukebox、MuseNet 2022年4月6日 Whisper 自动语音识别(ASR)系统，经过68万小时的多 2022年9月21日语言和多任务监督数据训练，支持多种语言的转录，以及从这些语言翻译成英语。 Whisper 神经图灵机强化学习方法无监督情绪神经元近端优化策略进化策略资料来源：OpenAI，德邦研究所请务必阅读正文之后的信息披露及法律声明。文本到图像生成模型,它基于扩散模型原理，可以通过自然语言对现有图像进行逼真的编辑，它可以添加和删除元素等。 DALL·E2 CLIP 人工神经网络中的多模态神经元人工智能聊天机器人 ChatGPT 2022年11月30日 Alignment 2022年8月24日专注于训练人工智能系统，使其变得有用、真实和安全，与人类意图保持一致资料来源：OpenAI，德邦研究所 4 1.1 OpenAI：人工智能研究领域最前沿的公司之一公司大事件 2019年7月22日 2023年1月23日 2015年12月微软投资OpenAI 10亿美元，双方将携手合作替Azure云微软将向OpenAI进行一项为期多年、价值数十亿美元的投资， OpenAI成立端平台服务开发人工智能技术。以加速其在人工智能（AI）领域的技术突破。 2018年2月20日 2023年1月17日马斯克辞去董事会席位微软计划将包括ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中。重点研发活动 2016年4月27日 2020年5月 2022年4月6日发布了其强化学习研究平台“OpenAI OpenAI发布了 GPT-3； OpenAI发布了DALL·E2 Gym”的公测版。微软于2020年9月22日取得GPT-3的授权。可以视作是CLIP+ DALL·E 2016年12月5日 2021年1月5日 2022年11月30日 OpenAI发布了“Universe”，用于测量和训练人工智能在全球 OpenAI推出了 DALL-E和CLIP。 OpenAI发布了ChatGPT 游戏、网站等应用程序中的通用智能。资料来源：OpenAI等，德邦研究所请务必阅读正文之后的信息披露及法律声明。 5 1.2 ChatGPT月度用户已破亿，正在逐步探索商业化途径  ChatGPT是OpenAI在2022年11月30日发布的全新聊天机器人模型。  它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。  ChatGPT月度用户已破亿，正在逐步探索商业化途径。  根据UBS统计数据显示，ChatGPT上线2个月后月度用户数量破1亿。  2023年2月1日，OpenAI推出付费订阅项目ChatGPT Plus，价格为$20/月，目前面向美国用户。 2023年1月根据UBS统计数据显示，ChatGPT上线2个 2022年11月30日月后月度用户数量破1亿。 OpenAI发布了ChatGPT 2023年1月17日资料来源：OpenAI等，德邦研究所 2023年2月1日微软CEO纳德拉在世界经济论坛上表示，微软正在迅速推进OpenAI OpenAI公司宣布，新的订阅服务名为的工具商业化，计划将包括ChatGPT、DALL-E等人工智能工具整合 ChatGPT Plus，价格为$20/月。进微软旗下的所有产品中，并将其作为平台供其他企业使用. 请务必阅读正文之后的信息披露及法律声明。 6 1.3 ChatGPT基于GPT3.5模型进化微调，从人类反馈中学习  OpenAI 基于GPT模型，使用监督学习和强化学习的组合来调优 ChatGPT，其中人类反馈强化学习（RLHF）使 ChatGPT趋近人类价值观及意图。  ChatGPT的训练分为三步：一是训练及微调GPT模型，获得语言及代码的生成能力；二是根据人类意图训练，人为标记生成内容的排序，训练出奖励模型（Reward Model）；三是通过奖励模型为生成内容打分，通过近端策略优化（PPO）来优化生成模型，使其趋近人类的意图。图1：GPT-3.5的进化树图2：ChatGPT 技术逻辑资料来源：符尧等《拆解追溯 GPT-3.5 各项能力的起源》，德邦研究所资料来源：符尧等《拆解追溯 GPT-3.5 各项能力的起源》，德邦研究所请务必阅读正文之后的信息披露及法律声明。 7 1.3.1 第一步：收集数据微调GPT3.5模型  预训练的GPT3.5在少量已标注的数据上进行调优，以学习图3：ChatGPT训练Step1 从给定的提示词（prompt）列表生成输出的有监督的策略  模型选择：选择了 GPT-3.5 系列中的预训练模型，参考InstructGPT，参数量最高达175B。  例如，输入“你好”，通过GPT后输出“美”。GPT每一次的输出可能都是不同的，因为在网络上的语句中，“你好”后面有多种接法，例如“你好高”、“你好吗”，而输出结果是遵循概率分布的，高频组合出现的概率较高。  数据收集：使用了两种不同的提示词来源。一些是直接使用标注人员或研究人员准备的，另一些是从 OpenAI 的 API 请求（即从 GPT-3 用户那里）获取的。  策略生成：选择一个提示列表，标注人员按要求写下预期的输出。最终得到的结果是一个相对较小、高质量的数据集，可用于调优预训练的语言模型。资料来源：OpenAI，德邦研究所请务必阅读正文之后的信息披露及法律声明。 8 1.3.2 第二步：模拟人类偏好，训练奖励模型  对大量的模型输出进行排序，创建了一个由比较数据组成的图4：ChatGPT训练Step2 新数据集。在此数据集上训练新模型，被称为训练奖励模型（Reward Model，RM）。  输出排序：标注者根据人类偏好将输出从最佳到最差排序。结果是一个新的标签数据集。  奖励模型：将有标签的数据集用于训练 RM 模型，并将生成模型的输出，按优先顺序对它们进行排序。  例如，输入“台湾最高的山是哪座？” ，输出可能有两个结果，输出一是“玉山”，输出二是“谁来告诉我呀”。两个回答都可以与问题衔接，但是人类的偏好是输出一，因此RM给两个输出排序时，输出一是高于输出二。资料来源：OpenAI，德邦研究所请务必阅读正文之后的信息披露及法律声明。 9