清华AIGC和ChatGPT发展研究报告1.0-清华大学-2023.5.18-192页

AIGC发展研究（1.0版修订号 0.92）清华大学新闻与传播学院元宇宙文化实验室 @新媒沈阳团队、 AIGC 2023年5月18日（如有错误，提醒修订）元宇宙/虚拟数字人/大数据/AI 系列研究数字藏品发展研究报告1.0 虚拟数字人发展研究报告3.0 虚拟数字人发展研究报告2.0 2022 ——社会价值与风险治理 2021 虚拟数字人发展研究报告1.0 2020 元宇宙系列虚拟数字人系列 ——产业发展与技术标准时空智能发展研究报告1.0 韩国元宇宙动态研究报告元宇宙发展研究报告3.0版元宇宙发展研究报告2.0版元宇宙发展研究报告1.0版 ——溯源应用与发展 2019 大数据/AI/5G生态报告 2017 2016 未来媒体报告 5G下一代风口：AR VR的新浪潮 2015 2007 虚拟社区与虚拟时空隧道 3 清华大学新闻学院元宇宙文化实验室  国内高校最早一批成立的元宇宙实验室，国内首个带有文化属性的元宇宙实验室。  中文在线是实验室产学研的支持单位，在未来媒体技术发展、元宇宙文创、元宇宙指数、虚拟数字人指数等元宇宙领域展开研究。  打造成世界一流的具有行业前瞻性、理论开拓性、研发创新性的元宇宙科研机构。  实验室提供了数十个体验环节。截至2023年4月底，元宇宙文化实验室已接待1531拨访客，共计约 6606人次，涵盖中央和地方新闻媒体、各级政府机构、学界研究人员、研究学会、高校师生，业界知名互联网企业、中小型科技创新企业。 2021年11月16日筹建中的元宇宙研究室，接待第一批参观者 2022年3月10日接待文旅部领导参观 2022年3月29日在线举办第一场元宇宙沙龙 2022年4月16日清华大学新闻与传播学院元宇 2022年4月24日接待院士参观 2022年7月22日高中生第一次参观实验室宙文化实验室正式成立 4 产业支持单位：中文在线  中文在线的元宇宙布局横跨内容IP、虚拟数字人、区块链、数字藏品、XR、垂类模型、应用场景、商业模式等。  公司提出MWA（Metaverse、Web3.0、AIGC）科技系统驱动新一轮的内容革命，并发布元宇宙产品RESTART重启宇宙，是以《流浪地球》为世界观基底的国内首个科幻主题元宇宙。  中文在线拥有的海量优质正版数据本身是庞大且高质量的语料库，能够大幅提高模型训练效果，数据体量已经超过了55TB。虚拟数字人 VR/AR 制定内容IP领域的虚拟数字人应用场景及商业变现模式坐拥550万种数字内容资源、450万原创驻站作家、600余家签约版权机构的平台优势，AIGC的多模态能力作用于IP衍生孵化链条上，助力文字作清华大学党委副书记向波涛(左) 中文在线集团董事长兼总裁童之磊(右) 品的有声化、动漫化、影视化等本报告生成方式说明图片合规性图片大部分都是AIGC制作，碳基生物做图片较少，因为法律明确规定碳基生物（人类面部）版权，而硅基生物暂未有相关规定。文字公共性在公共知识领域，尽量使用AIGC和ChatGPT抓取信息。本报告文字超过60% 由AIGC自动生成，并经过人类进行适当修改思维创新性创新知识和思考主要来自自然人，会利用AIGC完善自然人的理论创新和初步思考，加快知识生成速度。结构系统性在体系和系统性上参考AIGC和ChatGPT 语种广泛性在跨语种知识使用上依赖ChatGPT，学会所有语种对自然人是不可能的，如法语、德语、俄语、日语等等，现在借助ChatGPT能到任意语种熟练表达。技术篇深度学习进化史：知识变轨风起云涌已发生的关键步骤即将发生的关键步骤通用人工智能（AGI）全维适应人工神经网络的诞生反向传播算法的提出模型间的有效沟通与协作共享协作 GPU的使用大数据的出现预训练和迁移学习生成对抗网络（GAN）的发明强化学习的成功应用自然语言处理的突破人机共生融合与共生模型解释性透明智慧模型道德和伦理价值同构，道德编码能源和计算效率环境兼容未来发展方向和挑战新型学习方法模型压缩与优化网络结构和设计创新多模态学习元学习、生物启发式学习，生态学习、泛化能力微缩优化创新结构主义模态融合安全性和鲁棒性社会影响和监管公正监管深度学习模型有望逐步演变为具有更高智能和自主性的新型生命体大语言模型进化树：迁移学习能力涌现灰色：词向量及早期训练模型蓝色：仅解码器模型粉红色：仅编码器模型绿色：编码器-解码器模型模型时间线的垂直位置：代表发布日期开源模型：实心方框闭源模型：空心方框右下角堆叠条形图：来自各公司和机构的模型数量分布式表示：用高维空间稠密向量捕获语言的复杂性规模效应：性能通常与模型大小（即参数数量）和训练数据量成正比领域自适应：源领域知识如何应用到目标领域引用：Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ，JINGFENG YANG等 "Attention is All You Need"：启蒙之光界碑之作 Transformer • 并行计算力 ~“分散式思维” • 自注意力机制 ~“自我聚焦” • 序列顺序灵活 ~“时空松弛” • 模型简化 ~“极简主义” Transformer 内容 AIGC 自注意力 Google于2017年发布的一篇论文，引入了Transformer模型，在自然语言处理（NLP）中引发了一场革命 ChatGPT：事实性通过图灵测试 01 为什么是chatGPT？ l 非线性创新 l 主流偏离，边缘性技术突破 l 黑天鹅 l 偶然性创新 02 ChatGPT闭源之后，未公开的可能的秘密 l 数据洪流之后的涌现，增强学习的算法 l 维度扩展和神经网络复杂度增加，优化了自我监督学习的算法 l 对人类的反馈进行强化优化 l 提升模型可解释性 l 新的全局算法思维和实现，多模态学习算法，更先进的生成对抗网络（GANs）算法 chatGPT类软件的研发过程预训练过程→人机对话系统微调 Stage 01 数据收集需要大量的文本数据作在特定任务，如对话系统中，可借助RLHF（基于人类反馈的强化学习）对模型进行微调以优化其在特定任务上的性能。为训练的基础数据预处理预处理的步骤包系统设计 Stage 02 括文本清理、标设计一套系统来处理用户的输入，生成模型的响应，以及管准化、分词。理对话的上下文。模型选择 Stage 03 GPT3.5使用的Transformer 模型由多个编码器和解码器模型训练训练过程是基于层组成，每一层都使用自注评估和优化意力机制和全连接网络。评估模型在特定任务上的表现，如对话生成质量、准确性等。验证和测试部署和维护在一个单独的测试集上将对话系统部署到实际生产环境，并进行持续维护和更新。 Stage 04 自监督的；通过反向传播和梯度下降进行，以最小化预测错误 Stage 05 评估模型的性能。 ChatGPT1/2/3/4：知新悟旧纳微入精 G P T- 1 5GB预训练数据 1.17亿参数 G P T- 2 40GB 预训练数据 15亿参数 G P T- 3 45TB预训练数据 1750亿参数 G P T- 3 . 5 基于人类反馈的强化学习（RLHF） G P T- 4 理解图像、人类水平的专业和学术基准 Ø 参数扩展：参数规模数量呈指数级增长 Ø 预训练-微调范式：无标签文本数据预训练、特定任务微调、任务特化学习、细粒度的控制策略 Ø Transformer架构：高效并行计算和长距离依赖捕捉 Ø 自回归生成式预训练：生成连贯、富有逻辑的文本、连贯性生成 Ø 模型泛化能力：NLP任务中展现出更强的泛化能力、跨任务适应 Ø 零样本/少样本学习：有效学习、降低数据标注成本 Ø 多语言支持：跨语言的知识迁移和应用 Ø 开源与闭源：ChatGPT从开源到闭源引发巨大争议注：GPT3.5和GPT4预训练数据和参数量官网尚未公布确切数据 GPT5/6/7/8：无尽探索灵智飞升 GPT7 GPT6 GPT5 GPT8 技术特性 •更大的模型规模 •多模态学习与融合 •更强的领域适应性和可定制化 •更强的解释性和可控性 •强化学习和自适应能力 •通用人工智能 •知识表示与推理 •混合推理和学习方法 •能量效率与模型优化 •多智能体协作 •人机协同与伦理道德 •安全和可持续发展 •人类水平的自然语言理解 •高度集成的跨领域知识 •更强的自适应和在线学习 •强化道德伦理和人工智能政策可能趋势 • 模型规模持续扩大 • 可解释性与可控性 • 协同学习和迁移学习 • 多模态学习 • 更强的领域适应性 • 社会和道德影响关注 • 优化与压缩 • 更广泛的应用场景产品节奏：灰度演进稳健狂飙插件生态 Plugin，构建插件生态分层服务行业定制 Plus订阅服务 Model Instance 0 0 弹性计费 0 API接口和tokens计费 2 3 4 灰度演进 0 5 如联网查找等。满足需求,保持 0 的稳定，模块聚合 6 蓝海试探免费试用 0 1 0 敏捷迭代 7 快速小版本迭代推理过程：关联推测择优输出 ü 理解输入：分布式语义解析，首先会接收文本序列，转化为词向量，也称为嵌入。该过程基于分布式语义假设，即词义由其在上下文中的使用决定。 ü 参数关联：上下文焦点连锁，将这些词向量输入到 Tr a n s f o rm e r 的 E n c o d e r 中生成上下文表示。可以看作是在其内部参数模型中寻找与输入相关的信息，也可视为一种连锁反应，因为每个词的上下文表示都取决于其前面的词的上下文表示。 ü 生成回答：生成性概率建模，模型初始化 Tr a n s f o rm e r 的 D e c o d e r 部分，并将 E n c o d e r 的输出（即上下文表示）和当前