ChatGPT的技术发展路径和带来的影响-2023.3-31页

ChatGPT的技术发展路径和带来的影响 2023-03 目录 01：人工智能和NLP发展路径 CONTENT 02：GPT系列模型发展路径 03：ChatGPT技术原理解析 04：ChatGPT的影响和意义人工智能技术发展脉络人工智能诞生最早可以追溯到1956年的感知机模型，经过近70年的发展，已经渗透到各行各业。 2011年之前 • 模型简单受制于当时计算机硬件的发展，模型普遍简单，能力也相对较弱 • 场景局限模型只能处理单一场景，通用能力非常弱，导致成本过高。 • 人工干预放置示意图往往需要如制定规则，词表，标注样本等大量人工工作。 2012年至今 • 大模型得益于底层技术原理的突破和硬件算力的发展，模型越来越大，GPT3 （2020年）达到了惊人的1750亿个参数（一般人脑有神经元120到140 亿个） • 大数据庞大的模型需要对应于海量的数据，GPT3使用的数据量已达到45TB，包括了多种主流语言 • 多模态语音，文字，图像之间不再存在明显壁垒，模型处理复杂场景的能力明显增加 3 人工智能的任务类型一般来说，人工智能处理的任务可以分为两类： 1.决策式：人工智能回答“选择题”，模型主要处理诸如：判别，分类，排序等任务。 2.生成式：人工智能回答“问答题”，需要模型根据输入，自动生成一些新内容（客观世界可能从未出现）。 4 NLP发展的技术路径自然语言处理（NLP，Natural Language Processing）是研究人与计算机交互的语言问题的一门学科。传统方法(2012年以前) 典型方法特点常用方法有SVM、TF-IDF、 LDA、同义词表、句法解析，语义规则，BP神经网络。 • 需要人工进行干预，如制定规则，词表，权重等。 • 应用场景单一，都是针对特定场景进行开发。 • 需要做大量特征工程。神经网络(2012年~2018年) 典型方法特点 Word2vec 的诞生标志着 NLP和神经网络的结合，陆续出现了 FastText 、 TextCNN 、 LSTM 、 Attention等模型神经网络的出现，大量减少了人工干预的工作，同义词可以通过向量表征自动学会，句法分析，词性标注等都已经嵌入进模型结构。大模型预训练(2018年~至今) 典型方法 2018年，GPT和Bert的先后出现，标志着大模型时代的到来，后续诞生的 Bart、ERNIE，T5等方法不断探索大模型的能力边界。特点模型参数量、数据量均上升了一个台阶，但是大部分模型利用文本自身特点生成训练样本，省去了很多人工标注的工作。在特定场景使用微调技术，降低了大模型跨场景的门槛。提示(Prompt)学习(2020~ 至今) 典型方法提示学习将下游任务的建模方式重新定义，通过合适的prompt来实现直接在预训练模型上解决下游任务，如GPT3，T5。特点 • 将所有任务，都转变为生成式任务。 • 模型不再需要微调，使得零样本和少样本学习成为可能。 5 目录 01：人工智能和NLP发展路径 CONTENT 02：GPT系列模型发展路径 03：ChatGPT技术原理解析 04：ChatGPT的影响和意义 GPT系列模型发展路径在这个大模型时代，国内外各大厂商均对大模型积极布局，呈现百家争鸣的现象。Nvidia或成最大赢家。各大厂商的布局底层技术原理三种技术流派 • 自从2017年，Transformer被提出来后， Google，Meta，OpenAI均在大模型上有所建树，并产生了三种技术流派：1.自编码(Bert 等) 2.自回归（GPT等） 3.二者结合（T5， BART等） 7 NLP技术发展带来的影响最近10年，是NLP技术和业务场景发展最快的黄金时期，NLP本身的技术体系被重构，所影响的业务领域也不断扩大。技术体系的改变 • 中间任务的消亡中间任务是指并不直接面向最终目标，而是为了解决最终目标的一些阶段性任务。因为神经网络的发展，诸如语法分析，词性标注，分词等特有的中间任务已经几乎无人问津。 • All you need is Money 现在完成一个NLP任务，需要的不仅是技术，而且还包括算力，数据等资源。这背后都是巨额的资金投入。未来的发展使用场景的扩大 • 搜广推等内容链接领域 NLP最成功的的商业化应用场景就是搜索，推荐，广告，技术的发展催生出一系列巨头（谷歌，百度，字节） • 丰富的人机交互各类聊天机器人，语音助手，等人机交互场景趋于成熟。 • 内容领域的变革 ChatGPT将会颠覆整个内容生态，内容型公司（如知乎，微博）的重点将从内容分发转变为内容生产。今后互联网将充斥着大量机器产生的内容，这对监管会带来极大的挑战。 • 大模型时代 ChatGPT的出现，标志着大模型已经突破了技术的天花板，让大模型这条技术发展路线更为坚定。 • 小模型时代大模型对于创业公司和中小企业来说无疑需要倾注大量的资源。轻量化预训练模型，给出了一个新的思考方向。 8 OpenAI和ChatGPT的发展路径 OpenAI，在美国成立的人工智能研究公司，核心宗旨在于“实现安全的通用人工智能(AGI)”，使其有益于人类。 OpenAI 成立于2015 年，是一家非营利性研究机构，它的愿景是构建出安全、对人类有益的通用人工智能（ AGI ），由伊隆 · 马斯克、 Sam Altman 等人宣布出资 10 亿美元成立。 2019 年 7 月 22 日，微软宣布将向 OpenAI 投资 10 亿美元，以共同开发用于 Microsoft Azure 云平台的新技术 GPT面世，标志着人工智能正式走向大模型时代微软率先宣布与OpenAI独家合作打造了一台性能位居全球前五，拥有超过28.5万个CPU核心、1 万个 GPU 、每 GPU 拥有 400Gbps网络带宽的超级计算机——Azure AI超算平台，主要用于大规模分布式AI模型训练。 GPT-3依旧延续自己的单向语言模型训练方式，只不过这次把模型尺寸增大到了 1750 亿，并且使用45TB 数据进行训练。 BEGIN 2015年 2018年 2019年 2020年 • 2022年11月30日，ChatGPT 上市。 • 2022年12月5日 OpenAI创始人山姆·奥特曼宣布， ChatGPT的用户已经突破100 万人，仅用时5天。 • 2023年1月末 ChatGPT 用户数突破1亿，成为史上用户数增长最快的消费者应用。 • 2023年1月末微软宣布向推出 ChatGPT的OpenAI公司追加投资100亿美元。 2022年 9 GPT-1系列模型发展路径 GPT的全称是Generative Pre-Trained Transformer，顾名思义，GPT的目的就是通过Transformer为基础模型，使用预训练技术得到通用的文本模型。 GPT模型结构 • GPT-1的无监督预训练是基于语言模型进行训练在GPT-1中，使用了12个transformer块的结构作为解码器，每个transformer块是一个多头的自注意力机制，然后通过全连接得到输出的概率分布。 10 GPT-1处理相关NLP任务 GPT-1稍加处理，就可适配大部分NLP主流任务放置示意图分类任务将起始和终止token加入到原始序列两端，输入transformer中得到特征向量，最后经过一个全连接得到预测的概率分布。推理任务将前提（premise）和假设（hypothesis）通过分隔符（Delimiter）隔开，两端加上起始和终止 token 。再依次通过 transformer和全连接得到预测结果。语义相似度问答类输入的两个句子，正向和反向各拼接一次，然后分别输入给transformer，得到的特征向量拼接后再送给全连接得到预测结果。将n个选项的问题抽象化为n个二分类问题，即每个选项分别和内容进行拼接，然后各送入transformer和全连接中，最后选择置信度最高的作为预测结果。 11 GPT-1的使用的数据量和指标 GPT-1使用的数据量和参数量在目前看并不算大，但是在2018年时，已经算非常大的突破。数据量和数据集 • 数据量 GPT-1使用了约5GB的数据量。 • 数据集 GPT-1 使用了 BooksCorpus 数据集，这个数据集包含7000本没有发布的书籍，更能验证模型的泛化能力。模型结构 • • • • • • • • 使用字节对编码，共有40,000个字节对；词编码的长度为 768；可学习位置编码，位置编码长度为3072； 12层的transformer，每个transformer块有 12 个头； Attention，残差，Dropout等机制用来进行正则化，drop比例为 0.1；激活函数为GLEU；训练的batchsize为64，学习率为，序列长度为512，序列epoch为100；模型参数数量为1.17亿。 12 GPT-2相关介绍 GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。数据量和数据集模型结构实验结果 GPT-2的文章取自于Reddit上高赞的文章，命名为WebText。数据集共有约800万篇文章，累计体积约40G。为了避免和测试集的冲突， WebText 移除了涉及 Wikipedia的文章。共计40GB的数据量。 • 同样使用了使用字节对编码构建字典，字典的大小为50257； • 滑动窗口的大小为1024； • batchsize的大小为 512； • Layer Normalization移动到了每一块的输入部分，在每个self-attention之后额外添加了一个Layer Normalization； • 模型参数数量为15亿。在8个语言模型任务中，仅仅通过zero-shot学习，GPT-2就有7个超过了state-of-the-art的方法；在“Children's Book Test”数据集上的命名实体识别任务中，GPT-2超过了state-of-the-art