ChatGPT的技术发展路径和带来的影响 2023-03 目 录 01:人工智能和NLP发展路径 CONTENT 02:GPT系列模型发展路径 03:ChatGPT技术原理解析 04:ChatGPT的影响和意义 人工智能技术发展脉络 人工智能诞生最早可以追溯到1956年的感知机模型,经过近70年的发展,已经渗透到各行各业。 2011年之前 • 模型简单 受制于当时计算机硬件的发展,模型普遍简单,能力也相对较弱 • 场景局限 模型只能处理单一场景,通用能力非常弱,导致成本过高。 • 人工干预 放置示意图 往往需要如制定规则,词表,标注样本等大量人工工作。 2012年至今 • 大模型 得益于底层技术原理的突破和硬件算力的发展,模型越来越大,GPT3 (2020年)达到了惊人的1750亿个参数(一般人脑有神经元120到140 亿个) • 大数据 庞大的模型需要对应于海量的数据,GPT3使用的数据量已达到45TB, 包括了多种主流语言 • 多模态 语音,文字,图像之间不再存在明显壁垒,模型处理复杂场景的能力明 显增加 3 人工智能的任务类型 一般来说,人工智能处理的任务可以分为两类: 1.决策式:人工智能回答“选择题”,模型主要处理诸如:判别,分类,排序等任务。 2.生成式:人工智能回答“问答题”,需要模型根据输入,自动生成一些新内容(客观世界可能从 未出现)。 4 NLP发展的技术路径 自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一 门学科。 传统方法(2012年以前) 典 型 方 法 特 点 常用方法有SVM、TF-IDF、 LDA、同义词表、句法解 析,语义规则,BP神经网 络。 • 需要人工进行干预,如 制定规则,词表,权重 等。 • 应用场景单一,都是针 对特定场景进行开发。 • 需要做大量特征工程。 神经网络(2012年~2018年) 典 型 方 法 特 点 Word2vec 的 诞 生 标 志 着 NLP和神经网络的结合, 陆 续 出 现 了 FastText 、 TextCNN 、 LSTM 、 Attention等模型 神经网络的出现,大量减 少了人工干预的工作,同 义词可以通过向量表征自 动学会,句法分析,词性 标注等都已经嵌入进模型 结构。 大模型预训练(2018年~至今) 典 型 方 法 2018年,GPT和Bert的先 后出现,标志着大模型时 代的到来,后续诞生的 Bart、ERNIE,T5等方法 不断探索大模型的能力边 界。 特 点 模型参数量、数据量均上 升了一个台阶,但是大部 分模型利用文本自身特点 生成训练样本,省去了很 多人工标注的工作。在特 定场景使用微调技术,降 低了大模型跨场景的门槛。 提示(Prompt)学习(2020~ 至今) 典 型 方 法 提示学习将下游任务的建 模方式重新定义,通过合 适的prompt来实现直接在 预训练模型上解决下游任 务,如GPT3,T5。 特 点 • 将所有任务,都转变为 生成式任务。 • 模型不再需要微调,使 得零样本和少样本学习 成为可能。 5 目 录 01:人工智能和NLP发展路径 CONTENT 02:GPT系列模型发展路径 03:ChatGPT技术原理解析 04:ChatGPT的影响和意义 GPT系列模型发展路径 在这个大模型时代,国内外各大厂商均对大模型积极布局,呈现百家争鸣的现象。Nvidia或成最大赢家。 各大厂商的布局 底层技术原理 三种技术流派 • 自从2017年,Transformer被提出来后, Google,Meta,OpenAI均在大模型上有所 建树,并产生了三种技术流派:1.自编码(Bert 等) 2.自回归(GPT等) 3.二者结合(T5, BART等) 7 NLP技术发展带来的影响 最近10年,是NLP技术和业务场景发展最快的黄金时期,NLP本身的技术体系被重构,所影响的业 务领域也不断扩大。 技术体系的改变 • 中间任务的消亡 中间任务是指并不直接面向最终目标,而是 为了解决最终目标的一些阶段性任务。因为 神经网络的发展,诸如语法分析,词性标注, 分词等特有的中间任务已经几乎无人问津。 • All you need is Money 现在完成一个NLP任务,需要的不仅是技术, 而且还包括算力,数据等资源。这背后都是 巨额的资金投入。 未来的发展 使用场景的扩大 • 搜广推等内容链接领域 NLP最成功的的商业化应用场景就是搜索,推荐, 广告,技术的发展催生出一系列巨头(谷歌,百 度,字节) • 丰富的人机交互 各类聊天机器人,语音助手,等人机交互场景趋 于成熟。 • 内容领域的变革 ChatGPT将会颠覆整个内容生态,内容型公司 (如知乎,微博)的重点将从内容分发转变为内 容生产。今后互联网将充斥着大量机器产生的内 容,这对监管会带来极大的挑战。 • 大模型时代 ChatGPT的出现,标志着大模型已经突破了 技术的天花板,让大模型这条技术发展路线 更为坚定。 • 小模型时代 大模型对于创业公司和中小企业来说无疑需 要倾注大量的资源。轻量化预训练模型,给 出了一个新的思考方向。 8 OpenAI和ChatGPT的发展路径 OpenAI,在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能(AGI)”,使其有益于人类。 OpenAI 成立于2015 年,是一家非营利性 研究机构,它的愿景 是构建出安全、对人 类有益的通用人工智 能 ( AGI ) , 由 伊 隆 · 马 斯 克 、 Sam Altman 等人宣 布出 资 10 亿美元成立。 2019 年 7 月 22 日,微软宣布 将向 OpenAI 投资 10 亿美元, 以 共 同 开 发 用 于 Microsoft Azure 云平台的新技术 GPT面世,标志着人 工智能正式走向大模 型时代 微软率先宣布与OpenAI独家合 作打造了一台性能位居全球前五, 拥有超过28.5万个CPU核心、1 万 个 GPU 、 每 GPU 拥 有 400Gbps网络带宽的 超级计算 机——Azure AI超算平台,主 要用于大规模分布式AI模型训练。 GPT-3依旧延续自己的 单向语言模型训练方式, 只不过这次把模型尺寸 增 大 到 了 1750 亿, 并 且 使 用45TB 数 据 进 行 训练。 BEGIN 2015年 2018年 2019年 2020年 • 2022年11月30日 ,ChatGPT 上市。 • 2022年12月5日 OpenAI创 始人山姆·奥特曼宣布 , ChatGPT的用户已经突破100 万人,仅用时5天。 • 2023年1月末 ChatGPT 用户 数突破1亿,成为史上用户数 增长最快的消费者应用。 • 2023年1月末 微软宣布向推 出 ChatGPT的OpenAI公司追 加投资100亿美元。 2022年 9 GPT-1系列模型发展路径 GPT的全称是Generative Pre-Trained Transformer,顾名思义,GPT的目的就是通过Transformer为基础 模型,使用预训练技术得到通用的文本模型。 GPT模型结构 • GPT-1的无监督预训练是基于语言模型进行训练 在GPT-1中,使用了12个transformer块的结构作为解码器, 每个transformer块是一个多头的自注意力机制,然后通过全连 接得到输出的概率分布。 10 GPT-1处理相关NLP任务 GPT-1稍加处理,就可适配大部分NLP主流任务 放置示意图 分 类 任 务 将起始和终止token加入到原始序列两端, 输入transformer中得到特征向量,最后 经过一个全连接得到预测的概率分布。 推 理 任 务 将前提(premise)和假设(hypothesis) 通过分隔符(Delimiter)隔开,两端加 上 起 始 和 终 止 token 。 再 依 次 通 过 transformer和全连接得到预测结果。 语 义 相 似 度 问 答 类 输入的两个句子,正向和反向各拼接一次, 然后分别输入给transformer,得到的特 征向量拼接后再送给全连接得到预测结果。 将n个选项的问题抽象化为n个二分类问题, 即每个选项分别和内容进行拼接,然后各 送入transformer和全连接中,最后选择 置信度最高的作为预测结果。 11 GPT-1的使用的数据量和指标 GPT-1使用的数据量和参数量在目前看并不算大,但是在2018年时,已经算非常大的突破。 数据量和数据集 • 数据量 GPT-1使用了约5GB的数据量。 • 数据集 GPT-1 使 用 了 BooksCorpus 数 据 集,这个数据集包含7000本没有 发布的书籍,更能验证模型的泛化 能力。 模型结构 • • • • • • • • 使用字节对编码,共有40,000个字节对; 词编码的长度为 768; 可学习位置编码,位置编码长度为3072; 12层的transformer,每个transformer块有 12 个头; Attention, 残差,Dropout等机制用来进行 正则化,drop比例为 0.1; 激活函数为GLEU; 训练的batchsize为64,学习率为 ,序列长 度为512,序列epoch为100; 模型参数数量为1.17亿。 12 GPT-2相关介绍 GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要 额外的训练。 数据量和数据集 模型结构 实验结果 GPT-2的文章取自于Reddit上高赞的文章, 命名为WebText。数据集共有约800万篇 文章,累计体积约40G。为了避免和测试 集 的 冲 突 , WebText 移 除 了 涉 及 Wikipedia的文章。共计40GB的数据量。 • 同样使用了使用字节对编码构建字典,字典 的大小为50257; • 滑动窗口的大小为1024; • batchsize的大小为 512; • Layer Normalization移动到了每一块的输入 部分,在每个self-attention之后额外添加了 一个Layer Normalization; • 模型参数数量为15亿。 在8个语言模型任务中,仅仅通过zero-shot学 习,GPT-2就有7个超过了state-of-the-art的方 法; 在“Children's Book Test”数据集上的命名实 体识别任务中,GPT-2超过了state-of-the-art

pdf文档 ChatGPT的技术发展路径和带来的影响-2023.3-31页

网站升级 > 碳达峰碳中和书籍 > 碳达峰碳中和书籍 > 文档预览
31 页 0 下载 319 浏览 0 评论 0 收藏 3.0分
温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
本文档由 2023-06-13 15:15:44上传分享
给文档打分
您好可以输入 255 个字符
中国约定的碳达峰是哪一年( 答案:2030 )
评论列表
  • 暂时还没有评论,期待您的金玉良言