2024 中国AI Agent 行业研究报告 大模型时代的“APP” ,探索新一代人机交互及协作范式 出品机构:甲子光年智库 智库院长:宋涛 撰写分析师:刘瑶、胡博文 发布时间:2024.4 注:AIGC生成内容亦对本报告有贡献 目录 CONTENTS Part 01 前世今生:科幻憧憬、学术概念与商业尝试 Part 02 奇点已至:让每个人掌握AI的力量 Part 03 百家争鸣:属于大模型时代的APP繁荣 Part 04 时代先驱:当下商业实践值得关注的里程碑 Part 05 潜力无限:来自于数据、算法、算力的飞轮效应 AI Agent的发展历程梳理:大模型赋予了AI Agent核心改变  Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的 含义:具有自主性、反应性、交互性等特征的智能“代理”。大型语言模型(LLMs)的出现为智能代理的进一步发展带来了希望。 基于大模型 AI Agent的发展历程简述 基于深度学习 基于统计学习 LLM给AI Agent底层提供了一个突破性技术方案:LLM带来了深度学习新范 式,思维链和强大的自然语言理解能力有望让Agent 具备强大的学习能力和 迁移能力,从而让创建广泛应用且实用的Agent成为可能 LLM的框架优势:过去等强化学习基于深度学习框架可让Agent学到技能, 但Agent的泛化性较差,往往用于非常窄的特定领域,例如用在游戏或低维 层面的控制或计划,标志性应用是围棋领域的AlphaGo。 过往的工作主要集中在增强代理的特定能力,如符号推理或对特定任务的掌握(国际 象棋、围棋等)。这些研究更加注重算法设计和训练策略,而忽视了模型固有的通用 能力的发展,如知识记忆、长期规划、有效泛化和高效互动等。事实证明,增强模型 固有能力是推动智能代理进一步发展的关键因素。 基于符号规则 • • 长期以来,研究者们一直在追求与人类相当、乃至超 越人类水平的通用人工智能(Artificial General Intelligence,AGI)。 在 1 9 50 年代,Alan Turing 就将「智能」的概念扩展 到了人工实体,并提出了著名的图灵测试。这些人工 智能实体通常被称为 —— Agent(代理*) *Agent 术语的中文译名并未形成共识,有学者 将其翻 译为智 能体、 行为体 、代理 或智能 代理, 目前行 业出现 的“代 理”和 “智能 代理” 均指 代 Agent,后由于2023年Open AI引爆AIGC领域,一般称为AI Agent。 数据来源:公开资料,专家访谈,甲子光年智库整理 过往的AI Agent类型: ➢ 符号型智能体:采用逻辑规则和符号表示来封装知识和促进推理过程,如1980年前后,出现 的医学诊断专家系统,模拟心理治疗程序等; ➢ 反映型智能体:关注智能体与其环境之间的交互,强调快速和实时响应,缺乏复杂缺乏复杂 决策和规划能力; ➢ 基于强化学习的智体题:关注如何让智能体通过与环境的交互进行学习。 ➢ 基于迁移学习和元学习的智能体:使智能体从少量样本中迅速推理出执行任务的最优策略。 www.jazzyear.com LLM是Agent能力的增效器,交互协作程度是Agent能力的扩展器  当下大模型的参数量提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而 提供更个性化、连贯的交互体验,是当下Agent的构建关键。 大模型时代的AI Agent 核心 特征 LLM是核心控制器,构建核心能力 提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而提供更个 性化、连贯的交互体验。 人类用户 架构 解析 Agent基 于LLM的 组件,和 交互两个 层面 (规划+记忆+工具+行动) LLM 通过用户接口、命令指示等方 式与Agent形成交互,是 Agent的监督者、合作者和决 策者 Agents 记忆 能力 人机 交互 工具 能力 AI Agent 群体 协作 规划 能力 外界环境 Agent所处的环境(可能包括 虚拟及物理世界),外界环境 可以与Agent形成交互 数据来源:公开资料,专家访谈,甲子光年智库整理 其他Agent,多Agent可以形 成协作,结合相关任务结果形 成群体智能 系统开发者 感知 反馈 行动 能力 设计 开发 Agent的开发者,对Agent的 相关能力,设计Agent的相关 组件能力 www.jazzyear.com 当下的AI Agent可以看作LLM技术下Prompt工程的进化  AI Agent是Prompt工程的一种升级,Agent的核心在于自主性的增强,可有效完成某一个工作点或工作单元,尽量减少人的干预;  评价一个AI Agent的核心逻辑:在流程上的节点上完成了什么程度的自动化。 自主性的增强,自动化完成连续行动 Multi-Agent AI Agent Chain/Flow Prompt Agent的核心在于自主性的增强,这种增强的核心要义是可以去独立完成一 个工作节点,在某个工作节点几乎可以减少人类的审核。让整个事件的流 程在此刻完成闭环——成本降到最低(包括时间成本和金钱成本); 评价一个Agent的逻辑:在流程上的节点上完成了什么程度的自动化。 Prompt模式是把大模型当做工具来调用: 大模型的最初兴起的时候,Prompt工程,把大模型当成一种编程语言来看待。人们通过描述 角色技能、任务关键词、任务目标及任务背景,告知大模型需要输出的格式,并调用大模型 进行输出。 Prompt工程的万能公式:角色+角色技能+任务核心关键词+任务目标+任务背景+任务范围+ 任务解决与否判定+任务限制条件+输出格式/形式+输出量。 Model 数据来源:公开资料,专家访谈,甲子光年智库整理 因此在2023年,全球AIGC关注者发展了多种Prompt工程的玩法,如角色扮演、零样本提示 和少样本提示,希望将Prompt工程发挥到极致。例如一个澳大利亚少年编写了一个15000个 字符的提示词,成功地让他变身为人类的导师,教授各种知识。这种方式就像能直接构建软件 一样。 www.jazzyear.com 【记忆】和【规划】是学术概念下的关键功能点,商业概念也将逐步落地  从学术概念来看【记忆】和【规划】对于AI Agent学术概念上的完整性非常关键,但受限与市场发展早期,在实际的商业产品落地中【记忆】和 【规划】能力未必能完全呈现  理解这点就能接受在当下市场环境下AI Agent产品功能的不完整,并且对Agent的形态持续保持关注和期待。 2024年仅仅距离AIGC全面爆 发的2023年才过去1年,受限 于算力、模型、数据等等多种 因素制约,往往部分Agent产 品会难以获得“记忆能力”和 “规划能力”; 产品的效果往往可以依靠数字 化及过往自动化手段完成。 知识图谱 搜索引擎 代码解释器 计算 …… 工具 能力 图:人类记忆的分类 视觉记忆 记忆 记忆 能力 AI Agent 感觉记忆 听觉记忆 短期记忆 触觉记忆 长期记忆 规划 能力 行动 能力 数据来源:公开资料,Lilian Weng《LLM Powered Autonomous Agents》,甲子光年智库整理 反思 任务分解 思维链 工具使用 …… 显式记忆 情景记忆(事件经历) 语义记忆(事实概念) 隐式记忆 表:人类记忆与AI Agent记忆的映射 人类记忆类型 Agent映射 例子 感觉记忆 看一张图片,然后在图片消失后 学习原始输入的嵌入表示,包括文本、 能够在脑海中回想起它的视觉印 图像或其他形式,短暂保留感觉印象。 象。 短期记忆 上下文学习(比如直接写入prompt中 的信息),处理复杂任务的临时存储 空间,受有限的上下文长度限制。 在进行心算时记住几个数字,但 短期记忆是有限的,只能暂时保 持几个项目。 长期记忆 在查询时Agent可以关注的外部向量 存储,具有快速检索和基本无限的存 储容量。 学会骑自行车后,多年来再次骑 起来仍能掌握这项技能,这要归 功于长期记忆的持久存储。 www.jazzyear.com AI Agent市场处于早期阶段,产品及服务模式需要大量的探索  当下的市场状态是AI Agent商业类产品的爆发前夜,市场需要给与AI Agent更多的空间,AI Agent需要进行不断地探索;  此时,AI Agent的市场概念与学术概念出现混淆感和分歧,部分Copilot产品在结果上也可作为Agent模式的产品出现。 2024是AI Agent的爆发之年,也是产品逐步从Copilot模式转 向AI Agent的探索之年; 因此市场中往往也会把自动化程度高的Copilot产品作为泛化 的Agent概念产品。 Chatbot Copilot 绝大多数的工作 仍然由人完成 Agent Copilot 与Agent最大的区别在于“自主规划” 的能力:Copilot 的模式需要人的 指挥;而Agent则是直接面对目标任务,具有自主记忆、推理、规划和执行的全自 动能力,因此终极形态的AI Agent只需要用户的起始指令和结果的反馈,过程中并 不需要人的介入。 Copilot 与Agent的混淆点在于对于“工作流”的“自动化”的区分:从完成效果 看,工作可以人为地被无限拆分,部分“Copilot产品+自动化”可以完成单个工作 单元的完全自动化。 名称 自动化的实现方式 Chatbot / 含义 人 指导AI 人 指挥AI 人 指示AI AI 绝大多数的工 Copilot 借助复杂的提示词完成自 人类和AI进行协作,工作量相当。AI根据人类prompt完 动化 成工作初稿,人类进行目标设定,修改调整,最后确认 Agent AI完成绝大部分工作,人类负责设定目标、提供资源和监 通过设定目标完成自动化 督结果,AI完成任务拆分,工具选择,进度控制,现目标 后自主结束工作 作可以由AI完 成 AI AI 数据来源:公开资料,专家访谈,甲子光年智库整理 人类完成绝大部分工作,类似向AI询问意见,了解信息, AI提供信息和建议但不直接处理工作 www.jazzyear.com 随着AI Agent的能力提升,过往的工作范式可被颠覆  Agent的商业价值围绕工作范式差别展开(面向过程VS面向目标),工

pdf文档 2024中国AI Agent行业研究报告-甲子光年-2024.4-60页

网站升级 > 碳达峰碳中和讲座 > 碳达峰碳中和讲座 > 文档预览
62 页 0 下载 68 浏览 0 评论 0 收藏 3.0分
温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
本文档由 2024-05-15 15:40:20上传分享
给文档打分
您好可以输入 255 个字符
中国约定的碳达峰是哪一年( 答案:2030 )
评论列表
  • 暂时还没有评论,期待您的金玉良言