人工智能大模型体验报告2.0 中国企业发展研究中⼼ 新华社研究院中国企业发展研究中心 新华社国家⾼端智库分中⼼ 2023年08月 1 报告综述 在2023年6月首次发布的《人工智能大模型体验报告》基础之上,本次测评在题目设计、对标Benchmark (人类)、打分权重、专家测评团队四大维度进行了全面升级。在题目设计方面,测评题目由300道扩展至500道, 并进一步完善了题目分类;在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型 真实能力;在打分标准上,本次测评根据对产业、生活的实际价值,对四大测评维度进行了权重设计;在测评团 队方面,本次测评特邀北京大学文化与传播研究所及其他业界、学界专家全程参与。 通过本次测评发现,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比, 大模型在智商、情商等方面还存在一定程度差距。具体来看,科大讯飞的星火在工作提效方面优势明显;百度文 心一言地基深厚、基础能力仍处领军水准;商汤商量则在情商方面表现优秀;智谱AI 的ChatGLM整体表现优秀。 在本次体验测评的基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情 况、产业优秀案例等维度上的探索与研究,欢迎持续关注。 2 目录 01 目 录 02 03 大模型市场综述 • 大模型发展进程 • 大模型应用发展建议 • 大模型未来发展趋势 • 2.0版本大模型测评规则 大模型厂商整体测评2.0版本 • 2.0版本大模型综合指数 • 2.0版本测评细分维度指数及评述 厂商优秀答案展示 • 大模型2.0版本测评题目展示 3 01.大模型成为AI大规模落地拐点 4 大模型发展进程 中国大模型发展现状 大模型发展进程 中国大模型发展热度依旧,天眼查数据显示,截至2023年 上半年,与“大模型”直接相关的融资事件超20起,其中 包含光年之外、面壁智能等明星级创业企业;从被投企业 的地域分布来看,北京、上海以及杭州位居前列,特别是 北京,融资事件数量超10起,凸显出北京在人工智能领域 的领先地位。越来越多的企业和学术界开始关注如何将大 模型与实际应用场景相结合,实现真正的商业化应用。具 体来说探索主要围绕研究层面和应用层面: • 研究层面,中国大模型在科研方面已形成涵盖理论、 方法、软硬件的体系化能力,学术界和产业界共同参 与,形成更加完善的理论框架。 • 应用层面,目前大模型已开始渗透到各行各业,实现 商业化应用。超过半数的大模型实现开源。 通用大模型应用 360智脑-360 WAI-微盟 WPS AI-金山办公 超拟人大模型-聆心智能 赤兔-容联运 混元-腾讯 九天-中国移动 源-浪潮 盘古-华为 日日新-商汤 天工-昆仑万维 天书-云天励飞 通义千问-阿里云 文心一言-百度 西湖-西湖心辰 星河-中国电信 星火-科大讯飞 序列猴子-出门问问 玉颜、丹青-网易伏羲 知海图-知乎 紫东太初-中科院 垂直大模型应用 ----教育---子曰-有道 ----金融---ChatABC-中农行 ----媒体---Baker-GPT-标贝科技 Graph-AIGC-图宇宙 ----汽车---DriveGPT-毫末智行 ----医疗---HealthGPT-叮当 medGPT-医联 左医GPT-左手医生 ----游戏---DRL-rct AI GAEA-超参数 5 大模型应用发展建议 大模型进程过半,如何让AI真正走进千家万户成关注重点 AI技术发展的重点已经从大模型的盲目追求转向了实用性和可持续性的发展,AI大规模落地需要更多时间来验证。通过降低 成本、提高易用性、增强可靠性、保护隐私和安全等方面的措施,可以进一步提高大模型的可用性,让更多的人受益于AI技 术的发展,实现更加智能化和便捷化的生活。 降低成本 • • 优化算法:通过改进和优化算法, • 用户界面设计:设计直观、易用 • 提升数据质量:提高数据的质量 数据安全 • 数据加密:对用户个人数据进行 可以降低模型的计算复杂度,减 的用户界面,利用自然语言交互 和多样性,加强对数据的清洗、 匿名化处理,利用哈希算法、公 少所需的计算资源和时间。 等技术,降低使用门槛。 处理和扩充,以提高训练数据的 钥加密等技术加密技术保护数据 开发工具和平台:提供简单易用 质量和完整性。 的传输和存储。 分布式训练:分布式训练是一种 • 的开发工具和平台,例如智能代 技术,可以将训练任务分配到多 个计算节点上并行处理,从而加 速训练过程。 • • 安全可解释 提高易用性 • 鲁棒性增强:提高模型的鲁棒性, • 访问控制和身份认证:建立严格 码生成、自动化模型训练等工具, 使其更好地应对各种异常情况和 的访问控制机制和身份认证体系, 使非专业人士也能够轻松上手。 边缘情况,减少错误和漏洞。包 确保只有经过授权的用户才能访 服务支持:提供相关的培训和教 括数据增强、引入噪声、使用防 问和使用数据。使用角色分配、 御性编程等技术。 权限控制等技术实现访问控制。 模型压缩:通过减少模型的参数 育资源,帮助用户了解AI技术的 数量、裁剪模型的结构或使用低 原理和应用场景,加强运营和推 精度计算等方法,来减小模型的 广,形成数据-技术-用户-数据反 复模型的问题和缺陷。建立监控 存储空间和计算复杂度。 使用安全日志对AI应用的安全性 馈的正向闭环。 系统、进行性能测试等技术。 进行定期检查和评估。 • 持续监控和升级:及时发现和修 • 安全审计和监控:建立健全机制, 6 大模型未来发展趋势 未来已来,大模型概念红利逐渐消失,回归到实际应用 持续加强算力基础设施建设 构建完整的数据中心,扩大算力设施规模,提升算力使用效率,实现 算力的集中化、高效化供给 跨领域知识、多模态数据融合 打造综合性的知识体系,打通多模态数据之间的沟通壁垒。多技术、 多数据融合,一体化的解决方案逐渐产生化学效应 安全可靠的大模型产品应用正成为深耕方向 安全可解释的大模型是AI大规模落地的必要条件之一,通过AI算法模 型进行行为分析等提前预警风险,提高模型鲁棒性等需要持续深耕 大模型走向实体经济,商业化路径逐渐明晰 从技术概念到实际落地,已有部分大模型应用出现,以产品或服务的 方式进行商业化的路径已经逐渐开始试点 大模型更加注重在线学习和增量学习 探索模型无监督学习,在不断接收新数据的过程中进行自主学习和升 级,从而提高模型的学习效率和适应能力以及迁移性 7 测评规则 2.0版本评测规则(1/2) 经过对大模型评测1.0版本的打磨和沉淀,新华社研究院中国企业发展研究中心推出大模型评测2.0版本。主要升级方向包括: 1. 引入Benchmark-人类答案做对比(组建专家团队,利用开卷考试的方式进行问答),更加直观观测AI模型与人之间的差异; 2. 题目数量由300道扩充到500道,在题库中随机筛选题目,使结果更加客观; 3. 根据目前市场情况,增加二级分类权重,并细化二级分类,侧重考察产品的基础能力和智商部分,更符合市场进程; 4. 专家团队升级,专家团队成员涵盖高校教授、行业专家、企业CEO、自媒体创始人等,在打分过程中打乱问题,采用背靠背 的打分形式,进一步增强打分结果权威性。 本次测评大模型评测维度: • 基础能力(共150题):考察产品的语言能力、跨模态能力以及AI向善的引导能力,新增多轮对话能力。 • 智商测试(共125题):涵盖常识知识、专业知识、逻辑能力三大项。其中专业知识包括数学、物理、金融、文学等 10+项细分,逻辑能力则包括推理能力、归纳能力以及总结等6项维度。逻辑推理能力权重增高,并明确封闭式问题打 分规则。 • 情商测试(共75题):衡量产品个体情感能力。包括自我认知、自我调节、社交意识、人际关系管理等方面,本次情 商测试围绕不同场景下的突发状况、沟通技巧、情绪管理等展开,并引入专家帮助评估答案。 • 工具提效能力(共150题):将二级维度总结归纳为工具和创新两大类型,考察产品能否有效帮助相关人员的工作效率 提升,并为创新提供思路。 8 测评规则 本次评测规则(2/2) 打分规则 评测大模型产品 360智脑 Mchat 天工 商量 文心一言 讯飞星火 通义千问 ChatGLM 注:本次测评时间为2023年07月31日-2023年8月04日 分数 开放型问题 封闭式问题 5分 问题答案较为完美,内容可在实 际场景中直接使用 答案正确且有相关解 读 4分 基本可用,可在实际场景中使用 答案正确 3分 调整可用,但需人工进行调整后 方可使用 答案错误,但有推理 过程 2分 大略可用,需要较多人工调整方 可使用 - 1分 不可用,答非所问、语言不通 - 0分 无法作答 答案错误,没有推理 过程 9 02.大模型厂商整体测评 10 综合排名 主流大模型综合指数2.0 主流大模型综合指数2.0 1200 1000 800 600 400 200 0 人类-答案 讯飞-星火 百度-文心一言 商汤-商量 智谱-ChatGLM 360-360智脑 昆仑万维-天工 阿里-通义千问 澜舟科技-Mchat 1014 1013 1010 983 983 951 943 935 932 基础能力 193 180 189 182 182 181 166 170 167 智商能力 153 147 145 126 147 125 133 120 117 情商能力 371 337 342 346 338 338 335 337 340 工具提效 297 350 335 329 316 308 309 309 309 总分 注1:基于评测条件、评测时间等限制,本次评测最终结果不可避免存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果 注2:分数四舍五入取整 11 综合排名 主流大模型综合指数2.0解析 本次引入Benchmark结果对比更加明确。首先,在基础能力方面,人类与AI之间的差距并不显著。这是因为AI算法模型的开发受到人类编程思维 的影响,并且在其开发过程中充分利用了人类的智慧和知识。在政策的积极引导下,AI在向善和语言能力上表现出色,逐渐接近人类专家的水平。值 得关注的是,大模型的安全可解释性需要持续投入,避免不受控制的现象出现。 尽管

pdf文档 新华社-人工智能大模型体验报告2.0-2023.8-27页

双碳政策标准 > 碳达峰碳中和政策 > 国家政策 > 文档预览
26 页 0 下载 199 浏览 0 评论 0 收藏 3.0分
温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
本文档由 2023-09-13 14:05:18上传分享
给文档打分
您好可以输入 255 个字符
中国约定的碳达峰是哪一年( 答案:2030 )
评论列表
  • 暂时还没有评论,期待您的金玉良言