新华社-人工智能大模型体验报告2.0-2023.8-27页

人工智能大模型体验报告2.0 中国企业发展研究中⼼新华社研究院中国企业发展研究中心新华社国家⾼端智库分中⼼ 2023年08月 1 报告综述在2023年6月首次发布的《人工智能大模型体验报告》基础之上，本次测评在题目设计、对标Benchmark （人类）、打分权重、专家测评团队四大维度进行了全面升级。在题目设计方面，测评题目由300道扩展至500道，并进一步完善了题目分类；在对标Benchmark方面，本次测评将接受过高等教育的人类作为对照，来考评大模型真实能力；在打分标准上，本次测评根据对产业、生活的实际价值，对四大测评维度进行了权重设计；在测评团队方面，本次测评特邀北京大学文化与传播研究所及其他业界、学界专家全程参与。通过本次测评发现，与2023年6月相比，当前中国大模型产品进步显著。但与接受过高等教育的人类相比，大模型在智商、情商等方面还存在一定程度差距。具体来看，科大讯飞的星火在工作提效方面优势明显；百度文心一言地基深厚、基础能力仍处领军水准；商汤商量则在情商方面表现优秀；智谱AI 的ChatGLM整体表现优秀。在本次体验测评的基础上，研究团队将继续深耕，加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究，欢迎持续关注。 2 目录 01 目录 02 03 大模型市场综述 • 大模型发展进程 • 大模型应用发展建议 • 大模型未来发展趋势 • 2.0版本大模型测评规则大模型厂商整体测评2.0版本 • 2.0版本大模型综合指数 • 2.0版本测评细分维度指数及评述厂商优秀答案展示 • 大模型2.0版本测评题目展示 3 01.大模型成为AI大规模落地拐点 4 大模型发展进程中国大模型发展现状大模型发展进程中国大模型发展热度依旧，天眼查数据显示，截至2023年上半年，与“大模型”直接相关的融资事件超20起，其中包含光年之外、面壁智能等明星级创业企业；从被投企业的地域分布来看，北京、上海以及杭州位居前列，特别是北京，融资事件数量超10起，凸显出北京在人工智能领域的领先地位。越来越多的企业和学术界开始关注如何将大模型与实际应用场景相结合，实现真正的商业化应用。具体来说探索主要围绕研究层面和应用层面： • 研究层面，中国大模型在科研方面已形成涵盖理论、方法、软硬件的体系化能力，学术界和产业界共同参与，形成更加完善的理论框架。 • 应用层面，目前大模型已开始渗透到各行各业，实现商业化应用。超过半数的大模型实现开源。通用大模型应用 360智脑-360 WAI-微盟 WPS AI-金山办公超拟人大模型-聆心智能赤兔-容联运混元-腾讯九天-中国移动源-浪潮盘古-华为日日新-商汤天工-昆仑万维天书-云天励飞通义千问-阿里云文心一言-百度西湖-西湖心辰星河-中国电信星火-科大讯飞序列猴子-出门问问玉颜、丹青-网易伏羲知海图-知乎紫东太初-中科院垂直大模型应用 ----教育---子曰-有道 ----金融---ChatABC-中农行 ----媒体---Baker-GPT-标贝科技 Graph-AIGC-图宇宙 ----汽车---DriveGPT-毫末智行 ----医疗---HealthGPT-叮当 medGPT-医联左医GPT-左手医生 ----游戏---DRL-rct AI GAEA-超参数 5 大模型应用发展建议大模型进程过半，如何让AI真正走进千家万户成关注重点 AI技术发展的重点已经从大模型的盲目追求转向了实用性和可持续性的发展，AI大规模落地需要更多时间来验证。通过降低成本、提高易用性、增强可靠性、保护隐私和安全等方面的措施，可以进一步提高大模型的可用性，让更多的人受益于AI技术的发展，实现更加智能化和便捷化的生活。降低成本 • • 优化算法：通过改进和优化算法， • 用户界面设计：设计直观、易用 • 提升数据质量：提高数据的质量数据安全 • 数据加密：对用户个人数据进行可以降低模型的计算复杂度，减的用户界面，利用自然语言交互和多样性，加强对数据的清洗、匿名化处理，利用哈希算法、公少所需的计算资源和时间。等技术，降低使用门槛。处理和扩充，以提高训练数据的钥加密等技术加密技术保护数据开发工具和平台：提供简单易用质量和完整性。的传输和存储。分布式训练：分布式训练是一种 • 的开发工具和平台，例如智能代技术，可以将训练任务分配到多个计算节点上并行处理，从而加速训练过程。 • • 安全可解释提高易用性 • 鲁棒性增强：提高模型的鲁棒性， • 访问控制和身份认证：建立严格码生成、自动化模型训练等工具，使其更好地应对各种异常情况和的访问控制机制和身份认证体系，使非专业人士也能够轻松上手。边缘情况，减少错误和漏洞。包确保只有经过授权的用户才能访服务支持：提供相关的培训和教括数据增强、引入噪声、使用防问和使用数据。使用角色分配、御性编程等技术。权限控制等技术实现访问控制。模型压缩：通过减少模型的参数育资源，帮助用户了解AI技术的数量、裁剪模型的结构或使用低原理和应用场景，加强运营和推精度计算等方法，来减小模型的广，形成数据-技术-用户-数据反复模型的问题和缺陷。建立监控存储空间和计算复杂度。使用安全日志对AI应用的安全性馈的正向闭环。系统、进行性能测试等技术。进行定期检查和评估。 • 持续监控和升级：及时发现和修 • 安全审计和监控：建立健全机制， 6 大模型未来发展趋势未来已来，大模型概念红利逐渐消失，回归到实际应用持续加强算力基础设施建设构建完整的数据中心，扩大算力设施规模，提升算力使用效率，实现算力的集中化、高效化供给跨领域知识、多模态数据融合打造综合性的知识体系，打通多模态数据之间的沟通壁垒。多技术、多数据融合，一体化的解决方案逐渐产生化学效应安全可靠的大模型产品应用正成为深耕方向安全可解释的大模型是AI大规模落地的必要条件之一，通过AI算法模型进行行为分析等提前预警风险，提高模型鲁棒性等需要持续深耕大模型走向实体经济，商业化路径逐渐明晰从技术概念到实际落地，已有部分大模型应用出现，以产品或服务的方式进行商业化的路径已经逐渐开始试点大模型更加注重在线学习和增量学习探索模型无监督学习，在不断接收新数据的过程中进行自主学习和升级，从而提高模型的学习效率和适应能力以及迁移性 7 测评规则 2.0版本评测规则（1/2）经过对大模型评测1.0版本的打磨和沉淀，新华社研究院中国企业发展研究中心推出大模型评测2.0版本。主要升级方向包括： 1. 引入Benchmark-人类答案做对比（组建专家团队，利用开卷考试的方式进行问答），更加直观观测AI模型与人之间的差异； 2. 题目数量由300道扩充到500道，在题库中随机筛选题目，使结果更加客观； 3. 根据目前市场情况，增加二级分类权重，并细化二级分类，侧重考察产品的基础能力和智商部分，更符合市场进程； 4. 专家团队升级，专家团队成员涵盖高校教授、行业专家、企业CEO、自媒体创始人等，在打分过程中打乱问题，采用背靠背的打分形式，进一步增强打分结果权威性。本次测评大模型评测维度： • 基础能力（共150题）：考察产品的语言能力、跨模态能力以及AI向善的引导能力，新增多轮对话能力。 • 智商测试（共125题）：涵盖常识知识、专业知识、逻辑能力三大项。其中专业知识包括数学、物理、金融、文学等 10+项细分，逻辑能力则包括推理能力、归纳能力以及总结等6项维度。逻辑推理能力权重增高，并明确封闭式问题打分规则。 • 情商测试（共75题）：衡量产品个体情感能力。包括自我认知、自我调节、社交意识、人际关系管理等方面，本次情商测试围绕不同场景下的突发状况、沟通技巧、情绪管理等展开，并引入专家帮助评估答案。 • 工具提效能力（共150题）：将二级维度总结归纳为工具和创新两大类型，考察产品能否有效帮助相关人员的工作效率提升，并为创新提供思路。 8 测评规则本次评测规则（2/2）打分规则评测大模型产品 360智脑 Mchat 天工商量文心一言讯飞星火通义千问 ChatGLM 注：本次测评时间为2023年07月31日-2023年8月04日分数开放型问题封闭式问题 5分问题答案较为完美，内容可在实际场景中直接使用答案正确且有相关解读 4分基本可用，可在实际场景中使用答案正确 3分调整可用，但需人工进行调整后方可使用答案错误，但有推理过程 2分大略可用，需要较多人工调整方可使用 - 1分不可用，答非所问、语言不通 - 0分无法作答答案错误，没有推理过程 9 02.大模型厂商整体测评 10 综合排名主流大模型综合指数2.0 主流大模型综合指数2.0 1200 1000 800 600 400 200 0 人类-答案讯飞-星火百度-文心一言商汤-商量智谱-ChatGLM 360-360智脑昆仑万维-天工阿里-通义千问澜舟科技-Mchat 1014 1013 1010 983 983 951 943 935 932 基础能力 193 180 189 182 182 181 166 170 167 智商能力 153 147 145 126 147 125 133 120 117 情商能力 371 337 342 346 338 338 335 337 340 工具提效 297 350 335 329 316 308 309 309 309 总分注1：基于评测条件、评测时间等限制，本次评测最终结果不可避免存在一定主观性，未来将进一步优化完善评测模型，提供更精确结果注2：分数四舍五入取整 11 综合排名主流大模型综合指数2.0解析本次引入Benchmark结果对比更加明确。首先，在基础能力方面，人类与AI之间的差距并不显著。这是因为AI算法模型的开发受到人类编程思维的影响，并且在其开发过程中充分利用了人类的智慧和知识。在政策的积极引导下，AI在向善和语言能力上表现出色，逐渐接近人类专家的水平。值得关注的是，大模型的安全可解释性需要持续投入，避免不受控制的现象出现。尽管