新型智算中心算力池化技术白皮书(2023) 中国移动通信有限公司研究院 新型智算中心算力池化技术 白皮书 (2023 年) 中移智库 中国移动通信有限公司研究院 2023 年 8 月 I 新型智算中心算力池化技术白皮书(2023) 中国移动通信有限公司研究院 前 言 当前,数字经济已成为国民经济高质量发展的新动能,随着人工 智能在产业数字化进程中从“单点突破”迈向“泛在智能”,一个以 数字化、网络化、智能化为特征的智慧社会正加速到来。智能算力作 为人工智能的基石,是算力网络构建多要素融合新型信息基础设施的 关键领域,已成为数字经济高质量发展的核心引擎,智能算力基础设 施建设也迎来了高潮。 智算中心作为集约化建设的算力基础设施,它以 GPU、AI 芯片等 智能算力为核心,提供软硬件全栈环境,主要承载模型训练、推理、 多媒体渲染等业务,支撑千行百业数智化转型升级。然而传统智算中 心的智算资源利用率较低,资源分布相对碎片化,不利于整体效能的 提升,亟需一个可聚合各类型算力、实现敏捷化资源管理的平台,使 能资源可以被极致利用,算力池化技术应运而生。 为凝聚产业共识,进一步推动算力池化技术成熟,中国移动发布 本白皮书,分析了智能算力发展的趋势及面临的挑战,系统性介绍了 算力池化的定义与目标、总体架构、关键技术和当前业界的探索实践, 并呼吁业界紧密合作、加快构建算力池化统一的标准体系。 本白皮书由中国移动通信有限公司研究院主编,北京趋动科技有 限公司、华为技术有限公司、中兴通讯股份有限公司、威睿信息技术 (中国)有限公司联合编撰,由中移智库发布。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不 得复制或拷贝本白皮书之部分或全部内容。 I 新型智算中心算力池化技术白皮书(2023) 中国移动通信有限公司研究院 目 录 前 言 .....................................................................................................................................I 目 录 ....................................................................................................................................II 1. 算力池化技术背景 ............................................................................................................ 1 1.1 传统智算中心存在资源效率问题 ......................................................................... 2 1.1.1 GPU 资源利用率不足 30% ............................................................................2 1.1.2 资源碎片化导致分配率低 ............................................................................. 3 1.2 池化技术是提高资源效率的关键 ......................................................................... 4 2. 算力池化定义与目标 .........................................................................................................6 2.1 算力池化的定义 ................................................................................................... 6 2.2 算力池化的目标 ................................................................................................... 6 3. 算力池化架构与关键技术 ................................................................................................. 8 3.1 算力池化平台技术架构 ........................................................................................ 8 3.2 算力池化技术能力层级 ...................................................................................... 10 3.3 算力池化关键技术 ............................................................................................. 12 3.3.1 软件定义的资源分配方式 ........................................................................... 12 3.3.2 算力资源高质量管理技术 ........................................................................... 14 3.3.3 泛在化碎片的池化整合技术 ........................................................................16 4. 算力池化产业实践 .......................................................................................................... 19 4.1 业界厂商池化技术实践 ...................................................................................... 19 4.2 中国移动池化技术实践 ...................................................................................... 24 5. 展望与倡议 ..................................................................................................................... 26 参考文献 .............................................................................................................................. 27 缩略语列表 .......................................................................................................................... 28 II 新型智算中心算力池化技术白皮书(2023) 中国移动通信有限公司研究院 1. 算力池化技术背景 数字经济时代,随着智慧城市、智慧交通、智慧家庭等智能场景 的逐步落地,人工智能正深刻地改变我们的生产、生活方式。同时随 着 5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产 生的数据量正在以更加难以计量的速度爆发,据 IDC 公布的《数据时 代 2025》显示,从 2016 年到 2025 年全球总数据量将会增长 10 倍, 达到 163ZB,其中非结构化数据占 70%以上,计算模式将变得更加复杂, 对智能算力的需求也在不断提高,智能计算将成为主流的计算形态。 随着智能计算广泛融合到生产、生活的各个方面,以 GPU、AI 芯 片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发 展的主流形态。在此背景下,各国政府已开始布局 AI 领域全栈能力, 并出资引导智能算力基础设施建设;我国也已进入智能化时代,“十 四五”期间,相关部委积极推动智算中心建设发展,旨在面向人工智 能场景提供公共算力服务。 同时,随着 ChatGPT 等基础通用大模型业务引爆了对 GPU 的市场 需求,产业各方纷纷加入对基础大模型的训练和培育,导致“一芯难 求”,GPU 价格也随之暴涨。以英伟达 A800 为例,据市场数据统计, 近半年来的价格增幅高达 30%以上。如何在有限的资源供应内尽可能 提高利用率,充分发挥算力效率的同时降低智算中心 TCO,目前已成 为智算中心建设待解决的关键命题之一。 1 新型智算中心算力池化技术白皮书(2023) 中国移动通信有限公司研究院 1.1 传统智算中心存在资源效率问题 1.1.1 GPU 资源利用率不足 30% 当前智算中心主要以国家或当地政府总体牵头建设为主,此外, AI 应用服务企业也在布局自有智算基础设施建设。然而,据公开数 据统计,传统模式下的智算中心 GPU 利用率较低,平均数值低于 30%: − AWS re:Invent 2018 公布数据:平均 GPU 利用率为 20% − Facebook 2021 年机器学习负载分析报告:平均 GPU 利用率 不足 30% − 英伟达 GTC2022 公布数据:Google 云平均 GPU 利用率为 25% 传统智算中心的 GPU 资源利用率过低,主要来源于以下多个方面 的原因: (一)资源分配较为粗放:资源分配以整卡分配为主,辅以一虚 多的虚拟化分配方式,颗粒度较粗,无法适配不同 AI 任务对资源的 差异化需求,导致部分资源闲置,影响算力资源的利用率; (二)算力没有被充分激活:AI 任务

pdf文档 新型智算中心算力池化技术白皮书-33页

网站升级 > 碳达峰碳中和培训 > 碳达峰碳中和培训 > 文档预览
32 页 0 下载 66 浏览 0 评论 0 收藏 3.0分
温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
本文档由 2023-11-08 02:23:16上传分享
给文档打分
您好可以输入 255 个字符
中国约定的碳达峰是哪一年( 答案:2030 )
评论列表
  • 暂时还没有评论,期待您的金玉良言