参考指南

《科创板日报》8月12日讯（记者黄心怡）华为今日发布AI推理创新技术UCM（推理记忆数据管理器）。作为一款以KV Cache为中心的推理加速套件，其融合了多类型缓存加速算法工具，分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。

据悉，华为计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

IDC预测，到2027年中国智能算力中，推理算力占比将从2023年的41%左右上升到72.6%左右。中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示，大模型推理需求爆发。一方面大模型服务调用量、推理计算量将翻倍，另一方面大模型推理算力供给将超过训练，基础设施重心将逐步向推理偏移。

不过，当前AI推理应用落地过程中存在推不动、推得慢、推得贵等问题。华为数据存储产品线总裁周跃峰举例：中国互联网大模型的首Token时延普遍慢于海外互联网头部的首Token时延，海外头部大模型的推理吞吐率也要远高于中国。因此，如何改进推理系统的效率和体验是重要课题。这也是华为此次推出UCM推理记忆数据管理器的原因。

据介绍，UCM推理记忆数据管理器已经在中国银联的客户服务、营销策划、办公会议等业务场景中，开展AI推理加速应用试点。

华为数据存储产品线副总裁、闪存领域总裁谢黎明表示，从银行业来看，不管是生产环境的投研分析，还是舆情分

华为发布AI推理新技术将于今年9月正式开源

七鲜小厨首店...

男子杀人后隐...

特朗普：将对...

凯莱英之变...

欧盟外长对中...

拜仁未激活回...

柳江上游出现锑浓度异常广西柳州启动应急响应

离婚后高调秀恩爱的杨子，没给黄圣依留一丝体面

给整懵了！胡尔克笑着和裁判交流，主裁突然给了他一张黄牌

俄罗斯红场阅兵现场：普京喊出“乌拉” 全场齐声回应

《扫毒风暴》中6位美人，于文文被谁秒杀？“大嫂”李蔓瑄赢麻了

外媒：莫迪将访华印美两国的同盟关系可能会重新调整

古力娜扎礼服裙不慎滑落，下一秒处理方式绝了

牛弹琴：泰柬能实现停火秘密就藏在一张特殊的照片里

情侣租户强占房子1年多房东打开房门:正常人都受不了

以防长：辛瓦尔已死这些人是下个目标

7月制造业PMI为49.3% 比上月下降0.4个百分点

从FinFET到Flip FET：三维晶体管中国方案登场

什么信号？知名A股，30亿炒股！

＂强制社保＂背后：东北养老金收不抵支广东贡献最大

英伟达怒花350亿，把英特尔打回了40年前。

首款 800V 智能超混华系 SUV，岚图旗舰新车“泰山”预告公布

用户称购票平台未更新航班信息致误机平台回应

过气男神集体景区再就业？49岁郑国霖和马景涛“抢饭碗”，太卷

在南京高淳，年轻人为什么能“横”着走？

台当局欲出资百亿美元参与美天然气项目国台办回应

米体：莱奥在联赛间歇期返回葡萄牙，为双胞胎孩子庆祝1周岁生日

超级世界波+1！姆巴佩远射破门，门将跪地“投降”，5场轰5球

对话智元机器人王闯：直播收获大订单，出海已在路上

父母将589092元善款全额退还患白血病儿子已上大学

华为发布AI推理新技术 将于今年9月正式开源