关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024999人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英国AI科技界的“她力量”

新华社 浏览 119 10-13

男子举报污染被打获赔后被抓又无罪:镇书记定的赔偿金

重案组37号 浏览 252 09-21

黄河河道被侵占 省委书记直奔现场

新京报政事儿 浏览 7596 06-12

普京再表态:俄罗斯不考虑重返G8,这与乌克兰局势无关

环球网资讯 浏览 24 12-05

记者:一旦确定无法签下伊萨克,利物浦将迅速推进埃基蒂克的转会

直播吧 浏览 2433 07-17

万亿海航"分家"后续:航空与机场板块又分资产

界面新闻 浏览 1534 06-11

固态电池瓶颈技术取得重大突破!

电动知家 浏览 156 09-29

乌军方称对俄铁路发起特别作战行动

国际在线 浏览 174 09-16

泽连斯基:只要俄方没有"全面占领"乌克兰 就是乌胜利

参考消息 浏览 262 09-09

E句话| 爱马仕继承人被曝坐廉航,150亿美元下落不明?

仙女事件簿 浏览 27 12-02

ESG领跑者|对话英飞凌高级副总裁于代辉:如何以半导体技术撬动全球减碳未来?

澎湃新闻 浏览 248 08-25

苏契奇:希望在国米拿冠军;魔笛和B罗都是我的偶像

懂球帝 浏览 205 09-11

记者:巴黎与里尔就切瓦利耶谈判进最后阶段,想4000万+奖金签下

直播吧 浏览 7508 07-29

CHERRY 樱桃推出三款四型 KW 系列机械键盘,面向现代办公场景

IT之家 浏览 3154 08-06

DeepMind哈萨比斯:智能体可以在Genie实时生成的世界里运行

量子位 浏览 4543 08-14

泰晤士:多纳鲁马不在欧超杯大名单中,巴黎为其标价2600万镑

懂球帝 浏览 4650 08-12

堂安律加盟德甲3赛季过人362次,同期仅次穆西亚拉、维尔茨&萨内

直播吧 浏览 4622 08-07

苏媒:苏超有71人来自南通青训,逾1/4进球由南通青训球员打进

直播吧 浏览 1663 08-13

美团请全国骑手喝“秋天的第一杯奶茶”

北青网-北京青年报 浏览 642 08-07

欧洲称中国要出兵乌克兰 中方明确表态也给了俄方交代

文雅笔墨 浏览 319 08-26

美国发布AI行动计划,全球竞争与分化或加剧……

国际金融报 浏览 4456 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11