关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025199人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普第4次延长TikTok禁令宽限期至12月16日

第一财经日报 浏览 302 09-18

瑞银点评Palantir财报:公司“叙事无瑕疵”,上调目标价至165美元

华尔街见闻官方 浏览 7651 08-06

特朗普否认鼓动乌克兰打击莫斯科:不站任何人一边

每日经济新闻 浏览 3045 07-16

九三阅兵当天赖清德诬蔑攻击大陆 国台办回应

环球网 浏览 398 09-05

青海女官员于媛媛被"双开":生活奢靡 大搞权钱交易

鲁中晨报 浏览 285 10-21

马斯克一条推文,造车新势力几年白卷了,Model Y自己“回家”了

小李车评李建红 浏览 488 06-02

大量中国女性私密照在外网传播 女生前任只在床上拍她

极目新闻 浏览 7295 07-27

中国机器人组团出征CES,加速进化首日售出数十台,魔法原子海外收入占比过半

红星资本局 浏览 236 01-08

印度公布阵风被击落原因 中国"虚标"导弹射程把其骗惨

博览历史 浏览 7133 08-05

OpenAI开源!性能超DeepSeek 但"幻觉"频发

网易科技报道 浏览 5374 08-06

开完"告别酒会"70岁萨科齐下周入狱 或住进9平米单间

上观新闻 浏览 305 10-15

LV高管空降泡泡玛特,年薪300万港元

YOUNG财经 浏览 168 12-12

利物浦1-0领先普雷斯顿!布拉德利破门后未庆祝 仅与队友简单击掌

直播吧 浏览 8863 07-14

NASA 深空激光通信试验超额完成目标,为未来火星任务铺路

IT之家 浏览 346 09-20

马斯克的AI,把日本网友骂破防了,背后是日本跪美国的深层原因

北向财经 浏览 1384 07-26

收评:创业板指高开高走涨2.29% 黄金概念股集体大涨

财联社 浏览 496 09-02

成都蓉城连续两年止步足协杯半决赛,上赛季惨遭山东泰山绝杀

直播吧 浏览 409 08-20

E句话| 女明星站个C位就要被封杀?

仙女事件簿 浏览 292 10-26

乌在黑海海域击沉一艘俄“影子舰队”油轮

上观新闻 浏览 174 12-11

要求孙颖莎对手"懂点事儿"的前国手致歉 曾战胜张怡宁

扬子晚报 浏览 2401 07-13

苹果手机返校季优惠开闸,“学生资质”售卖火热,律师提示“代买”风险

红星资本局 浏览 6770 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11