关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024944人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

突发!56岁博导董事长被留置,此前董秘已被立案

深蓝财经 浏览 2808 07-24

车圈圆桌派②|人工智能改变汽车产业,大模型应用仍存难点

贝壳财经 浏览 2012 07-12

敖瑞鹏“绝望直男”爆红:他凭什么让全网上头?

情感大头说说 浏览 10127 07-21

还要买中锋吗,曼晚评分:霍伊伦8分全场最高,B费、约罗7分

懂球帝 浏览 10188 07-31

奔驰誓言守护V12引擎,将继续推出十二缸车型

MOTO 浏览 115 09-17

美航母连坠两机原因引猜测

环球网资讯 浏览 3 10-29

美团手艺人成长联盟成立

网易科技报道 浏览 222 08-19

中科闻歌WAIC 2025亮眼表现

脑极体 浏览 7690 07-30

欧盟“暂停”报复性关税,但价值930亿欧元反制清单待命

国际金融报 浏览 2672 07-15

理想取消i8 Pro,将i8 Max改为标配并降价

网易科技报道 浏览 1100 08-06

伊朗否认其最高军事指挥官在以色列袭击中丧生

环球网资讯 浏览 663 06-18

王楚钦横扫张本智和夺冠!赛后仍在总结问题,亲承没让球迷失望!

篮球资讯达人 浏览 868 07-14

董明珠在股东大会上发声 称自己要"尽量少说话"

红星新闻 浏览 7341 07-02

詹姆斯正建造两栋豪宅!11000平米一分为二:为布朗尼准备婚房?

罗说NBA 浏览 14 10-28

提升气质?试试这两招儿

Yuki女人故事 浏览 8106 08-05

走失女童被找到后父亲首度发声:感谢1.2万个恩人

极目新闻 浏览 34 10-18

E句话 | 王传君神预言董璇张维伊?

仙女事件簿 浏览 213 08-22

76岁著名演员许绍雄被指病危 多位圈中好友已赶到医院

极目新闻 浏览 14 10-28

温州鞋王急抛百亿疫苗帝国

网易财经 浏览 1696 07-18

景区直升机坠落致1死4伤 “黑飞”公司无资质

环球网资讯 浏览 1227 08-04

三季报发布,中国人寿总保费规模创历史同期新高

证券市场周刊 浏览 3 10-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11