关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024943人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

急诊科专家解答动物抓咬伤八大问题

网易健康 浏览 354 08-14

S妈和具俊晔一起提告张兰,却被骂贪心不体面

巧妹电影 浏览 125 09-11

珠海飞太原客机高空剧烈颠簸吓哭乘客 南航回应

鲁中晨报 浏览 152 09-10

特朗普威胁:将每天给大约10个国家发送信件 接关税吧

澎湃新闻 浏览 5394 07-05

心目中的榜样是谁?徐杰:我自己,是我自己激励了自己

懂球帝 浏览 9395 08-09

亲民大众SUV 外观年轻酷似新能源 配五代EA888

小史谈车 浏览 221 06-16

最新民调数据公布:美国人对巴以的态度出现巨大改变

环球时报国际 浏览 89 10-01

被约谈后首个周末,外卖平台补贴仍在继续

澎湃新闻 浏览 7838 07-21

拿到泼天订单的YU7,让小米汽车既甜蜜又烦恼

禾颜阅车 浏览 250 08-11

飞机中转被截胡改送其他航班乘客 东海航空回应

界面新闻 浏览 76 10-01

李湘没想到,王诗龄挽救了王岳伦岌岌可危的口碑

猛哥的搞笑视频 浏览 2874 07-15

一箭11星 我国成功发射吉利星座05组卫星

环球网资讯 浏览 148 09-09

泰禾集团:董事长黄其森因涉嫌违法被辽宁省新民市监察委员会实施留置措施

网易财经 浏览 157 08-23

欧美9国名校青年代表乘坐C919 体验中国制造新高度

环球网资讯 浏览 2383 07-15

固态电池概念股掀涨停潮!国轩高科、先导智能领涨,上半年超六成企业业绩飘红

时代周报 浏览 172 09-02

输不起?曝蓉城球迷围殴+扔水瓶砸中河南队人员!或遭中足联处罚

我爱英超 浏览 227 08-20

因球队体育总监是巴萨球迷,瑞士第四级别球队穿巴萨球衣比赛

懂球帝 浏览 175 08-27

儒意收购万达电影后,新故事才刚刚开始

斑马消费 浏览 108 09-26

2025内娱第一瓜:许凯遭“天降魔嫂”,于老头遇“一生之敌”?

仙女事件簿 浏览 178 08-23

坦克队喜剧的内核是悲剧?

静易墨 浏览 29 10-21

三亚学院二十载:与海南自贸港共绘时代答卷

正和岛 浏览 3553 07-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11