关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025203人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

XREAL 1S AR眼镜发布,全球首搭内容2D→3D自动转换

IT之家 浏览 247 12-02

甲骨文业绩不及预期,资本开支比预期多约150亿美元,盘后重挫超10%

华尔街见闻官方 浏览 205 12-11

事关所有人!这件大事,国家出手为民减负

华商韬略 浏览 1348 07-17

葡媒:本菲卡将从菲利克斯转会利雅得胜利中获得收益,约60万欧

直播吧 浏览 7261 07-29

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

新智元 浏览 331 10-11

男子花46万"捡漏"特斯拉结果故障频出:9个月修不停

大风新闻 浏览 7886 08-11

这才是打开秋季的穿衣方式!衣服不贪多、搭配得体,养眼舒适

静儿时尚达人 浏览 334 09-25

加盟仅2天!曝21岁港脚遭中甲队解约 输国足后疑骂中国球迷惹众怒

我爱英超 浏览 3224 07-17

瑞典拉普兰:凛冽北境的万物平衡之道

时尚COSMO 浏览 213 12-28

高德为淘宝抢“话语权”

字母榜 浏览 402 09-11

机长执飞前饮酒导致三个航班严重延误 日航37名高管被降薪

极目新闻 浏览 365 09-18

切尔西首发:若昂·佩德罗出战

体坛周报 浏览 239 09-29

12岁小孩哥沉迷修手机在网上火了 专程到深圳见"偶像"

扬子晚报 浏览 10559 07-14

德转列现役40岁以上球员身价榜:C罗1200万欧居首,莫德里奇次席

直播吧 浏览 385 09-10

泽连斯基接受采访期间马林斯基宫两度停电 俄官员回应

环球网资讯 浏览 227 11-11

第二十七届高交会将于下周举办,中国太空游项目将全球首发

南方都市报 浏览 266 11-06

直播间"大牌尾货"是回收箱旧衣服 不清洗不消杀

央视财经 浏览 200 12-23

马刺官宣季前赛赛程:首战10月6日战广州 文班亚马PK郭艾伦

醉卧浮生 浏览 4835 07-29

50+姐姐秋冬穿对赢麻了!别硬凹少女感,3个技巧穿出显贵感

静儿时尚达人 浏览 231 11-17

上年纪的女人穿“长裤”更气质,这么挑选和搭配,时尚感爆棚

静儿时尚达人 浏览 290 10-23

熊黛林全家上阵拍视频,双胞胎女儿成亮点

乡野小珥 浏览 5963 07-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11