关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024997人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一家三人被女子醉驾撞死 家属:车主知其醉酒还给钥匙

潇湘晨报 浏览 1583 06-17

曝周杰伦权志龙将合作,此前周杰伦给权志龙演唱会送了花篮,目前周杰伦公司并未回应

趣看热点 浏览 1956 07-15

全市场:贾沙里缺席布鲁日官方球迷活动,他只想转会到米兰

直播吧 浏览 3278 07-14

土耳其紧急喊话俄乌:别碰能源设施!

观察者网 浏览 23 12-05

还没结束!全智贤巨幅海报还挂着

萌神木木 浏览 165 09-21

44岁李小璐参加公开活动!怼脸拍真实状态曝光,网友态度两极分化

萌神木木 浏览 128 10-14

冲破十万大关的乐道,能否成为蔚来的“翻身之牌”?

禾颜阅车 浏览 100 10-24

李想收敛锋芒

虎嗅APP 浏览 8365 07-31

卫报:切尔西不愿满足加纳乔的定价;雅克松的要价为8000万镑

懂球帝 浏览 254 08-20

热搜爆了!董事长和明星女友,双双被拘!视频曝光→

商业观察杂志社 浏览 204 09-10

没想到,汪峰的风流情史中,森林北成最大赢家

逍遥史记 浏览 1524 07-31

苹果CEO库克抖音首秀直播带货,iPhone Air国行版10月17日开启预售

环球网资讯 浏览 117 10-14

释印乐空降少林 释永信"心腹"干了十几年无缘方丈

火山诗话 浏览 632 07-30

今年秋天的上衣,太上头了!

Yuki女人故事 浏览 103 10-21

北京香山论坛引西方媒体高度关注 中国防长讲话被报道

环球网资讯 浏览 238 09-19

佟大为夫妇云冈石窟被偶遇,46岁关悦近照曝光,路人生图超真实

扒虾侃娱 浏览 9703 08-14

你主队表现如何❔夏窗转会排行:维尔茨唯一破亿,英超包揽前五

直播吧 浏览 1352 07-27

媒体:金民锡拥有三国学位 或是李在明找的合适"备胎"

新民周刊 浏览 4429 06-07

切尔西本赛季英超10名不同球员破门,与阿森纳并列最多

懂球帝 浏览 96 10-26

龚琳娜首谈离婚原因:纠缠太牢,是喜离

小嵩 浏览 8386 07-23

俄罗斯海军集结 同一时间美国拉18国下场

看看新闻Knews 浏览 5944 07-24
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11