关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024996人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赵露思怠工等解约公司天价索赔,将两败俱伤,杨幂杨紫是解约典范

李守智 浏览 7844 08-05

黄仁勋:将开始向中国市场销售H20芯片

央视新闻客户端 浏览 1378 07-15

理想汽车抖音账号关闭评论

三言科技 浏览 5405 08-09

华润啤酒拟再转让多个工厂资产,近3年已关闭3家啤酒工厂

红星资本局 浏览 8409 07-31

拜仁4-1客胜霍芬海姆,凯恩帽子戏法,博埃造点,金玟哉伤退

懂球帝 浏览 167 09-21

内容“新物种”,全球“闪电战”|2025中国短剧出海报告

霞光社 浏览 158 09-29

考古中秋“顶流”的出道史

时尚COSMO 浏览 164 09-28

衣服基础,穿法就不基础,这个变美思路确实好用

黎贝卡的异想世界 浏览 260 08-21

台湾火箭首次在日本发射,升空不久即坠落

观察者网 浏览 9219 07-13

机器人赛跑 机器狗游泳 北京这场赛事科技感拉满

环球网资讯 浏览 6770 08-10

极氪销售"0公里二手车":伪造收款页面 隐瞒汽车信息

时间财经 浏览 4679 07-22

杨振宁逝世享年103岁 清华大学沉痛悼念

北京青年报 浏览 91 10-19

违法违规收集个人信息!这两家券商APP在列

券商中国 浏览 1357 07-15

5万级5座纯电微型车 奇瑞QQ多米正式上市

网易汽车 浏览 231 06-11

AI成核心方向 银行启动博士后招聘

北京商报 浏览 31 11-25

彻底打明牌,房地产迎来历史性的转折点

米筐投资 浏览 1596 08-06

泽连斯基现身俄乌前线 叫嚣中国"出兵援俄"乌必将报复

空天力量 浏览 2729 08-10

邮报:曼联将在主场附近开设大型临时酒吧,为当地企业提供机会

直播吧 浏览 8575 08-13

人民日报评论:所谓"全民强制社保"系误读政策

北京晚报 浏览 254 08-17

“中国天眼”FAST望远镜反射面是什么形状?丨观天巨眼

中国科普博览 浏览 200 09-01

科技巨头AI竞赛转向表外融资,万亿债务定时炸弹成危机前兆?

华尔街见闻官方 浏览 71 11-01
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11