关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025200人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

子女不是985不值得关怀?兴业证券撞上“反内卷”枪口

深蓝财经 浏览 10073 07-30

陈芋汐谈第五次世锦赛:还是特别兴奋,希望有好的表现让自己满意

直播吧 浏览 7441 07-22

一周AI大事:Grok 4硬刚GPT-5,英伟达破纪录

网易科技报道 浏览 7048 07-14

“换下英伟达芯片,中企集体加速”

观察者网 浏览 6360 08-07

广东潮州渔民捕到罕见"通天河神兽":重11斤 有脸盆大

极目新闻 浏览 442 09-21

香港三天两夜,满载而归(附攻略)

黎贝卡的异想世界 浏览 148 03-15

捷途汽车与23国用户同行,山海L7 PLUS带来旅行小房车级驾乘体验

澎湃新闻 浏览 430 08-20

专栏 | 人们想要的,真是个咖啡馆吗?

时尚COSMO 浏览 5520 07-29

2025年10月我国新能源汽车销量占比超50% 历史首次!

智车情报局 浏览 231 11-12

不接烂片宁缺毋滥!徐璐:演员光靠努力不够

传递满满正能量 浏览 8022 07-29

快手Q2盈利创新高,业绩跑赢预期的快手该咋看?

江瀚视野 浏览 449 08-22

苹果公司在印度反垄断案中可能面临高达380亿美元罚款

华尔街见闻官方 浏览 237 11-27

美军将领紧急会议主题披露

极目新闻 浏览 356 09-30

何润东突然爆火,全网都在扒他国籍和立场

小椰的奶奶 浏览 83 04-22

什么情况蓉城vs河南赛后看台冲突,球迷扔水瓶砸中河南队人员

直播吧 浏览 467 08-20

厂房沉降纠纷缠身,熊猫乳品两大募投项目延期

时代周报 浏览 236 01-08

媒体:美国公司想表现反华 却被顶级中企狠狠拿捏

澎湃新闻 浏览 434 09-17

周迅线下被偶遇,身材娇小鼻子宽大老气

翰飞观事 浏览 211 01-27

山西宣布废除烟花爆竹"禁放令" 网友:年味回来了

每日经济新闻 浏览 211 12-21

全智贤自毁口碑!LV撤掉广告海蓝之谜外网都删,限韩令全面收紧

萌神木木 浏览 369 09-21

当61岁苏敏和41岁傅首尔站在一起

阿废冷眼观察所 浏览 462 08-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11