关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024625人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

20年 Vs 100年,是时候重新认识中国牛奶了

正经社 浏览 346 07-17

侃爷演唱会风波升级!声明否认知情压力甩主办方

萌神木木 浏览 981 07-16

中金黄金矿难致6死1伤 股价闪崩超8%

观察者网 浏览 6361 07-25

赖斯:上赛季初我的状态被欧洲杯影响了,现在我感觉好得多

懂球帝 浏览 2684 07-26

WAIC前线|讯飞星火 X1升级发布 中英同传首字响应仅2秒

网易科技报道 浏览 7523 07-27

看着像保时捷?宾利首款纯电动车谍照曝光

车质网 浏览 2919 07-23

老汉与女子领证被骗70万 女方获刑10年多宁坐牢不退钱

极目新闻 浏览 1470 07-15

大疆最轻、最小无人机继任者:Neo 2配 11.6 Wh 电池,增幅 10.7%

IT之家 浏览 8997 07-25

刘亦菲内衣照被骂上热搜?神仙姐姐的性感穿搭惹了谁

Yuki女人故事 浏览 3539 07-01

黑救护车上死亡女子母亲再发声:48万赔偿款终于到账

极目新闻 浏览 4049 07-12

中东局势"历史性升级":美军轰炸伊朗3处核设施

澎湃新闻 浏览 464 06-22

外交降级 泰国宣布将驱逐柬埔寨大使

鲁中晨报 浏览 6883 07-24

方程豹6月销量近19000辆 钛3月销破万/钛7即将发布

网易汽车 浏览 805 07-03

深圳一小区房屋沉降 亲历者:突然发生还以为是地震了

潇湘晨报 浏览 5985 06-18

田栩宁创造2025年首次霸榜 与四个女生纠缠不清

芊手若 浏览 1290 07-09

全国唯一做宝剑专业:就业率近100% 有人月入近两万元

鲁中晨报 浏览 8125 07-13

美或要在"关系人类的事"上大反转 被指是"国家的耻辱"

环球时报国际 浏览 3259 07-27

AI宠物短剧,年轻人的新“情感代糖”

字母榜 浏览 4199 07-13

京东“炒菜”,能逆袭吗?

定焦One 浏览 7199 07-28

金砖国家人工智能产业合作网络在沪启动

上观新闻 浏览 358 07-28

AI上岗,广告人下岗?

定焦One 浏览 334 07-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11