关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025201人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巴尔韦德社媒:我曾为皇马带伤出战,你们不能说我拒绝出场

懂球帝 浏览 348 10-02

女孩被继母虐待致死细节:大雪天睡厕所 吃喝被加尿液

大风新闻 浏览 402 09-20

618大汇总|| 不乱买!精挑细选的超全功课都在这了

黎贝卡的异想世界 浏览 10531 06-11

有纯电/增程 极狐全新阿尔法T5预售12.38万起

网易汽车 浏览 293 10-15

标配倍适登EDC减震器 岚图FREE+底盘信息曝光

网易汽车 浏览 460 06-14

王俊凯遭业内导演公开内涵?拍戏缺乏表演沟通

娱乐圈笔娱君 浏览 9215 07-30

"创世遗迹"捕捉者:中国科学家在5250米海拔寻宇宙起源密码|封面头条

封面新闻 浏览 3518 07-17

内容“新物种”,全球“闪电战”|2025中国短剧出海报告

霞光社 浏览 337 09-29

内蒙古遭遇1959年来最强降水 有游客滞留沙漠近3小时

极目新闻 浏览 4187 07-31

美方换新招威胁印度不成掉头针对中国 正考虑对华加税

博览历史 浏览 646 08-12

热搜第一!惹恼中产的山姆该如何破局?

互联网那些事 浏览 1154 07-17

杜兰特至少降薪4000万美元?高管建议火箭最多2年8000万与他续约

罗说NBA 浏览 264 10-19

日本政客鼓吹发展核武 还锅甩给特朗普

澎湃新闻 浏览 509 08-21

仅出战10分三战最少!张子宇12+4早早打卡 宫鲁鸣保护她为淘汰赛

颜小白的篮球梦 浏览 3357 07-17

销量下滑、价格失守,为什么BBA在中国市场不香了?

车市红点 浏览 4813 07-16

成都多小区同时停电有人被困电梯40分钟 附近酒店爆满

封面新闻 浏览 1743 07-19

见识中国实力后30多国在联合国发提议 美国反对无效

现代小青青慕慕 浏览 466 09-08

利润集体大幅下滑 BBA上半年交出最“惨”财报

经济观察报 浏览 9358 08-10

武汉男子斥不拴绳遛狗被打伤 次日送娃上学遭挑衅尾随

封面新闻 浏览 10150 07-11

京东招募“菜品合伙人”,每道菜奖励100万保底分成!3年开1万家…

北京商报 浏览 4705 07-22

《惊蛰无声》预告质感太差!杨幂没精神刘诗诗像盲人,被嘲像网大

萌神木木 浏览 210 01-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11