关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024649人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印度航空发表坠机声明 坠毁航班号为AI171

北京日报 浏览 3869 06-13

伊朗多地发生"神秘爆炸事件" 伊朗官员怀疑或与以色列有关

环球网资讯 浏览 2573 07-24

重大利好!刚刚,直线拉升!

证券时报 浏览 5615 07-30

美议员威胁俄方50天内达成和平协议 否则下场参考伊朗

环球网资讯 浏览 435 07-17

世纪婴儿去世!猝死有8大征兆

网易健康 浏览 7658 04-21

台风"韦帕"袭击泰国2名中国游客身亡:1人被大树砸死

扬子晚报 浏览 2468 07-22

94岁杨少华去世,上午剪彩眼神涣散数小时后离世,家人做法惹争议

不八卦会死星人 浏览 5866 07-13

网传居然之家汪林朋跳楼…坐实了?

摩登财经 浏览 6105 07-28

50+女人如何反油腻?穿衣不扮嫩不花哨,尽显年轻气质

静儿时尚达人 浏览 1063 06-08

国产AI技术向世界递出“中国方案”

上观新闻 浏览 481 07-27

1.5T+7DCT动力 捷途自由者探索+上市售13.29万元起

网易汽车 浏览 2188 07-17

网红“多肉饱饱”被指涉诈骗 曾自称覃海洋未婚妻

红星新闻 浏览 2136 07-18

女员工反对穿超短裙颁奖设想被辞退?猿辅导:抹黑

雷达财经 浏览 8664 07-26

曝周杰伦权志龙将合作,此前周杰伦给权志龙演唱会送了花篮,目前周杰伦公司并未回应

趣看热点 浏览 1459 07-15

这4件配饰太火了,今年流行的风格都离不开它

LinkFashion 浏览 7717 06-22

特斯拉,下神坛

斑马消费 浏览 6798 07-25

美国黄石公园附近旅游车车祸中6名遇难者身份公布

红星新闻 浏览 9269 05-20

理想总裁回应MEGA Home交付慢:曾因销量缩减产能,正努力提升

IT之家 浏览 1507 07-18

智元稚晖君发布“灵渠OS”开源计划,自研大模型获SAIL之星奖

上观新闻 浏览 3836 07-27

于正前脚内涵任嘉伦,央视后脚出来打脸!

科学发掘 浏览 3357 07-08

小米SU7Ultra纽北限量版发布 定价81.49万元

网易汽车 浏览 2106 06-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11