参考指南

IT之家 7 月 24 日消息，科技媒体 NeoWin 今天（7 月 24 日）发布博文，报道称苹果公司携手剑桥大学，提出一种新的 AI 评估系统，通过引入外部验证工具增强 AI 评审员的能力，以提高评审质量。

在评估大语言模型（LLM）时，研究人员和开发者越来越多地借助 AI 力量，这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战，在长篇事实核查、高级编码和数学问题等复杂任务中，评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文，概述了一种新系统，通过为 AI 评审员配备外部验证工具，以提高其评审质量，从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性，面临挑战和偏见，而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的，它能够评估响应以确定是否需要外部工具，并使用正确的工具。每个评估都经过三个主要步骤：初始领域评估、工具使用和最终决策。

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

蔡少芬不再隐...

异军突起！周...

为年轻用户打...

线下活动||...

梅西无缘生涯...

为什么“多巴...

德国汽车产业陷入危机：劳动力一年流失 7%，对美出口下滑

丹麦航运巨头：中东战事加剧全球贸易和物流不确定性

日本首相选举局势突变高市早苗的竞争对手出现了

XREAL 1S AR眼镜发布，全球首搭内容2D→3D自动转换

甲骨文业绩不及预期，资本开支比预期多约150亿美元，盘后重挫超10%

事关所有人！这件大事，国家出手为民减负

葡媒：本菲卡将从菲利克斯转会利雅得胜利中获得收益，约60万欧

刚刚，全球首个GB300巨兽救场！一年烧光70亿，OpenAI内斗GPU惨烈

男子花46万＂捡漏＂特斯拉结果故障频出：9个月修不停

这才是打开秋季的穿衣方式！衣服不贪多、搭配得体，养眼舒适

加盟仅2天！曝21岁港脚遭中甲队解约输国足后疑骂中国球迷惹众怒

瑞典拉普兰：凛冽北境的万物平衡之道

高德为淘宝抢“话语权”

机长执飞前饮酒导致三个航班严重延误日航37名高管被降薪

切尔西首发：若昂·佩德罗出战

12岁小孩哥沉迷修手机在网上火了专程到深圳见＂偶像＂

德转列现役40岁以上球员身价榜：C罗1200万欧居首，莫德里奇次席

泽连斯基接受采访期间马林斯基宫两度停电俄官员回应

第二十七届高交会将于下周举办，中国太空游项目将全球首发

直播间＂大牌尾货＂是回收箱旧衣服不清洗不消杀

马刺官宣季前赛赛程：首战10月6日战广州文班亚马PK郭艾伦

50+姐姐秋冬穿对赢麻了！别硬凹少女感，3个技巧穿出显贵感

上年纪的女人穿“长裤”更气质，这么挑选和搭配，时尚感爆棚

熊黛林全家上阵拍视频，双胞胎女儿成亮点