关闭广告

武汉大学让AI学会诊断金融知识:像医生检查身体一样评估AI模型

科技行者2025-09-10 00:00:02218人阅读


这项由武汉大学人工智能学院的谢倩倩教授领导的研究团队在2025年8月发表,论文题为《From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models》,该研究首次将教育心理学中的认知诊断理论引入到金融AI评估领域。有兴趣深入了解的读者可以通过GitHub项目页面https://github.com/WHUNextGen/FinCDM访问完整研究成果。

当我们去医院体检时,医生不会只告诉你"身体状况70分"就完事,而是会详细检查你的心脏、肝脏、肺部各个器官的具体情况,告诉你哪里健康、哪里需要注意。但令人意外的是,在评估金融AI模型时,我们却一直在用那种简单粗暴的"总分"方式。

考虑这样一个场景:两个学生都考了80分,但一个是因为数学好语文差,另一个是语文好数学差。如果只看总分,我们永远不知道该给他们推荐什么样的补习班。武汉大学的研究团队发现,评估金融AI模型时也存在完全相同的问题。目前所有的评估方法都只给出一个总体得分,比如"在金融问答任务上准确率85%",但这个分数完全无法

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

我国电动汽车充电基础设施近1670万个

人民网 浏览 258 08-24

昔日大美女孙菲菲遭剧组暴力,王阳两面人真相!

归史 浏览 6861 07-13

二排座椅配按摩 新款领克09四驱探索版限时价19.88万起

网易汽车 浏览 85 10-24

问界M9首次卫星救援 华为李小龙:买台支持卫星通信的手机 关键时刻也能保命

快科技 浏览 9788 07-28

31.99万起,猛士M817正式上市!

电动知家 浏览 260 08-19

智驾平权时代加速到来,比亚迪承诺为智能泊车安全兜底!

飞鲸投研 浏览 6787 07-12

一网友称车辆在京东养车做保养后发动机报废

大象新闻 浏览 104 10-19

孙宇晨确认加入"蓝色起源"载人飞行任务

鲁中晨报 浏览 534 07-23

袁甲:卡纳瓦罗当不了主教练,回欧洲这么久一直没稳定工作

直播吧 浏览 210 09-09

内推前任成了最时髦的恋爱运动

虎嗅APP 浏览 5741 07-27

以军行动双线升级 胡塞武装、哈马斯高层遭精准打击

极目新闻 浏览 146 08-31

捡来的便宜!翻垃圾找到6TB SSD:六块1TB的三星850 Pro

快科技 浏览 268 08-25

罕见公开 俄"最大"攻击无人机工厂曝光

上观新闻 浏览 2960 07-23

多趟飞成都航班备降周边机场

极目新闻 浏览 6553 07-07

“票房神话”李连杰的10部代表作,《英雄》垫底,榜首无可撼动

波仔说影视 浏览 10084 08-06

雷克萨斯IS再出招、全车黑化,8月上市

MOTO 浏览 5689 07-29

日本外务省高官今日访华 将解释高市早苗言论

界面新闻 浏览 41 11-17

美“猎鹰9”火箭因区域性停电推迟发射

新京报 浏览 1313 07-23

孙颖莎1比3不敌队友陈熠 爆冷出局无缘8强

人民日报 浏览 6275 07-11

人类史上最贵打工合同,马斯克万亿薪酬方案获批!

汽车公社 浏览 52 11-07

美推进“金穹”系统的天基拦截器研制 但钱和技术都存在问题

澎湃新闻 浏览 95 10-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11