关闭广告

武汉大学让AI学会诊断金融知识:像医生检查身体一样评估AI模型

科技行者2025-09-10 00:00:02396人阅读


这项由武汉大学人工智能学院的谢倩倩教授领导的研究团队在2025年8月发表,论文题为《From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models》,该研究首次将教育心理学中的认知诊断理论引入到金融AI评估领域。有兴趣深入了解的读者可以通过GitHub项目页面https://github.com/WHUNextGen/FinCDM访问完整研究成果。

当我们去医院体检时,医生不会只告诉你"身体状况70分"就完事,而是会详细检查你的心脏、肝脏、肺部各个器官的具体情况,告诉你哪里健康、哪里需要注意。但令人意外的是,在评估金融AI模型时,我们却一直在用那种简单粗暴的"总分"方式。

考虑这样一个场景:两个学生都考了80分,但一个是因为数学好语文差,另一个是语文好数学差。如果只看总分,我们永远不知道该给他们推荐什么样的补习班。武汉大学的研究团队发现,评估金融AI模型时也存在完全相同的问题。目前所有的评估方法都只给出一个总体得分,比如"在金融问答任务上准确率85%",但这个分数完全无法

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

豪门巨富落马,昔日大佬沦落卖艾灸!

东方不败然多多 浏览 224 01-18

科学家发现世界最大蜘蛛网 面积约106平方米

极目新闻 浏览 245 11-11

海信电视 E8S Pro 开售:RGB-Mini LED 显示,16599 元起

IT之家 浏览 271 10-31

十月稻田被调出港股通,短期波动与长期潜力的价值重估

证券市场周刊 浏览 397 09-11

以色列航空计划下周起恢复所有目的地常规航班

环球网资讯 浏览 2676 06-26

又到每年假装自己是汤唯的时候了

时尚COSMO 浏览 260 10-15

找出那只“毒饭煲”

虎嗅APP 浏览 453 08-20

雷军直播四小时回应质疑

大象新闻 浏览 235 01-06

一周重磅日程:特普会,美国通胀,中国社融,美国半导体和药品关税

华尔街见闻官方 浏览 7259 08-11

苗族绣衣里竟然藏着千年文化密码

时尚COSMO 浏览 392 09-05

马雷斯卡告别切尔西:我在离开时把切尔西留在应有的位置上

懂球帝 浏览 225 01-07

张碧晨版《年轮》可能被下架!本人缺创作能力,得罪汪苏泷不明智

萌神木木 浏览 4710 07-25

刘晓庆更换头像上热搜!与第7个男人的官司被人扒

阿废冷眼观察所 浏览 1011 07-09

夏普:韦德说科比是历史前3 那乔丹&詹姆斯&贾巴尔中该替换谁

直播吧 浏览 1563 07-27

仙女裙+运动鞋=今夏王炸cp!显瘦!洋气!巨时髦!

Yuki女人故事 浏览 7713 07-02

宝宝黄疸,必须停母乳?错!

网易健康 浏览 9843 06-12

你恐慌我贪婪!3600点上方,机构仍敢大手笔加仓的板块曝光

每经牛眼 浏览 5130 08-10

台官员疑称用4000亿美元换降关税 台经济部门急"灭火"

环球网资讯 浏览 10580 08-06

高管震荡、次高端遇冷,舍得酒业做文旅能否破局?

征探财经 浏览 1500 08-07

罗体:凯泽斯劳滕主场安装假鸟模型,避免鸽子太多造成鸽粪污染

直播吧 浏览 6950 07-27

官方:森林中场奥布赖恩加盟英冠雷克瑟姆,双方签约3年

懂球帝 浏览 9133 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11