关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者709人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

进一步加长 搭载2.0T动力 新一代奥迪A6L实车曝光

网易汽车 浏览 1050

卡西欧推出《回到未来》40周年联名计算器手表,包装盒形似磁带

IT之家 浏览 1068

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 730

极致轻量化 兰博基尼Temerario全新赛车发布

车质网 浏览 640

黄黑皮博主穿衣借鉴 好看又高级

春菇凉时尚穿搭记 浏览 15317

百度与四维图新地图纠纷案终审维持原判 百度:将申请再审

贝壳财经 浏览 12869

记者实测 多地办理电话卡需提供无犯罪证明和银行流水

澎湃新闻 浏览 6773

短发才是打开夏天的正确方式 这几款时尚又显年轻

成铭聊发型 浏览 17294

20岁341天,奥多贝尔成为热刺队史欧冠第三年轻进球球员

懂球帝 浏览 734

科大讯飞AI创新成果亮相第十届版博会

中安在线 浏览 1016

给过去10年最好的谍战剧排个名:《沉默的荣耀》第6,《风筝》第2

皮皮电影 浏览 604

普通人秋天就该这么穿,准备几件黑色单品和牛仔服饰,简约又百搭

静儿时尚达人 浏览 879

本田要火了!2.0T配进口9AT,降到18万比CRV还便宜

驾驭新体验 浏览 12754

"预言"自己将被捕后特朗普现身 露面摔跤比赛挥拳示意

环球网资讯 浏览 118302

赵又廷高圆圆撇下女儿过二人世界?被偶遇看话剧

娱絮 浏览 19504

美妆胶卷 | 从未停止的迭代革新,愈久愈强大的健康功效。

伊周潮流 浏览 11279

男子入职2小时猝死,家属向公司索赔140万

趣看热点 浏览 120495

山西最大煤企曾现系统性腐败:副总收受60人财物共2亿

界面新闻 浏览 78241

刘强东重新定义兄弟,企业降本增效如何破局?

首席商业评论 浏览 11230

杜克大学团队重磅发现:AI语音助手为何在复杂思考时"掉线"?

科技行者 浏览 844

中国车在俄份额跌破50%,新一轮洗牌开启

汽车公社 浏览 118
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1