关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101790人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:米兰免签波波维奇的情况变得复杂,球员也被推荐给拜仁

懂球帝 浏览 12733

媒体:美军犯致命错误 误把敌机当成自家的致重大伤亡

环球时报新闻 浏览 78047

美军动向:与美科技巨头加速勾连 生成式AI军事化

环球网资讯 浏览 13063

瓦格纳集团领导人普里戈任坠机 外交部回应

环球网 浏览 86072

一夜翻盘,炫富网红蓝战非复活了

TVB的四小花 浏览 1087

秋季穿衣别太复杂,提前准备好这几件单品,百搭经典又不挑人

静儿时尚达人 浏览 1072

知名苹果爆料人:Apple Watch仍在“抢救”中 大概率错过年末购物季

财联社 浏览 12909

欧洲多国:美国赶紧“还钱”

第一财经资讯 浏览 722

德天空记者:虽然凯塞多续约到了2027年,仍有可能在夏天离队

直播吧 浏览 19257

哪家券商策略会这般冷清?嘉宾还在分享,参会走的就剩1位,食品饮料反向指标出现了?

财联社 浏览 15798

销量又被超越,理想汽车与问界的「角逐」才刚开始

钛媒体APP 浏览 12483

新款捷豹F-TYPE正式上市 售价58.20万-67.68万

网易汽车 浏览 20625

花一个月工资买节日礼物,值吗?

时尚COSMO 浏览 268

李嘉欣晒儿子近照:12岁许建彤长高许多长相成熟

笑猫说说 浏览 15114

不愧是第一拽姐,她这张脸太有看点了

Yuki女人故事 浏览 13497

即将和利雅得胜利交手,梅西社媒:我们继续准备中

直播吧 浏览 12384

出口有望连续两月增长,消费贡献占比已超八成,多方预测中国经济长期向好

环球网资讯 浏览 12859

美国首富研究火箭制造,印度首富大搞新能源,我国首富能干什么?

商媒体 浏览 15597

春节比工作还累,打工人想上班

定焦One 浏览 12196

月最佳球员:哈登加盟篮网后首获奖 布克生涯首次

网易体育 浏览 26439

喜马拉雅烟花秀引争议 新华社、人民日报接连发声

21世纪经济报道 浏览 17974
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1