关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101787人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

普京指挥俄军战略核力量综合演习

环球网资讯 浏览 922

Prada如何解构身体与气质?

时尚COSMO 浏览 1983

中国惨负美国!美主帅安慰韩登,赵维伦沮丧,排位赛有望取胜

篮球资讯达人 浏览 15438

又见大幅下调考核目标,监管出手!

中国基金报 浏览 14698

创业者要做到“四个不要”

创业家 浏览 780

马斯克与美国证交会达成协议 将向投资者赔偿4000万美元

财联社 浏览 14452

原来他们是夫妻,恩爱27年无绯闻.现是影协主席

冷紫葉 浏览 1490

腾讯集团高级副总裁郭凯天:坚持智能向善,构筑人与AI的信任机制

上游新闻 浏览 706

脱口秀演员池子与笑果文化和平解约,并为自己此前的举动道歉

趣看热点 浏览 26276

"老钱风"搭配火起来了!时髦显贵气

静儿时尚达人 浏览 13289

想要一个不热的夏天 离不开这些户外短裤

TOPMEN男装网 浏览 15867

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者 浏览 711

章子怡带醒醒追星宋雨琦,母女俩飞日本看演唱会,后台合影超开心

扒虾侃娱 浏览 962

美联储年内“三连降”,2026年利率走向何方?

中新经纬 浏览 115

别再说格纹老土了 选对真的能时髦一百年!

In风尚 浏览 16246

何小鹏“扒皮”验真身 国产人形机器人“摊牌了”

汽势传媒 浏览 673

钟嘉欣一家越南度假!父母长相曝光 俩女儿也很美

文艺圈娱乐号 浏览 13292

安理会会议将召开 美再拖延发放俄外长参会签证

海外网 浏览 18916

赵少康称"很多人想退党" 黄建豪:应给郑丽文时间调整

海峡导报社 浏览 5675

泰国帝后夫妇见大使 苏提达穿复古粉裙惊艳众人

时尚丽人风行 浏览 19617

尼日尔政变军人指责法国侵犯其领空,法方否认

界面新闻 浏览 14373
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1