爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

泽连斯基称俄...

特斯拉起诉车...

贾康：建议今...

微软旗下子公...

知名上市公司...

Lisa个人...

微笑刺客：你碰一下乔丹他就哭着说自己被打了联盟为他改变规则

统帅懒人空调今日上市，Ai人感调节，一键全托管

“廓形穿衣法”太火了！掌握这5个法则让你美一整个冬天

普京指挥俄军战略核力量综合演习

Prada如何解构身体与气质？

中国惨负美国！美主帅安慰韩登，赵维伦沮丧，排位赛有望取胜

又见大幅下调考核目标，监管出手！

创业者要做到“四个不要”

马斯克与美国证交会达成协议将向投资者赔偿4000万美元

原来他们是夫妻，恩爱27年无绯闻.现是影协主席

腾讯集团高级副总裁郭凯天：坚持智能向善，构筑人与AI的信任机制

脱口秀演员池子与笑果文化和平解约，并为自己此前的举动道歉

＂老钱风＂搭配火起来了！时髦显贵气

想要一个不热的夏天离不开这些户外短裤

加州大学圣地亚哥分校发现：AI评估基准存在滞后性

章子怡带醒醒追星宋雨琦，母女俩飞日本看演唱会，后台合影超开心

美联储年内“三连降”，2026年利率走向何方？

别再说格纹老土了选对真的能时髦一百年！

何小鹏“扒皮”验真身国产人形机器人“摊牌了”

钟嘉欣一家越南度假！父母长相曝光俩女儿也很美

安理会会议将召开美再拖延发放俄外长参会签证

赵少康称＂很多人想退党＂黄建豪:应给郑丽文时间调整

泰国帝后夫妇见大使苏提达穿复古粉裙惊艳众人

尼日尔政变军人指责法国侵犯其领空，法方否认