爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

空客天津第二...

美国中央司令...

中金：日股还...

秋天，穿成大...

NVIDIA...

罗马诺：拉亚...

中年男子自拍图火出圈凭借＂三副面孔＂成新晋网红

东方空间引力一号国内首次完成火箭垂直状态远距离海上运输试验

欧文继母成为NBA历史首位谈妥合约的黑人女性经纪人

记者：米兰免签波波维奇的情况变得复杂，球员也被推荐给拜仁

媒体：美军犯致命错误误把敌机当成自家的致重大伤亡

美军动向：与美科技巨头加速勾连生成式AI军事化

瓦格纳集团领导人普里戈任坠机外交部回应

一夜翻盘，炫富网红蓝战非复活了

秋季穿衣别太复杂，提前准备好这几件单品，百搭经典又不挑人

知名苹果爆料人：Apple Watch仍在“抢救”中大概率错过年末购物季

欧洲多国：美国赶紧“还钱”

德天空记者：虽然凯塞多续约到了2027年，仍有可能在夏天离队

哪家券商策略会这般冷清？嘉宾还在分享，参会走的就剩1位，食品饮料反向指标出现了？

销量又被超越，理想汽车与问界的「角逐」才刚开始

新款捷豹F-TYPE正式上市售价58.20万-67.68万

花一个月工资买节日礼物，值吗？

李嘉欣晒儿子近照：12岁许建彤长高许多长相成熟

不愧是第一拽姐，她这张脸太有看点了

即将和利雅得胜利交手，梅西社媒：我们继续准备中

出口有望连续两月增长，消费贡献占比已超八成，多方预测中国经济长期向好

美国首富研究火箭制造，印度首富大搞新能源，我国首富能干什么？

春节比工作还累，打工人想上班

月最佳球员:哈登加盟篮网后首获奖布克生涯首次

喜马拉雅烟花秀引争议新华社、人民日报接连发声