爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

女人到了六十...

A股突发！刚...

“锂电之都”...

辛巴舅舅替他...

ChatGP...

@全球内容创...

安踏强势反腐背后毛利率下滑营销、采购是重灾区

张升民任国家中央军事委员会副主席

再超3.2万亿美元外汇储备创两年新高

贾玲《热辣滚烫》宣传失误，评论区大批质疑，火速调整营销亲情

外媒称全球可用核武库增长炒作中国核弹数量大增

向太怒骂范冰冰经纪人，众星力捧向佐的《封神》，她却耍大牌

特斯拉上海超级工厂或扩建产能有望进一步提升

阿维塔上市、深蓝融资长安两大自主板块剧变

怒批9人摆烂！穆帅不惧球员造反:你爸一直对你好？ 4轮0分非末日

掏心窝|| 新年的8个小计划

我，天权，让东方甄选掉粉70万，老俞让我提前复播

好家伙！鞠婧祎新剧开播，满屏一星差评，观众的理由出奇一致

华为：HarmonyOS 5终端设备数量突破2000万台

小伙雕刻＂全球首个汽车石窟＂曾雕＂奥特曼＂石窟引争议

特斯拉 Model Y L 交流外供电适配器上架，售价 599 元

重庆家长称一中学收5万班费:连续3学期班主任只收现金

我国新能源汽车产量达到2000万辆

以军已停止在加沙地带军事行动

又离了！李亚鹏得名“八离世家”

曲敏成二十大后黑龙江被查＂首虎＂ 7天前还曾参加会议

字母哥首秀但他还走吗？胜公牛并未让雄鹿宽心

张学友进了ICU？不信谣不传谣，相关人员回应3月底北京演唱会照常

同赛季获得欧冠和世界杯冠军最佳阵容：拜仁7人，小蜘蛛在列

＂点读机女孩＂高君雨紧急转进ICU 家长：持续发烧不退