爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

失去眉毛的刘...

伯德1对1能...

弘芯被曝全员...

科学家发现世...

他俩“被迫”...

见过大世面的...

颜骏凌：和范德萨交换了联系方式，在儿时偶像面前踢球是圆梦

朴敏英被质疑收前任上亿生活费，本尊否认遭到韩媒炮轰！曝其违法

反击美国＂变脸＂普京即将公布神秘新武器专家分析

福建200亿国企董事长卸任，去年薪酬545万元

中菲建交48周年之际马科斯称菲未以任何方式远离中国

孙怡谈与女儿相处日常疑受恋情影响综艺镜头被剪

GPT商店市场即将开放，开启AI新时代

梁靖崑2-3张本智和！决胜局被逆转太保守！男团0-1落后日本！

沙特大幅下调旗舰原油溢价至五年低点，全球供应过剩压力显现

海川慧富展望2024：A股估值处于历史中低水平具有较大修复空间

泽连斯基首次公布乌军阵亡人数俄方:撒谎

中年女性穿衣别太复杂这些冬季穿搭保暖又大方

福原爱东京奥运会解说工作被叫停，还将面临经纪公司解约

媒体人：杨鸣考虑回归CBA联赛执教，多支球队有意聘请他

美防长来了核潜艇议题搅动韩国

五菱缤果最高优惠8000元年内再推新车型

史上最强财报背后，苹果仍差临门一脚

马上评｜“微信支付调整手续费”为何引发风波

父子俩被群殴还手遭拘10日起诉警方＂互殴＂认定错误

NBA球员有哪些不为人知的副业?

白宫：拜登将于周二到访波兰无计划访问乌克兰

别再尬吹“韩女”了，这才是韩国人该申遗的东西！

豪门扎堆开会，许晋亨却带李嘉欣赴国外滑雪

我就露个脸！阿德巴约首发登场16分钟只进了一个三分得3分2板2助