关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12549人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

福建200亿国企董事长卸任,去年薪酬545万元

华美财经 浏览 866

中菲建交48周年之际 马科斯称菲未以任何方式远离中国

环球网资讯 浏览 92079

孙怡谈与女儿相处日常 疑受恋情影响综艺镜头被剪

传媒樱桃派 浏览 15874

GPT商店市场即将开放,开启AI新时代

AI最新追踪 浏览 13049

梁靖崑2-3张本智和!决胜局被逆转太保守!男团0-1落后日本!

篮球资讯达人 浏览 1088

沙特大幅下调旗舰原油溢价至五年低点,全球供应过剩压力显现

华尔街见闻官方 浏览 234

海川慧富展望2024:A股估值处于历史中低水平 具有较大修复空间

私募荟 浏览 12970

泽连斯基首次公布乌军阵亡人数 俄方:撒谎

每日经济新闻 浏览 12544

中年女性穿衣别太复杂 这些冬季穿搭保暖又大方

虎哥说衣不二 浏览 13303

福原爱东京奥运会解说工作被叫停,还将面临经纪公司解约

趣看热点 浏览 26430

媒体人:杨鸣考虑回归CBA联赛执教,多支球队有意聘请他

懂球帝 浏览 12553

美防长来了 核潜艇议题搅动韩国

环球网资讯 浏览 750

五菱缤果最高优惠8000元 年内再推新车型

网易汽车 浏览 12448

史上最强财报背后,苹果仍差临门一脚

虎嗅APP 浏览 749

马上评|“微信支付调整手续费”为何引发风波

澎湃新闻 浏览 15412

父子俩被群殴还手遭拘10日 起诉警方"互殴"认定错误

上游新闻 浏览 119106

NBA球员有哪些不为人知的副业?

趣看热点 浏览 25900

白宫:拜登将于周二到访波兰 无计划访问乌克兰

环球网资讯 浏览 19467

别再尬吹“韩女”了,这才是韩国人该申遗的东西!

Yuki女人故事 浏览 14914

豪门扎堆开会,许晋亨却带李嘉欣赴国外滑雪

传媒一班 浏览 19591

我就露个脸!阿德巴约首发登场16分钟只进了一个三分 得3分2板2助

直播吧 浏览 12409
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1