关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19122人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高合汽车谋"自救"开直播卖牛排、烤肠 1小时带货10万

21世纪经济报道 浏览 85655

欧洲多国暂停接种阿斯利康疫苗,一人在注射该疫苗后死亡

趣看热点 浏览 393603

与汉EV、小鹏P7有一拼!一汽大-大众ID.7上市,售价22.7777万起

车市红点 浏览 13086

武汉一警察牺牲 身中15刀仍下25级台阶紧追歹徒20米

极目新闻 浏览 68425

可惜了,这世界第一美少年

独立鱼 浏览 852

唐嫣《念无双》新路透温婉灵动 配角造型好惊喜

星姐说娱 浏览 15188

欧拉“闺蜜局”火爆成都车展!引众多女性踊跃打卡!

汽车说刊 浏览 20616

夏天用这双鞋配裙子 太好看了

小西的穿搭日记 浏览 16917

特朗普回应前助理被起诉:这是个卑鄙的家伙

参考消息 浏览 5968

台高官涉嫌接受性招待风波闹大 陈水扁之子卷入

枢密院十号 浏览 92330

无人机入侵柬埔寨 洪森:伊朗名将可是被无人机杀死的

枢密院十号 浏览 90976

小米汽车上险价格首次曝光,高配版达到36万元

界面新闻 浏览 12444

媒体:美国解除对白制裁 系大国格局中精心策划的变动

上观新闻 浏览 12399

星光熠熠...詹库杜东欧齐聚西部附加赛区

厝边人侃体育 浏览 11933

真正优雅的50、60岁女人,不留黑长直,更不扮嫩,这样太美了

静儿时尚达人 浏览 12943

内蒙古整治虚拟货币,计划于4月底关停所有虚拟货币挖矿项目

趣看热点 浏览 163536

满脸都是奔驰标!全新一代奔驰GLB官图发布

新汽车志 浏览 113

钟嘉欣一家越南度假!父母长相曝光 俩女儿也很美

文艺圈娱乐号 浏览 13299

复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐

新智元 浏览 16504

这一季的《花儿与少年》终于正常了!

伊周潮流 浏览 13444

一级演员李春来表演时突然倒地,后抢救无效去世

可乐谈情感 浏览 636
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1