关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19121人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中年女人别轻易服老!参考这些妈妈穿衣搭配,一点没有大妈感

静儿时尚达人 浏览 11672

上海校园餐背后的供应商,越挖越让人心惊!

功夫财经 浏览 1711

德“派兵常驻立陶宛”计划被质疑

参考消息 浏览 15692

单奖约725万!8位学者获这项大奖,两人贡献涉及高温超导材料

每日经济新闻 浏览 14735

林雪演戏被喂烂提子,被林雪笑死了被问到有没有想过减肥

趣看热点 浏览 28084

盒马不吃回头草

蓝鲸新闻 浏览 1495

销量、价格双双坍塌,二线豪华品牌,已经被国产新能源“挤垮”了

小李车评李建红 浏览 11

媒体:中日韩正在谈三边货币互换

澎湃新闻 浏览 8285

已生龙凤胎?何超莲近照曝光 身材纤瘦力破谣言

扒虾侃娱 浏览 16278

S家族,最出名的不是八卦?

江湖人称艾掌门 浏览 940

他们是“追逐声音的人”

上游新闻 浏览 954

唯一参展的中国品牌,为何能在东京车展被“挤爆”?

道哥说车 浏览 798

汪建民回应性侵指控:她的叙述没印象 愿跟她对质

网易娱乐 浏览 16346

币圈巨震!美国最大的加密货币交易所Coinbase被SEC起诉

财联社 浏览 16783

3年200亿 高景太阳能高估值暗藏风险

北京商报 浏览 15676

湖南要求严控债务风险:有多大财力办多大事

澎湃新闻 浏览 16392

2025奇瑞全球创新大会有什么重磅信息?

My车轱辘 浏览 1007

马杜罗:美国对委内瑞拉威胁是"老调重弹"

国际在线 浏览 437

凌晨3点皇马出战!赢球=8连杀+反超巴萨登顶 姆巴佩冲60球

叶青足球世界 浏览 996

车导的瓜没吃完 孟桐的瓜又来了 那英如何反击?

动物奇奇怪怪 浏览 1630

德赫亚合同到期曼联要求先别转会沙特,做个备胎!名宿怒斥不厚道

罗米的曼联博客 浏览 15479
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1