关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19120人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今秋这件“瘦瘦衫”必穿!巨in巨洋气,上身瘦十斤!

Yuki女人故事 浏览 1946

看玄彬孙艺珍这样撒糖,谁能扛得住

Yuki女人故事 浏览 426

中资银行,两大突发!

券商中国 浏览 11182

朱珠:逐渐淡然,依旧鲜活

时尚COSMO 浏览 735

刚呼吁中菲对话,菲律宾又出“幺蛾子”

浏览 10830

东升西降?拆解全球车企三季报,中国车企业绩更稳

大李说车 浏览 408

华东智能无人系统试验测试认证基地全面完工 占地76亩

财闻 浏览 1033

前特斯拉顶级高管:NACS热潮略有夸张 要警惕充电垄断

财联社 浏览 15371

让大模型“瘦身”90%!清华&哈工大提出极限压缩方案

量子位 浏览 12467

股价太低迷!许世辉57亿港元回购,达利食品私有化破局

蓝鲸财经 浏览 16012

金店报价逼近670元,黄金涨势难止步

第一财经资讯 浏览 11354

三元锂和磷酸铁锂二合一?揭开零跑D19超混电池黑科技

吴佩频道 浏览 1011

政法委书记梁野任上被拿下 一个月前曾露面

政知新媒体 浏览 64270

俄"默许"朱拉尼相关提案 中国在联合国动用一票否决权

梁讯 浏览 11554

张纪中妻子回应怀四胎:我国老龄化比较严重,要为社会做贡献!

缘木不求娱 浏览 12333

15年离婚拉锯落幕,“中国巴菲特”失去沃华医药实控权

野马财经 浏览 720

红海危机持续发酵 著名咨询公司警告:供应链受损程度已显著超过疫情早期

智通财经 浏览 12929

一集封神,收视率暴涨,这剧赢麻了

独立鱼 浏览 566

以色列再次空袭叙利亚首都大马士革,反导系统成功拦截大部分导弹

趣看热点 浏览 26781

普京否认"俄计划攻击北约" 喊话西方国家:睡个好觉

环球网资讯 浏览 1037

年报问询函涉“ST、退市”,朗源股份20cm跌停

21世纪经济报道 浏览 11021
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1