关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19126人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

版权问题日渐被重视!OpenAI据称正与多家媒体谈判

财联社 浏览 12829

租房降级的年轻人:30元一天,住太空舱,靠日结工维持

每日人物 浏览 15337

李小龙妻子琳达晚年透露:丈夫其实很怕一种对手

南书房 浏览 611

泽连斯基:冲突2年 俄军死亡人数是乌军5倍

环球网资讯 浏览 12779

热搜前十,竟全是「人造娇妻」

她刊 浏览 13625

向佐出手了!抓到模仿向太的网红 送麻袋石头吓人

我是晚伯伯 浏览 13755

王祖贤现身加拿大码头被偶遇,面无表情发福不少

盖饭娱乐官方号 浏览 15163

美防长住进ICU连拜登都不知情 白宫震惊

环球网资讯 浏览 12721

当「车圈小米」遇到「小米汽车」

GeekCar极客汽车 浏览 12730

中俄联合空中巡航期间 俄军机曾在中国机场起降

环球网资讯 浏览 16620

比亚迪正式拿下财险牌照,全资接盘易安财险获批

界面新闻 浏览 18021

章子怡任中戏表演系考官 考试现场轻松活泼

网易娱乐 浏览 19429

端水大师!邓超两次亮相红毯 陪完孙俪陪鹿晗

网易娱乐 浏览 26944

Uber称正与特斯拉合作 购买Model 3/Y将最高补贴司机2000美元

网易科技报道 浏览 12704

大理网红稻田被游客踩出坑,人数众多工作人员拦不住

趣看热点 浏览 26053

Meta 首席技术官:公司首款 AR 眼镜将是一台“时间机器”

IT之家 浏览 10702

图片报:巴黎有意科隆19岁边锋赛义德-马拉,已与球员方面接触

懂球帝 浏览 936

西方科技公司接连宣布裁员

环球时报国际 浏览 12723

AtomGit正式上线,中国开源AI雏形已现

钛媒体APP 浏览 414

秦雯袭警风波升级!新剧开播前四天紧急撤档,上星困难唐嫣被牵连

萌神木木 浏览 772

今年冬天一定要拥有这4件“大衣服”,松弛又好看!

LinkFashion 浏览 235
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1