关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19118人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全球首例换脸手术成功,超过14名专业人士参与耗时23小时

趣看热点 浏览 26127

第100台设备落地!胜科纳米与赛默飞共铸二十年“双向成就”

爱集微 浏览 809

助力AI全民创作 万兴科技(300624.SZ)旗下万兴天幕创作广场推出“视频教程共创激励计划”

智通财经 浏览 1568

特朗普政府酝酿关税B计划

北京商报 浏览 448

李凯尔谈打独行侠:感觉像撞到了一堵墙 完全没有前两轮的状态

直播吧 浏览 11011

女子被丈夫掐脖致偏瘫:他曾嫌女儿吵闹用烟头烫她胳膊

极目新闻 浏览 7047

国家统计局:就业形势总体改善 青年失业率处在高位

界面新闻 浏览 91774

马尔代夫总统访华前 莫迪去了马尔代夫北边的一个小岛

上观新闻 浏览 74467

《日掛中天》首波口碑!剧情被质疑渲染苦难,辛芷蕾演技获肯定

萌神木木 浏览 737

媒体人:河南与三镇比赛的主裁判执法经验不足,多次引起争议

直播吧 浏览 18462

俄胜利日阅兵装备:基本是非前线作战武器

环球网资讯 浏览 18302

成龙满嘴谎话?却被兄弟公开指责吝啬人品差?

小娱乐悠悠 浏览 1074

北宋政治家王安石的故里在哪?王安石的墓地在哪?

趣看热点 浏览 25930

新能源车用途再次拓展 反向给电网充电能赚差价

车市红点 浏览 12370

张艺兴拿拖拉机驾照,将在向往的生活节目中担任专业收割机驾驶员?

趣看热点 浏览 26704

队记:小波特在火箭担当主控的时期结束了 他有机会打得更高效

直播吧 浏览 15385

克雷斯波:齐尔克泽有巨大潜力,但卢卡库更适合现在的米兰

直播吧 浏览 10775

阿森纳10月最佳候选:加布里埃尔、赖斯、萨卡、廷贝尔

懂球帝 浏览 736

别问了,今年朋友圈都在打网球

时尚COSMO 浏览 761

车企“偷换”电池背后:产能不足还是另有隐情

经观汽车 浏览 857

央视打出王炸抗日剧,热度超过杨紫新剧指日可待

最爱酷影视 浏览 12851
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1