关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者809人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

将主持《浪姐4》?李湘回应:不去 感谢湖南卫视

网易娱乐 浏览 19738

媒体:日本或让美F-35战机带核炸弹部署 以"威慑中国"

枢密院十号 浏览 41048

健康第一,卢:伦纳德目前身体状况正佳,希望他能保持住

懂球帝 浏览 1072

壕!三大运营商拟中期分红共计631亿,两桶油紧随其后

创作者_1486537600008 浏览 14691

国家统计局:2023年全年GDP1260582亿,比上年增长5.2%

国家统计局 浏览 12858

黄金价格回调ETF热度不减 不同跟踪标的下黄金ETF涨跌区别在哪儿?

金证研 浏览 803

英媒:面对美国 欧洲领导人"必须学会反击"

环球网资讯 浏览 4914

张兰再败诉!​​​国外账户被接管 损失5千万美元

素素娱乐 浏览 15769

足球世界杯赛事那些国足历史冷知识,国足没有一位主教练任期超过四年

趣看热点 浏览 25953

5胜1平高居中超榜首!申花全队赛后更衣室大合照庆祝胜利

直播吧 浏览 18497

金正恩:应将"收复大韩民国"写入宪法

直新闻 浏览 76843

于正曝张檬已取出整容假体:整个人洋溢着自信光芒

网易娱乐 浏览 15190

又一个!郭源元自曝在范范孕期遭到陈建州性骚扰

网易娱乐 浏览 15870

杜兰特错失关键跳投,篮网两连胜被终结

趣看热点 浏览 25888

美媒播出援乌坦克被歼灭画面 记者:俄军压制乌军反攻

直新闻 浏览 91739

伊朗情报部长:伊成功渗透以色列核研究设施

每日经济新闻 浏览 1530

延迟写《南京照相馆》?好电影,确实是对比出来的

娱乐官已上任 浏览 1662

窦骁何超莲婚期将近,男方独自飞巴厘岛准备婚礼

扒虾侃娱 浏览 19219

李平康:国安在谈一名东欧外教,其人在北京&还是以前的渠道

懂球帝 浏览 787

水城威尼斯严重缺水,贡多拉船纷纷在岸边搁浅

趣看热点 浏览 385302

限量 100 台 电动 MINI JCW 蒙特卡洛 60 周年版上市

网易汽车 浏览 905
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1