关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者807人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周杰伦翻车了!炫耀霉霉送票被扒是花钱买的,弘扬华流却润到国外

缘木不求娱 浏览 12406

P图只用一句话,小米超级小爱AI大模型“随心修图”上线

IT之家 浏览 559

抖音团购:巨大流量“困扰”线下商家

电厂 浏览 19430

下一个,会不会是万达?

时代周报 浏览 16325

也门胡塞武装证实也门萨那等地遭美英空袭

界面新闻 浏览 12652

多地房贷利率跟随LPR下调,处于近年低点

每日经济新闻 浏览 15682

穿真丝的女人 自带高级感

小西的穿搭日记 浏览 17176

美媒承认:西方对乌军反攻态度有明显变化

环球网资讯 浏览 14697

盘点2023长城|在智能汽车下半场,锚定目标按下加速键

麻辣车事 浏览 12908

紫牛头条|小伙用激光把南京夫子庙扫描做成3D游戏 1:1还原精度到厘米,网友:可以赛博旅游了

扬子晚报 浏览 996

这个吴邪,还真不是谁演都能火的。

伊周潮流 浏览 1003

那英将缺席上海音浪音乐节演出:因身体欠佳请辞

网易娱乐 浏览 14926

斯卢茨基:我更看重的是去培养人 和中国球员沟通会尽量简单直接

直播吧 浏览 12888

知名男演员景区打工两个月成"顶流NPC" 本人回应

极目新闻 浏览 6106

500Bar新蓝鲸 CS75PLUS智慧冠军版限时价9.19万元起

网易汽车 浏览 865

男子在养生馆按摩后猝死次日才被发现 家属索赔140万

红星新闻 浏览 1486

一个阮经天,打脸了多少内娱“影帝”,还有号称投资几亿的烂片

最爱酷影视 浏览 12482

专家:国防部长履新后首访选择俄罗斯 这具有重要意义

环球网资讯 浏览 110568

iPhone17来了!华强北最新实探

中国基金报 浏览 1714

北京顶豪法拍逆袭:有亿元级毛坯别墅遭10位富豪疯抢

每日经济新闻 浏览 4841

阿的江:赛前有球员去医院了 参加比赛的队员有3名发高烧

直播吧 浏览 19487
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1