在GitHub上“搞事”,Meta开源ImageBind新模型,超越GPT-4,对齐文本、音频等6种模态_环球速看
Meta带着开源的模型再次登场
据外媒报道,上周四,Google、微软、OpenAI几家公司的 CEO 受邀去白宫,共论关于人工智能发展的一些重要问题。然而,让人有些想不通的是,深耕 AI 多年的 Meta 公司(前身为 Facebook)却没有在受邀之列。
没多久,更让 Meta CEO 扎克伯格扎心的是,一位官员对此解释称,本次会议“侧重的是目前在 AI 领域,尤其是面向消费者的产品方面,处于领先地位的公司。”
(资料图片)
显然对于这样的解释,并不能让人信服,毕竟这一次受邀名单中还有一家由 OpenAI 的前成员创立的美国人工智能初创和公益公司Anthropic。
似乎是为了出一口“气”,也为证明自家的实力,相比 OpenAI、Google 推出闭源的 GPT-4、Bard 模型,Meta 在开源大模型的路上一骑绝尘,继两个月前开源 LLaMA大模型之后,再次于5月9日开源了一个新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天时间,收获了1.6k 个 Star。
这个模型与众不同之处便是可以将多个数据流连接在一起,包括文本、图像/视频和音频、视觉、IMU、热数据和深度(Depth)数据。这也是业界第一个能够整合六种类型数据的模型。
01ImageBind 用图像对齐六模态,旨在实现感官大一统
简单来看,相比 Midjourney、Stable Diffusion 和 DALL-E2这样将文字与图像配对的图像生成器,ImageBind 更像是广撒网,可以连接文本、图像/视频、音频、3D 测量(深度)、温度数据(热)和运动数据(来自 IMU),而且它无需先针对每一种可能性进行训练,直接预测数据之间的联系,类似于人类感知或者想象环境的方式。
对此,Meta 在其官方博客中也说道,“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是,它能使机器更好地一起分析许多不同形式的信息,从而有助于推进人工智能。”
打个比喻,人类可以听或者阅读一些关于描述某个动物的文本,然后在现实生活中看到就能认识。
你站在繁忙的城市街道等有刺激性环境中,你的大脑会(很大程度上应该是无意识地)吸收景象、声音和其他感官体验,以此推断有关来往的汽车、行人、高楼、天气等信息。
在很多场景中,一个单一的联合嵌入空间包含许多不同种类的数据,如声音、图像、视频等等。
如今,基于 ImageBind 这样的模型可以让机器学习更接近人类学习。
在官方博客中,Meta 分享 ImageBind 是通过图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,即图像与各种模式共存,可以作为连接这些模式的桥梁,例如利用网络数据将文本与图像连接起来,或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。
ImageBind 整体概览
从大规模网络数据中学到的视觉表征可以作为目标来学习不同模态的特征。这使得 ImageBind 能够对齐与图像共同出现的任何模式,自然地将这些模式相互对齐。与图像有强烈关联的模态,如热学和深度,更容易对齐。非视觉的模态,如音频和 IMU,具有较弱的关联性。
ImageBind 显示,图像配对数据足以将这六种模式绑定在一起。该模型可以更全面地解释内容,使不同的模式可以相互 "对话",并在不观察它们的情况下找到联系。
例如,ImageBind 可以在没有看到它们在一起的情况下将音频和文本联系起来。这使得其他模型能够 "理解 "新的模式,而不需要任何资源密集型的训练。
不过,该模型目前只是一个研究项目,没有直接的消费者和实际应用,但是它展现了生成式 AI 在未来能够生成沉浸式、多感官内容的方式,也表明了 Meta 正在以与 OpenAI、Google 等竞争对手不同的方式,趟出一条属于开源大模型的路。
02ImageBind 强大的背后
与此同时,作为一种多模态的模型,ImageBind 还加入了 Meta近期开源的一系列 AI 工具,包括DINOv2计算机视觉模型,这是一种不需要微调训练高性能计算机视觉模型的新方法;以及 Segment Anything(SAM),这是一种通用分割模型,可以根据任何用户的提示,对任何图像中的任何物体进行分割。
ImageBind 是对这些模型的补充,因为它专注于多模态表示学习。它试图为多种模式学习提供一个统一的特征空间,包括但不限于图像和视频。在未来, ImageBind 可以利用 DINOv2的强大视觉特征来进一步提高其能力。
03ImageBind 的性能
针对 ImageBind 性能,Meta 研究科学家还发布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》(https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)论文,分享了技术细则。
通过分析表明,ImageBind 模型的性能实际上可以通过使用很少的训练实例来提高。这个模型有新的出现的能力,或者说是扩展行为--也就是说,在较小的模型中不存在的能力,但在较大的版本中出现。这可能包括识别哪种音频适合某张图片或从照片中预测场景的深度。
而 ImageBind 的缩放行为随着图像编码器的强度而提高。
换句话说,ImageBind 对准各种模式的能力随着视觉模型的强度编程和大小而增加。这表明,较大的视觉模型有利于非视觉任务,如音频分类,而且训练这种模型的好处超出了计算机视觉任务。
在实验中,研究人员使用了 ImageBind 的音频和深度编码器,并将其与之前在 zero-shot 检索以及音频和深度分类任务中的工作进行了比较。
结果显示,ImageBind 可以用于少量样本的音频和深度分类任务,并且优于之前定制的方法。
最终,Meta 认为 ImageBind 这项技术最终会超越目前的六种“感官”,其在博客上说道,“虽然我们在当前的研究中探索了六种模式,但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”
04ImageBind 可以用来干什么?
如果说 ChatGPT 可以充当搜索引擎、问答社区,Midjourney 可以被用来当画画工具,那么用 ImageBi编程客栈nd 可以做什么?
根据官方发布的 Demo 显示,它可以直接用图片生成音频:
也可以音频生成图片:
亦或者直接给一个文本,就可以检索相关的图片或者音频内容:
当然,基于 ImageBind 也可以给出一个音频+一张图,如“狗叫声”+海景图:
可以直接得到一张“狗在看海”的图:
也可以给出音频,生成相应的图像:
正如上文所述, ImageBind 给出了未来生成式 AI 系统可以以多模态呈现的方式,同时,结合 Meta 内部的虚拟现实、混合现实和元宇宙等技术和场景结合。
可以想象一下未来的头显设备,它不仅可以生成音频和视频输入,也可以生成物理舞台上的环境和运动,即可以动态构建3D 场景(包括声音、运动等)。
亦或者,虚拟游戏开发人员也许最终可以使用它来减少设计过程中的大量跑腿工作。
同样,内容创作者可以仅基于文本、图像或音频输入制作具有逼真的音频和动作的沉浸式视频。
也很容易想象,用 ImageBind 这样的工具会在无障碍空间打开新的大门,譬如,生成实时多媒体描述来帮助有视力或听力障碍的人更好地感知他们的直接环境。
“在典型的人工智能系统中,每个模态都有特定的嵌入(即可以表示数据及其在机器学习中的关系的数字向量),”Meta 说。“ImageBind 表明可以跨多种模态创建联合嵌入空间,而无需使用每种不同模态组合对数据进行训练。这很重要,因为研究人员无法创建包含例如来自繁忙城市街道的音频数据和热数据,或深度数据和海边文本描述的样本的数据集。”
当前,外界可以通过大约30行 python 代码就能使用这个多模式嵌入 API:
05开源大模型是好事还是坏事?
ImageBind 一经官宣,也吸引了很多 AI 专家的关注。如卷积网络之父 Yann LeCun 也在第一时间分享了关于 ImageBind 的资料:
NVIDIA AI 科学家 Jim Fan 在 Twitter 上表示:
自从 LLaMA 以来,Meta 就在开源领域大放异彩。
ImageBind:Meta 最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热编程客栈量(红外)和 IMU 信号!
OpenAI Embedding 是 AI 驱动搜索和长期记忆的基础。ImageBind 是 Meta 的 Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。
通过对齐6种模态,你可以实现一些仅靠文本的 GPT-4无法实现的花式功能:
跨模态检索:将其视为多媒体谷歌搜索
嵌入空间算术:无缝地组合不同的数据格式。
生成:通过扩散将任何模态映射到其他任何模态。
当然,这种通用的多模态嵌入在性能上优于领域特定的特征。
ImageBind:将它们全部绑定到一个嵌入空间。
也有网友评价道,「这项创新为增强搜索、沉浸式 VR 体验和高级机器人技术铺平了道路。对于 AI 爱好者和专业人士来说,激动人心的时刻即将到来!」。
不过,对于 Meta 采取开源的做法,也有人提出了质疑。
据 The Verge 报道,那些反对开源的人,如 OpenAI,表示这种做法对创作者有害,因为竞争对手可以复制他们的作品,并且可能具有潜在的危险,允许恶意行为者利用最先进的人工智能模型。
与之形成对比的是,支持开源的人则javascript认为,像 Meta 开源 ImageBind 的做法有利于生态的快速建立与发展,也能集结全球的力量,帮助 AI 模型快速迭代和捕捉 Bug。
早些时候,Meta开源的LLaMA 模型只能用于研究用途,但是期间LLaMA 模型在4chan 上被泄露,有匿名用户通过 BT 种子公开了 LLaMA-65B—— 有650亿个参数的 LLaMA,容量为220GB。
随着 LLaMA “被公开”,一大批基于这款大模型的衍生品,号称是 ChatGPT 开源编程客栈替代品的工具在短时间内快速涌现,如跟着 LLaMA(美洲驼)名字走的“驼类”家族包含了:斯坦福大学发布的Alpaca(羊驼,https://github.com/tatsu-lab/stanford_alpaca),伯克利、卡内基梅隆大学等高校研究人员开源的Vicuna(骆马),还有基于 LLaMA7B 的多语言指令跟随语言模型 Guanaco(原驼,https://guanaco-model.github.io/)等等。
面对这股新兴的力量,近日,在一位谷歌内部的研究人员泄露的一份文件中显示,在大模型时代,「Google 没有护城河,OpenAI 也没有」。其主要原因就是第三股——开源大模型的力量与生态正在崛起。
所以,OpenAI 和 Google 两家在 AI 大模型上你追我赶的竞争中,谁能笑到最后,也未必就不会是 Meta,我们也将拭目以待。对此,你是否看好开源大模型的发展?
相关阅读
论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
GitHub 地址:https://github.com/facebookresearch/ImageBind
Demo:https://imagebind.metademolab.com/
参考
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
https://www.theverge.com/2023/5/9/23716558/meta-imagebind-open-source-multisensory-modal-ai-model-research
标签:
推荐文章
- 华声制药网简介
- 人机对话技术升级 之江实验室获2021年度浙江省科技进步二等奖
- 研究人员最新发现 单个细胞可同时处理成百上千个信号
- 陆军第73集团军某旅 创新升级模拟训练器材
- 长期暴露在光照下性能退化 科学家发现钙钛矿太阳能电池最大缺陷
- 宁夏启动双百科技支撑行动 构建高水平产业创新体系
- 陆军炮兵防空兵学院 毕业学员综合战术演习现地备课工作圆满完成
- 国内首颗以茶叶冠名遥感卫星 安溪铁观音一号发射成功
- 区域特色产业转型升级 四川屏山以“3+”模式推进科技创新工作
- 激发创新动能促进产业发展 无锡滨湖走出产业转型“绿色”路
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走近网瘾少年们:他们沉迷网络的病根何在?
- “双减”后首个长假:亲子游、研学游需求集中释放
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- “双减”出台两个月,组合拳如何直击减负难点?
- 《山海情》里“凌教授”的巨菌草丰收啦
- 且看新疆展新颜
- 天山脚下,触摸丝路发展新脉动
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 国庆主题花坛持续展摆至重阳节
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 嘉陵江出现有记录以来最强秋汛
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 云南保山:170公里边境线,4000余人日夜值守
- 警方查处故宫周边各类违法人员12人
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 汾河新绛段发生决口
- 陕西支援14省份采暖季保供用煤3900万吨
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期全国道路交通总体安全平稳有序
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 百闻不如一见——北京大学留学生参访新疆
- 看,生机勃勃的中国
- 国庆假期中国预计发送旅客4.03亿人次
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 国庆假期北京接待游客861.1万人次
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 国庆假期中国国内旅游出游5.15亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 受南海热带低压影响广东将暂别高温天气
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 添加陌生人为好友 内蒙古两女子被骗126万
- 中国国庆假期出行热:数字改变“关键小事”
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 哈尔滨市学校有序恢复线下教学
- 哈尔滨一地风险等级调整为低风险
- 从进“培训班”到看《长津湖》
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 山西解除持续近90小时的暴雨四级应急响应
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 粤高速大湾区路段假期车流集中 跨珠江口通道尤甚
- 千年街区“非遗”风催热国庆假期本地游
X 关闭
资讯
- 在GitHub上“搞事”,Meta开源ImageBind新模型,超越GPT-4,对齐文本、音频等6种模态_环球速看
- 区域发展新亮点·黑土地上的耕耘丨谁来种好黑土地?——东北三省粮食生产蹲点调研之二
- 破坏性技术
- 【高端访谈】碳交易市场将如何影响化工行业?——专访全国化工节能(减排)中心秘书长张华
- 活佛济公4全集150集_活佛济公第4部全集
- 收评:北向资金净买入55.71亿元 沪股通净流入48.07亿元_当前热文
- 全球资讯:男子举牌相亲月薪6千要求女方1万2具体是什么情况
- 天天快讯:东莞有望年内引入西江水,实现双水源供水保障
- 房山区支援合作地区文化旅游、农特产品进京展销_今日热门
- 金罗能在室内养吗 金罗纱仙人球怎样养
- 当前观察:恒生指数午盘收跌0.72% 恒生科技指数跌0.53%
- 长江大讲堂聚焦结构性思维:如何洞察商业世界的底层逻辑?-今日关注
X 关闭