环球报道:Meta开源多感官人工智能模型 结合六种类型的数据
Meta公司宣布了一个新的开源人工智能模型,将多个数据流联系在一起,包括文本、音频、视觉数据、温度和运动读数。该模型目前只是一个研究项目,没有直接的消费者或实际应用,但它指出了生成性人工智能系统的未来,可以创造沉浸式的多感官体验,并表明在OpenAI和Google等竞争对手变得越来越神秘的时候,Meta继续分享人工智能研究。
该研究的核心概念是将多种类型的数据连接起来,形成一个单一的多维指数(或"嵌入空间",用人工智能的说法)。这个想法可能看起来有点抽象,但正是这个概念支撑着最近生成性人工智能的蓬勃发展。
(资料图片)
例如,像DALL-E、Stable Diffusion和Midjourney这样的人工智能图像生成器都依赖于在训练阶段将文本和图像联系起来的系统。他们在视觉数据中寻找模式,同时将这些信息与图像的描述联系起来。这就是使这些系统能够按照用户的文字输入生成图片的原因。许多以同样方式生成视频或音频的人工智能工具也是如此。
Meta公司说,其模型ImageBind是第一个将六种类型的数据结合到一个单一的嵌入空间的模型。该模型包括的六种数据是:视觉(图像和视频形式);热能(红外图像);文本;音频;深度信息;以及最有趣的--由惯性测量单元或IMU产生的运动读数。(IMU存在于手机和智能手表中,它们被用于一系列任务,从将手机从横向切换到纵向到区分不同类型的身体活动)。
Meta博客文章中的一张截图,显示了不同类型的链接数据,例如,火车的图片、火车鸣笛的音频,以及关于火车三维形状的深度信息。
Meta的ImageBind模型结合了六种类型的数据:音频、视觉、文本、深度、温度和运动。
我们的想法是,未来的人工智能系统将能够交叉引用这些数据,就像目前的人工智能系统处理文本输入一样。例如,想象一下,一个未来的虚拟现实设备不仅能产生音频和视觉输入,还能产生你在物理舞台上的环境和运动。你可能会要求它模拟一次漫长的海上航行,它不仅会把你放在一艘船上,背景是海浪的噪音,而且还有甲板在你脚下的摇晃和海洋空气的凉风。
在一篇博文中,Meta公司指出,其他的感官输入流可以被添加到未来的模型中,包括"触摸、语言、气味和大脑fMRI信号"。它还声称这项研究"使机器离人类同时、全面和直接从许多不同形式的信息中学习的能力更近了一步"。
当然,这都是非常推测性的,而且像这样的研究的直接应用很可能会更有限。例如,去年,Meta公司展示了一个人工智能模型,可以从文本描述中生成短小而模糊的视频。像ImageBind这样的工作显示了该系统的未来版本如何纳入其他数据流,例如,生成音频以匹配视频输出。
不过,对于行业观察者来说,这项研究也很有趣,因为Meta公司正在开放底层模型--这是人工智能世界中越来越受到关注的做法。
那些反对开源的人,比如OpenAI说这种做法对创作者有害,因为对手可以复制他们的作品,而且这可能有潜在的危险,让恶意的行为者利用最先进的人工智能模型。倡导者回应说,开放源代码允许第三方仔细检查系统的缺陷,并改善它们的一些缺陷。他们指出,这甚至可以提供商业利益,因为它基本上允许公司招募第三方开发人员作为无偿工人来改进他们的工作。
到目前为止,Meta一直坚定地站在开源阵营中,尽管并非没有困难。(例如,其最新的语言模型LLaMA今年早些时候在网上泄露了。) 在许多方面,它在人工智能方面缺乏商业成就(该公司没有可以与Bing、Bard或ChatGPT匹敌的聊天机器人),这使得这种做法成为可能。同时,通过ImageBind,它正在继续实施这一战略。
标签:
环球报道:Meta开源多感官人工智能模型 结合六种类型的数据
2023-05-11 15:17:50
天天最资讯丨河北张家口市着力提升“双随机、一公开”监管工作效能
2023-05-11 15:08:25
2023-05-11 14:31:13
热图推荐
创世纪
通信
最近更新
- 环球报道:Meta开源多感官人工智能模型
- 天天最资讯丨河北张家口市着力提升“双
- 传文化之髓,中山小学学子书汉字之美
- 每日信息:施特拉尔松德与维斯马历史中
- 资讯推荐:北京交管部门在朝阳区现场执
- Web3概念走高 观想科技涨超12% 世界速读
- 找回qq密码的最快方法是什么? 查以前
- 查手机积分的方法是什么? 中国移动怎
- 申请微信怎么弄? 微信交易异常解除限
- 手机号怎么复制到手机卡上? 旧手机号
- 微信密码丢了找回来的方法是什么? 微
- 动态:L3Harris与BigBear将为自动驾驶
- 【速看料】谷歌云与UKG合作,利用生成
- 日本IT公司尝试利用ChatGPT进行老人陪
- 全智贤花7700万购买新豪宅,夫妻名下房
- 春雪食品:年产4万吨鸡肉调理品智慧工
- 王者荣耀物理穿透的_王者荣耀物理穿透_
- 牛奶是钟南山眼中的“长寿食物”,每天
- 2023年5月20日是周六湾沚区可以领证吗?
- 即时焦点:沿用家族设计 全新奥迪Q5/S
- 质感十足 艾瑞泽8 2.0T运动版内饰官
- 今日看点:又一国产硬派SUV 捷途旅行
- 亚马逊云科技大数据分析服务Amazon EM
- 环球快讯:木渎古镇开放时间
- 鲁大师给CPU降温方法是什么? 鲁大师
- 鲁大师看电源方法是什么? 如何查看电
- 鲁大师检测显示器方法是什么? 鲁大师
- 驱动精灵使用方法是什么? 驱动精灵删
- 百度网盘扩容方法是什么? 百度网盘容
- 微软宣布推迟加薪 环球通讯
热点
2023年5月8日,由信息化观察网、信息技术应用创新榜组委会组织发起的2022-2023信息技术应用创新榜评审结果正式公示。本次榜单征集旨在全面
详细>>2023年5月5日--美国网件公司(纳斯达克:NTGR)是一家一流网络产品的主要提供商,其网络产品旨在简化并改善人们的生活。今天,该公司发布了
详细>>2023年4月27日,中国家电及消费电子博览会(简称AWE),在上海新国际博览中心如期开幕。本次AWE以智科技、创未来为主题,汇聚众多全球顶尖科技企
详细>>2023年4月8日(上海)——黑马原力在上海徐汇滨江进行了品牌全球首发。品牌首款MPS产品G60小黑在发布会现场以自动驾驶的方式闪亮登场,点燃
详细>>CB-FH52是爱普生推出的3LCD商务投影机。作为新一代的商务投影机,CB-FH52具有高达4000流明的色彩亮度,投屏画面明亮清晰、色彩鲜艳,一经推
详细>>2023年2月16日,由流媒体网、易目唯文化主办,黑龙江龙网视传媒有限公司协办的第七届金屏奖暨2022年度中国智能视听与科技创新产业盛典在哈
详细>>