Amazon EC2 Inf2实例正式可用 助力更低成本、更高性能的生成式AI推理
深度学习(DL)的创新,特别是大语言模型(LLM)的快速发展,已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如生成式AI或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速深度学习工作负载的大规模应用。
亚马逊云科技在2022 re:Invent 全球大会上,以其最新的自研机器学习推理芯片Amazon Inferentia2为基础,发布了Amazon EC2 Inf2系列实例的预览版。Amazon EC2 Inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序,为部署在EC2上的生成式AI应用提供最佳性价比,其中包含 GPT-J或开放式预训练Transformer(OPT)语言模型。
现在,亚马逊云科技宣布Amazon EC2 Inf2实例正式可用!
(资料图片)
Inf2实例是Amazon EC2上首个推理优化的实例,支持可扩展的分布式推理,可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与Amazon EC2 Inf1实例相比,Inf2实例的吞吐量提高4倍,延迟降低10倍。
新Inf2实例的亮点
Inf2实例目前有四种可用实例类型,最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下,它们能够提供2.3 petaFLOPS的综合计算能力,并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。
每个Inferentia2芯片内有32 GB的高带宽内存(HBM),最高配置的 Inf2 实例可提供高达384 GB的共享加速器内存,总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。
基于专门为深度学习工作负载而构建的 Amazon Inferentia2芯片的 Amazon EC2 Inf2,相比同类实例,单位功率性能高出了50%。
Amazon Inferentia2的创新之处
与亚马逊自研机器学习训练芯片 Amazon Trainium类似,每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存(HBM)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。
每个NeuronCore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对ReLU(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。
以下是Amazon Inferentia2芯片和服务器硬件其他创新总结:
数据类型——Amazon Inferentia2 支持多种数据类型,包括 FP32、TF32、BF16、FP16 和 UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置 FP8(cFP8) 数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和 I/O 要求。
动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器 (DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。
自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的 PyTorch自定义运算符编程接口将 CPU 自定义运算符迁移到 Neuron 并实现新的实验运算符,所有这些都无需对 NeuronCore 硬件有任何深入了解。
NeuronLink v2——Inf2实例是Amazon EC2类型中首个将 NeuronLink V2 用于推理优化的实例,NeuronLink v2 为Inferentia2芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。
标签:
热图推荐
创世纪
通信
最近更新
- Amazon EC2 Inf2实例正式可用 助力
- 全球新消息丨华为宣布成功实现MetaERP
- 传马斯克计划成立AI企业与OpenAI竞争
- 【天天新要闻】英飞凌半导体技术最大限
- 邦奇智能艺术家系列灯具:采用高端COB
- 【新要闻】阿曼电信监管局发布物联网服
- Askey与Newracom合作开发基于Wi-Fi Ha
- 微软VC常用运行库用途介绍 微软常用运
- 爱奇艺VIP会员开通教程是什么? 如何
- Steam错误代码103解决方法是什么? st
- 战网昵称修改方法是什么? 战网id怎么
- U盘中病毒了解决方法是什么? U盘中毒
- Win10系统输入法图标没有了解决方法是
- 迅雷看看定时关机设置方法是什么? 迅
- 驱动精灵卸载驱动的方法是什么? 驱动
- 虾仁还要猪心!吹杨站上罚球线 绿军球
- APP上传应用宝的方法是什么? 应用宝
- PPT批量修改字体的方法是什么? 怎么
- 环球热文:天津新港船舶重工有限责任公
- 穿高领衣服脖子堵得慌怎么回事_穿高领
- 首根幕墙抗风柱完成吊装 长沙机场T3航
- 新资讯:汛情提醒丨21日至24日有一轮强
- 全球实时:汉威科技:净化器等小家电受
- 互联网协会黄澄清:中国互联网已形成最
- 兴齐眼药亮年报股价跌4% 去年净利增8.
- 一品红拟发不超10.8亿可转债 2021年发
- 特斯拉深圳补贴 买Model Y最高可领1.
- 2024年上市 路虎纯电揽胜将于年内开启
- 环球观热点:克蒂汽车携圣姆峰SV800等
- 【当前热闻】纯电SUV也能如此硬派 静
热点
2023年4月8日(上海)——黑马原力在上海徐汇滨江进行了品牌全球首发。品牌首款MPS产品G60小黑在发布会现场以自动驾驶的方式闪亮登场,点燃
详细>>CB-FH52是爱普生推出的3LCD商务投影机。作为新一代的商务投影机,CB-FH52具有高达4000流明的色彩亮度,投屏画面明亮清晰、色彩鲜艳,一经推
详细>>2023年2月16日,由流媒体网、易目唯文化主办,黑龙江龙网视传媒有限公司协办的第七届金屏奖暨2022年度中国智能视听与科技创新产业盛典在哈
详细>>2月14日,首届华彩杯算力基础设施应用创新大赛(以下简称大赛)在京正式启动。中国工程院邬贺铨院士、张宏科院士,工信部信息通信发展司一级巡
详细>>2023年1月13日,2022(第六届)中国行业数字化年度风云榜(以下简称2022风云榜)评选结果正式发布。本届风云榜由信息化观察网组织发起,以5
详细>>每年过年,必不可少的项目之一,就是发红包。一封封烫金封口、漂亮厚实的红包,带着一句句恭喜发财的欢乐祝福,浓浓的年味瞬间扑面而来。在
详细>>