首页 > 资讯 > 正文

AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头

来源:IT之家 2023-06-25 16:10:48


(相关资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,该模型具有 300 亿参数,训练成本“仅有其他同类竞品模型的零头”,有望促进行业逐步降低此类模型训练成本,扩大 AI 模型在更广泛领域的运用。

▲ 图源 MosaicML

MosaicML 公司的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元(约 502.44 万元人民币),远低于 GPT-3 等同类产品所需的数千万美元训练成本。此外,由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并且更适合部署在本地硬件上。

据悉,MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的更高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往成果,当下每块 GPU 的吞吐量增加了 2.4 倍以上,可带来更快的完成时间。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量并提高模型性能。他们目前正在开发一款工具,可以帮助用户在预训练过程中分层加入特定领域的数据,以确保训练中开业实现多样化和高质量的数据组合。

MosaicML 公司表示,将模型扩展到 300 亿参数只是第一步,接下来他们将以降低成本为前提,推出体积更大、质量更高的模型。

目前开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在本地硬件上使用自己的数据,对模型进行微调。

标签:

编辑:

热点

近日,《关于促进职业教育提质升级赋能绿色低碳高质量发展先行区建设的实施意见》发布,总体要求构建省域现代职业教育体系新模式为落脚点,

详细>>

团队的凝聚力,是企业迈向辉煌的基石。优秀团队的背后,是大局意识、协作精神和服务精神的集中体现,是个体利益和整体利益的高度统一。为进

详细>>

一年一度的618电商大促进入白热化冲刺阶段,很多网友憋足劲准备在618这波大促中购买一部心仪的智能手机。在今年的618换机大潮中,酷派COOL3

详细>>

世界名表一比一高仿手表精仿名表。 支持货到付款批发市场一手货源专营各大精仿品牌大厂货:C厂,VS厂,JF厂,MKS厂,KW厂,HBBv6厂,JF厂

详细>>

近日,正力新能与法国TIAMAT公司就深入推进钠离子电池研发达成深度合作,在常熟总部签订战略合作协议。此次合作将推进双方联合开发用于动力

详细>>

前不久,酷派携三款新机官宣全渠道回归,激起了无数粉丝的青春回忆和购机热情。届时,官方slogan迎锋向上,热爱不止也成为了当下的励志话题。随

详细>>