达摩院实现全球最大AI预训练模型参数已从万亿跃迁至10万亿

来源：快科技　2021-11-08 15:01:54

在人工智能前沿领域，中国AI实现突破。

11月8日，阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。

同时，M6做到了业内极致的低碳高效，使用512 GPU在10天内即训练出具有可用水平的10万亿模型。

相比去年发布的大模型GPT-3，M6实现同等参数规模，能耗仅为其1%。

M6是达摩院研发的通用性人工智能大模型，拥有多模态、多任务能力，其认知和创造能力超越传统AI，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。

与传统AI相比，大模型拥有成百上千倍“神经元”数量，且预先学习过海量知识，表现出像人类一样“举一反三”的学习能力。

因此，大模型被普遍认为是未来的“基础模型”，将成下一代AI基础设施。然而，其算力成本相当高昂，训练1750亿参数语言大模型GPT-3所需能耗，相当于汽车行驶地月往返距离。

今年5月，通过专家并行策略及优化技术，达摩院M6团队将万亿模型能耗降低超八成、效率提升近11倍。

10月，M6再次突破业界极限，通过更细粒度的CPU offload、共享-解除算法等创新技术，让收敛效率进一步提升7倍，这使得模型规模扩大10倍的情况下，能耗未显著增加。

这一系列突破极大降低了大模型研究门槛，让一台机器训练出一个千亿模型成为可能。

推荐DIY文章

精彩新闻

达摩院实现全球最大AI预训练模型 参数已从万亿跃迁至10万亿