叮!你有一封大模型直播训练邀请函!

作者:OpenBMB
2022-05-26 11:29:32

致关注大模型的你:

夏始春余,叶嫩花初。时光来到2022年的初夏,宜居家,宜潜心科研,在忙碌的工作之余,不妨劳逸结合,来看一场当下最火热话题的直播——一场开源大模型训练直播

 

说到大模型,你会想起什么?

我们会想起大模型令人惊艳的效果,我们会想起2020年Open AI推出千亿级参数的GPT3、2021年英伟达与微软联合发布了5300亿参数的Megatron-Turing、2022年5月Meta推出可以开放下载的大模型OPT……

- GPT3展示Demo

我们也会想起大模型的训练过程所需要昂贵的算力与成本,多机通信、并行计算所带来的挑战与考验,尚未完全探明的大模型理论与工作原理……越来越高的算力与人才要求,让大模型逐渐成为大公司和科研机构的角力场。

 

置身大模型时代的火热浪潮中,我们每个人又能做些什么?

诚然,目前大模型的训练过程仍然依赖集中的大规模算力与数据,呈现出一定的“中心化”。但通过提示学习、持续学习、知识继承相关技术,我们可以通过监督模型训练进度,实时调整模型的训练数据、训练任务甚至参数规模,借助开源开放的倡议形式,我们每个人的意见都有可能融入到模型的持续学习过程中,在训练过程中发挥更加重要的作用。

为此,OpenBMB将依托开源社区开展一场实验性的模型直播训练,即开源大模型CPM-Live直播训练。我们已经初步做好了前期准备工作,在这里希望和你一道,共同经历充满未知的科研之旅。旅途的最终目的地,由我们共同来定义,沿途遇到的种种挑战,让我们一起来面对。

 

CPM-Live将怎么做?

CPM-Live训练将使用OpenBMB开源的大模型全流程加速工具包。简单介绍一下这些“神器”

通过大模型训练“发动机”BMTrain,我们可以在小规模的集群中训练百亿以上规模的超大模型,这大幅降低了模型训练的成本,也使我们的训练更加低碳和高效。

使用大模型“瘦身”工具库BMCook和高效推理工具包BMInf普通用户可以在消费级显卡上运行大模型,从而更加便捷地体验大模型的魅力。

 

综合考虑数据和算力规模,CPM-Live将以10B模型训练为起点,我们将其命名为CPM-Ant 。“蚂蚁”虽小,五脏俱全,虽然现在的模型还不是“巨无霸”,但我们有信心在大家的共同努力下,CPM-Live后续模型成长为Panda(熊猫 )、Elephant(大象 )、乃至Dinosaur(恐龙 )。

 

我们将尽可能地提供初期的运行算力、进行基础的模型设计、准备充足的训练数据,让CPM-Ant有一个较好的“冷启动”。而CPM-Ant最终将去向何方,将由社区内的每一名成员共同决定。

 

- 社区共同决定CPM-Ant的训练之旅

 

感兴趣!如何参与?

进入我们的官方网站 live.openbmb.org,开始CPM-Live的探索之旅!

 

观摩助力

你可以在官网一键点赞为模型训练助力。你可以观看大模型训练过程中的各项统计数据,时时感受大模型跳动的“脉搏”。你也可以查看我们每日记录的训练日志,字里行间将会包含着攻城狮和“八阿哥”(bug)的爱恨情仇。

 

模型倡议

模型架构、训练方式、数据来源有更好的看法和意见?你可以在社区提出自己的模型倡议,如果收到较多的支持并且实践可行,我们会将其加入到正在训练的模型中,让CPM-Live在大家的帮助下持续学习进步。

 

应用开发

你可以在用户社区提出CPM-Live创意应用的初期想法、原型设计、开发代码或应用成品,不怕做不到,只怕想不到,我们将为人气较高的应用在官网搭建展示舞台。

 

论坛交流

你可以在我们的论坛中谈论大模型相关的任何事情,譬如学术研讨、工程实现、工具使用、应用设计等。不管大佬还是“小白”,相信大家都能从积极开放的讨论中有所收获。

 

模型下载

模型训练完成后,你可以自由下载模型参数并得到开放使用授权,CPM-Live将采用包括允许商业化的开放模型使用协议。通过模型压缩和推理加速技术,你将会在个人电脑上体验大模型的魅力!

 

- CPM-Live官方网站

 

CPM-Ant训练将于5月29日正式开启,如果想了解更多内容,不妨看看我们的计划书吧!

 

CPM-Live注定会是一次开放而多彩的旅途,希望感兴趣的你能够加入,我们将珍视每一份意见与反馈。我们会直面训练过程中遇到的困难与挑战,不管最后成果如何,我们坚信这都会是一次大模型民主化的有效尝试,大模型时代浪潮中翻卷的一朵浪花。

 

最后,感谢你的耐心阅读,让我们和CPM-Live一起成长!

 

OpenBMB团队敬上

2022年5月26日