训练即将启动,和CPM-Ant一起乘风破浪!

作者:OpenBMB
2022-05-29 14:29:44

经过多天的准备,CPM-Live第一期模型CPM-Ant的各项工作已经准备就绪,训练将于今日16:00正式启动!

 

算力准备

CPM-Ant的算力将使用国家超级计算济南中心的计算节点,目前模型训练启动阶段将使用1台具有8块NVIDIA A100显卡的服务器,后续我们将会扩展到多台机器。感谢BMTrain的高效计算和低资源占用设计,让我们能以较少的资源和成本开启训练。

数据准备

 前期我们整理了约4TB原始数据,面对MB级别的网络带宽,我们的小伙伴挠起了头。但正如那句经典老话,“永远不要忽略一辆载满磁带的在高速公路上飞驰的卡车的带宽”,我们最终将一块满载数据的硬盘通过快递寄到了算力中心,完成了数据的上传。

 

代码准备

CPM-Ant相关代码目前已更新至GitHub,欢迎大家观摩拍砖!

训练开始后,官网将实时展示训练过程中使用的GPU数、模型的吞吐量、损失值等动态数据,后续也会陆续更新更多的模型训练动态。另外,每天下午的四点左右,我们将会上传前一日的训练总结,欢迎大家前来围观。

 

- 启动前的训练“仪表盘”

 

训练即将开始,让我们一起屏息期待!如果有你任何感兴趣的话题,欢迎来到GitHub讨论区参与讨论。此外,我们也欢迎任何组织与个人提供的算力、数据与资金等支持,如果您有意愿,欢迎联系 openbmb@gmail.com