ModelCenter
大模型仓库。ModelCenter基于BMTrain工具实现了一系列预训练语言模型,支持高效、低成本、可扩展性强的模型微调及分布式训练
GitHub
文档
分享
工具特点
易用性
相比 Deepspeed, Megatron, ModelCenter拥有更好更灵活的封装,且配置 Python 环境简单, 训练代码与 PyTorch 风格统一。
更高效的显存利用
我们的实现可以将显存占用降低数倍,进而使用更大的 batch-size 对 GPU 的计算能力进行更充分的利用。
低资源的高效分布式训练
在 BMTrain 的支持下,ModelCenter能够将ZeRO3 的优化轻易地扩展至各大预训练语言模型,并在分布式训练的通信和调度上作出优化。
性能强大
与流行框架对比,搭配BMTrain的模型表现惊人。
简易使用
贴合 Huggingface transformers 使用习惯,上手门槛低,仅需简单替换即可完成训练提速。
原始代码 替换后代码
支持模型
Encoder
bert-base-cased bert-base-uncased bert-large-cased bert-large-uncased bert-base-chinese bert-base-multilingual-cased
Decoder
CPM-1(large) GPT-2(base) GPT-2(medium) GPT-2(large) GPT-2(XL) GPT-J(6B)
Encoder-Decoder
CPM-2(large) T5-small T5-base T5-large T5(3B) T5(11B)