请检查您的电子邮件地址以获取确认链接
发送确认邮件
ModelCenter
大模型仓库。
ModelCenter基于BMTrain工具实现了一系列预训练语言模型,支持
高效、低成本、可扩展性强的模型微调及分布式训练
。
GitHub
文档
分享
分享到微信
工具特点
易用性
相比 Deepspeed, Megatron, ModelCenter拥有更好更灵活的封装,且配置 Python 环境简单, 训练代码与 PyTorch 风格统一。
更高效的显存利用
我们的实现可以将显存占用降低数倍,进而使用更大的 batch-size 对 GPU 的计算能力进行更充分的利用。
低资源的高效分布式训练
在 BMTrain 的支持下,ModelCenter能够将ZeRO3 的优化轻易地扩展至各大预训练语言模型,并在分布式训练的通信和调度上作出优化。
性能强大
与流行框架对比,搭配BMTrain的模型表现惊人。
简易使用
贴合 Huggingface transformers 使用习惯,上手门槛低,仅需简单替换即可完成训练提速。
原始代码
替换后代码
支持模型
Encoder
bert-base-cased
bert-base-uncased
bert-large-cased
bert-large-uncased
bert-base-chinese
bert-base-multilingual-cased
Decoder
CPM-1(large)
GPT-2(base)
GPT-2(medium)
GPT-2(large)
GPT-2(XL)
GPT-J(6B)
Encoder-Decoder
CPM-2(large)
T5-small
T5-base
T5-large
T5(3B)
T5(11B)