BMInf
千元级显卡玩转大模型推理。BMInf实现大模型低成本高效推理计算,使用单块千元级显卡(GTX 1060)即可进行百亿参数大模型推理。
GitHub
文档
分享
工具特点
硬件友好
BMInf最低支持在NVIDIA GTX 1060单卡运行百亿大模型。
开源共享
模型参数开源共享,用户在本地即可部署运行,无需访问或申请API。
能力全面
支持生成模型CPM1 、通用模型CPM2 、对话模型EVA ,模型能力覆盖文本补全、文本生成与对话场景。
应用便捷
基于工具包可以快速开发大模型相关下游应用。
工具展示
使用BMInf可以在本地进行大模型相关的推理工作。
性能测试
我们在不同平台上运行CPM2编码器和解码器的速度和PyTorch进行了对比,结果远超PyTorch。
10B模型解码速度 (Tokens/s)
BMInf
PyTorch
支持模型
CPM2.1
CPM2.1是CPM2 的升级版本。
CPM2是一个拥有110亿参数的通用中文预训练语言模型。基于CPM2,CPM2.1新增了一个生成式的预训练任务并基于持续学习范式进行训练。实验结果证明CPM2.1比CPM2具有更好的生成能力。
CPM1
CPM1 是一个拥有26亿参数的生成式中文预训练语言模型。
CPM1的模型架构与GPT 类似,它能够被应用于广泛的自然语言处理任务,如对话、文章生成、完形填空和语言理解。
EVA
EVA 是一个有着28亿参数的中文预训练对话模型。
EVA在很多对话任务上表现优异,尤其是在多轮人机交互对话任务上。