以 2B 规模,在主流榜单多重超越 Mistral-7B,越级比肩 Llama2-13B,乃至更大的几十倍规模模型?
2月1日,旗舰端侧模型「面壁MiniCPM」开源发布,凭借其强有力的性能与极致低成本,堪称大模型里的小钢炮。
面壁 MiniCPM 是端侧模型,更是旗舰模型:
它以小博大,不仅有惊人越级表现,还在堪称最接近用户体感的 MT-Bentch 上,表现优异;
它全面开挂,开启端侧部署多模态能力的先河,能说会看,还具备编程能力;
面壁智能 CEO 李大海说:「这是面壁“大模型+Agent ”双引擎战略的关键一步,从智能发展而言,我们坚定认为智能体化是未来迈向通用智能的必由之路,而智能体必然要在端侧服务用户,我们接下来会进一步探索 Agent +云端协同的工作机制,实现智能赋能万物。」
大模型时代呼唤 AI 原生应用与原生硬件,众多主流手机、PC 与汽车品牌相继宣告接入大模型,端侧模型则是「云端协同」的关键一环。
作为 2024 开年献礼之作,面壁 MiniCPM 在极致小尺寸里,迸发全面出众表现。
集面壁「高效」路线成果之大成
Mistral-7B 是全球范围内「以小博大」的标杆模型,被称为「开源模型新王者」。相比而言,面壁 MiniCPM 以仅仅 2B 的参数规模、1T tokens,中英文平均成绩超越 Mistral-7B,表现十分惊艳!
在同等规模模型中,面壁 MiniCPM 取得主流榜单的大幅领先成绩,相比 Llama2-13B、甚至 40B 量级的大个子,也在代码、逻辑能力等重要榜单上毫不逊色。
算力方面,infra 能力构建了至关重要的护城河,面壁全流程优化加速工具套件平台,可以实现 10 倍推理加速,90% 成本降低。
算法上,我们进行了千次以上的模型沙盒实验,这一更加科学的训模方法,以小见大,寻找高效模型训练配置,实现模型能力快速形成。
而高质量数据和持续训练友好的数据策略,大大激活了模型潜能。
AI 才能,时刻陪伴
语言能力方面,面壁 MiniCPM 可以把中英语言夹杂的句子翻译成法语。
他还能准确地进行知识问答,譬如准确答出山东最高山是泰山,甚至还知道它和黄山的准确海拔,并计算出差值。
此外,甚至可以为你言语中的情感流露配上可爱小表情,也能对人物性格进行活灵活现的演绎。
虽是小模型,但也具备代码能力。甚至, MiniCPM 还能够写出一串「复刻自己」的代码片段。
最值得一提的是,MiniCPM 创新性地把多模态能力,集成到了端侧模型中,并在手机上付诸实施。在这个量级的模型中,确实有些超纲。
* MiniCPM 具备当下同量级最强多模态能力
为什么在端侧小模型中,我们也需要如此强大的全面能力呢?在网络条件有限的极限环境中,云端模型能力无法被充分调动,端侧模型是否强大可信赖就至关重要。
譬如,对于户外运动爱好者,就格外需要在「断网」情况下进行端侧模型求助。当然,这些案例仅为科研示范,有关生命健康安全的重大问题目前还是应该通过正规渠道严肃解决。
以上仅为科研示范,请勿盲目模仿
高效低成本的端侧旗舰
支持CPU推理,170万tokens 仅需1元
可以说,MiniCPM 是 面壁迄今最强的端侧旗舰模型,拥有以小博大的越级性能,开启端侧部署多模态能力的先河,亦将高效低成本发挥至极致。
作为新年初心献礼之作,面壁将「小钢炮」全家桶通通开源,共包括 MiniCPM-SFT/DPO,MiniCPM-V 和 MiniCPM-SFT/DPO-int4。
➤ GitHub 开源地址
https://github.com/OpenBMB/MiniCPM
➤ HuggingFace 开源地址
https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16
何为初心?
我们以面壁首款大模型 CPM 为之冠名,既是首个 20 亿级中文开源模型,也取 ChamPion Model 之意,立志做全世界最好的大模型。
而开源基因一直深植在面壁的血脉里,先有 OpenBMB 开源社区,再成立面壁智能,一直致力于贡献开源社区。
此外,面壁还一并开源了一个 12B 多模态模型 OmniLMM,一经推出就跻身开源社区最强多模态模型之一,取得 Object HalBench 榜单第一,在 MMHal-Bench 仅次于 GPT-4。
极佳的多模态流式实时交互能力,甚至全程无剪辑复刻了一段 Gemini 发布当时演示「剪刀石头布」的案例。
一只手拍摄视频,一只手做演示,然后用英文问它:我正在玩什么游戏?
它会回答:石头剪子布。它不仅能认出你出的是什么手势,还能告诉你如果要赢应该出什么。
这个过程中,OmniLMM 表现出了多重能力:实时动作识别,理解玩游戏的取胜策略,还可以通过语音识别工具理解用户问题。
基础能力与精准理解能力,同样表现出众!
面壁 CEO 李大海分享:「作为「大模型+Agent」双引擎战略的重要一步,更小的模型、更快的速度、更低的成本,对于构建 Agent 智能体万物智联、创造个体智能与群体智能交相辉映的智慧未来至关重要。」
将这次旗舰端侧模型的发布作为 2024「开年新开端」的标志,李大海对过去一年的面壁成绩单进行了回顾,包括千亿参数基座模型的发布,C端产品「面壁露卡」通过大模型备案,以及持续发布包含个体智能、群体智能与智能体通用平台的 Agent 体系等重要成果。
现在,年仅 1 岁的面壁智能已经汇聚 100 多人的顶尖科研团队,清北含量高于 80% ,平均年龄 28 岁;形成了一支能打硬仗的工程团队,来自阿里、字节、百度等国内外知名公司的中坚力量。
面壁无比珍惜大家的时间和创意才华,对人才轻轻托举,创造清晰友好透明的合作界面,打造让聪明人被呵护、能创造的环境。
新开端,秉承一贯以来「高效」技术路线,面壁立志让 AGI 来得更快一点,达到「智周万物」的美好愿景。
➤ GitHub 项目地址
https://github.com/OpenBMB/MiniCPM
➤ HuggingFace 项目地址
https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16