最高220倍加速！面壁小钢炮4.0，稀疏创新黑科技大爆发

有史以来最具想象力的小钢炮系列，MiniCPM 4.0 来了！

一口气带来 端侧性能大小王：

一款 8B 闪电稀疏版，创新稀疏架构掀起高效风暴；一款 0.5B，轻巧灵动的最强小小钢炮。

第一眼，震惊于它的速度。有多快？

极限情况下 220 倍、常规 5 倍的速度提升，来自系统级稀疏创新层层加速。

代号前进四

意味着四次重量级冲击——

一次，是速度的狂飙。220 倍极致的速度提升，5 倍常规提速；长长长文本，唰地一下处理完成。通过 高效双频换挡提速，长文本用稀疏，短文本用稠密，切换快如流！值得一提的是，这次我们实现了端侧存储的大升级，长文本缓存锐减，相较于 Qwen3-8B 仅需 1/4 的缓存存储空间。

一次，是效能的狂想。创新大爆发，小钢炮 4.0 贡献了 行业首例全开源的系统级上下文稀疏化高效创新。5% 极高稀疏度，带来极限加速；更以目不暇接的自研创新技术，从架构层、系统层、推理层、数据层层层优化，真正做到 系统级软硬件稀疏化高效落地。

一次，是性能的迸发。延续 以小博大，0.5B 小小钢炮以 仅 2.7% 的训练开销，达到一半参数、性能翻倍效果；8B 稀疏版仅 22% 训练开销，对标超越 Qwen3， Gemma3 12B，卫冕端侧最强。

一次，是落地的强悍。高效推理三级火箭，自研 CPM.cu 极速端侧推理框架，从 投机采样创新、模型压缩量化创新、端侧部署框架创新 几方面，带来 90% 的模型瘦身 和极致速度提升，实现端侧推理 从天生到终生的丝滑。

与此同时，面壁智能也携手诸多行业伙伴，持续推动 MiniCPM 4.0 模型适配及应用拓展。截止目前，MiniCPM 4.0 已实现 Intel、高通、MTK、华为昇腾等主流芯片的适配。例如，此次英特尔与面壁智能携手，在模型开发阶段即充分考虑英特尔硬件架构特性联合定制投机解码配置，结合英特尔加速套件与 KV Cache 内存增强技术，在 Intel 平台上基于 InfLLM v2 在 128K 长文本下已实现 3.8 倍推理速度提升，基于 FR-Spec 投机采样已实现 2.2 倍加速的推理优化效果，携手为业界带来了全新的模型创新和 PC 端性能体验。

此外， MiniCPM 4.0 可在 vLLM、SGLang、LlamaFactory、XTuner 等开源框架部署。

同时加强了对 MCP 的支持，且性能超过同尺寸开源模型（Qwen-3-8B），进一步拓展了模型开发、应用潜力。在应用上实现了端侧比肩 DeepResearch 的表现，可成为用户的端侧「小内阁」，随时随地生成高质量研究报告。

代号前进四

代表向技术信仰的全力进击

快 220 倍，极致的速度提升，意味着什么？

对于一个以「高效」为信仰的团队——

快，不仅是速度，更意味着我们是否在追求思想的领先，并将它付诸实地。

如同 F1 赛道上，冠军风驰电掣的身影，起源于草稿簿上天才想法的起笔，血脉贲张于引擎、燃油、加速、散热等环环连扣动力系统从内而外的优化，锱铢必较于每一条车身曲线风阻最优化的计量，无数看不见的细节串联成就了世人面前的惊鸿一跃。

每一寸模型「效率」进击的背后，是对包括模型层、系统层与硬件层这套复杂架构的系统级创新优化；意味着将每一寸效率提升、能耗降低的空间，极致探索。

甚至，榜单上一个身位的领先，背后可能是设计思想与制造产线积累建设的“十年”之功……

在模型领域，上一个给我们带来如此系统级创新震撼的是年初的 DeepSeek。而这次，我们希望在深耕的端侧领域，做出一些微小贡献。

系统级创新架构
架构层、系统层、推理层，高效层层推进

引入稀疏注意力架构，做从内而外的创新，为什么在当下如此重要？

一是长文本处理、深度思考能力，成为人们对大模型能力愈来愈迫切的需求，而传统稠密模型上下文窗口受限；

二是 DeepSeek 等明星项目以稀疏模型架构撬动的「高效低成本」收益 愈益得到关注认可；而 端侧天然因存储带宽限制等严苛限制，对效率提升与能耗降低要求更加迫切。

专注端侧高效探索数年，我们首次将算法架构与硬件推理一体化创新，带来这次超乎想象的小钢炮模型升级。

➤ 架构高效

InfLLM 稀疏注意力结构再升级

从逐字重复计算，到分块分区域高效「抽查」

稀疏度越高，意味着加速比越高、模型越高效。第二代 InfLLM 工作，将稀疏度从传统 40%-50%，提高至极致的 5%，计算量降低至 10%，且对算子底层重写，进一步加速提升，并使得对文本相关性精准性大大提升。

在传统 Tansformer 模型的相关性计算中，每个 token 都需要和序列中所有 token 进行相关性计算，重复且低效；我们以 InfLLM 高效稀疏架构对文本进行分块分区域处理后，只需对最有相关性的重点区域进行注意力计算「抽查」，更加高效！

➤ 推理高效

推理高效三级火箭

自研全套端侧高性能推理框架

端侧友好、从天生到终生的丝滑

在推理层面，MiniCPM 4.0 通过 CPM.cu 自研推理框架、BitCPM 极致低位宽量化、ArkInfer 自研跨平台部署框架等技术创新，实现了极致的端侧推理加速。

CPM.cu 端侧自研推理框架，做到了 稀疏、投机、量化的高效组合，最终实现了 5 倍速度提升。其中，FR-Spec 轻量投机 采样类似于小模型给大模型当“实习生”，并给小模型进行词表减负、计算加速。通过创新的词表裁剪策略，让小模型专注于高频基础词汇的草稿生成，避免在低频高难度词汇上浪费算力，再由大模型进行验证和纠正。

BitCPM 量化算法，实现了业界 SOTA 级别的 4-bit 量化，并成功探索了 3 值量化（1.58bit）方案。通过精细的混合精度策略和自适应量化算法，模型在瘦身 90% 后，仍能保持出色的性能表现。

ArkInfer 自研跨平台部署框架，面向 多平台端侧芯片极致优化，实现了大平台的高效投机采样和限制编码，确保端侧多平台 Model Zoo 丝滑使用。