MiniCPM-V 4.6 重新定义端侧多模态
面壁智能联合清华大学及 OpenBMB 开源社区,于5月11日发布了新一代端侧多模态大模型 MiniCPM-V4.6。该模型以其1.3B的参数量,在同等量级模型中展现出卓越的智能密度和跨平台适配能力,有效推动了端侧AI技术的部署与应用。

MiniCPM-V4.6系列推出了Instruct和Thinking两个版本,其性能表现已在全球多项评测中得到验证。在Artificial Analysis(AA)榜单上,MiniCPM-V4.6以13分的成绩,显著超越了同等参数量的阿里Qwen3.5-0.8B和谷歌Gemma4-E2B-it,甚至逼近了参数量更大的Qwen3.5-2B,确立了其在1B级别模型中的领先地位。无论是在通用图文理解、复杂的STEM数理推理,还是在OCR文档解析与视频时序理解等高阶任务上,该模型均展现出高度的智能水平,尤其Thinking版本在多图像推理与幻觉抑制方面表现突出。
为了解决端侧部署中常见的内存限制问题,MiniCPM-V4.6在推理速度和资源占用方面进行了深度优化。其运行内存需求被大幅压缩至6GB,这意味着包括主流智能手机、个人电脑及各类智能家居设备都能够实现流畅运行。在推理效率上,该模型基于vLLM框架,推理吞吐量是竞品的1.5倍。在处理3136²分辨率的超高清大图时,首响应延迟仅为75.7毫秒,比同类产品快2.2倍。此外,其文本生成能力单卡即可达到7013 token/s,图像处理能力为54.79张/秒(1344²分辨率),展现出惊人的吞吐效率。
MiniCPM-V4.6之所以能在有限的参数下实现高效能,得益于面壁智能与清华大学联合研发的LLaVA-UHD v4技术。这项技术通过重构ViT图像编码器和浅层压缩模块,将图像编码开销降低了50%,高分辨率浮点运算量减少了55.8%。同时,其创新的混合Token压缩机制支持4倍/16倍的混合压缩,允许模型在性能与速度之间进行灵活切换,这一技术已在快手推荐大模型OneRec中得到验证,并支撑了海量流量请求。
MiniCPM-V4.6的全面开源标志着其技术正在加速走向产业一线。开发者可以通过ms-swift、LLaMA-Factory等微调框架,在单张RTX4090显卡上完成全量微调,极大地降低了开发门槛。模型支持vLLM、Ollama等主流框架,并已在iOS、Android、HarmonyOS等平台上推出测试版本,为AI在多样化硬件终端上的普及奠定了基础。目前,该系列模型已成功应用于汽车、PC、智能家居及工业检测等多个领域,并与联想、吉利、上汽大众、小米、OPPO等行业头部企业建立了合作关系。
MiniCPM-V4.6的发布显著降低了端侧多模态大模型的应用门槛,预示着AI将不再局限于云端算力,而是会更深入地融入各类智能终端,成为人们日常生活中不可或缺的智能助手。