MiniCPM-V 4.6 重新定义端侧多模态

作者 V科技发布时间 2026年05月27日 12:16 浏览量 20 0 评论

面壁智能联合清华大学及 OpenBMB 开源社区，于5月11日发布了新一代端侧多模态大模型 MiniCPM-V4.6。该模型以其1.3B的参数量，在同等量级模型中展现出卓越的智能密度和跨平台适配能力，有效推动了端侧AI技术的部署与应用。

MiniCPM-V4.6系列推出了Instruct和Thinking两个版本，其性能表现已在全球多项评测中得到验证。在Artificial Analysis（AA）榜单上，MiniCPM-V4.6以13分的成绩，显著超越了同等参数量的阿里Qwen3.5-0.8B和谷歌Gemma4-E2B-it，甚至逼近了参数量更大的Qwen3.5-2B，确立了其在1B级别模型中的领先地位。无论是在通用图文理解、复杂的STEM数理推理，还是在OCR文档解析与视频时序理解等高阶任务上，该模型均展现出高度的智能水平，尤其Thinking版本在多图像推理与幻觉抑制方面表现突出。

为了解决端侧部署中常见的内存限制问题，MiniCPM-V4.6在推理速度和资源占用方面进行了深度优化。其运行内存需求被大幅压缩至6GB，这意味着包括主流智能手机、个人电脑及各类智能家居设备都能够实现流畅运行。在推理效率上，该模型基于vLLM框架，推理吞吐量是竞品的1.5倍。在处理3136²分辨率的超高清大图时，首响应延迟仅为75.7毫秒，比同类产品快2.2倍。此外，其文本生成能力单卡即可达到7013 token/s，图像处理能力为54.79张/秒（1344²分辨率），展现出惊人的吞吐效率。

MiniCPM-V4.6之所以能在有限的参数下实现高效能，得益于面壁智能与清华大学联合研发的LLaVA-UHD v4技术。这项技术通过重构ViT图像编码器和浅层压缩模块，将图像编码开销降低了50%，高分辨率浮点运算量减少了55.8%。同时，其创新的混合Token压缩机制支持4倍/16倍的混合压缩，允许模型在性能与速度之间进行灵活切换，这一技术已在快手推荐大模型OneRec中得到验证，并支撑了海量流量请求。

V科技点评

MiniCPM-V4.6的全面开源标志着其技术正在加速走向产业一线。开发者可以通过ms-swift、LLaMA-Factory等微调框架，在单张RTX4090显卡上完成全量微调，极大地降低了开发门槛。模型支持vLLM、Ollama等主流框架，并已在iOS、Android、HarmonyOS等平台上推出测试版本，为AI在多样化硬件终端上的普及奠定了基础。目前，该系列模型已成功应用于汽车、PC、智能家居及工业检测等多个领域，并与联想、吉利、上汽大众、小米、OPPO等行业头部企业建立了合作关系。

MiniCPM-V4.6的发布显著降低了端侧多模态大模型的应用门槛，预示着AI将不再局限于云端算力，而是会更深入地融入各类智能终端，成为人们日常生活中不可或缺的智能助手。

MiniCPM-V 4.6 重新定义端侧多模态

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

MiniCPM-V 4.6 重新定义端侧多模态

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复