通义千问开源200亿参数图像生成模型
通义千问发布Qwen-Image:20B参数模型刷新图像生成SOTA
通义千问于8月5日正式推出了其首个图像生成基础模型Qwen-Image,这款拥有20B参数的MMDiT(多模态扩散变换器)模型在文本渲染和图像编辑领域实现了显著突破,并在多项权威基准测试中取得了当前最佳性能(SOTA)。
Qwen-Image的核心竞争力体现在三项关键技术能力的全面飞跃。首先,其在文本渲染方面表现卓越,有效解决了传统模型在处理文字时常出现的扭曲、错误或排版混乱等问题。通过创新的MMDiT架构,该模型能够在高保真度下生成包括中英文混排及长段落文字在内的内容,准确性极高。

其次,模型在图像编辑方面展现出前所未有的编辑一致性,能够精确执行用户指令,同时保持原有图像的整体风格和结构。这一能力对于专业设计工作尤为重要,能够显著提升图像处理的效率与质量。最后,Qwen-Image在GenEval、DPG、OneIG-Bench等通用图像生成测试,以及GEdit、ImgEdit、GSO等图像编辑基准中均表现出色。特别是在LongText-Bench、ChineseWord、TextCraft等文本渲染评测中,其性能更是全面领先,证明了其架构设计的先进性和训练策略的有效性。
Qwen-Image的应用潜力广泛,已在多个场景中得到验证。在海报制作领域,它不仅能准确复现指定设计风格,还能在保持人物细节的同时,精准生成用户指定的中英文文字内容,这对于广告设计和商业物料制作具有重要价值。在分模块设计任务中,模型展现出强大的布局规划能力,能够处理复杂的排版,为不同模块生成协调统一的图标、标题和介绍文本,特别适用于企业宣传册和产品说明书等场景。即使是小幅面长文本生成这一高难度任务,Qwen-Image也能在名片和标签制作等精细化应用中保持出色表现,并支持中英文灵活切换。
在艺术风格创作方面,Qwen-Image支持从照片级写实到印象派绘画、动漫风格及极简设计等多种多样的艺术风格,能够灵活响应用户创意提示,为专业设计和个人创意表达提供了强大工具。其风格转换能力尤为突出,用户可通过简单文字描述便可实现同一主题内容呈现不同视觉效果,为内容创作者带来更多创意可能性。
通义千问选择完全开源Qwen-Image,意在推动图像生成领域的发展,该模型已在魔搭社区和Hugging Face平台同步开放。此举将显著降低视觉内容创作的技术门槛,为中小企业和个人开发者提供了重要的技术赋能机会,有望在此基础上催生更多创新应用。通义千问期望通过此举激发更多创新,并期待社区的积极参与和反馈,共同构建一个更透明、可持续的生成式AI生态系统。
Qwen-Image的发布标志着图像生成技术迈入新阶段,其20B参数MMDiT架构和在文本渲染、图像编辑上的突破性表现,为行业树立了新的标杆。随着高性能开源模型的普及,图像生成技术的应用门槛将进一步降低,有望在教育、娱乐、电商、媒体等多个行业推动数字化转型和创新应用。