阿里通义千问发布新一代视觉推理模型QVQ-Max

阿里通义千问团队今日早些时候宣布推出新一代视觉推理模型QVQ-Max，该模型具备从图像识别到逻辑推理的全链路能力，并支持跨场景创作应用。

QVQ-Max的能力可归纳为以下三个维度：

细致观察：快速识别复杂图表、日常照片中的关键元素，包括物品、文字标识及细微细节（如隐藏文化符号或微观数据）。例如，可解析衣柜照片中的衣物类型并推荐穿搭方案。

深入推理：结合背景知识进行逻辑分析，如通过几何题图形推导解题步骤，或根据视频画面推测后续情节。在MathVista评测中，其数学推理能力超越OpenAI O1等模型。

灵活应用：支持插画设计、短视频脚本生成、角色扮演内容创作等任务。用户上传草稿或照片后，模型可完善为完整作品，甚至化身“评论家”对日常照片进行趣味解读。

根据该模型的应用场景，可满足协助数据分析、代码生成及信息整理，例如解析复杂图表生成报告摘要，同时亦可以解答数学、物理等学科难题，通过图形化解析直观讲解抽象概念，并可以提供穿搭建议、烹饪指导等实用功能，例如根据食谱图片指导烹饪步骤。

QVQ-Max基于此前开源的QVQ-72B-Preview模型（2024年12月发布）优化升级，强化了动态场景中的实时交互能力。目前该模型已上线Qwen Chat平台，用户可免费体验其功能。