阿里通义千问团队今日早些时候宣布推出新一代视觉推理模型QVQ-Max,该模型具备从图像识别到逻辑推理的全链路能力,并支持跨场景创作应用。
QVQ-Max的能力可归纳为以下三个维度:
细致观察:快速识别复杂图表、日常照片中的关键元素,包括物品、文字标识及细微细节(如隐藏文化符号或微观数据)。例如,可解析衣柜照片中的衣物类型并推荐穿搭方案。
深入推理:结合背景知识进行逻辑分析,如通过几何题图形推导解题步骤,或根据视频画面推测后续情节。在MathVista评测中,其数学推理能力超越OpenAI O1等模型。
灵活应用:支持插画设计、短视频脚本生成、角色扮演内容创作等任务。用户上传草稿或照片后,模型可完善为完整作品,甚至化身“评论家”对日常照片进行趣味解读。
根据该模型的应用场景,可满足协助数据分析、代码生成及信息整理,例如解析复杂图表生成报告摘要,同时亦可以解答数学、物理等学科难题,通过图形化解析直观讲解抽象概念,并可以提供穿搭建议、烹饪指导等实用功能,例如根据食谱图片指导烹饪步骤。
QVQ-Max基于此前开源的QVQ-72B-Preview模型(2024年12月发布)优化升级,强化了动态场景中的实时交互能力。目前该模型已上线Qwen Chat平台,用户可免费体验其功能。