近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,360AI研究院(research.360.cn)在多模态生成和多模态理解方向的两篇研究论文入选,为人工智能在智能内容生成、多模态视觉理解等关键领域提供了创新解决方案,填补行业技术空白。
作为计算机视觉领域的顶级学术会议,ICCV与CVPR(国际计算机视觉与模式识别会议)、ECCV(欧洲计算机视觉国际会议)并称为计算机视觉领域的三大顶级会议。据了解,今年ICCV共收到11239份有效投稿,最终接受2698篇论文,录用率为仅24%。
360所入选两篇论文的研究成果,分别是可为AI装上“空间规划脑”的PlanGen模型,以及让AI练就“火眼金睛”的LMM-Det模型。
PlanGen是行业首个能同时规划物体布局并生成图像的统一模型。从前AI在绘画场景时通常是“闭着眼瞎画”,缺乏空间规划能力。但在PlanGen的加持下,大模型就可以先想清楚不同物件的空间摆放位置后,再落笔生成画面。这种“先规划后创作”的能力可让图像生成更加精准,使得AI能严格按空间逻辑呈现,误差率比传统方法降低40%。
LMM-Det则是AI领域首个不用额外插件就能精准定位照片中目标的多模态大模型。一直以来,包括GPT-4o在内多模态大模型都存在着一个通病——擅长对图片内容进行描述,但在目标的精确定位上远远落后于专业小模型。而LMM-Det在保持多模态大模型图片描述能力的同时,还将目前检测准确率提升至专业模型的水平,能够同时锁定远中近、大中小、动态及静态、显性区域与隐蔽角落内的各种目标,在识别效率上相较于传统方案提升两倍,开创行业技术先河。
作为国内大模型头部厂商,360在国内较早布局人工智能大模型的研发。早在2022年,360就开源了第一代中文图文跨模态模型R2D2,以及当时最大的中文图文数据集Zero。2023至2024年间,360自研千亿规模通用大模型“360智脑”,核心能力位居国内第一梯队,所开源的BDM文生图模型,也成为了国内第一个真正的原生中文绘画模型并兼容SD社区插件。2025年,360开源了第二代图文跨模态模型FG-CLIP,从根本上解决了CLIP模型的“近视问题”,其细粒度图文对齐能力刷新了各项benchmark的SoTA记录。
在智能体成为AI下半场的主角之时,今年6月,360为探索智能体应用的落地实践,进一步发布了基于超级智能体技术打造的搜索产品——纳米AI超级搜索,仅需用户提出需求,便可依托超级智能体能力理解用户意图,打破各平台的“信息围墙”,直接调用复杂工具,全流程自动执行为用户交付答案,为更多AI技术应用的广泛落地提供路径参考。