美团日前正式发布并开源大语言模型LongCat-Flash-Chat,该模型基于创新性混合专家模型(Mixture-of-Experts, MoE)架构设计,总参数量达560B,单个token的平均激活参数量为27B(范围18.6B~31.3B),实现计算效率与性能的双重优化。

在技术架构层面,LongCat-Flash引入“零计算专家(Zero-Computation Experts)”机制,通过上下文动态分配算力,仅激活与任务需求匹配的专家模块。训练过程中采用PID控制器实时微调专家偏置,将单token平均激活参数稳定在27B,有效降低总计算消耗。此外,模型通过跨层通道设计提升通信与计算的并行性,结合定制化底层优化方案,在H800硬件上实现单用户每秒100+ tokens的推理速度,输出成本低至5元/百万token。

性能测试方面,LongCat-Flash-Chat在多项基准评估中表现突出。通用知识领域,其在ArenaHard-V2基准测试中取得86.50分(第二名),MMLU得分为89.71,CEval得分为90.44,参数规模低于DeepSeek-V3.1、Kimi-K2等竞品。智能体任务领域,τ2-Bench(工具使用基准)与VitaBench(复杂场景基准)得分分别为超越更大规模模型及24.30(第一名)。编程能力方面,TerminalBench得分为39.51(第二名),SWE-Bench-Verified得分为60.4。指令遵循测试中,IFEval得分为89.65(第一名),COLLIE与Meeseeks-zh中文指令基准得分分别为57.10与43.03。

美团表示,该模型通过自建Agentic评测集优化数据策略,并采用多智能体方法生成高质量轨迹数据,提升智能体能力。目前,LongCat-Flash-Chat已在GitHub与Hugging Face平台开源,模型权重、代码及技术文档已开放获取。