2025年4月8日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025年人工智能指数报告》(HAI报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火4.0(Spark 4.0)凭借其在“MixEval-Hard”测试中的出色表现,成为国内唯一入围前十的中文大模型,在所有国产大模型中排名第一,展示出强劲的技术实力与国际竞争力。

MixEval是本次HAI报告引入的一项全新评测标准,专为评估大语言模型在复杂真实语言任务中的表现,尤其聚焦于“分布式用户查询”和“复杂问题处理能力”。在更具挑战性的MixEval-Hard基准测试中,讯飞星火4.0超越了包括LLaMA 2、Gemini 1.5 Pro等多个国际知名模型以及通义千问等国内模型,成为唯一入榜前十的中国大模型选手。

从报告来看,在MixEval-Hard得分最高的是OpenAI的最新模型“OpenAI o1-preview”,以72.0分遥遥领先,其次是Anthropic的Claude 3.5 Sonnet(68.1分)以及Meta推出的LLaMA-3 405B-Instruct(66.2分)。讯飞星火4.0紧随亚马逊旗下模型Mistral Large2,以0.4的劣势排在第十名,在多个维度上展现出不俗的语言理解和推理能力。

MixEval-Hard测试体系包括“过滤筛选”“语料注释”“评估”和“动态更新”等多个环节,模拟真实场景下用户与模型的交互过程,是目前衡量模型处理复杂任务能力最具代表性的基准之一。其涵盖多模态能力、事实一致性、推理能力等综合指标,被业界称为“大模型能力大考”。

作为科大讯飞旗下的重要战略产品,讯飞星火大模型自2023年发布以来不断迭代升级。其4.0版本于2024年6月发布的,在语义理解、逻辑推理、跨语种翻译等多个领域都实现突破。2025年3月3日,讯飞星火发布深度推理模型X1在数学能力上大幅跃升,以70B参数规模便追平了o1和DeepSeek-R1。尤其针对小初高中文测试集(来自2023/2024各学段考试真题/模拟题/竞赛题),星火X1拿下SOTA。令人振奋的是,这一切全是在全国产算力平台上实现的。

值得注意的是,本次HAI报告也指出,虽然中美在AI能力发展上仍存在差距,但中国本土模型正在以“快马加鞭”的速度追赶国际巨头,中美顶级AI模型的性能差距已经缩小到了0.3%(2023年,这一数字还是20%),国产大模型正在迈向全球舞台的中心。