最新大模型基准测评：阿里通义开源模型领跑 OPPO同样表现出色

近日SuperCLUE发布的最新一期中文大模型基准测评报告揭示了国内外AI领域的最新竞争格局。其中，阿里巴巴旗下的通义千问开源模型Qwen2-72B-Instruct凭借其卓越的综合性能，在国内通用能力测评中脱颖而出，位列榜首，并在全球范围内展现出强大的竞争力，成为备受瞩目的开源模型之一。

SuperCLUE此次评估涵盖了国内外共33款顶尖大模型，通过一系列严格的测试标准，全面衡量了各模型在多个维度上的表现。在这一背景下，Qwen2-72B-Instruct以一级总分77分的优异成绩，与Claude-3.5-Sonnet并列第二，仅次于行业领先的OpenAI GPT-4o，彰显了其强大的综合实力。

尤为引人注目的是，Qwen2-72B在理科、文科及Hard任务三大维度上均展现出了均衡且卓越的能力。特别是在理科任务测评中，该模型与GPT-4o的得分差距微小，仅为5分，这充分证明了其在处理复杂计算、逻辑推理及代码评估等方面的强大实力。同时，在文科和Hard任务上，Qwen2-72B同样以接近满分的表现，进一步巩固了其在多个领域的领先地位。

此外，Qwen系列在端侧小模型领域也取得了显著突破。特别是Qwen2-7B，作为一款仅拥有70亿参数的模型，其在端侧小模型测评中成功超越了上一代更大规模的Qwen1.5-32B（320亿参数）和Llama-3-8B-Instruct（130亿参数），以绝对优势夺得榜首。这一成就不仅彰显了Qwen2-7B在小尺寸模型中的极致优化与高效性能，也为端侧AI应用的普及和落地提供了更为坚实的技术基础。

截至目前，Qwen系列模型凭借其出色的表现，已经赢得了广泛的市场认可与应用。据统计，该系列模型的全球下载量已突破2000万次大关，其应用场景更是覆盖了工业制造、金融服务、医疗健康、智能汽车等多个关键领域。

值得一提的是，在此次测评中，OPPO旗下的AndesGPT同样取得了不错的成绩，在新一期测试中迅速追赶上来，位列本次测评总分第三名。

具体测评报告可点击参阅：https://mp.weixin.qq.com/s/Ke18lStd_hkdM8gXOc6dag