近日SuperCLUE发布的最新一期中文大模型基准测评报告揭示了国内外AI领域的最新竞争格局。其中,阿里巴巴旗下的通义千问开源模型Qwen2-72B-Instruct凭借其卓越的综合性能,在国内通用能力测评中脱颖而出,位列榜首,并在全球范围内展现出强大的竞争力,成为备受瞩目的开源模型之一。

SuperCLUE此次评估涵盖了国内外共33款顶尖大模型,通过一系列严格的测试标准,全面衡量了各模型在多个维度上的表现。在这一背景下,Qwen2-72B-Instruct以一级总分77分的优异成绩,与Claude-3.5-Sonnet并列第二,仅次于行业领先的OpenAI GPT-4o,彰显了其强大的综合实力。

尤为引人注目的是,Qwen2-72B在理科、文科及Hard任务三大维度上均展现出了均衡且卓越的能力。特别是在理科任务测评中,该模型与GPT-4o的得分差距微小,仅为5分,这充分证明了其在处理复杂计算、逻辑推理及代码评估等方面的强大实力。同时,在文科和Hard任务上,Qwen2-72B同样以接近满分的表现,进一步巩固了其在多个领域的领先地位。

此外,Qwen系列在端侧小模型领域也取得了显著突破。特别是Qwen2-7B,作为一款仅拥有70亿参数的模型,其在端侧小模型测评中成功超越了上一代更大规模的Qwen1.5-32B(320亿参数)和Llama-3-8B-Instruct(130亿参数),以绝对优势夺得榜首。这一成就不仅彰显了Qwen2-7B在小尺寸模型中的极致优化与高效性能,也为端侧AI应用的普及和落地提供了更为坚实的技术基础。

截至目前,Qwen系列模型凭借其出色的表现,已经赢得了广泛的市场认可与应用。据统计,该系列模型的全球下载量已突破2000万次大关,其应用场景更是覆盖了工业制造、金融服务、医疗健康、智能汽车等多个关键领域。

值得一提的是,在此次测评中,OPPO旗下的AndesGPT同样取得了不错的成绩,在新一期测试中迅速追赶上来,位列本次测评总分第三名。

具体测评报告可点击参阅:https://mp.weixin.qq.com/s/Ke18lStd_hkdM8gXOc6dag