继DeepSeek后，阿里云通义千问也追上OpenAI

阿里云通义团队于大年初一正式发布旗舰大模型“Qwen2.5-Max”，成为继深度求索（DeepSeek）后，中国第二个能够比肩OpenAI o1系列的大语言模型。在最新的LMArena“ChatBot Arena LLM”排行榜上，该模型以1332分排名总榜第7，超越了“DeepSeek-V3”以及OpenAI的“o1-mini”。值得关注的是，在数学和编程能力方面，“Qwen2.5-Max”排名全球第1，在Hard Prompts测试中位列第2。

“ChatBot Arena LLM”榜单由美国加州大学伯克利分校天空计算实验室与LMArena联合开发，采用用户盲测方式，对全球大语言模型在对话、代码生成、图文生成、网页开发等多方面能力进行评估。该榜单基于260万次投票，反映了197个模型在真实体验下的表现，被业界公认为权威排名。榜单最新更新时间为2月2日，其中OpenAI的多个闭源模型占据高位，例如排名第3的“ChatGPT-4o”，以及谷歌的“Gemini-2.0”、xAI的“Grok-2”等。然而，在开源模型领域，中国模型的表现尤为突出，“DeepSeek-R1”以优异成绩并列第3，而“Qwen2.5-Max”紧随其后排名第7，“DeepSeek-V3”和“GLM-4-Plus-0111”则分别位列第8和第9。此外，阶跃星辰的“Step-2-16K-Exp”与OpenAI的“o1-Mini”并列第10。榜单前10名中，中国团队贡献了5个大语言模型，展现出中国AI团队在全球范围内的强大竞争力。

阿里云通义团队此前已两次在开源大模型榜单中登顶，分别是在2023年6月和9月。然而，由于此前未能全面追平闭源模型，其热度略低于2023年12月DeepSeek-V3的突破。此次发布的“Qwen2.5-Max”采用超大规模混合专家（MoE, Mixture of Experts）架构，训练数据规模超过20万亿tokens，并在多个全球权威基准测试中取得优异成绩，包括测试大学水平知识的MMLU-Pro、编程能力的LiveCodeBench、综合能力评估的LiveBench，以及人类偏好对齐测试Arena-Hard等。

值得一提的是，Arena-Hard测试主要衡量模型在复杂指令理解和多轮对话中的表现，涵盖游戏开发、数学证明等高难度任务，同时对类似餐厅推荐、送礼创意等主观性较强的问题赋予较低权重。此外，该测试的评分过程通常由国外模型进行评估。在这种情况下，“Qwen2.5-Max”仍能精准理解复杂问题，整合知识并给出高质量答案，最终以89.4分超越所有对比模型，包括“DeepSeek-V3”、“Llama-3.1-405B-Inst”、“GPT-4o-0806”以及“Claude-3.5-Sonnet-1022”。

阿里云表示，由于无法直接访问“GPT-4o”和“Claude-3.5-Sonnet”等闭源模型的基座版本，团队将“Qwen2.5-Max”与当前最强的开源MoE模型“DeepSeek V3”、最大规模的开源稠密模型“Llama-3.1-405B”以及同为开源稠密模型前列的“Qwen2.5-72B”进行对比。测试结果显示，在包括MMLU等11项关键评估中，“Qwen2.5-Max”均超越了所有对比开源模型。

针对这一成绩，ChatBot Arena官方评价称：“（Qwen2.5-Max）在多个领域表现强劲，特别是在专业技术方向（编程、数学、硬提示等）。” 这一表现不仅进一步巩固了阿里云通义团队在全球开源大模型领域的领先地位，也再次证明了中国AI企业在全球人工智能竞赛中的强劲实力。