第一梯队(领军者)
1. OpenAI O1模型
总分80.4,理科能力突出(87.3),尤其在复杂逻辑推理与代码生成领域表现卓越。
被部分评测视为当前最先进的通用大模型之一。
2. DeepSeek V3
总分68.3,数学与代码生成能力对标GPT-4 Turbo,训练成本仅为OpenAI的1/27410。
采用6710亿参数MoE架构,推理速度达60 token/秒,成本效率显著。
3. Qwen2.5-Max(阿里云通义)
以1332分冲至全球第七,数学与编程专项排名第一。
基于20万亿token预训练,开源生态衍生模型超9万个。
第二梯队(挑战者)
4. SenseChat 5.5(商汤)
文科能力刷新记录(81.8),但Hard任务仍需突破。
5. Claude 3.5 Sonnet(Anthropic)
总分67.7,在多模态与长文本处理上表现稳定。
6. 360智脑2.0(360)
中文场景优化显著,总分67.4。
7. 豆包Pro 32k(字节跳动)
总分66.5,理科能力(72.3)较强。
其他亮点
中国力量:全球十强中,DeepSeek、Qwen2.5-Max、SenseChat、360智脑占据4席。
成本革新:如DeepSeek-R1训练成本仅557.6万美元,远低于Meta Llama-3.1(6000万美元)。
应用榜单:DeepSeek网页版应用位列全球第二,仅次于ChatGPT。
留言(●'◡'●)