主流AI大模型 | AI分享会

AI大模型全景图

全球AI大模型竞争格局：国际巨头与国产力量并驾齐驱

AA指数更新于 2026-04-07 | LMArena更新于 2026-03-20 | 数据来源：Artificial Analysis, LMArena

国际巨头

O

OpenAI

ChatGPT

A

Anthropic

Claude

G

Google

Gemini

M

国产力量

阿

阿里巴巴

通义千问

字

字节跳动

豆包

D

DeepSeek

DeepSeek R1

智

智谱AI

智谱大模型

推理能力

代码生成

多模态

中文理解

长上下文

性价比

AI模型综合排行榜

客观基准测试与主观偏好评分相结合，全面评估模型能力

智能指数（客观跑分）

完整排名

排名	模型	AI指数	类型
1	Gemini 3.1 Pro Preview Google 原生多模态	57	闭源
2	GPT-5.4 (xhigh) OpenAI 思考模式多模态	57	闭源
3	GPT-5.3 Codex (xhigh) OpenAI 思考模式	54	闭源
4	Claude Opus 4.6 (max) Anthropic 思考模式多模态	53	闭源
5	Claude Sonnet 4.6 (max) Anthropic 思考模式多模态	52	闭源
6	GPT-5.2 (xhigh) OpenAI 思考模式	51	闭源
7	GLM-5 Z AI (智谱) 思考模式	50	开源
8	Claude Opus 4.5 Anthropic 思考模式	50	闭源
9	MiniMax-M2.7 MiniMax 多模态	50	闭源
10	MiMo-V2-Pro Xiaomi 多模态	49	闭源

文本生成榜（主观Elo）

完整排名

排名	模型	Elo评分	投票数
1	claude-opus-4-6-thinking Anthropic	1502	25.3K
2	claude-opus-4-6 Anthropic	1501	22.8K
3	gemini-3.1-pro-preview Google	1493	18.5K
4	grok-4.20-beta1 xAI	1492	15.2K
5	gemini-3-pro Google	1486	16.7K
6	gpt-5.4-high OpenAI	1485	28.4K
7	gpt-5.2-chat-latest OpenAI	1482	20.1K
8	grok-4.20-beta-reasoning xAI	1481	12.9K
9	gemini-3-flash Google	1475	14.6K
10	claude-opus-4-5-thinking Anthropic	1474	17.3K

核心评测基准详细得分

点击列头可按该维度排序

排名	模型名称	ARC-AGI-2	HLE	AIME 2025	SWE-bench	τ²-Bench	参数(亿)	开源状态
1	Gemini 3 Deep Think 思考模式	84.6%	48.4%	—	—	—	—	不开源
2	GPT-5.4 Pro 思考水平·高	83.3%	42.7%	—	—	—	—	不开源
3	Gemini 3.1 Pro Preview 思考水平·高	77.1%	44.4%	—	—	—	—	不开源
4	GPT-5.4 思考水平·超高	74.0%	39.8%	—	—	—	—	不开源
5	Claude Opus 4.6 扩展思考	66.3%	—	99.8%	—	—	—	不开源
6	Claude Sonnet 4.6 思考模式	58.3%	33.2%	—	79.6%	—	—	不开源
7	GPT-5.2 Pro 思考模式	54.2%	36.6%	—	—	—	—	不开源
8	GPT-5.2 思考水平·超高	52.9%	34.5%	100%	—	—	—	不开源
9	Muse Spark 思考模式	42.5%	42.8%	—	—	—	—	不开源
10	Gemini 3.0 Flash 思考模式	33.6%	33.7%	95.2%	68.7%	—	—	不开源

第一梯队模型详解

2026年4月最新数据：六大顶尖模型深度对比

Anthropic

Claude Opus 4.6

上下文 200K

代码业界顶尖

核心优势

代码能力业界顶尖
超长上下文理解
安全可控性强
推理逻辑清晰

综合评分 9.8

OpenAI

GPT-5.4

上下文 128K

多模态领先

核心优势

多模态能力领先
创意写作能力
工具调用丰富
生态完善

综合评分 9.2

Google

Gemini 3.1 Pro

上下文 1M

多模态原生

核心优势

百万级上下文
原生多模态
搜索集成
视频理解强

综合评分 9.0

DeepSeek

DeepSeek-R1-0528

推理深度思考

性价比极高

核心优势

推理能力顶尖
数学能力卓越
思维链推理强
性价比极高

综合评分 9.3

月之暗面

Kimi-K2

上下文 256K

中文优秀

核心优势

中文理解优秀
长文本处理强
多模态能力
推理能力好

综合评分 8.8

智谱AI

GLM-5

开源是

中文优秀

核心优势

中文能力强
开源可商用
推理能力好
代码能力不错

综合评分 8.9

开源模型生态

开源力量推动AI民主化，让每个人都能使用顶尖AI能力

基础模型

Llama 3 Meta

Qwen3.6 阿里

DeepSeek-V3 DeepSeek

Mistral Mistral AI

衍生模型

Yi 零一万物

ChatGLM 智谱AI

Baichuan 百川

InternLM 商汤

工具框架

HuggingFace 模型仓库

Ollama 本地运行

vLLM 推理加速

Llama.cpp 边缘部署

开源模型的优势

数据隐私

数据无需上传云端，本地运行保障隐私安全

成本可控

无API调用费用，长期使用成本更低

可定制性

可针对特定场景微调，打造专属模型

低延迟

本地部署无网络延迟，响应更迅速

使用场景匹配

不同场景下，如何选择最适合的AI模型

代码开发

编程辅助、代码审查、技术方案设计

推荐

Claude Opus 4.6 GPT-5.4 DeepSeek-R1

内容创作

文案写作、创意策划、多语言翻译

推荐

GPT-5.4 Claude 4.6 豆包 Seed 2.0

长文档处理

论文分析、法律合同、技术文档总结

推荐

Gemini 3.1 Claude 4.6 豆包 Seed 2.0

中文对话

客服机器人、中文内容生成、本土业务

推荐

豆包 Seed 2.0 Qwen3.6 DeepSeek R1

数学推理

复杂计算、逻辑推理、数学证明

推荐

DeepSeek R1 Claude 4.6 Gemini 3.1

多模态任务

图像理解、视频分析、图文生成

推荐

Gemini 3.1 GPT-5.4 Qwen3.6

六维能力雷达图

直观对比各模型在代码、推理、中文、多模态、上下文、成本六个维度的表现

模型能力对比

?

Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro DeepSeek-R1 Kimi-K2 GLM-5 MiniMax-M2.7 豆包Pro

代码能力

推理能力

中文理解

多模态

上下文

性价比

雷达图展示各模型在六个维度的相对表现。分数基于2026年4月公开评测数据，满分10分。可根据需求选择最适合的模型。

场景推荐器

根据您的具体需求，智能推荐最适合的AI模型

智能模型推荐

主要使用场景

优先考虑因素（可多选）

准确性优先响应速度成本效益中文能力数据隐私