Model Arena

AI Model Intelligence Hub

模型排名与选型看板

把国际 Arena、国内模型分区、API 定价和发布时间线放到同一页，方便你快速做模型选型、竞品观察和技术跟踪。

数据更新：2026/7/19 13:11:55 · 国际 Arena 来源 LMArena Leaderboard · 时间线参考 AI Flash Report

查看国际榜单查看国内分区比较 API 价格

国际 Arena 榜单

Text / Code / Vision

国内模型分区

覆盖通用到多模态

20+

API 价格样本

便于成本对比

发布时间线

追踪模型演进

国际 Arena 榜单

保留国际主流评测口径，适合看当前头部模型在对话、代码和视觉理解上的整体位置。

查看数据来源

综合对话 Top 1

claude-opus-4-6-thinking

Anthropic · Rating 1503.6

代码 Top 1

claude-opus-4-7-thinking

Anthropic · Rating 1566.6

视觉 Top 1

claude-opus-4-7-thinking

Anthropic · Rating 1308.0

综合对话

Text

来源

#	模型	Rating	组织	投票
1	claude-opus-4-6-thinking	1503.6	Anthropic	39,015
2	claude-opus-4-7-thinking	1500.9	Anthropic	24,871
3	claude-opus-4-6	1498.2	Anthropic	41,661
4	claude-opus-4-7	1493.2	Anthropic	25,814
5	muse-spark	1488.5	Meta	13,026
6	gemini-3.1-pro-preview	1488.2	Google	50,137
7	gemini-3-pro	1486.0	Google	41,317
8	claude-opus-4-8-thinking	1482.4	Anthropic	5,911
9	gpt-5.5-high	1481.6	OpenAI	20,950
10	gpt-5.4-high	1478.8	OpenAI	33,154
11	claude-opus-4-8	1478.7	Anthropic	6,165
12	gemini-3.5-flash	1476.9	Google	9,715
13	gpt-5.2-chat-latest-20260210	1475.6	OpenAI	33,598
14	glm-5.1	1475.0	Z.ai	15,179
15	grok-4.20-beta1	1474.3	xAI	25,895
16	gpt-5.5	1474.3	OpenAI	21,487
17	qwen3.7-max-preview	1473.9	Alibaba	3,749
18	gemini-3-flash	1473.3	Google	30,716
19	grok-4.20-beta-0309-reasoning	1473.1	xAI	34,251
20	claude-opus-4-5-20251101-thinking-32k	1472.6	Anthropic	37,112

代码 / Web 开发

Code

来源

#	模型	Rating	组织	投票
1	claude-opus-4-7-thinking	1566.6	Anthropic	6,234
2	claude-opus-4-7	1556.5	Anthropic	5,788
3	claude-opus-4-8-thinking	1552.2	Anthropic	1,578
4	claude-opus-4-8	1545.0	Anthropic	2,011
5	claude-opus-4-6-thinking	1542.5	Anthropic	8,881
6	claude-opus-4-6	1537.8	Anthropic	9,812
7	qwen3.7-max-20260517	1536.6	Alibaba	2,466
8	glm-5.1	1532.2	Z.ai	3,608
9	minimax-m3	1527.8	MiniMax	1,680
10	claude-sonnet-4-6	1522.2	Anthropic	12,101
11	kimi-k2.6	1516.3	Moonshot	4,753
12	muse-spark	1507.6	Meta	1,629
13	gemini-3.5-flash	1505.8	Google	2,212
14	gpt-5.5-xhigh (codex-harness)	1501.8	OpenAI	5,067
15	claude-opus-4-5-20251101-thinking-32k	1490.5	Anthropic	13,064

视觉理解

Vision

来源

#	模型	Rating	组织	投票
1	claude-opus-4-7-thinking	1308.0	Anthropic	11,790
2	claude-opus-4-6-thinking	1303.2	Anthropic	12,036
3	claude-opus-4-7	1299.8	Anthropic	12,219
4	claude-opus-4-6	1296.4	Anthropic	15,152
5	muse-spark	1294.7	Meta	5,380
6	claude-opus-4-8-thinking	1294.0	Anthropic	2,628
7	gemini-3-pro	1289.4	Google	13,209
8	gpt-5.5	1286.1	OpenAI	9,558
9	gpt-5.4-high	1283.3	OpenAI	11,235
10	gpt-5.5-high	1281.8	OpenAI	8,827
11	gpt-5.2-chat-latest-20260210	1279.4	OpenAI	15,169
12	claude-opus-4-8	1279.3	Anthropic	3,053
13	gemini-3.1-pro-preview	1278.5	Google	24,363
14	claude-sonnet-4-6	1277.5	Anthropic	15,562
15	gpt-5.4	1275.4	OpenAI	10,879

国内模型分区榜单

国内模型分区榜单为站内整理版，综合公开榜单、产品能力、生态落地与近期发布节奏，适合做选型参考，不等同于单一统一基准测试。

更新于 2026/7/19 13:11:55

查看总来源

通用代码 TTS ASR 视频生成图片生成

通用

综合对话、推理、长上下文与产品完成度

Top 5

国内榜单依据

DeepSeek V3.2 DeepSeek

通用对话、推理、长上下文、性价比

MMLU 90.1%，HumanEval 92.5%，1M+ context

推荐

GLM-5 Zhipu AI

综合智能、低幻觉率、国产算力适配

HLE 50.4%，Hallucination Rate 1.2%

Kimi K2 Moonshot AI

长文理解、中文体验、开放权重影响力

LMSYS Arena #1 open-weight，1.04T params

Doubao Seed 2.0 ByteDance

产品化、Agent 场景、多模态联动

多模态能力强，适合字节生态产品化

MiniMax M2.7 MiniMax

通用能力平衡、生成式交互、多模态协同

Arena code 1445，综合产品成熟度高

代码

编码、Agent、工具调用与工程落地能力

Top 5

国内编码榜依据

GLM-5 Zhipu AI

工程代码生成、Agent 编排、中文开发支持

Arena Code Top domestic，HLE 50.4%

推荐

MiniMax M2.7 MiniMax

代码补全、复杂任务拆解、工具调用

Arena Code 1445

GLM-4.7 Zhipu AI

稳定编码、函数调用、工程问答

Arena Code 1439.1

DeepSeek Coder V3 DeepSeek

代码生成、重构、开源生态认可度高

HumanEval / Repo-level coding 表现强

Kimi K2 Moonshot AI

长上下文代码理解、文档到实现链路

长文代码库理解表现突出

TTS

语音合成自然度、情感表现与商用成熟度

Top 5

国内 TTS 榜依据

MiniMax Speech-02 MiniMax

自然度高、情感表达、商业落地成熟

中文自然度与角色语音表现领先

推荐

CosyVoice 2 FunAudioLLM / 阿里系生态

开源可控、零样本音色克隆、中文效果好

开源中文 TTS 代表方案

Step-Audio TTS StepFun

对话式语音、拟人化表达、端到端体验好

语音交互体验强

Doubao Voice ByteDance

产品集成强、延迟低、适合陪伴/内容场景

大规模应用落地能力强

Tencent Cloud TTS Tencent

稳定性高、企业服务成熟、音库丰富

企业级接入成熟

ASR

语音识别准确率、实时性与行业适配

Top 5

国内 ASR 榜依据

Paraformer Large FunAudioLLM / ModelScope

中文识别准确率高、流式与非流式都成熟

中文 ASR 开源标杆

推荐

SenseVoice FunAudioLLM

多语言识别、情感/事件理解、实时性好

ASR + speech understanding 一体化

Tencent Cloud ASR Tencent

稳定、工程接入成熟、行业方案丰富

企业级落地广泛

iFLYTEK Spark ASR iFLYTEK

中文语音识别积累深、行业词表能力强

政企和教育场景强势

Baidu Speech ASR Baidu

云服务稳定、普通话识别成熟、接入门槛低

通用云语音场景覆盖广

视频生成

镜头稳定性、动作表现与一致性

Top 5

国内视频榜依据

Seedance 2.0 ByteDance

音视频同步生成、镜头一致性、商业化能力强

同步音视频单次生成，Languages 8+

推荐

Kling 2.0 Kuaishou

运动幅度、镜头语言、人物动作细节

国内视频生成头部产品

Vidu Q1 ShengShu AI

叙事连贯性、风格控制、中文提示词友好

创作者社区反馈稳定

Wan 2.1 Alibaba

开源路线、可控生成、生态联动强

开源视频模型代表之一

Hailuo Video MiniMax

人物演绎、短视频生成、产品体验完整

消费级生成体验优秀

图片生成

中文提示词理解、审美质量与可控性

Top 5

国内图片榜依据

FLUX China / 国内优化版生态 Open ecosystem

中文提示词适配、写实质感、社区活跃

国内创作者生态采用广泛

推荐

Kolors Kuaishou

中文语义理解强、海报和人物图表现好

中文文生图代表模型

Tongyi Wanxiang Alibaba

电商和设计场景适配、企业服务能力强

企业图像生成落地成熟

Doubao Image ByteDance

社媒内容生成、风格化、上手门槛低

内容创作场景增长快

Ernie Image Baidu

企业集成、通用图像生成、中文理解稳定

云产品体系完整

API 定价对比

统一按每百万 tokens 展示，方便快速看输入、输出与上下文成本结构。

查看数据来源

筛选思路先看输入成本，再看输出倍率和上下文窗口，避免只看单价忽略真实任务成本。

模型	提供商	输入	输出	上下文	最大输出
GPT-4.1 Nano	OpenAI	$0.10	$0.40	1M	16K
Qwen 3.5 Flash	Alibaba	$0.10	$0.40	1M	8K
Gemini 2.5 Flash	Google	$0.15	$0.60	1M	64K
Llama 4 Maverick	Meta (via API)	$0.20	$0.60	1M	16K
GPT-5 Mini	OpenAI	$0.25	$2.00	128K	16K
DeepSeek V3.2	DeepSeek	$0.25	$0.40	128K	16K
Grok 3 Mini	xAI	$0.30	$0.50	128K	16K
GPT-4.1 Mini	OpenAI	$0.40	$1.60	1M	16K
DeepSeek R1	DeepSeek	$0.55	$2.19	128K	16K
Claude Haiku 3.5	Anthropic	$0.80	$4.00	200K	8K
o4-mini	OpenAI	$1.10	$4.40	200K	100K
GPT-5	OpenAI	$1.25	$10.00	128K	16K
Gemini 3.1 Pro	Google	$1.25	$10.00	1M	64K
Gemini 2.5 Pro	Google	$1.25	$10.00	1M	64K
GPT-5.2	OpenAI	$1.75	$14.00	400K	32K
GPT-4.1	OpenAI	$2.00	$8.00	1M	32K
o3	OpenAI	$2.00	$8.00	200K	100K
Claude Sonnet 4.6	Anthropic	$3.00	$15.00	200K	64K
Grok 3	xAI	$3.00	$15.00	128K	16K
Claude Opus 4.6	Anthropic	$5.00	$25.00	200K	32K

模型发布时间线

按时间回看模型迭代节奏，判断各厂商当前重点押注方向。

查看数据来源

观察重点留意各家在代码、推理、多模态和长上下文上的发布时间密度，能更快看出产品路线。

2026-07-13

UniVR-34B-Planning ByteDance LLM

2026-07-08

nvDock nvidia LLM

2026-07-07

CWIP-1.0 nvidia LLM

2026-07-02

HARC-Qwen2.5-7B-Instruct microsoft LLM

2026-07-01

Leanstral-1.5-119B-A6B mistralai LLM

2026-06-27

DeepSeek-V4-Flash-DSpark deepseek-ai LLM

2026-06-27

DeepSeek-V4-Pro-DSpark deepseek-ai LLM

2026-06-23

Kimi-K2.6-DFlash nvidia LLM

2026-06-10

EvoQuality ByteDance LLM

2026-06-09

Claude Fable 5 Anthropic LLM

Anthropic Claude Fable 5 — 1M tokens context, reasoning model.。GPQA Diamond 92.6%，HLE 53.3%

2026-06-09

North Mini Code Cohere LLM

Cohere North Mini Code — 256K tokens context, reasoning model.。GPQA Diamond 75.7%，HLE 9.9%

2026-06-09

diffusiongemma-26B-A4B-it google LLM

2026-06-03

Gemma 4 12B Google LLM

Google Gemma 4 12B — 131K tokens context, reasoning model.。GPQA Diamond 75.3%，HLE 14.8%

2026-06-03

new capabilities to GPT-Rosalind OpenAI LLM

2026-06-02

HARC microsoft LLM

2026-06-02

gemma-4-E2B-it-qat-mobile-transformers google LLM

2026-06-02

gemma-4-E4B-it-qat-mobile-transformers google LLM

2026-06-01

Qwen3.7 Plus Alibaba LLM

Alibaba Qwen3.7 Plus — 1M tokens context, reasoning model.。GPQA Diamond 90.0%，HLE 33.4%

2026-06-01

MiniMax-M3 MiniMax LLM

MiniMax MiniMax-M3 — 1M tokens context, reasoning model.。GPQA Diamond 92.9%，HLE 37.1%

2026-06-01

Mellum2 Hugging Face LLM

2026-06-01

gemma-4-E2B-it-qat-mobile-ct google LLM

2026-05-29

Step 3.7 Flash StepFun LLM

StepFun Step 3.7 Flash — 256K tokens context, reasoning model.。GPQA Diamond 80.9%，HLE 19.9%

2026-05-28

Claude Opus 4.8 Anthropic LLM

Anthropic Claude Opus 4.8 — 1M tokens context, reasoning model.。GPQA Diamond 92.0%，HLE 45.7%

2026-05-28

LFM2.5-8B-A1B Liquid AI LLM

Liquid AI LFM2.5-8B-A1B — 32K tokens context, reasoning model.。GPQA Diamond 51.3%，HLE 6.9%

2026-05-26

HyperNova 60B 2605 Multiverse Computing LLM

Multiverse Computing HyperNova 60B 2605 — 131K tokens context, reasoning model.。GPQA Diamond 73.3%，HLE 15.1%

2026-05-25

MiniCPM5-1B OpenBMB LLM

OpenBMB MiniCPM5-1B — 128K tokens context.。GPQA Diamond 27.8%，HLE 6.5%

2026-05-19

Qwen3.7 Max Alibaba LLM

Alibaba Qwen3.7 Max — 1M tokens context, reasoning model.。GPQA Diamond 92.3%，HLE 38.1%

2026-05-19

Gemini 3.5 Flash Google LLM

Google Gemini 3.5 Flash — 1M tokens context, reasoning model.。GPQA Diamond 82.8%，HLE 23.1%

2026-05-19

the Ettin Reranker Family Hugging Face LLM

2026-05-17

SAME-L stabilityai LLM

2026-05-14

JT-35B-Flash China Mobile LLM

China Mobile JT-35B-Flash — 256K tokens context.。GPQA Diamond 82.9%，HLE 6.1%

2026-05-11

MiniCPM-V 4.6 1.3B OpenBMB LLM

OpenBMB MiniCPM-V 4.6 1.3B — 262K tokens context.。GPQA Diamond 30.5%，HLE 4.9%

2026-05-08

Ring-2.6-1T InclusionAI LLM

InclusionAI Ring-2.6-1T — 262K tokens context, reasoning model.。GPQA Diamond 85.7%，HLE 18.3%

2026-05-05

GPT-5.5 Instant OpenAI LLM

OpenAI GPT-5.5 Instant — 400K tokens context, reasoning model.。GPQA Diamond 84.6%，HLE 20.3%

2026-04-30

Grok 4.3 xAI LLM

xAI Grok 4.3 — 1M tokens context, reasoning model.。GPQA Diamond 90.1%，HLE 35.0%

2026-04-29

Granite 4.1 30B IBM LLM

IBM Granite 4.1 30B — 131K tokens context.。GPQA Diamond 48.1%，HLE 4.2%

2026-04-29

Granite 4.1 3B IBM LLM

IBM Granite 4.1 3B — 131K tokens context.。GPQA Diamond 31.4%，HLE 3.4%

2026-04-29

Granite 4.1 8B IBM LLM

IBM Granite 4.1 8B — 131K tokens context.。GPQA Diamond 43.3%，HLE 3.8%

2026-04-29

Mistral Medium 3.5 Mistral LLM

Mistral Mistral Medium 3.5 — 256K tokens context, reasoning model.。GPQA Diamond 74.8%，HLE 12.8%

2026-04-24

DeepSeek V4 Flash DeepSeek LLM

DeepSeek DeepSeek V4 Flash — 1M tokens context, reasoning model.。GPQA Diamond 89.4%，HLE 32.1%