Live rankings

AI Model Leaderboard

Every major AI model ranked across benchmark quality, inference speed, agentic capability, programming aptitude, and cost efficiency — updated continuously from published evaluation data.

Explore full leaderboard Browse model catalog

334

Tracked models

Providers

286

Benchmarked

28.3

Avg. index

Overall Benchmarks Inference Agentic Programming Value / Price

Rank	Model	Provider	Score	Benchmarks	Inference	Agentic	Programming	Value	Price
1	Claude Mythos Preview claude-mythos-preview multimodalvisionmulti-input reasoning	Anthropic	80.0 Benchmarks	80.0	0.0	66.6	82.7	0.0	N/A
2	GPT-5.6 Sol gpt-5.6-sol multimodalvisionmulti-input reasoning	OpenAI	79.8 Benchmarks	79.8	94.5	71.4	73.7	3.7
3	GPT-5.5 gpt-5.5 multimodalvisionmulti-input reasoning	OpenAI	76.7 Benchmarks	76.7	94.5	61.0	51.2	3.7
4	Kimi K3 kimi-k3 multimodalvisionmulti-input reasoning	Moonshot AI	76.1 Benchmarks	76.1	84.8	84.2	0.0	12.2	$3 in / $15 out
5	Claude Opus 4.7 claude-opus-4-7 multimodalvisionmulti-input reasoning	Anthropic	75.1 Benchmarks	75.1	28.3	54.2	77.9	8.0
6	Claude Opus 4.6 claude-opus-4-6 multimodalvisionmulti-input reasoning	Anthropic	74.6 Benchmarks	74.6	28.3	49.8	71.5	8.0
7	GPT-5.6 Terra gpt-5.6-terra multimodalvisionmulti-input reasoning	OpenAI	74.6 Benchmarks	74.6	94.5	61.5	69.6	17.1
8	Claude Opus 4.8 claude-opus-4-8 multimodalvisionmulti-input reasoning	Anthropic	74.4 Benchmarks	74.4	28.3	74.5	81.3	8.0
9	Gemini 3.1 Pro gemini-3.1-pro-preview multimodalvisionmulti-input reasoning	Google	72.3 Benchmarks	72.3	58.3	52.6	60.9	22.7
10	GPT-5.2 gpt-5.2-2025-12-11 multimodalvisionmulti-input reasoning	OpenAI	70.9 Benchmarks	70.9	62.8	37.0	66.3	31.5
11	Claude Fable 5 claude-fable-5 multimodalvisionmulti-input reasoning	Anthropic	70.8 Benchmarks	70.8	62.8	0.0	84.2	0.0
12	GPT-5.4 gpt-5.4 texttext-to-textlanguage	OpenAI	70.5 Benchmarks	70.5	37.2	48.9	50.3	18.5
13	Gemini 3 Pro gemini-3-pro-preview multimodalvisionmulti-input reasoning	Google	70.3 Benchmarks	70.3	0.0	58.0	52.3	0.0
14	Muse Spark 1.1 muse-spark-1.1 multimodalvisionmulti-input reasoning	Meta	69.7 Benchmarks	69.7	84.8	76.6	58.1	41.5	$1.25 in / $4.25 out
15	Grok-4 Heavy grok-4-heavy multimodalvisionmulti-input reasoning	xAI	69.5 Benchmarks	69.5	0.0	0.0	0.0	0.0	N/A
16	Grok 4.5 grok-4.5 multimodalvisionmulti-input reasoning	xAI	69.3 Benchmarks	69.3	38.2	0.0	70.8	35.6	$2 in / $6 out
17	Seed 2.1 Pro seed-2.1-pro multimodalvisionmulti-input reasoning	ByteDance	69.2 Benchmarks	69.2	0.0	75.6	60.2	0.0	N/A
18	GLM-5.2 glm-5.2 codeprogrammingtool use	Zhipu AI	68.7 Benchmarks	68.7	84.8	44.1	59.9	51.2	$0.95 in / $3 out
19	Gemini 3 Flash gemini-3-flash-preview multimodalvisionmulti-input reasoning	Google	68.5 Benchmarks	68.5	62.8	33.2	61.9	54.9
20	Claude Sonnet 5 claude-sonnet-5 multimodalvisionmulti-input reasoning	Anthropic	67.5 Benchmarks	67.5	28.3	60.7	75.4	12.0

Rank

Model

Provider

Score

Price

Claude Mythos Preview

claude-mythos-preview

multimodalvisionmulti-input reasoning

Anthropic

80.0

Benchmarks

N/A

GPT-5.6 Sol

gpt-5.6-sol

multimodalvisionmulti-input reasoning

OpenAI

79.8

Benchmarks

GPT-5.5

gpt-5.5

multimodalvisionmulti-input reasoning

OpenAI

76.7

Benchmarks

Kimi K3

kimi-k3

multimodalvisionmulti-input reasoning

Moonshot AI

76.1

Benchmarks

$3 in / $15 out

Claude Opus 4.7

claude-opus-4-7

multimodalvisionmulti-input reasoning

Anthropic

75.1

Benchmarks

Claude Opus 4.6

claude-opus-4-6

multimodalvisionmulti-input reasoning

Anthropic

74.6

Benchmarks

GPT-5.6 Terra

gpt-5.6-terra

multimodalvisionmulti-input reasoning

OpenAI

74.6

Benchmarks

Claude Opus 4.8

claude-opus-4-8

multimodalvisionmulti-input reasoning

Anthropic

74.4

Benchmarks

Gemini 3.1 Pro

gemini-3.1-pro-preview

multimodalvisionmulti-input reasoning

Google

72.3

Benchmarks

GPT-5.2

gpt-5.2-2025-12-11

multimodalvisionmulti-input reasoning

OpenAI

70.9

Benchmarks

Claude Fable 5

claude-fable-5

multimodalvisionmulti-input reasoning

Anthropic

70.8

Benchmarks

GPT-5.4

gpt-5.4

texttext-to-textlanguage

OpenAI

70.5

Benchmarks

Gemini 3 Pro

gemini-3-pro-preview

multimodalvisionmulti-input reasoning

Google

70.3

Benchmarks

Muse Spark 1.1

muse-spark-1.1

multimodalvisionmulti-input reasoning