1337 Platform · LLM Inference

Generative text inference — tokens produced per second per GPU. · llama2-70b · Offline + Server scenarios · v4.1 / v5.0 · on-demand pricing

GPU	Scenario	tok/s per GPU
NVIDIA B200-SXM-180GB	Offline	12,357 tok/s
NVIDIA B200-SXM-180GB	Server	12,305 tok/s
NVIDIA H200-SXM-141GB	Offline	4,432 tok/s
NVIDIA H200-SXM-141GB	Server	4,134 tok/s
NVIDIA H100-SXM-80GB	Offline	3,913 tok/s
NVIDIA H200-NVL-141GB	Offline	3,894 tok/s
NVIDIA H100-SXM-80GB	Server	3,888 tok/s
NVIDIA H200-NVL-141GB	Server	3,606 tok/s

Efficiency — tok/$ · ranked

Provider	GPU	Scenario	Price	tok/$
Nebius	NVIDIA B200-SXM-180GB	Offline	$3.95/GPU·hr 16m ago	11,262,304
Nebius	NVIDIA B200-SXM-180GB	Server	$3.95/GPU·hr 16m ago	11,215,059
RunPod	NVIDIA B200-SXM-180GB	Offline	$5.89/GPU·hr 16m ago	7,552,818
RunPod	NVIDIA B200-SXM-180GB	Server	$5.89/GPU·hr 16m ago	7,521,135
Lambda Labs	NVIDIA H200-SXM-141GB	Offline	$2.29/GPU·hr 16m ago	6,966,747
Lambda Labs	NVIDIA B200-SXM-180GB	Offline	$6.69/GPU·hr 16m ago	6,649,641
Lambda Labs	NVIDIA B200-SXM-180GB	Server	$6.69/GPU·hr 16m ago	6,621,747
Nebius	NVIDIA H100-SXM-80GB	Offline	$2.15/GPU·hr 16m ago	6,552,586
Nebius	NVIDIA H200-SXM-141GB	Offline	$2.45/GPU·hr 16m ago	6,511,776
Nebius	NVIDIA H100-SXM-80GB	Server	$2.15/GPU·hr 16m ago	6,510,617
Lambda Labs	NVIDIA H200-SXM-141GB	Server	$2.29/GPU·hr 16m ago	6,498,759
Nebius	NVIDIA H200-SXM-141GB	Server	$2.45/GPU·hr 16m ago	6,074,350
Hyperstack	NVIDIA H200-SXM-141GB	Offline	$2.79/GPU·hr 16m ago	5,718,226
GCP (us-central1)	NVIDIA B200-SXM-180GB	Offline	$8.05/GPU·hr 16m ago	5,522,793
GCP (us-central1)	NVIDIA B200-SXM-180GB	Server	$8.05/GPU·hr 16m ago	5,499,626
Hyperstack	NVIDIA H200-SXM-141GB	Server	$2.79/GPU·hr 16m ago	5,334,106
Hyperstack	NVIDIA H100-SXM-80GB	Offline	$2.72/GPU·hr 16m ago	5,179,434
CoreWeave	NVIDIA B200-SXM-180GB	Offline	$8.60/GPU·hr 16m ago	5,172,802
CoreWeave	NVIDIA B200-SXM-180GB	Server	$8.60/GPU·hr 16m ago	5,151,103
Hyperstack	NVIDIA H100-SXM-80GB	Server	$2.72/GPU·hr 16m ago	5,146,260
RunPod	NVIDIA H100-SXM-80GB	Offline	$2.99/GPU·hr 16m ago	4,711,726
RunPod	NVIDIA H100-SXM-80GB	Server	$2.99/GPU·hr 16m ago	4,681,547
DigitalOcean	NVIDIA H200-SXM-141GB	Offline	$3.44/GPU·hr 16m ago	4,637,747
DigitalOcean	NVIDIA H200-SXM-141GB	Server	$3.44/GPU·hr 16m ago	4,326,208
DigitalOcean	NVIDIA H100-SXM-80GB	Offline	$3.39/GPU·hr 16m ago	4,155,770
DigitalOcean	NVIDIA H100-SXM-80GB	Server	$3.39/GPU·hr 16m ago	4,129,152
RunPod	NVIDIA H200-SXM-141GB	Offline	$4.39/GPU·hr 16m ago	3,634,134
Crusoe	NVIDIA H100-SXM-80GB	Offline	$3.90/GPU·hr 16m ago	3,612,323
Crusoe	NVIDIA H100-SXM-80GB	Server	$3.90/GPU·hr 16m ago	3,589,186
Lambda Labs	NVIDIA H100-SXM-80GB	Offline	$3.99/GPU·hr 16m ago	3,530,842
Lambda Labs	NVIDIA H100-SXM-80GB	Server	$3.99/GPU·hr 16m ago	3,508,227
RunPod	NVIDIA H200-SXM-141GB	Server	$4.39/GPU·hr 16m ago	3,390,013
Crusoe	NVIDIA H200-NVL-141GB	Offline	$4.29/GPU·hr 16m ago	3,267,472
OCI (us-ashburn-1)	NVIDIA B200-SXM-180GB	Offline	$14.00/GPU·hr 56d ago	3,177,579
OCI	NVIDIA B200-SXM-180GB	Offline	$14.00/GPU·hr 16m ago	3,177,579
OCI (us-ashburn-1)	NVIDIA B200-SXM-180GB	Server	$14.00/GPU·hr 56d ago	3,164,249
OCI	NVIDIA B200-SXM-180GB	Server	$14.00/GPU·hr 16m ago	3,164,249
Crusoe	NVIDIA H200-NVL-141GB	Server	$4.29/GPU·hr 16m ago	3,026,056
Crusoe	NVIDIA H200-SXM-141GB	Offline	$6.00/GPU·hr 16m ago	2,658,975
CoreWeave	NVIDIA H200-SXM-141GB	Offline	$6.31/GPU·hr 16m ago	2,528,344
Crusoe	NVIDIA H200-SXM-141GB	Server	$6.00/GPU·hr 16m ago	2,480,360
CoreWeave	NVIDIA H200-SXM-141GB	Server	$6.31/GPU·hr 16m ago	2,358,503
CoreWeave	NVIDIA H100-SXM-80GB	Offline	$6.16/GPU·hr 16m ago	2,287,023
CoreWeave	NVIDIA H100-SXM-80GB	Server	$6.16/GPU·hr 16m ago	2,272,374
OCI (us-ashburn-1)	NVIDIA H200-SXM-141GB	Offline	$10.00/GPU·hr 56d ago	1,595,385
OCI	NVIDIA H200-SXM-141GB	Offline	$10.00/GPU·hr 16m ago	1,595,385
Azure (eastus2)	NVIDIA H200-SXM-141GB	Offline	$10.60/GPU·hr 16m ago	1,505,080
OCI (us-ashburn-1)	NVIDIA H200-SXM-141GB	Server	$10.00/GPU·hr 56d ago	1,488,216
OCI	NVIDIA H200-SXM-141GB	Server	$10.00/GPU·hr 16m ago	1,488,216
GCP (us-central1)	NVIDIA H200-SXM-141GB	Offline	$10.84/GPU·hr 16m ago	1,471,080
Azure (eastus2)	NVIDIA H200-SXM-141GB	Server	$10.60/GPU·hr 16m ago	1,403,977
GCP (us-central1)	NVIDIA H200-SXM-141GB	Server	$10.84/GPU·hr 16m ago	1,372,261
AWS (us-east-1)	NVIDIA H200-NVL-141GB	Offline	$10.60/GPU·hr 16m ago	1,322,401
OCI (us-ashburn-1)	NVIDIA H100-SXM-80GB	Offline	$10.75/GPU·hr 56d ago	1,310,517
OCI	NVIDIA H100-SXM-80GB	Offline	$10.75/GPU·hr 16m ago	1,310,517
OCI (us-ashburn-1)	NVIDIA H100-SXM-80GB	Server	$10.75/GPU·hr 56d ago	1,302,123
OCI	NVIDIA H100-SXM-80GB	Server	$10.75/GPU·hr 16m ago	1,302,123
AWS (us-east-1)	NVIDIA H200-NVL-141GB	Server	$10.60/GPU·hr 16m ago	1,224,696
GCP (us-central1)	NVIDIA H100-SXM-80GB	Offline	$11.53/GPU·hr 16m ago	1,222,202
GCP (us-central1)	NVIDIA H100-SXM-80GB	Server	$11.53/GPU·hr 16m ago	1,214,374
AWS (us-east-1)	NVIDIA H100-SXM-80GB	Offline	$12.29/GPU·hr 16m ago	1,146,303
Azure (eastus)	NVIDIA H100-SXM-80GB	Offline	$12.29/GPU·hr 16m ago	1,146,303
Azure (eastus2)	NVIDIA H100-SXM-80GB	Offline	$12.29/GPU·hr 16m ago	1,146,303
AWS (us-east-1)	NVIDIA H100-SXM-80GB	Server	$12.29/GPU·hr 16m ago	1,138,961
Azure (eastus)	NVIDIA H100-SXM-80GB	Server	$12.29/GPU·hr 16m ago	1,138,961
Azure (eastus2)	NVIDIA H100-SXM-80GB	Server	$12.29/GPU·hr 16m ago	1,138,961

Generation Efficiency Ratios

AWS (us-east-1) · Offline · H200 vs H1001.15×more tok/$

AWS (us-east-1) · Server · H200 vs H1001.08×more tok/$

Azure (eastus2) · Offline · H200 vs H1001.31×more tok/$

Azure (eastus2) · Server · H200 vs H1001.23×more tok/$

CoreWeave · Offline · B200 vs H1002.26×more tok/$

CoreWeave · Offline · H200 vs H1001.11×more tok/$

CoreWeave · Server · B200 vs H1002.27×more tok/$

CoreWeave · Server · H200 vs H1001.04×more tok/$

Crusoe · Offline · H200 vs H1000.90×more tok/$

Crusoe · Server · H200 vs H1000.84×more tok/$

DigitalOcean · Offline · H200 vs H1001.12×more tok/$

DigitalOcean · Server · H200 vs H1001.05×more tok/$

GCP (us-central1) · Offline · B200 vs H1004.52×more tok/$

GCP (us-central1) · Offline · H200 vs H1001.20×more tok/$

GCP (us-central1) · Server · B200 vs H1004.53×more tok/$

GCP (us-central1) · Server · H200 vs H1001.13×more tok/$

Hyperstack · Offline · H200 vs H1001.10×more tok/$

Hyperstack · Server · H200 vs H1001.04×more tok/$

Lambda Labs · Offline · B200 vs H1001.88×more tok/$

Lambda Labs · Offline · H200 vs H1001.97×more tok/$

Lambda Labs · Server · B200 vs H1001.89×more tok/$

Lambda Labs · Server · H200 vs H1001.85×more tok/$

Nebius · Offline · B200 vs H1001.72×more tok/$

Nebius · Offline · H200 vs H1000.99×more tok/$

Nebius · Server · B200 vs H1001.72×more tok/$

Nebius · Server · H200 vs H1000.93×more tok/$

OCI · Offline · B200 vs H1002.42×more tok/$

OCI · Offline · H200 vs H1001.22×more tok/$

OCI · Server · B200 vs H1002.43×more tok/$

OCI · Server · H200 vs H1001.14×more tok/$

OCI (us-ashburn-1) · Offline · B200 vs H1002.42×more tok/$

OCI (us-ashburn-1) · Offline · H200 vs H1001.22×more tok/$

OCI (us-ashburn-1) · Server · B200 vs H1002.43×more tok/$

OCI (us-ashburn-1) · Server · H200 vs H1001.14×more tok/$

RunPod · Offline · B200 vs H1001.60×more tok/$

RunPod · Offline · H200 vs H1000.77×more tok/$

RunPod · Server · B200 vs H1001.61×more tok/$

RunPod · Server · H200 vs H1000.72×more tok/$

LLM Inference

Throughput — per GPU

Efficiency — tok/$ · ranked

Generation Efficiency Ratios