Inference Catalog | Inference Endpoints by Hugging Face

Inference Endpoints

Catalog

Inference Task

All Available Tasks Text Generation Text-to-Image Image-Text-to-Text Sentence Embeddings Sentence Similarity Text Ranking Automatic Speech Recognition Feature Extraction

Price $ 0 - 50 / hour

0
0.1
0.5
1
5
50

Inference Engine

All Llama.cpp TEI vLLM SGLang

Hardware Accelerator

ALL CPU GPU INF2

License

Hub Models

Browse All Models

Model Catalog

48 items

Applied Filters

Text Generation Clear All

Qwen3-Coder-Next-GGUF

Deployed 9 times

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia A100

MiniMax-M2.1

Deployed 8 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

MiniMax-M2.1-GGUF

Text Generation

Accelerated llama.cpp

GPU 2x Nvidia A100

GLM-4.7-Flash-GGUF

Deployed 15 times

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L4

Devstral-Small-2-24B-Instruct-2512

Deployed 17 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia H200

granite-3.3-8b-instruct-FP8

Deployed 20 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

gpt-oss-safeguard-20b

Deployed 32 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

granite-4.0-micro

Deployed 50 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen3-Next-80B-A3B-Instruct

Deployed 36 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Qwen3-Next-80B-A3B-Thinking

Deployed 13 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Apertus-8B-Instruct-2509

Deployed 50 times

Text Generation

Accelerated SGLang

GPU 1x Nvidia L4

gpt-oss-120b

Deployed 278 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia H200

gpt-oss-20b

Deployed 414 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia H200

Qwen3-32B

Deployed 91 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

granite-3.3-8b-instruct

Deployed 26 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

HuggingFaceTB /

SmolLM3-3B

Deployed 42 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen3-1.7B

Deployed 117 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

DeepSeek-R1-GGUF

Deployed 44 times

Text Generation

Accelerated llama.cpp

GPU 8x Nvidia A100

phi-4

Deployed 83 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

Meta-Llama-3-70B-Instruct

Deployed 12 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Phi-3-mini-4k-instruct

Deployed 67 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Mistral-Nemo-Instruct-2407

Deployed 36 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia L4

Llama-3.1-70B-Instruct

Deployed 94 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Mistral-7B-Instruct-v0.3

Deployed 403 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen2.5-72B-Instruct

Deployed 46 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Mixtral-8x22B-Instruct-v0.1

Deployed 19 times

Text Generation

Accelerated vLLM

GPU 8x Nvidia A100

openchat-3.5-0106

Deployed 31 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

HuggingFaceH4 /

zephyr-7b-beta

Deployed 59 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen2.5-Coder-32B-Instruct-GGUF

Deployed 65 times

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L4

QwQ-32B-Preview-GGUF

Deployed 5 times

Text Generation

Accelerated llama.cpp

GPU 1x Nvidia L40S

Qwen2.5-Coder-32B-Instruct

Deployed 119 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

Phi-3-mini-128k-instruct

Deployed 84 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia A100

Meta-Llama-3-8B-Instruct

Deployed 95 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia A100

Qwen2.5-Coder-7B-Instruct

Deployed 69 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

DeepSeek-R1-Distill-Llama-70B

Deployed 117 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia A100

Llama-3.1-8B-Instruct

Deployed 479 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia A100

Mistral-Small-24B-Instruct-2501

Deployed 55 times

Text Generation

Accelerated vLLM

GPU 4x Nvidia L4

HuggingFaceTB /

SmolLM2-1.7B-Instruct

Deployed 53 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Qwen2.5-14B-Instruct

Deployed 158 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

Qwen2.5-7B-Instruct

Deployed 273 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

QwQ-32B

Deployed 62 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

Mixtral-8x7B-Instruct-v0.1

Deployed 138 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

DeepSeek-R1-Distill-Qwen-32B

Deployed 140 times

Text Generation

Accelerated vLLM

GPU 2x Nvidia A100

Qwen2.5-Coder-14B-Instruct

Deployed 31 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

Llama-3.2-1B-Instruct

Deployed 58 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L4

Llama-3.2-3B-Instruct

Deployed 132 times

Text Generation

Accelerated vLLM

GPU 1x Nvidia L40S

lmstudio-community /

Llama-3.3-70B-Instruct-GGUF

Deployed 61 times

Text Generation

Accelerated llama.cpp

GPU 4x Nvidia L4

DeepSeek-R1-GGUF

Deployed 54 times

Text Generation

Accelerated llama.cpp

GPU 4x Nvidia L40S