hub / github.com/cheahjs/free-llm-api-resources

github.com/cheahjs/free-llm-api-resources @main sqlite

20 symbols 63 edges 2 files 0 documented · 0%

README

Free LLM API resources

This lists various services that provide free access or credits towards API-based LLM usage.

[!NOTE]
Please don't abuse these services, else we might lose them.

[!WARNING]
This list explicitly excludes any services that are not legitimate (eg reverse engineers an existing chatbot)

Free Providers
OpenRouter
Google AI Studio
NVIDIA NIM
Mistral (La Plateforme)
Mistral (Codestral)
HuggingFace Inference Providers
Vercel AI Gateway
OpenCode Zen
Cerebras
Groq
Cohere
GitHub Models
Cloudflare Workers AI
Providers with trial credits
Fireworks
Baseten
Nebius
Novita
AI21
Upstage
NLP Cloud
Alibaba Cloud (International) Model Studio
Modal
Inference.net
Hyperbolic
SambaNova Cloud
Scaleway Generative APIs

Free Providers

OpenRouter

Limits:

[20 requests/minute

50 requests/day

Up to 1000 requests/day with $10 lifetime topup](https://openrouter.ai/docs/api/reference/limits)

Models share a common quota.

Google AI Studio

Data is used for training when used outside of the UK/CH/EEA/EU.

Model Name	Model Limits
Gemini 3.5 Flash	250,000 tokens/minute 20 requests/day 5 requests/minute
Gemini 3 Flash	250,000 tokens/minute 20 requests/day 5 requests/minute
Gemini 3.1 Flash-Lite	250,000 tokens/minute 500 requests/day 15 requests/minute
Gemini 2.5 Flash	250,000 tokens/minute 20 requests/day 5 requests/minute
Gemini 2.5 Flash-Lite	250,000 tokens/minute 20 requests/day 10 requests/minute
Gemini 3.1 Flash TTS	10,000 tokens/minute 10 requests/day 3 requests/minute
Gemini 2.5 Flash TTS	10,000 tokens/minute 10 requests/day 3 requests/minute
Gemini Robotics-ER 1.6	250,000 tokens/minute 20 requests/day 5 requests/minute
Gemini Robotics-ER 1.5	250,000 tokens/minute 20 requests/day 10 requests/minute
Gemma 3 27B Instruct	15,000 tokens/minute 14,400 requests/day 30 requests/minute
Gemma 3 12B Instruct	15,000 tokens/minute 14,400 requests/day 30 requests/minute
Gemma 3 4B Instruct	15,000 tokens/minute 14,400 requests/day 30 requests/minute
Gemma 3 1B Instruct	15,000 tokens/minute 14,400 requests/day 30 requests/minute

NVIDIA NIM

Phone number verification required. Models tend to be context window limited.

Limits: 40 requests/minute

Various open models

Mistral (La Plateforme)

Free tier (Experiment plan) requires opting into data training
Requires phone number verification.

Limits (per-model): 1 request/second, 500,000 tokens/minute, 1,000,000,000 tokens/month

Open and Proprietary Mistral models

Mistral (Codestral)

Currently free to use
Monthly subscription based
Requires phone number verification

Limits: 30 requests/minute, 2,000 requests/day

Codestral

HuggingFace Inference Providers

HuggingFace Serverless Inference limited to models smaller than 10GB. Some popular models are supported even if they exceed 10GB.

Limits: $0.10/month in credits

Various open models across supported providers

Vercel AI Gateway

Routes to various supported providers.

Limits: $5/month

OpenCode Zen

AI gateway with curated models.

Free models may use data for improvement.

Big Pickle Stealth
Nemotron 3 Super Free
DeepSeek V4 Flash Free

Cerebras

Model Name	Model Limits
gpt-oss-120b	30 requests/minute 60,000 tokens/minute 900 requests/hour 1,000,000 tokens/hour 14,400 requests/day 1,000,000 tokens/day
Llama 3.1 8B	30 requests/minute 60,000 tokens/minute 900 requests/hour 1,000,000 tokens/hour 14,400 requests/day 1,000,000 tokens/day

Groq

Model Name	Model Limits
Allam 2 7B	7,000 requests/day 6,000 tokens/minute
Llama 3.1 8B	14,400 requests/day 6,000 tokens/minute
Llama 3.3 70B	1,000 requests/day 12,000 tokens/minute
Llama 4 Scout Instruct	1,000 requests/day 30,000 tokens/minute
Whisper Large v3	2,000 requests/day
Whisper Large v3 Turbo	2,000 requests/day
canopylabs/orpheus-arabic-saudi
canopylabs/orpheus-v1-english
groq/compound	250 requests/day 70,000 tokens/minute
groq/compound-mini	250 requests/day 70,000 tokens/minute
meta-llama/llama-prompt-guard-2-22m
meta-llama/llama-prompt-guard-2-86m
openai/gpt-oss-120b	1,000 requests/day 8,000 tokens/minute
openai/gpt-oss-20b	1,000 requests/day 8,000 tokens/minute
openai/gpt-oss-safeguard-20b	1,000 requests/day 8,000 tokens/minute
qwen/qwen3-32b	1,000 requests/day 6,000 tokens/minute
qwen/qwen3.6-27b	1,000 requests/day 8,000 tokens/minute

Cohere

Limits:

[20 requests/minute

1,000 requests/month](https://docs.cohere.com/docs/rate-limits)

Models share a common monthly quota.

c4ai-aya-expanse-32b
c4ai-aya-vision-32b
command-a-03-2025
command-a-plus-05-2026
command-a-reasoning-08-2025
command-a-translate-08-2025
command-a-vision-07-2025
command-r-08-2024
command-r-plus-08-2024
command-r7b-12-2024
command-r7b-arabic-02-2025

GitHub Models

Extremely restrictive input/output token limits.

Limits: Dependent on Copilot subscription tier (Free/Pro/Pro+/Business/Enterprise)

Codestral 25.01
Cohere Command A
DeepSeek-R1
DeepSeek-R1-0528
DeepSeek-V3-0324
Llama 4 Maverick 17B 128E Instruct FP8
Llama 4 Scout 17B 16E Instruct
Llama-3.2-11B-Vision-Instruct
Llama-3.2-90B-Vision-Instruct
Llama-3.3-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-8B-Instruct
Ministral 3B
Mistral Medium 3 (25.05)
Mistral Small 3.1
OpenAI GPT-4.1
OpenAI GPT-4.1-mini
OpenAI GPT-4.1-nano
OpenAI GPT-4o
OpenAI GPT-4o mini
OpenAI Text Embedding 3 (large)
OpenAI Text Embedding 3 (small)
OpenAI gpt-5
OpenAI gpt-5-chat (preview)
OpenAI gpt-5-mini
OpenAI gpt-5-nano
OpenAI o1
OpenAI o1-mini
OpenAI o1-preview
OpenAI o3
OpenAI o3-mini
OpenAI o4-mini
Phi-4
Phi-4-mini-instruct
Phi-4-mini-reasoning
Phi-4-multimodal-instruct
Phi-4-reasoning

Cloudflare Workers AI

Limits: 10,000 neurons/day

@cf/aisingapore/gemma-sea-lion-v4-27b-it
@cf/google/gemma-4-26b-a4b-it
@cf/ibm-granite/granite-4.0-h-micro
@cf/moonshotai/kimi-k2.6
@cf/moonshotai/kimi-k2.7-code
@cf/nvidia/nemotron-3-120b-a12b
@cf/openai/gpt-oss-120b
@cf/openai/gpt-oss-20b
@cf/qwen/qwen3-30b-a3b-fp8
@cf/zai-org/glm-4.7-flash
@cf/zai-org/glm-5.2
DeepSeek R1 Distill Qwen 32B
Gemma 2B Instruct (LoRA)
Gemma 7B Instruct (LoRA)
Llama 2 7B Chat (LoRA)
Llama 3.1 8B Instruct (FP8)
Llama 3.2 11B Vision Instruct
Llama 3.2 1B Instruct
Llama 3.2 3B Instruct
Llama 3.3 70B Instruct (FP8)
Llama 4 Scout Instruct
Llama Guard 3 8B
Mistral 7B Instruct v0.2 (LoRA)
Mistral Small 3.1 24B Instruct
Qwen 2.5 Coder 32B Instruct
Qwen QwQ 32B

Providers with trial credits

Fireworks

Credits: $1

Models: Various open models

Baseten

Credits: $30

Models: Any supported model - pay by compute time

Nebius

Credits: $1

Models: Various open models

Novita

Credits: $0.5 for 1 year

Models: Various open models

AI21

Credits: $10 for 3 months

Models: Jamba family of models

Upstage

Credits: $10 for 3 months

Models: Solar Pro/Mini

NLP Cloud

Credits: $15

Requirements: Phone number verification

Models: Various open models

Alibaba Cloud (International) Model Studio

Credits: 1 million tokens/model

Models: Various open and proprietary Qwen models

Modal

Credits: $5/month upon sign up, $30/month with payment method added

Models: Any supported model - pay by compute time

Inference.net

Credits: $1, $25 on responding to email survey

Models: Various open models

Hyperbolic

Credits: $1

Models: - DeepSeek V3 0324 - Llama 3.3 70B Instruct - deepseek-ai/deepseek-r1-0528 - qwen/qwen3-coder-480b-a35b-instruct

SambaNova Cloud

Credits: $5 for 3 months

Models: - deepseek-v3.1 - deepseek-v3.2 - gemma-4-31b-it - gpt-oss-120b - meta-llama-3.3-70b-instruct - minimax-m2.7

Models: - BGE-Multilingual-Gemma2 - Gemma 3 27B Instruct - Llama 3.3 70B Instruct - Pixtral 12B (2409) - Whisper Large v3 - devstral-2-123b-instruct-2512 - gemma-4-26b-a4b-it - gpt-oss-120b - holo2-30b-a3b - mistral-medium-3.5-128b - mistral-small-3.2-24b-instruct-2506 - qwen3-235b-a22b-instruct-2507 - qwen3-coder-30b-a3b-instruct - qwen3-embedding-8b - qwen3.5-397b-a17b - qwen3.6-35b-a3b - voxtral-small-24b-2507

Core symbols most depended-on inside this repo

create_logger

called by 10

src/pull_available_models.py

get_model_name

called by 10

src/pull_available_models.py

get_human_limits

called by 6

src/pull_available_models.py

fetch_groq_models

called by 2

src/pull_available_models.py

get_groq_limits_for_stt_model

called by 1

src/pull_available_models.py

fetch_openrouter_models

called by 1

src/pull_available_models.py

fetch_cloudflare_models

called by 1

src/pull_available_models.py

fetch_hyperbolic_models

called by 1

src/pull_available_models.py

Shape

Function 20

Languages

Python100%

Modules by API surface

src/pull_available_models.py20 symbols

Dependencies from manifests, versioned

beautifulsoup44.14.3 · 1×

google-cloud-quotas0.6.0 · 1×

python-dotenv1.2.2 · 1×

requests2.33.1 · 1×

For agents

$ claude mcp add free-llm-api-resources \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact