Claude Code Gratuit : 8 Astuces pour Économiser Tokens & Utiliser des Modèles Locaux

🆓 Gratuit 🤖 IA Coding 🖥️ LM Studio ⚡ Open Code

Claude Code Gratuit :
8 Astuces pour Exploser
vos Limites

Modèles locaux, Open Router, quantification VRAM, Open Code, gestion des MCP…
Tout ce qu’il faut savoir pour utiliser un agent de coding IA sans dépenser une fortune.

📅 Mai 2025 ⏱ 10 min de lecture 🎬 Vidéo : 33 min

💡 Claude Code, c’est un agent de coding performant — mais ses tokens s’épuisent vite. Dans cette vidéo, le créateur explore toutes les façons d’utiliser Claude Code gratuitement ou à moindre coût : modèles locaux, alternatives open source, astuces de configuration et bien plus.

📋 Sommaire de l’article

Claude Code : une surcouche, pas un modèle
Astuce 1 — Choisir le bon modèle selon la tâche
Astuce 2 — LM Studio : faire tourner l’IA en local
Astuce 3 — Comprendre VRAM, RAM et quantification
Astuce 4 — Les modèles MOE et l’offloading expert
Astuce 5 — Open Router : des modèles gratuits en ligne
Astuce 6 — Open Code, l’alternative économique puissante
Astuce 7 — Vider les MCP inutilisés
Astuce 8 — Ne jamais prendre d’abonnement annuel
Comparatif des résultats obtenus
La vidéo complète + Chapitres cliquables

🧠 Claude Code : une surcouche, pas un modèle

Avant de chercher à économiser des tokens, il faut bien comprendre ce qu’est Claude Code. Ce n’est pas un modèle d’IA en soi — ce n’est pas Sonnet 4.6 ni Opus 4.6. C’est une surcouche logicielle (un agent) qui appelle ces modèles via une API.

🔑 Conclusion clé : Claude Code peut appeler n’importe quel modèle compatible OpenAI API, pas seulement les modèles Anthropic. C’est là que réside toute la liberté — et les économies.

🏗️

Agent = Surcouche

Claude Code orchestre des tâches complexes en appelant le modèle de votre choix, pas forcément Sonnet ou Opus.

🔌

API Compatible

Tout modèle exposant une API compatible OpenAI peut être branché : local, cloud, open source.

⚙️

Config locale par projet

Modifier le modèle via settings.local.json dans le dossier .claude du projet, sans toucher la config globale.

settings.local.json — Exemple de config

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://localhost:1234/v1",
    "ANTHROPIC_MODEL": "qwen3-6-35b-a22b"
  }
}

⚠️ Cette configuration ne fonctionne qu’en mode console (claude en terminal) et dans les éditeurs supportés. Elle ne fonctionne pas via l’application graphique Claude.

🎯 Astuce 1 — Choisir le bon modèle selon la tâche

L’erreur la plus courante : utiliser Opus 4 pour tout et n’importe quoi — y compris pour changer la couleur d’un bouton. C’est un gaspillage massif de tokens.

« Je vois des gens utiliser Opus 4.7 alors qu’il n’y a pas forcément besoin pour juste modifier un bouton. On peut descendre sur le modèle Haiku qui sera très compétent et sauvegarde beaucoup plus de tokens. »

📊 Quelle puissance pour quelle tâche ?

Tâche	Modèle recommandé	Coût
Modifier un bouton, correction CSS	Haiku / Modèle 9B local	Très bas
Refactoring, ajout de feature	Sonnet / Qwen 35B local	Moyen
Architecture complexe, debug profond	Opus / Deepseek V4	Élevé
Génération site complet (1 seul prompt)	35B local ou Open Router gratuit	Gratuit

🧮 Même Deepseek V4, c’est inutile d’utiliser le max si c’est pour changer la couleur d’un bouton. Pensez à adapter la puissance à la complexité réelle de la tâche.

🖥️ Astuce 2 — LM Studio : faire tourner l’IA en local

LM Studio est un logiciel gratuit qui permet de télécharger et faire tourner des LLM directement sur votre ordinateur. Pas besoin d’une configuration de gamer pour démarrer.

Télécharger LM Studio

Disponible sur lmstudio.ai, gratuit, compatible Windows/Mac/Linux. Des centaines de modèles accessibles en quelques clics.

Choisir et télécharger un modèle

Qwen 3.6 (27B ou 35B MOE), Gemma4, Mistral, Deepseek… Commencer par un 9B si votre config est modeste.

Lancer le serveur local

LM Studio expose un serveur local compatible API OpenAI. Notez l’adresse dans la console développeur (ex: http://localhost:1234).

Configurer Claude Code

Ajoutez le fichier settings.local.json dans .claude/ du projet avec l’URL et le nom du modèle en cours.

Changer de modèle dans Claude Code

En console, tapez /model puis sélectionnez le modèle LM Studio actif. Le calcul se fait entièrement sur votre machine.

💸

100% Gratuit

Aucun token consommé côté Anthropic. Votre ordinateur fait tourner le modèle.

🔒

100% Local

Vos données ne quittent jamais votre machine. Idéal pour le code sensible.

🎨

Des résultats corrects

Un 9B génère déjà des landing pages avec animations. Le 35B produit des résultats proches de Claude payant.

« Un modèle 9B, c’est quand même exceptionnel les résultats qu’on arrive à obtenir. Ça peut faire tourner sur une carte graphique avec 8 Go de VRAM — voire en RAM pure. »

⚡ Astuce 3 — VRAM, RAM et quantification

Vous avez choisi un modèle, mais il est trop gros pour votre carte graphique ? La quantification est la solution.

🎬 Analogie parfaite : C’est comme regarder une vidéo en 1080p au lieu de 4K. La qualité est légèrement réduite, mais le contenu reste parfaitement exploitable — et vous n’avez plus besoin de l’infrastructure pour faire tourner le 4K.

🧩 VRAM vs RAM : ce qu’il faut comprendre

🎮 VRAM (GPU)

Mémoire ultra-rapide de la carte graphique. Le modèle qui y tient entièrement = vitesse maximale (60-80 tokens/sec).

💾 RAM (CPU)

Plus lente pour l’IA. Si le modèle déborde sur la RAM, les performances chutent à 2-3 tokens/sec. Utilisable, mais long.

🔀 Split VRAM+RAM

Solution idéale pour les modèles MOE : la partie principale en VRAM, les « experts » en RAM. Jusqu’à 16 tokens/sec atteints avec un 35B.

🗜️ La quantification en pratique (LM Studio)

Choisir la bonne quantification

Dans LM Studio, les variantes d’un modèle (Q4, Q5, Q8…) correspondent à différents niveaux de compression. Q4 offre un bon compromis qualité/taille.

Quantiser le contexte (Flash Attention)

Dans les paramètres avancés → Flash Attention → Quantize KV Cache → régler Q4 pour K et V. Réduit l’empreinte mémoire du contexte.

Ajuster la fenêtre de contexte

Réduire le contexte à ce dont vous avez réellement besoin (ex: 32 000 au lieu de 200 000 tokens). Un grand contexte vide consomme de la VRAM.

Paramètres à surveiller dans LM Studio

GPU Layers   → Mettre au maximum (tout en VRAM si possible)
KV Cache     → Q4 (K) + Q4 (V) pour économiser la mémoire
Contexte     → 32 000 ou 80 000 selon vos besoins réels
Flash Attn   → Activer (améliore la vitesse et réduit la VRAM)
mmap         → Désactiver si le modèle dépasse la VRAM

📊 Estimation VRAM par taille de modèle (Q4)

Qwen 9B — Q4~6 Go VRAM

Qwen 27B — Q4~16 Go VRAM

Qwen 35B MOE — Q4 (split)~22 Go (split RAM+VRAM)

Modèle 35B full VRAM~22 Go VRAM

🔬 Astuce 4 — Les modèles MOE et l’offloading d’experts

Le MOE (Mixture of Experts) est une architecture particulière : au lieu d’utiliser tous ses 35 milliards de paramètres à chaque fois, le modèle ne sollicite que 3B de « vrais experts » pertinents pour la tâche en cours.

🎯

Mode Expert

Le modèle 35B MOE n’active que ~3B de paramètres à chaque inférence. Il choisit les « experts » les plus pertinents.

⚖️

Split intelligent

Forcer une partie des experts en RAM (valeur « 20 » par exemple), le reste en VRAM. Résultat : 16 tokens/sec au lieu de 3.

🏆

Qualité préservée

Avec Q4 et le split correct, le 35B produit des résultats comparables à Claude Opus payant pour la génération de code.

⚙️ Méthode pratique : Dans LM Studio → GPU Offload = MAX → Experts en RAM = commencer à 20 → vérifier l’utilisation VRAM (Ctrl+Shift+Esc) → ajuster jusqu’à saturer la VRAM au maximum sans déborder.

Paramètres MOE optimaux (35B sur 16 Go VRAM)

GPU Layers    → Max (tout le modèle principal en VRAM)
Experts RAM   → 20 (les couches d'experts vont en RAM)
Quantification → Q4
Résultat      → ~16 tokens/sec (vs 3 tokens/sec sans optimisation)

🌐 Astuce 5 — Open Router : modèles gratuits en ligne

Pas de carte graphique puissante ? Open Router est la solution cloud. Une seule clé API, des centaines de modèles — dont beaucoup sont entièrement gratuits.

✅ Avantages

Une seule clé API pour tous les modèles
Modèles gratuits disponibles (Qwen, Gemma…)
Fonctionne sur n’importe quel PC (même un Raspberry Pi)
Calculs déportés dans le cloud
Accès à Claude Opus, Sonnet… si besoin

⚠️ Limites

Les modèles gratuits sont parfois plus limités
Résultats légèrement moins riches (moins de sections)
Dépendance à Internet
Modèles payants consomment des crédits

Malgré les limites, les résultats restent cohérents et exploitables. Une landing page générée avec un modèle gratuit Open Router peut servir de base solide, puis être affinée avec quelques prompts supplémentaires.

Config settings.local.json — Open Router

{
  "env": {
    "ANTHROPIC_BASE_URL": "https://openrouter.ai/api/v1",
    "ANTHROPIC_API_KEY": "sk-or-v1-VOTRE_CLE",
    "ANTHROPIC_MODEL": "qwen/qwen-3-235b-a22b:free"
  }
}

🚀 Astuce 6 — Open Code, l’alternative low-cost

Open Code est un agent de coding open source qui fonctionne exactement comme Claude Code — mais avec sa propre gestion de modèles et ses propres abonnements. Et il est bien moins cher.

💰

Forfait « Go » à ~5-10€/mois

Premier mois à 5€, ensuite 10€. Accès à Deepseek V4, Qwen, Minimax, et bien d’autres modèles open source.

🔋

Limites quasi-inépuisables

Même en codant tous les jours, les limites du forfait Go ne sont jamais atteintes. Deepseek V4 consomme très peu.

🎯

Parfois plus efficace

Deepseek V4 a résolu un bug de transcription YouTube qu’Opus 4 n’avait pas réussi à corriger après plusieurs tentatives.

« Deepseek n’y arrivait pas non plus au début. Mais au bout du 3ème prompt, il s’est dit « OK, j’y arrive pas, il y a un truc que je comprends pas » — et il a mis des logs partout, me les a demandés, et a corrigé le problème directement. »

📌 Configuration identique à Claude Code : Open Code utilise un fichier opencode.json dans lequel vous pouvez configurer Open Router ou vos modèles locaux. Même logique, même workflow.

📊 Claude Code vs Open Code

Qualité résultats (35B local)≈ identique

Coût mensuelOpen Code: ~5-10€ vs 20€+

Diversité des modèles disponiblesOpen Code gagne

Limites difficiles à atteindreOpen Code: jamais dépassé

🧹 Astuce 7 — Vider les MCP inutilisés

Cette astuce est souvent ignorée et pourtant c’est l’une des plus impactantes. Les connecteurs MCP (Figma, Notion, GitHub, etc.) tournent en arrière-plan et consomment des tokens à chaque échange avec le modèle.

« C’est le truc que je vois en permanence qui consomme énormément. Vous laissez vos MCP en arrière-plan, et en 3 prompts vous êtes à la limite de vos 5 heures d’utilisation. J’ai fait cette erreur, donc je sais. »

🔌

Désactivez les MCP dormants

MCP Figma, Notion, Slack non utilisés pour cette session ? Désactivez-les dans les paramètres Claude Code.

📊

Impact sur le contexte

Chaque MCP actif injecte sa définition dans le contexte de chaque requête = tokens gaspillés en permanence.

✅

Activer à la demande

N’activez que les MCP nécessaires pour la session en cours. Réactivez-les quand vous en avez besoin.

📅 Astuce 8 — Ne jamais prendre d’abonnement annuel

Le marché de l’IA évolue à une vitesse folle. Ce qui est le meilleur outil du moment peut devenir obsolète ou moins performant en quelques mois.

« Ne prenez pas d’abonnement d’un an. On l’a vu avec Claude Code : pendant un certain temps, la consommation de crédits était énorme parce qu’ils n’avaient pas assez d’infrastructure. On perd de l’argent, pas forcément beaucoup, mais on perd quand même. »

Restez en abonnement mensuel pour garder de la flexibilité
Ne soyez pas sectaire : Claude Code, Codex, Cursor, Open Code… testez tous
Ce mois-ci Claude est top ? Le mois prochain, un concurrent peut le surpasser
Un forfait à 20€/mois Claude Code + 10€ Open Code = souplesse maximale

📊 Comparatif des résultats (même prompt, modèles différents)

Tous les tests ont été réalisés avec le même prompt de départ : générer une landing page pour une formation Figma en mode sombre. Voici ce qui a été observé.

Modèle	Agent	Animations	Qualité	Coût
Claude Code (Opus)	Claude Code	Basiques	Correct	Payant +++
Qwen 3.5 9B local	Claude Code	Quelques hover	Acceptable	Gratuit
Qwen 3.6 35B local	Claude Code	Fond animé, bordures	Bon	Gratuit
Qwen 3.6 35B local + Skills	Claude Code	Curseur, effets spot	Très bon	Gratuit
Open Router (gratuit)	Claude Code	Minimales	Basique	Gratuit
Qwen 9B + Skills	Open Code	Fond animé, mode dark	Bon	Gratuit
Qwen 35B + Skills	Open Code	Effets avancés	Excellent	Gratuit

🎯 La recette gagnante

Open Code + Qwen 35B local (ou Deepseek V4 via forfait Go) + Skills personnalisés = résultats proches d’Opus à coût quasi nul.

▶ Voir la démo en vidéo

#ClaudeCode #LMStudio #OpenCode #OpenRouter #Qwen3 #DeepSeek #VRAM #Quantification #IA_Coding #Gratuit #Agents #MOE

🎬 La vidéo complète

Retrouvez tous les tests en direct, les démonstrations de LM Studio, les comparatifs visuels et toutes les astuces expliquées pas à pas.

Claude Code gratuit — Toutes les astuces tokens & modèles locaux

🕐 33 minutes · 📅 2025 · 🎬 Chaîne YouTube

Claude Code Gratuit : 8 Astuces pour Exploservos Limites