Claude Code Gratuit :
8 Astuces pour Exploser
vos Limites
Modèles locaux, Open Router, quantification VRAM, Open Code, gestion des MCP…
Tout ce qu’il faut savoir pour utiliser un agent de coding IA sans dépenser une fortune.
📋 Sommaire de l’article
- Claude Code : une surcouche, pas un modèle
- Astuce 1 — Choisir le bon modèle selon la tâche
- Astuce 2 — LM Studio : faire tourner l’IA en local
- Astuce 3 — Comprendre VRAM, RAM et quantification
- Astuce 4 — Les modèles MOE et l’offloading expert
- Astuce 5 — Open Router : des modèles gratuits en ligne
- Astuce 6 — Open Code, l’alternative économique puissante
- Astuce 7 — Vider les MCP inutilisés
- Astuce 8 — Ne jamais prendre d’abonnement annuel
- Comparatif des résultats obtenus
- La vidéo complète + Chapitres cliquables
🧠 Claude Code : une surcouche, pas un modèle
Avant de chercher à économiser des tokens, il faut bien comprendre ce qu’est Claude Code. Ce n’est pas un modèle d’IA en soi — ce n’est pas Sonnet 4.6 ni Opus 4.6. C’est une surcouche logicielle (un agent) qui appelle ces modèles via une API.
🔑 Conclusion clé : Claude Code peut appeler n’importe quel modèle compatible OpenAI API, pas seulement les modèles Anthropic. C’est là que réside toute la liberté — et les économies.
Agent = Surcouche
Claude Code orchestre des tâches complexes en appelant le modèle de votre choix, pas forcément Sonnet ou Opus.
API Compatible
Tout modèle exposant une API compatible OpenAI peut être branché : local, cloud, open source.
Config locale par projet
Modifier le modèle via settings.local.json dans le dossier .claude du projet, sans toucher la config globale.
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:1234/v1",
"ANTHROPIC_MODEL": "qwen3-6-35b-a22b"
}
}⚠️ Cette configuration ne fonctionne qu’en mode console (claude en terminal) et dans les éditeurs supportés. Elle ne fonctionne pas via l’application graphique Claude.
🎯 Astuce 1 — Choisir le bon modèle selon la tâche
L’erreur la plus courante : utiliser Opus 4 pour tout et n’importe quoi — y compris pour changer la couleur d’un bouton. C’est un gaspillage massif de tokens.
📊 Quelle puissance pour quelle tâche ?
| Tâche | Modèle recommandé | Coût |
|---|---|---|
| Modifier un bouton, correction CSS | Haiku / Modèle 9B local | Très bas |
| Refactoring, ajout de feature | Sonnet / Qwen 35B local | Moyen |
| Architecture complexe, debug profond | Opus / Deepseek V4 | Élevé |
| Génération site complet (1 seul prompt) | 35B local ou Open Router gratuit | Gratuit |
🧮 Même Deepseek V4, c’est inutile d’utiliser le max si c’est pour changer la couleur d’un bouton. Pensez à adapter la puissance à la complexité réelle de la tâche.
🖥️ Astuce 2 — LM Studio : faire tourner l’IA en local
LM Studio est un logiciel gratuit qui permet de télécharger et faire tourner des LLM directement sur votre ordinateur. Pas besoin d’une configuration de gamer pour démarrer.
Télécharger LM Studio
Disponible sur lmstudio.ai, gratuit, compatible Windows/Mac/Linux. Des centaines de modèles accessibles en quelques clics.
Choisir et télécharger un modèle
Qwen 3.6 (27B ou 35B MOE), Gemma4, Mistral, Deepseek… Commencer par un 9B si votre config est modeste.
Lancer le serveur local
LM Studio expose un serveur local compatible API OpenAI. Notez l’adresse dans la console développeur (ex: http://localhost:1234).
Configurer Claude Code
Ajoutez le fichier settings.local.json dans .claude/ du projet avec l’URL et le nom du modèle en cours.
Changer de modèle dans Claude Code
En console, tapez /model puis sélectionnez le modèle LM Studio actif. Le calcul se fait entièrement sur votre machine.
100% Gratuit
Aucun token consommé côté Anthropic. Votre ordinateur fait tourner le modèle.
100% Local
Vos données ne quittent jamais votre machine. Idéal pour le code sensible.
Des résultats corrects
Un 9B génère déjà des landing pages avec animations. Le 35B produit des résultats proches de Claude payant.
⚡ Astuce 3 — VRAM, RAM et quantification
Vous avez choisi un modèle, mais il est trop gros pour votre carte graphique ? La quantification est la solution.
🎬 Analogie parfaite : C’est comme regarder une vidéo en 1080p au lieu de 4K. La qualité est légèrement réduite, mais le contenu reste parfaitement exploitable — et vous n’avez plus besoin de l’infrastructure pour faire tourner le 4K.
🧩 VRAM vs RAM : ce qu’il faut comprendre
Mémoire ultra-rapide de la carte graphique. Le modèle qui y tient entièrement = vitesse maximale (60-80 tokens/sec).
Plus lente pour l’IA. Si le modèle déborde sur la RAM, les performances chutent à 2-3 tokens/sec. Utilisable, mais long.
Solution idéale pour les modèles MOE : la partie principale en VRAM, les « experts » en RAM. Jusqu’à 16 tokens/sec atteints avec un 35B.
🗜️ La quantification en pratique (LM Studio)
Choisir la bonne quantification
Dans LM Studio, les variantes d’un modèle (Q4, Q5, Q8…) correspondent à différents niveaux de compression. Q4 offre un bon compromis qualité/taille.
Quantiser le contexte (Flash Attention)
Dans les paramètres avancés → Flash Attention → Quantize KV Cache → régler Q4 pour K et V. Réduit l’empreinte mémoire du contexte.
Ajuster la fenêtre de contexte
Réduire le contexte à ce dont vous avez réellement besoin (ex: 32 000 au lieu de 200 000 tokens). Un grand contexte vide consomme de la VRAM.
GPU Layers → Mettre au maximum (tout en VRAM si possible) KV Cache → Q4 (K) + Q4 (V) pour économiser la mémoire Contexte → 32 000 ou 80 000 selon vos besoins réels Flash Attn → Activer (améliore la vitesse et réduit la VRAM) mmap → Désactiver si le modèle dépasse la VRAM
📊 Estimation VRAM par taille de modèle (Q4)
🔬 Astuce 4 — Les modèles MOE et l’offloading d’experts
Le MOE (Mixture of Experts) est une architecture particulière : au lieu d’utiliser tous ses 35 milliards de paramètres à chaque fois, le modèle ne sollicite que 3B de « vrais experts » pertinents pour la tâche en cours.
Mode Expert
Le modèle 35B MOE n’active que ~3B de paramètres à chaque inférence. Il choisit les « experts » les plus pertinents.
Split intelligent
Forcer une partie des experts en RAM (valeur « 20 » par exemple), le reste en VRAM. Résultat : 16 tokens/sec au lieu de 3.
Qualité préservée
Avec Q4 et le split correct, le 35B produit des résultats comparables à Claude Opus payant pour la génération de code.
⚙️ Méthode pratique : Dans LM Studio → GPU Offload = MAX → Experts en RAM = commencer à 20 → vérifier l’utilisation VRAM (Ctrl+Shift+Esc) → ajuster jusqu’à saturer la VRAM au maximum sans déborder.
GPU Layers → Max (tout le modèle principal en VRAM) Experts RAM → 20 (les couches d'experts vont en RAM) Quantification → Q4 Résultat → ~16 tokens/sec (vs 3 tokens/sec sans optimisation)
🌐 Astuce 5 — Open Router : modèles gratuits en ligne
Pas de carte graphique puissante ? Open Router est la solution cloud. Une seule clé API, des centaines de modèles — dont beaucoup sont entièrement gratuits.
- Une seule clé API pour tous les modèles
- Modèles gratuits disponibles (Qwen, Gemma…)
- Fonctionne sur n’importe quel PC (même un Raspberry Pi)
- Calculs déportés dans le cloud
- Accès à Claude Opus, Sonnet… si besoin
- Les modèles gratuits sont parfois plus limités
- Résultats légèrement moins riches (moins de sections)
- Dépendance à Internet
- Modèles payants consomment des crédits
Malgré les limites, les résultats restent cohérents et exploitables. Une landing page générée avec un modèle gratuit Open Router peut servir de base solide, puis être affinée avec quelques prompts supplémentaires.
{
"env": {
"ANTHROPIC_BASE_URL": "https://openrouter.ai/api/v1",
"ANTHROPIC_API_KEY": "sk-or-v1-VOTRE_CLE",
"ANTHROPIC_MODEL": "qwen/qwen-3-235b-a22b:free"
}
}🚀 Astuce 6 — Open Code, l’alternative low-cost
Open Code est un agent de coding open source qui fonctionne exactement comme Claude Code — mais avec sa propre gestion de modèles et ses propres abonnements. Et il est bien moins cher.
Forfait « Go » à ~5-10€/mois
Premier mois à 5€, ensuite 10€. Accès à Deepseek V4, Qwen, Minimax, et bien d’autres modèles open source.
Limites quasi-inépuisables
Même en codant tous les jours, les limites du forfait Go ne sont jamais atteintes. Deepseek V4 consomme très peu.
Parfois plus efficace
Deepseek V4 a résolu un bug de transcription YouTube qu’Opus 4 n’avait pas réussi à corriger après plusieurs tentatives.
📌 Configuration identique à Claude Code : Open Code utilise un fichier opencode.json dans lequel vous pouvez configurer Open Router ou vos modèles locaux. Même logique, même workflow.
📊 Claude Code vs Open Code
🧹 Astuce 7 — Vider les MCP inutilisés
Cette astuce est souvent ignorée et pourtant c’est l’une des plus impactantes. Les connecteurs MCP (Figma, Notion, GitHub, etc.) tournent en arrière-plan et consomment des tokens à chaque échange avec le modèle.
Désactivez les MCP dormants
MCP Figma, Notion, Slack non utilisés pour cette session ? Désactivez-les dans les paramètres Claude Code.
Impact sur le contexte
Chaque MCP actif injecte sa définition dans le contexte de chaque requête = tokens gaspillés en permanence.
Activer à la demande
N’activez que les MCP nécessaires pour la session en cours. Réactivez-les quand vous en avez besoin.
📅 Astuce 8 — Ne jamais prendre d’abonnement annuel
Le marché de l’IA évolue à une vitesse folle. Ce qui est le meilleur outil du moment peut devenir obsolète ou moins performant en quelques mois.
- Restez en abonnement mensuel pour garder de la flexibilité
- Ne soyez pas sectaire : Claude Code, Codex, Cursor, Open Code… testez tous
- Ce mois-ci Claude est top ? Le mois prochain, un concurrent peut le surpasser
- Un forfait à 20€/mois Claude Code + 10€ Open Code = souplesse maximale
📊 Comparatif des résultats (même prompt, modèles différents)
Tous les tests ont été réalisés avec le même prompt de départ : générer une landing page pour une formation Figma en mode sombre. Voici ce qui a été observé.
| Modèle | Agent | Animations | Qualité | Coût |
|---|---|---|---|---|
| Claude Code (Opus) | Claude Code | Basiques | Correct | Payant +++ |
| Qwen 3.5 9B local | Claude Code | Quelques hover | Acceptable | Gratuit |
| Qwen 3.6 35B local | Claude Code | Fond animé, bordures | Bon | Gratuit |
| Qwen 3.6 35B local + Skills | Claude Code | Curseur, effets spot | Très bon | Gratuit |
| Open Router (gratuit) | Claude Code | Minimales | Basique | Gratuit |
| Qwen 9B + Skills | Open Code | Fond animé, mode dark | Bon | Gratuit |
| Qwen 35B + Skills | Open Code | Effets avancés | Excellent | Gratuit |
🎯 La recette gagnante
Open Code + Qwen 35B local (ou Deepseek V4 via forfait Go) + Skills personnalisés = résultats proches d’Opus à coût quasi nul.
▶ Voir la démo en vidéo🎬 La vidéo complète
Retrouvez tous les tests en direct, les démonstrations de LM Studio, les comparatifs visuels et toutes les astuces expliquées pas à pas.
Claude Code gratuit — Toutes les astuces tokens & modèles locaux
🕐 33 minutes · 📅 2025 · 🎬 Chaîne YouTube

📑 Chapitres cliquables
- 00:00 Introduction — Utiliser Claude Code gratuitement
- 00:38 Qu’est-ce que Claude Code ? (une surcouche)
- 01:38 Utiliser vos propres modèles dans Claude Code
- 02:21 LM Studio : faire tourner un modèle en local
- 03:57 Configuration settings.local.json dans Claude Code
- 06:13 Comparatif des résultats — même prompt, différents modèles
- 12:21 Open Code : l’alternative à Claude Code
- 16:15 Résultats avec Skills personnalisés
- 16:54 Comment choisir son modèle LM Studio ?
- 19:51 La quantification expliquée simplement
- 24:31 Modèles MOE et offloading expert (RAM+VRAM)
- 27:51 Open Code et le forfait Go à 5-10€/mois
- 32:01 Conseils finaux : MCP, abonnement annuel, modèles
- 33:27 Conclusion et configuration opencode.json
