
La Fin des Compromis
Chaque cluster de Mac construit jusqu’ici avait la même fin douloureuse : plus on ajoutait de machines, plus les performances se dégradaient. Le rêve de combiner la RAM de plusieurs Mac pour faire tourner des modèles d’IA massifs se heurtait à un mur technologique.
🚀 Ce qui change tout
Avec Exo 1.0, plus on ajoute de machines, plus c’est rapide. Ce n’est plus un compromis, c’est un véritable scaling linéaire. Un cluster de 4 Mac Studios avec 512 Go chacun permet désormais de faire tourner des modèles comme DeepSeek V3.1 en 8-bit (700+ Go) à une vitesse impressionnante.
Et le plus fou ? Vous n’avez pas besoin de Mac Studios à 12 000€ pièce. Même des Mac Mini M4 à 500€ peuvent former un cluster fonctionnel. Bien sûr, pour le RDMA qui débloque les vraies performances, il faut du Thunderbolt 5 (donc M4 Pro minimum), mais le principe reste accessible.
tokens/sec sur 4 nodes
tokens/sec sur 4 nodes
tokens/sec – 1T params
4 Mac Studios au repos
Les 3 Étoiles Alignées
Pour arriver à ce résultat, trois technologies ont dû converger au même moment. C’est cette convergence qui rend le miracle possible.
🔗 RDMA via Thunderbolt 5
Apple a activé le Remote Direct Memory Access sur Thunderbolt avec macOS Tahoe 26.2. La communication entre machines est désormais 10 fois plus rapide. C’est le même matériel, mais optimisé logiciellement.
⚡ MLX Distributed
Le framework machine learning d’Apple optimisé pour Apple Silicon. Comparable à CUDA pour NVIDIA, mais conçu spécifiquement pour exploiter l’architecture unifiée mémoire/GPU des puces Apple.
🎯 Exo 1.0
L’outil qui simplifie tout. Un simple installeur sur chaque machine, détection automatique du réseau, interface graphique intuitive. Fini les configurations complexes de SSH et scripts.
Tensor Parallelism : Le Game Changer
La vraie révolution technique se cache derrière un changement de paradigme dans la façon de répartir les modèles sur plusieurs machines.
Avant, avec le Pipeline Parallel, chaque étape s’exécutait séquentiellement. Un seul appareil était actif à la fois, donc aucune accélération réelle. Maintenant avec RDMA et le Tensor Parallelism, on divise chaque couche en morceaux de calcul qui s’exécutent en parallèle.
Pipeline Parallel (l’ancienne méthode)
Imaginez une chaîne de montage où chaque ouvrier attend que le précédent ait fini. Machine 1 traite, envoie à Machine 2, qui traite, envoie à Machine 3… Le goulot d’étranglement est évident : une seule machine travaille à la fois.
Tensor Parallelism (la nouvelle méthode)
Maintenant, imaginez que chaque couche du modèle est découpée en morceaux. Toutes les machines travaillent simultanément sur leurs morceaux respectifs, puis synchronisent leurs résultats. C’est du vrai parallélisme, et c’est ce qui permet le scaling linéaire.
Benchmarks : Les Chiffres Parlent
| Modèle | 1 Node | 4 Nodes | Gain |
|---|---|---|---|
| Qwen 235B (MoE) | 30 tok/s | 37 tok/s | +23% |
| Devstral 123B (Dense, 4-bit) | 9.2 tok/s | 22 tok/s | +139% |
| Devstral 123B (Dense, 6-bit) | 6.4 tok/s | 17 tok/s | +165% |
| Qwen Coder 480B | — | 40 tok/s | Excellent |
| Kimmy K2 (1T params) | — | 34 tok/s | Excellent |
| DeepSeek V3.1 (8-bit) | — | 25 tok/s | Excellent |
💡 Modèles denses vs MoE
Les modèles denses (comme Devstral) bénéficient beaucoup plus du sharding que les modèles Mixture of Experts (comme Qwen 235B). Pourquoi ? Les MoE n’activent qu’une partie de leurs paramètres à chaque requête, donc le parallélisme est moins efficace. Les modèles denses, eux, utilisent tous leurs paramètres et se répartissent parfaitement sur les machines.
MLX vs GGUF : Pourquoi C’est Important
Si vous utilisez des outils comme LM Studio ou Ollama, vous avez peut-être remarqué deux formats de modèles : GGUF et MLX.
tok/s (Qwen 34B 4-bit)
tok/s (Qwen 34B 4-bit)
Pour le même modèle, MLX est 28% plus rapide sur Apple Silicon. L’avantage de GGUF (via Llama.cpp) est sa compatibilité cross-platform (Linux, Windows, Mac). MLX, lui, est exclusivement optimisé pour les puces Apple.
⚠️ Llama.cpp RPC vs Exo
Llama.cpp peut aussi faire du clustering avec RPC, mais sans RDMA ni Tensor Parallelism. Résultat : le même modèle Qwen 34B clustérisé passe de 131 tok/s à seulement 45 tok/s. C’est la preuve que le clustering « naïf » ne fonctionne pas. RDMA change tout.
Comment Ça Marche en Pratique
Installation d’Exo
Un simple installeur sur chaque Mac du cluster. Pas de configuration manuelle, pas de scripts complexes. Exo détecte automatiquement les autres machines sur le réseau.
Connexion Thunderbolt en Mesh
Pour le RDMA, les Mac doivent être connectés via Thunderbolt 5 en topologie mesh (chaque machine connectée aux autres). Ils doivent aussi être sur le même LAN pour la communication IP.
Dashboard Exo
Une interface graphique affiche la topologie du cluster, permet de sélectionner les modèles (DeepSeek, Qwen, Kimmy K2…) et de choisir le mode de parallélisation (MLX RDMA + Tensor).
Lancement du modèle
Le modèle se charge en mémoire sur toutes les machines simultanément. Vous pouvez suivre l’utilisation RAM et GPU en temps réel. Puis vous discutez directement via l’interface chat intégrée.
Prérequis Techniques
- macOS Tahoe 26.2 minimum pour le support RDMA
- Thunderbolt 5 (M4 Pro ou supérieur) pour les vraies performances
- Réseau LAN pour la communication entre nodes
- Connexion Thunderbolt en mesh pour le RDMA
- Exo 1.0 installé sur chaque machine
Limites et Perspectives
📌 Ce qu’il faut savoir
Les Mac Mini M4 standard n’ont que Thunderbolt 4, qui ne supporte pas encore RDMA. Apple, si vous lisez ceci : Thunderbolt 5 sur les Mac Mini M5, s’il vous plaît !
Le support des modèles dépend de leur intégration dans MLX Distributed et Exo. Pour les modèles denses très larges non encore supportés, il faudra ouvrir une issue sur GitHub.
La quantization joue aussi un rôle important. Un modèle en 6-bit sera plus lent qu’en 4-bit sur une seule machine, mais les gains du clustering compensent largement cette différence. Et vous conservez plus de « qualité » du modèle original.
🎯 Le Futur de l’IA Locale
Ce que démontre Exo 1.0, c’est que l’IA locale à grande échelle est désormais réaliste. Plus besoin de louer des GPU cloud à prix d’or pour faire tourner DeepSeek ou Kimmy K2. Avec un cluster de Mac, vous avez la puissance, la confidentialité des données, et une consommation électrique raisonnable.
Le plus impressionnant ? Tout cela a été rendu possible par une mise à jour logicielle d’Apple (RDMA sur Thunderbolt) combinée à des projets open source (MLX, Exo). La communauté et les géants tech avancent ensemble.
Prêt à construire votre propre cluster ?
📺 Voir la Vidéo Originale
Retrouvez tous les détails et démonstrations dans la vidéo de Ziskin
