Framework REM : La Mémoire Procédurale Dynamique pour Agents IA
Comment rendre vos agents IA capables d’apprendre de leurs erreurs comme un humain ? Décryptage complet d’un paper révolutionnaire créé par six chercheurs chinois.
🌏 La domination chinoise dans la recherche IA
99% du marché ne s’en rend peut-être pas compte, mais chaque jour, de nouveaux papers scientifiques apparaissent sur ArXiv, et plus de 65% d’entre eux sont créés par des chercheurs chinois. Le monde de l’IA avance beaucoup plus vite que ce que la plupart des gens imaginent.
ArXiv, créé en 1991 par Paul Ginsparg et opéré par Cornell University à New York, est devenu le hub mondial de la recherche en physique, mathématiques, informatique, IA, et plus encore. Mais voici le paradoxe : c’est une plateforme américaine, polarisée par des chercheurs chinois.
Sur les 50 derniers papers créés dans la catégorie IA sur ArXiv, la répartition par origine des contributeurs montre une domination chinoise écrasante. Ces chercheurs font avancer le monde de l’IA sans être mis sur un piédestal.
Les contributeurs du Framework REM
Ce paper exceptionnel a été créé par six chercheurs chinois d’exception :
Ces profils sont impressionnants : spécialistes en ordinateurs quantiques, systèmes complexes non-linéaires, turbulences de particules, interactions géo-astrophysiques… Certains ont contribué à plus de 1000 documentations scientifiques.
⚠️ Le problème fondamental des agents IA actuels
Les chercheurs ont identifié que les frameworks actuels souffrent d’un paradigme d’accumulation passive. Ils traitent la mémoire comme une archive statique en mode « append only » : on ajoute, on ajoute, mais on ne trie jamais les informations.
Imaginez un employé qui prend des notes dans un carnet, écrivant dans l’ordre sans jamais relire. Il ajoute des lignes, ne barre pas ce qui est devenu faux, réécrit par-dessus sans jamais réorganiser. Résultat ? Son carnet devient un bordel avec des contradictions partout. C’est exactement ce que font les agents IA actuels avec leur mémoire.
Les 3 limitations identifiées
L’agent stocke TOUT ce qu’il a fait, pas juste ce qui compte. Résultat : trop de bruit, il ne retient pas les leçons clés.
L’agent copie ses vieilles solutions sans les adapter au contexte. Ça marche dans un cas, ça plante dans un cas similaire.
L’agent ne fait jamais le ménage dans sa mémoire. Les bonnes infos se noient dans les mauvaises.
Exemple concret du paper
Requête utilisateur : « Achète 100 actions AAPL au prix du marché »
❌ Sans mémoire (Agent classique)
L’agent prend le symbole AAPL, mais invente un prix (190$). Le vrai prix était 227$. Échec.
✅ Avec Framework REM
L’agent appelle d’abord get_stock_info() pour récupérer le vrai prix, puis place l’ordre. Succès.
Pourquoi ça marche ? La condition en mémoire spécifie : « Quand un utilisateur demande un ordre au prix du marché sans donner de prix précis, TOUJOURS appeler get_stock_info avant de placer un ordre. »
🎯 Les 3 critères d’un système de mémoire idéal
Le paper définit ce qu’un système de mémoire procédurale devrait faire dans le meilleur des cas :
Comme un chef cuisinier à Shenzhen : il ne garde pas toutes ses recettes ratées. Il extrait les principes (« ne jamais ajouter de l’ail dans l’huile brûlante »), les adapte à chaque plat, et oublie les techniques qui ne marchent plus.
🔧 Le Framework REM en détail
REM = Remember Me, Refine Me (Souviens-toi de moi, Affine-moi). C’est un cycle en trois phases qui tourne en continu.
Phase 1 : Acquisition d’expérience
Terme scientifique : Multifaceted Distillation
L’agent ne stocke pas tout bêtement. Il analyse ce qu’il a fait et en extrait des règles. Concrètement :
- L’agent fait une tâche 8 fois avec différentes approches
- Un LLM Summarizer analyse ces 8 tentatives
- Il en extrait 3 types d’insights
1. Success Pattern Recognition — Qu’est-ce qui a marché et pourquoi ?
Ex: Appeler get_stock_info + place_order = succès
2. Failure Analysis — Qu’est-ce qui a planté et pourquoi ?
Ex: Inventer un prix = échec systématique
3. Comparative Insight Generation — Quelle différence entre succès et échec ?
Ex: La seule différence est de vérifier le prix avant vs le deviner
Structure d’une expérience stockée
Le paper utilise une notation mathématique précise. Voici la traduction :
| Symbole | Signification | Exemple |
|---|---|---|
W | Usage Scenario | Quand utiliser cette expérience |
E | Experience Content | La règle ou le conseil lui-même |
K | Keywords | Tags pour retrouver l’expérience sémantiquement |
C | Confidence Score | Score de 0 à 1 (pas binaire !) |
T | Tool Used | Quels outils sont concernés |
Phase 2 : Réutilisation d’expérience
Terme scientifique : Context Adaptive Reuse
Quand l’agent reçoit une nouvelle tâche, il cherche des expériences pertinentes et les adapte au nouveau contexte. La pipeline :
Le système utilise les embeddings pour transformer le texte en vecteurs. Plus l’angle entre deux vecteurs est petit, plus les textes sont similaires. « Préparer des œufs » et « Faire une omelette » auront des vecteurs proches. « Chat » sera proche de « Chien » mais loin de « Bouteille ».
Découverte importante : Les 4 méthodes d’indexation
| Méthode d’indexation | Score AVG@4 |
|---|---|
| Query brut de la tâche | 44,00% |
| Mots-clés extraits | 44,22% |
| Query généralisée par LLM | 42,50% |
| Usage Scenario généré par LLM | 44,50% ✓ |
Conclusion : Laisser le LLM générer un scénario d’utilisation donne de meilleurs résultats pour retrouver les bonnes expériences.
Phase 3 : Raffinement d’expérience
Terme scientifique : Utility-Based Refinement
Le système fait le ménage en permanence : il ajoute les bonnes expériences et supprime celles qui ne servent plus.
A. Addition sélective vs Addition complète
| Approche | Méthode | Score AVG@4 |
|---|---|---|
| Full Addition | Stocker toutes les trajectoires (succès + échecs) | 40,83% |
| Selective Addition | Stocker uniquement les trajectoires réussies | 44,33% ✓ |
Pourquoi ? Une trajectoire échouée isolée ne donne pas assez de contexte pour comprendre ce qui a vraiment foiré. Plusieurs échecs ensemble = analyse possible. Un seul échec = conclusion hasardeuse.
B. Réflexion consciente des échecs
- Échec initial — Point de départ
- Analyse de l’échec — Le LLM Summarizer analyse les raisons
- Proposition d’alternative — Le système propose une nouvelle stratégie
- Nouvelle tentative — L’agent réessaie avec l’approche corrigée
- Si succès → Stockage en mémoire enrichie
- Si échec → Rejet (pas de pollution). Maximum 3 tentatives.
C. Suppression basée sur l’utilité
Une expérience est supprimée si :
- Elle a été récupérée au moins 5 fois
- Son taux de succès est inférieur à 50%
Expérience A : Récupérée 10 fois, 8 succès → Ratio 0.8 → ON GARDE ✓
Expérience B : Récupérée 10 fois, 3 succès → Ratio 0.3 → ON SUPPRIME ✗
Expérience C : Récupérée 3 fois, 0 succès → PAS ENCORE JUGEABLE (moins de 5 récupérations)
Cette approche évite de supprimer une expérience sur un petit échantillon de données, tout en éliminant celles qui sont fréquemment utilisées mais rarement utiles.
📊 Résultats expérimentaux et benchmarks
Les benchmarks utilisés
Métriques utilisées
AVG@4 — Taux de succès moyen sur 4 essais indépendants
Pass@4 — Probabilité qu’au moins 1 essai sur 4 réussisse
Pourquoi 4 essais ? Parce que les LLM sont non-déterministes. Ils ne donnent pas toujours la même réponse. Tester 4 fois donne une image plus fiable.
Résultats sur Qwen 3 8B (petit modèle)
| Configuration | Score AVG@4 |
|---|---|
| Sans mémoire | 27,65 |
| Protocole concurrent A-Mem | 27,79 |
| Protocole concurrent Lang-Mem | 27,79 |
| Protocole REM Dynamique | 34,94 ✓ |
Résultats sur Qwen 3 14B (modèle moyen)
| Configuration | Score AVG@4 |
|---|---|
| Sans mémoire | 54,65 |
| Protocole REM Dynamique | 63,71 ✓ |
🚀 Le Memory Scaling Effect
Voici la découverte majeure des chercheurs, exprimée dans le paper comme : « Memory quality substitutes for model scale ».
Un petit modèle avec une bonne mémoire bat un gros modèle sans mémoire.
Preuves chiffrées
Qwen 3 8B + REM : Score 55,03
Qwen 3 14B sans mémoire : Score 54,65
→ Le petit avec mémoire GAGNE
Qwen 3 14B + REM : Score 63,71
Qwen 3 32B sans mémoire : Score 61,XX
→ Le moyen avec mémoire GAGNE encore
Implication business
Tu peux utiliser un modèle moins cher (8B au lieu de 14B, 14B au lieu de 32B) si tu implémentes un bon système de mémoire. Économie directe sur les coûts API.
Si tu arrives à diviser par 2, 3, 5 ou même 10 tes coûts, tout en augmentant la qualité… c’est prouvé mathématiquement et empiriquement.
L’extraction granularisée : Keypoint vs Trajectory
| Type d’extraction | Méthode | Gain final |
|---|---|---|
| Trajectory Level | Stocker la trajectoire complète | +2,67% |
| Keypoint Level | Extraire uniquement les points clés | +4,17% ✓ |
Trajectory Level (trop d’info, du bruit) :
// On stocke TOUT
get_stock_info → update_market_status → check_balance → place_order → confirmKeypoint Level (juste l’essentiel) :
// On stocke UNIQUEMENT ce qui compte
get_stock_info → place_orderPas besoin de update_market_status, check_balance, etc. Ça met du bruit qui influence l’agent à mal faire la tâche, la rater, ou halluciner.
⚙️ Mise en œuvre pratique
Les chercheurs ont créé un site et un package Python pour implémenter ce framework.
Installation
pip install rem-aiLes 4 types de mémoires persistantes
Cas d’utilisation
- Agents Python Custom (avec AgentScope ou autre framework)
- Projets nécessitant une mémoire persistante entre sessions
- Agents qui doivent apprendre de leurs interactions
Backends supportés
- ElasticSearch — Pour de la recherche avancée
- ChromaDB — Base de données vectorielle
- Local — Stockage en local
C’est un framework Python low-level pour développeurs qui codent des agents from scratch. Si tu utilises N8N + Supabase + API, tu devras adapter les concepts plutôt que d’implémenter directement le package.
Perspectives pour 2026
Questions à explorer :
- Comment répercuter ce framework sur N8N ?
- Pourquoi pas avec du JavaScript pour de la proximité sémantique ?
- Comment intégrer avec des bases de données vectorielles ?
2026 sera l’année des mémoires dynamiques pour les agents IA. Nous allons avoir beaucoup de nouveautés sur ce sujet.
🎬 Conclusion
Ce paper du Framework REM nous montre que l’avenir des agents IA passe par des systèmes de mémoire intelligents, capables d’apprendre, d’adapter et d’optimiser en continu.
- Les chercheurs chinois dominent la recherche IA avec 65% des papers
- Le framework REM permet des gains de +7 à +9% sur les benchmarks
- Un petit modèle bien entraîné avec mémoire bat un gros modèle sans
- L’extraction granularisée (Keypoint Level) surpasse le stockage complet
- La mémoire procédurale dynamique est le prochain game-changer
Comme le montre ce paper, ce sont les Chinois qui font avancer le monde de l’IA. Des profils comme ces chercheurs, spécialistes en quantum computing, systèmes complexes non-linéaires, turbulences de particules… Ce sont eux qui changent le monde, même s’ils ne sont pas mis sur un piédestal.
