Framework REM : La Mémoire Procédurale Dynamique pour Agents IA
🧠 Intelligence Artificielle 🔬 Paper Scientifique 🇨🇳 Innovation Chinoise

Framework REM : La Mémoire Procédurale Dynamique pour Agents IA

Comment rendre vos agents IA capables d’apprendre de leurs erreurs comme un humain ? Décryptage complet d’un paper révolutionnaire créé par six chercheurs chinois.

📅 Janvier 2026 ⏱️ 20 min de lecture 📊 ArXiv Research

🌏 La domination chinoise dans la recherche IA

99% du marché ne s’en rend peut-être pas compte, mais chaque jour, de nouveaux papers scientifiques apparaissent sur ArXiv, et plus de 65% d’entre eux sont créés par des chercheurs chinois. Le monde de l’IA avance beaucoup plus vite que ce que la plupart des gens imaginent.

65%
Papers IA créés par des Chinois
70%
Open source côté Chine
90%
Close source côté USA
1287
Papers par certains contributeurs

ArXiv, créé en 1991 par Paul Ginsparg et opéré par Cornell University à New York, est devenu le hub mondial de la recherche en physique, mathématiques, informatique, IA, et plus encore. Mais voici le paradoxe : c’est une plateforme américaine, polarisée par des chercheurs chinois.

💡 Point clé

Sur les 50 derniers papers créés dans la catégorie IA sur ArXiv, la répartition par origine des contributeurs montre une domination chinoise écrasante. Ces chercheurs font avancer le monde de l’IA sans être mis sur un piédestal.

Les contributeurs du Framework REM

Ce paper exceptionnel a été créé par six chercheurs chinois d’exception :

ZK
Zing Kao
JD
Jaji Deng
L
Liu
WZ
Wikangzu
ZL
Zao Yang Liu
HZ
Hai Zao

Ces profils sont impressionnants : spécialistes en ordinateurs quantiques, systèmes complexes non-linéaires, turbulences de particules, interactions géo-astrophysiques… Certains ont contribué à plus de 1000 documentations scientifiques.

⚠️ Le problème fondamental des agents IA actuels

Les chercheurs ont identifié que les frameworks actuels souffrent d’un paradigme d’accumulation passive. Ils traitent la mémoire comme une archive statique en mode « append only » : on ajoute, on ajoute, mais on ne trie jamais les informations.

📝
L’analogie du carnet rouge

Imaginez un employé qui prend des notes dans un carnet, écrivant dans l’ordre sans jamais relire. Il ajoute des lignes, ne barre pas ce qui est devenu faux, réécrit par-dessus sans jamais réorganiser. Résultat ? Son carnet devient un bordel avec des contradictions partout. C’est exactement ce que font les agents IA actuels avec leur mémoire.

Les 3 limitations identifiées

1
Coarse-grain trajectory-level experiences
Stockage excessif

L’agent stocke TOUT ce qu’il a fait, pas juste ce qui compte. Résultat : trop de bruit, il ne retient pas les leçons clés.

2
Fetched experiences applied without adaptation
Copie sans adaptation

L’agent copie ses vieilles solutions sans les adapter au contexte. Ça marche dans un cas, ça plante dans un cas similaire.

3
Lack of timely update strategies
Absence de tri

L’agent ne fait jamais le ménage dans sa mémoire. Les bonnes infos se noient dans les mauvaises.

Exemple concret du paper

📈
Tâche : Acheter des actions Apple

Requête utilisateur : « Achète 100 actions AAPL au prix du marché »

❌ Sans mémoire (Agent classique)

L’agent prend le symbole AAPL, mais invente un prix (190$). Le vrai prix était 227$. Échec.

✅ Avec Framework REM

L’agent appelle d’abord get_stock_info() pour récupérer le vrai prix, puis place l’ordre. Succès.

Pourquoi ça marche ? La condition en mémoire spécifie : « Quand un utilisateur demande un ordre au prix du marché sans donner de prix précis, TOUJOURS appeler get_stock_info avant de placer un ordre. »

🎯 Les 3 critères d’un système de mémoire idéal

Le paper définit ce qu’un système de mémoire procédurale devrait faire dans le meilleur des cas :

🔍
High-Quality Extraction
Extraire des règles réutilisables, pas des logs bruts. Qualité sur quantité.
🔄
Task Grounded Adaptation
Adapter les vieilles solutions au nouveau contexte. Pas de copier-coller aveugle.
🧹
Progressive Optimization
Garder ce qui marche et jeter ce qui est obsolète. Ménage permanent.
🍳
L’analogie du chef cuisinier

Comme un chef cuisinier à Shenzhen : il ne garde pas toutes ses recettes ratées. Il extrait les principes (« ne jamais ajouter de l’ail dans l’huile brûlante »), les adapte à chaque plat, et oublie les techniques qui ne marchent plus.

🔧 Le Framework REM en détail

REM = Remember Me, Refine Me (Souviens-toi de moi, Affine-moi). C’est un cycle en trois phases qui tourne en continu.

1
ACQUISITION
Extraire les règles
2
RÉUTILISATION
Adapter au contexte
3
RAFFINEMENT
Optimiser en continu

Phase 1 : Acquisition d’expérience

Terme scientifique : Multifaceted Distillation

L’agent ne stocke pas tout bêtement. Il analyse ce qu’il a fait et en extrait des règles. Concrètement :

  • L’agent fait une tâche 8 fois avec différentes approches
  • Un LLM Summarizer analyse ces 8 tentatives
  • Il en extrait 3 types d’insights
Les 3 types d’extraction

1. Success Pattern Recognition — Qu’est-ce qui a marché et pourquoi ?
Ex: Appeler get_stock_info + place_order = succès

2. Failure Analysis — Qu’est-ce qui a planté et pourquoi ?
Ex: Inventer un prix = échec systématique

3. Comparative Insight Generation — Quelle différence entre succès et échec ?
Ex: La seule différence est de vérifier le prix avant vs le deviner

Structure d’une expérience stockée

Le paper utilise une notation mathématique précise. Voici la traduction :

SymboleSignificationExemple
WUsage ScenarioQuand utiliser cette expérience
EExperience ContentLa règle ou le conseil lui-même
KKeywordsTags pour retrouver l’expérience sémantiquement
CConfidence ScoreScore de 0 à 1 (pas binaire !)
TTool UsedQuels outils sont concernés

Phase 2 : Réutilisation d’expérience

Terme scientifique : Context Adaptive Reuse

Quand l’agent reçoit une nouvelle tâche, il cherche des expériences pertinentes et les adapte au nouveau contexte. La pipeline :

1
RECALL
Récupérer les 5 expériences les plus similaires
2
RERANK
Retrier par pertinence contextuelle via LLM
3
REWRITE
Reformuler pour coller à la tâche spécifique
🧮 Similarité cosinus

Le système utilise les embeddings pour transformer le texte en vecteurs. Plus l’angle entre deux vecteurs est petit, plus les textes sont similaires. « Préparer des œufs » et « Faire une omelette » auront des vecteurs proches. « Chat » sera proche de « Chien » mais loin de « Bouteille ».

Découverte importante : Les 4 méthodes d’indexation

Méthode d’indexationScore AVG@4
Query brut de la tâche44,00%
Mots-clés extraits44,22%
Query généralisée par LLM42,50%
Usage Scenario généré par LLM44,50% ✓

Conclusion : Laisser le LLM générer un scénario d’utilisation donne de meilleurs résultats pour retrouver les bonnes expériences.

Phase 3 : Raffinement d’expérience

Terme scientifique : Utility-Based Refinement

Le système fait le ménage en permanence : il ajoute les bonnes expériences et supprime celles qui ne servent plus.

A. Addition sélective vs Addition complète

ApprocheMéthodeScore AVG@4
Full AdditionStocker toutes les trajectoires (succès + échecs)40,83%
Selective AdditionStocker uniquement les trajectoires réussies44,33% ✓

Pourquoi ? Une trajectoire échouée isolée ne donne pas assez de contexte pour comprendre ce qui a vraiment foiré. Plusieurs échecs ensemble = analyse possible. Un seul échec = conclusion hasardeuse.

B. Réflexion consciente des échecs

Le cycle de réflexion
  1. Échec initial — Point de départ
  2. Analyse de l’échec — Le LLM Summarizer analyse les raisons
  3. Proposition d’alternative — Le système propose une nouvelle stratégie
  4. Nouvelle tentative — L’agent réessaie avec l’approche corrigée
  5. Si succès → Stockage en mémoire enrichie
  6. Si échec → Rejet (pas de pollution). Maximum 3 tentatives.

C. Suppression basée sur l’utilité

Une expérience est supprimée si :

  • Elle a été récupérée au moins 5 fois
  • Son taux de succès est inférieur à 50%
Exemples de décision

Expérience A : Récupérée 10 fois, 8 succès → Ratio 0.8 → ON GARDE ✓

Expérience B : Récupérée 10 fois, 3 succès → Ratio 0.3 → ON SUPPRIME ✗

Expérience C : Récupérée 3 fois, 0 succès → PAS ENCORE JUGEABLE (moins de 5 récupérations)

Cette approche évite de supprimer une expérience sur un petit échantillon de données, tout en éliminant celles qui sont fréquemment utilisées mais rarement utiles.

📊 Résultats expérimentaux et benchmarks

Les benchmarks utilisés

🔧
BFCL V3
Test de function calling. L’agent doit appeler les bonnes fonctions avec les bons paramètres. ~150 tâches de test.
📱
AppWorld
Simulation de 9 applications du quotidien (email, Spotify, Venmo…). 457 APIs, 168 tâches de test.

Métriques utilisées

AVG@4 — Taux de succès moyen sur 4 essais indépendants

Pass@4 — Probabilité qu’au moins 1 essai sur 4 réussisse

Pourquoi 4 essais ? Parce que les LLM sont non-déterministes. Ils ne donnent pas toujours la même réponse. Tester 4 fois donne une image plus fiable.

Résultats sur Qwen 3 8B (petit modèle)

ConfigurationScore AVG@4
Sans mémoire27,65
Protocole concurrent A-Mem27,79
Protocole concurrent Lang-Mem27,79
Protocole REM Dynamique34,94 ✓
+7,29%
Gain de performance avec REM sur un petit modèle (8B)

Résultats sur Qwen 3 14B (modèle moyen)

ConfigurationScore AVG@4
Sans mémoire54,65
Protocole REM Dynamique63,71 ✓
+9,06%
Gain de performance avec REM sur un modèle moyen (14B)

🚀 Le Memory Scaling Effect

Voici la découverte majeure des chercheurs, exprimée dans le paper comme : « Memory quality substitutes for model scale ».

💎 La révélation

Un petit modèle avec une bonne mémoire bat un gros modèle sans mémoire.

Preuves chiffrées

Comparaison 1

Qwen 3 8B + REM : Score 55,03

Qwen 3 14B sans mémoire : Score 54,65

Le petit avec mémoire GAGNE

Comparaison 2

Qwen 3 14B + REM : Score 63,71

Qwen 3 32B sans mémoire : Score 61,XX

Le moyen avec mémoire GAGNE encore

Implication business

Tu peux utiliser un modèle moins cher (8B au lieu de 14B, 14B au lieu de 32B) si tu implémentes un bon système de mémoire. Économie directe sur les coûts API.

Si tu arrives à diviser par 2, 3, 5 ou même 10 tes coûts, tout en augmentant la qualité… c’est prouvé mathématiquement et empiriquement.

L’extraction granularisée : Keypoint vs Trajectory

Type d’extractionMéthodeGain final
Trajectory LevelStocker la trajectoire complète+2,67%
Keypoint LevelExtraire uniquement les points clés+4,17% ✓
Exemple pratique

Trajectory Level (trop d’info, du bruit) :

// On stocke TOUT
get_stock_info → update_market_status → check_balance → place_order → confirm

Keypoint Level (juste l’essentiel) :

// On stocke UNIQUEMENT ce qui compte
get_stock_info → place_order

Pas besoin de update_market_status, check_balance, etc. Ça met du bruit qui influence l’agent à mal faire la tâche, la rater, ou halluciner.

⚙️ Mise en œuvre pratique

Les chercheurs ont créé un site et un package Python pour implémenter ce framework.

Installation

pip install rem-ai

Les 4 types de mémoires persistantes

👤
Personal Memory
Informations sur l’utilisateur et ses préférences
📋
Task Memory
Expériences liées aux tâches accomplies
🛠️
Tool Memory
Connaissances sur l’utilisation des outils
💭
Working Memory
Contexte de la session en cours

Cas d’utilisation

  • Agents Python Custom (avec AgentScope ou autre framework)
  • Projets nécessitant une mémoire persistante entre sessions
  • Agents qui doivent apprendre de leurs interactions

Backends supportés

  • ElasticSearch — Pour de la recherche avancée
  • ChromaDB — Base de données vectorielle
  • Local — Stockage en local
⚠️ Point d’attention

C’est un framework Python low-level pour développeurs qui codent des agents from scratch. Si tu utilises N8N + Supabase + API, tu devras adapter les concepts plutôt que d’implémenter directement le package.

Perspectives pour 2026

Questions à explorer :

  • Comment répercuter ce framework sur N8N ?
  • Pourquoi pas avec du JavaScript pour de la proximité sémantique ?
  • Comment intégrer avec des bases de données vectorielles ?
2026 sera l’année des mémoires dynamiques pour les agents IA. Nous allons avoir beaucoup de nouveautés sur ce sujet.

🎬 Conclusion

Ce paper du Framework REM nous montre que l’avenir des agents IA passe par des systèmes de mémoire intelligents, capables d’apprendre, d’adapter et d’optimiser en continu.

🔑
Points clés à retenir
  • Les chercheurs chinois dominent la recherche IA avec 65% des papers
  • Le framework REM permet des gains de +7 à +9% sur les benchmarks
  • Un petit modèle bien entraîné avec mémoire bat un gros modèle sans
  • L’extraction granularisée (Keypoint Level) surpasse le stockage complet
  • La mémoire procédurale dynamique est le prochain game-changer

Comme le montre ce paper, ce sont les Chinois qui font avancer le monde de l’IA. Des profils comme ces chercheurs, spécialistes en quantum computing, systèmes complexes non-linéaires, turbulences de particules… Ce sont eux qui changent le monde, même s’ils ne sont pas mis sur un piédestal.

📺 Voir la vidéo source complète
Framework REM - Vidéo YouTube
▶️ Regarder sur YouTube
Découvrir AgentScope REM →

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut