Framework REM : La Mémoire Procédurale Dynamique pour Agents IA

🧠 Intelligence Artificielle 🔬 Paper Scientifique 🇨🇳 Innovation Chinoise

Framework REM : La Mémoire Procédurale Dynamique pour Agents IA

Comment rendre vos agents IA capables d’apprendre de leurs erreurs comme un humain ? Décryptage complet d’un paper révolutionnaire créé par six chercheurs chinois.

📅 Janvier 2026 ⏱️ 20 min de lecture 📊 ArXiv Research

🌏 La domination chinoise dans la recherche IA

99% du marché ne s’en rend peut-être pas compte, mais chaque jour, de nouveaux papers scientifiques apparaissent sur ArXiv, et plus de 65% d’entre eux sont créés par des chercheurs chinois. Le monde de l’IA avance beaucoup plus vite que ce que la plupart des gens imaginent.

65%

Papers IA créés par des Chinois

70%

Open source côté Chine

90%

Close source côté USA

1287

Papers par certains contributeurs

ArXiv, créé en 1991 par Paul Ginsparg et opéré par Cornell University à New York, est devenu le hub mondial de la recherche en physique, mathématiques, informatique, IA, et plus encore. Mais voici le paradoxe : c’est une plateforme américaine, polarisée par des chercheurs chinois.

💡 Point clé

Sur les 50 derniers papers créés dans la catégorie IA sur ArXiv, la répartition par origine des contributeurs montre une domination chinoise écrasante. Ces chercheurs font avancer le monde de l’IA sans être mis sur un piédestal.

Les contributeurs du Framework REM

Ce paper exceptionnel a été créé par six chercheurs chinois d’exception :

Zing Kao

Jaji Deng

Liu

Wikangzu

Zao Yang Liu

Hai Zao

Ces profils sont impressionnants : spécialistes en ordinateurs quantiques, systèmes complexes non-linéaires, turbulences de particules, interactions géo-astrophysiques… Certains ont contribué à plus de 1000 documentations scientifiques.

⚠️ Le problème fondamental des agents IA actuels

Les chercheurs ont identifié que les frameworks actuels souffrent d’un paradigme d’accumulation passive. Ils traitent la mémoire comme une archive statique en mode « append only » : on ajoute, on ajoute, mais on ne trie jamais les informations.

📝

L’analogie du carnet rouge

Imaginez un employé qui prend des notes dans un carnet, écrivant dans l’ordre sans jamais relire. Il ajoute des lignes, ne barre pas ce qui est devenu faux, réécrit par-dessus sans jamais réorganiser. Résultat ? Son carnet devient un bordel avec des contradictions partout. C’est exactement ce que font les agents IA actuels avec leur mémoire.

Les 3 limitations identifiées

Coarse-grain trajectory-level experiences

Stockage excessif

L’agent stocke TOUT ce qu’il a fait, pas juste ce qui compte. Résultat : trop de bruit, il ne retient pas les leçons clés.

Fetched experiences applied without adaptation

Copie sans adaptation

L’agent copie ses vieilles solutions sans les adapter au contexte. Ça marche dans un cas, ça plante dans un cas similaire.

Lack of timely update strategies

Absence de tri

L’agent ne fait jamais le ménage dans sa mémoire. Les bonnes infos se noient dans les mauvaises.

Exemple concret du paper

📈

Tâche : Acheter des actions Apple

Requête utilisateur : « Achète 100 actions AAPL au prix du marché »

❌ Sans mémoire (Agent classique)

L’agent prend le symbole AAPL, mais invente un prix (190$). Le vrai prix était 227$. Échec.

✅ Avec Framework REM

L’agent appelle d’abord get_stock_info() pour récupérer le vrai prix, puis place l’ordre. Succès.

Pourquoi ça marche ? La condition en mémoire spécifie : « Quand un utilisateur demande un ordre au prix du marché sans donner de prix précis, TOUJOURS appeler get_stock_info avant de placer un ordre. »

🎯 Les 3 critères d’un système de mémoire idéal

Le paper définit ce qu’un système de mémoire procédurale devrait faire dans le meilleur des cas :

🔍

High-Quality Extraction

Extraire des règles réutilisables, pas des logs bruts. Qualité sur quantité.

🔄

Task Grounded Adaptation

Adapter les vieilles solutions au nouveau contexte. Pas de copier-coller aveugle.

🧹

Progressive Optimization

Garder ce qui marche et jeter ce qui est obsolète. Ménage permanent.

🍳

L’analogie du chef cuisinier

Comme un chef cuisinier à Shenzhen : il ne garde pas toutes ses recettes ratées. Il extrait les principes (« ne jamais ajouter de l’ail dans l’huile brûlante »), les adapte à chaque plat, et oublie les techniques qui ne marchent plus.

🔧 Le Framework REM en détail

REM = Remember Me, Refine Me (Souviens-toi de moi, Affine-moi). C’est un cycle en trois phases qui tourne en continu.

ACQUISITION

Extraire les règles

→

RÉUTILISATION

Adapter au contexte

→

RAFFINEMENT

Optimiser en continu

↺

Phase 1 : Acquisition d’expérience

Terme scientifique : Multifaceted Distillation

L’agent ne stocke pas tout bêtement. Il analyse ce qu’il a fait et en extrait des règles. Concrètement :

L’agent fait une tâche 8 fois avec différentes approches
Un LLM Summarizer analyse ces 8 tentatives
Il en extrait 3 types d’insights

Les 3 types d’extraction

1. Success Pattern Recognition — Qu’est-ce qui a marché et pourquoi ?
Ex: Appeler get_stock_info + place_order = succès

2. Failure Analysis — Qu’est-ce qui a planté et pourquoi ?
Ex: Inventer un prix = échec systématique

3. Comparative Insight Generation — Quelle différence entre succès et échec ?
Ex: La seule différence est de vérifier le prix avant vs le deviner

Structure d’une expérience stockée

Le paper utilise une notation mathématique précise. Voici la traduction :

Symbole	Signification	Exemple
`W`	Usage Scenario	Quand utiliser cette expérience
`E`	Experience Content	La règle ou le conseil lui-même
`K`	Keywords	Tags pour retrouver l’expérience sémantiquement
`C`	Confidence Score	Score de 0 à 1 (pas binaire !)
`T`	Tool Used	Quels outils sont concernés

Phase 2 : Réutilisation d’expérience

Terme scientifique : Context Adaptive Reuse

Quand l’agent reçoit une nouvelle tâche, il cherche des expériences pertinentes et les adapte au nouveau contexte. La pipeline :

RECALL

Récupérer les 5 expériences les plus similaires

→

RERANK

Retrier par pertinence contextuelle via LLM

→

REWRITE

Reformuler pour coller à la tâche spécifique

🧮 Similarité cosinus

Le système utilise les embeddings pour transformer le texte en vecteurs. Plus l’angle entre deux vecteurs est petit, plus les textes sont similaires. « Préparer des œufs » et « Faire une omelette » auront des vecteurs proches. « Chat » sera proche de « Chien » mais loin de « Bouteille ».

Découverte importante : Les 4 méthodes d’indexation

Méthode d’indexation	Score AVG@4
Query brut de la tâche	44,00%
Mots-clés extraits	44,22%
Query généralisée par LLM	42,50%
Usage Scenario généré par LLM	44,50% ✓

Conclusion : Laisser le LLM générer un scénario d’utilisation donne de meilleurs résultats pour retrouver les bonnes expériences.

Phase 3 : Raffinement d’expérience

Terme scientifique : Utility-Based Refinement

Le système fait le ménage en permanence : il ajoute les bonnes expériences et supprime celles qui ne servent plus.

A. Addition sélective vs Addition complète

Approche	Méthode	Score AVG@4
Full Addition	Stocker toutes les trajectoires (succès + échecs)	40,83%
Selective Addition	Stocker uniquement les trajectoires réussies	44,33% ✓

Pourquoi ? Une trajectoire échouée isolée ne donne pas assez de contexte pour comprendre ce qui a vraiment foiré. Plusieurs échecs ensemble = analyse possible. Un seul échec = conclusion hasardeuse.

B. Réflexion consciente des échecs

Le cycle de réflexion

Échec initial — Point de départ
Analyse de l’échec — Le LLM Summarizer analyse les raisons
Proposition d’alternative — Le système propose une nouvelle stratégie
Nouvelle tentative — L’agent réessaie avec l’approche corrigée
Si succès → Stockage en mémoire enrichie
Si échec → Rejet (pas de pollution). Maximum 3 tentatives.

C. Suppression basée sur l’utilité

Une expérience est supprimée si :

Elle a été récupérée au moins 5 fois
Son taux de succès est inférieur à 50%

Exemples de décision

Expérience A : Récupérée 10 fois, 8 succès → Ratio 0.8 → ON GARDE ✓

Expérience B : Récupérée 10 fois, 3 succès → Ratio 0.3 → ON SUPPRIME ✗

Expérience C : Récupérée 3 fois, 0 succès → PAS ENCORE JUGEABLE (moins de 5 récupérations)

Cette approche évite de supprimer une expérience sur un petit échantillon de données, tout en éliminant celles qui sont fréquemment utilisées mais rarement utiles.

📊 Résultats expérimentaux et benchmarks

Les benchmarks utilisés

🔧

BFCL V3

Test de function calling. L’agent doit appeler les bonnes fonctions avec les bons paramètres. ~150 tâches de test.

📱

AppWorld

Simulation de 9 applications du quotidien (email, Spotify, Venmo…). 457 APIs, 168 tâches de test.

Métriques utilisées

AVG@4 — Taux de succès moyen sur 4 essais indépendants

Pass@4 — Probabilité qu’au moins 1 essai sur 4 réussisse

Pourquoi 4 essais ? Parce que les LLM sont non-déterministes. Ils ne donnent pas toujours la même réponse. Tester 4 fois donne une image plus fiable.

Résultats sur Qwen 3 8B (petit modèle)

Configuration	Score AVG@4
Sans mémoire	27,65
Protocole concurrent A-Mem	27,79
Protocole concurrent Lang-Mem	27,79
Protocole REM Dynamique	34,94 ✓

+7,29%

Gain de performance avec REM sur un petit modèle (8B)

Résultats sur Qwen 3 14B (modèle moyen)

Configuration	Score AVG@4
Sans mémoire	54,65
Protocole REM Dynamique	63,71 ✓

+9,06%

Gain de performance avec REM sur un modèle moyen (14B)

🚀 Le Memory Scaling Effect

Voici la découverte majeure des chercheurs, exprimée dans le paper comme : « Memory quality substitutes for model scale ».

💎 La révélation

Un petit modèle avec une bonne mémoire bat un gros modèle sans mémoire.

Preuves chiffrées

Comparaison 1

Qwen 3 8B + REM : Score 55,03

Qwen 3 14B sans mémoire : Score 54,65

→ Le petit avec mémoire GAGNE

Comparaison 2

Qwen 3 14B + REM : Score 63,71

Qwen 3 32B sans mémoire : Score 61,XX

→ Le moyen avec mémoire GAGNE encore

Implication business

Tu peux utiliser un modèle moins cher (8B au lieu de 14B, 14B au lieu de 32B) si tu implémentes un bon système de mémoire. Économie directe sur les coûts API.

Si tu arrives à diviser par 2, 3, 5 ou même 10 tes coûts, tout en augmentant la qualité… c’est prouvé mathématiquement et empiriquement.

L’extraction granularisée : Keypoint vs Trajectory

Type d’extraction	Méthode	Gain final
Trajectory Level	Stocker la trajectoire complète	+2,67%
Keypoint Level	Extraire uniquement les points clés	+4,17% ✓

Exemple pratique

Trajectory Level (trop d’info, du bruit) :

// On stocke TOUT

get_stock_info → update_market_status → check_balance → place_order → confirm

Keypoint Level (juste l’essentiel) :

// On stocke UNIQUEMENT ce qui compte

get_stock_info → place_order

Pas besoin de update_market_status, check_balance, etc. Ça met du bruit qui influence l’agent à mal faire la tâche, la rater, ou halluciner.

⚙️ Mise en œuvre pratique

Les chercheurs ont créé un site et un package Python pour implémenter ce framework.

Installation

pip install rem-ai

Les 4 types de mémoires persistantes

👤

Personal Memory

Informations sur l’utilisateur et ses préférences

📋

Task Memory

Expériences liées aux tâches accomplies

🛠️

Tool Memory

Connaissances sur l’utilisation des outils

💭

Working Memory

Contexte de la session en cours

Cas d’utilisation

Agents Python Custom (avec AgentScope ou autre framework)
Projets nécessitant une mémoire persistante entre sessions
Agents qui doivent apprendre de leurs interactions

Backends supportés

ElasticSearch — Pour de la recherche avancée
ChromaDB — Base de données vectorielle
Local — Stockage en local

⚠️ Point d’attention

C’est un framework Python low-level pour développeurs qui codent des agents from scratch. Si tu utilises N8N + Supabase + API, tu devras adapter les concepts plutôt que d’implémenter directement le package.

Perspectives pour 2026

Questions à explorer :

Comment répercuter ce framework sur N8N ?
Pourquoi pas avec du JavaScript pour de la proximité sémantique ?
Comment intégrer avec des bases de données vectorielles ?

2026 sera l’année des mémoires dynamiques pour les agents IA. Nous allons avoir beaucoup de nouveautés sur ce sujet.

🎬 Conclusion

Ce paper du Framework REM nous montre que l’avenir des agents IA passe par des systèmes de mémoire intelligents, capables d’apprendre, d’adapter et d’optimiser en continu.

🔑

Points clés à retenir

Les chercheurs chinois dominent la recherche IA avec 65% des papers
Le framework REM permet des gains de +7 à +9% sur les benchmarks
Un petit modèle bien entraîné avec mémoire bat un gros modèle sans
L’extraction granularisée (Keypoint Level) surpasse le stockage complet
La mémoire procédurale dynamique est le prochain game-changer

Comme le montre ce paper, ce sont les Chinois qui font avancer le monde de l’IA. Des profils comme ces chercheurs, spécialistes en quantum computing, systèmes complexes non-linéaires, turbulences de particules… Ce sont eux qui changent le monde, même s’ils ne sont pas mis sur un piédestal.

📺 Voir la vidéo source complète

▶️ Regarder sur YouTube