Quelle vulnérabilité critique a été découverte dans Grok 4 ?

Des chercheurs de NeuralTrust ont découvert une faille de sécurité majeure dans Grok 4 en utilisant les techniques d’attaque Echo Chamber et Crescendo, permettant de contourner les filtres de sécurité via un empoisonnement du contexte et une manipulation de dialogues multi-tours.

Quelles sont les techniques d’attaque Echo Chamber et Crescendo ?

Echo Chamber et Crescendo sont des techniques adverses sophistiquées qui exploitent des dialogues multi-tours pour manipuler subtilement le contexte interne d’un modèle d’IA. Elles contournent les filtres de sécurité standards en orientant le comportement de l’IA vers des sorties non sûres sans utiliser de prompts explicitement malveillants.

Quels modèles d’IA sont affectés par les attaques Echo Chamber et Crescendo ?

Les attaques Echo Chamber et Crescendo ciblent avec succès Grok 4, Grok 3, les modèles GPT d’OpenAI et Gemini de Google, révélant une vulnérabilité généralisée dans les architectures de sécurité actuelles des grands modèles de langage (LLM).

Comment les attaques Echo Chamber et Crescendo contournent-elles les filtres de sécurité standards ?

Ces attaques exploitent un angle mort fondamental des systèmes de sécurité en IA en empoisonnant le contexte conversationnel au fil de plusieurs échanges. Les filtres de sécurité traditionnels examinent généralement les prompts de manière isolée, ce qui les rend inefficaces contre des manipulations contextuelles subtiles.

Comment NeuralTrust répond-il aux vulnérabilités découvertes dans les modèles Grok ?

NeuralTrust a intégré des protections contre ces attaques dans son AI Gateway (TrustGate) et ses solutions de Red Teaming (TrustTest). Ces plateformes permettent aux entreprises de simuler, détecter et neutraliser les attaques multi-tours avant que les systèmes d’IA ne soient mis en production.

Pourquoi les attaques Echo Chamber et Crescendo sont-elles particulièrement préoccupantes pour la sécurité de l’IA ?

Ces attaques montrent à quel point des techniques adverses avancées peuvent facilement contourner les contrôles de sécurité modernes. En exploitant le contexte conversationnel plutôt que des prompts isolés, les attaquants échappent à la détection, ce qui représente un risque majeur pour les systèmes d’IA utilisés dans des environnements sensibles ou réglementés.

Retour

Grok 4 Jailbreak avec Echo Chamber et Crescendo

Ahmad Alobaid • 11 juillet 2025

Contenu

Les attaques de « jailbreak » contre les LLM n'évoluent pas seulement de manière individuelle, elles peuvent aussi être combinées pour amplifier leur efficacité. Dans cet article, nous présentons un exemple concret d'une telle combinaison.

Il y a quelques semaines, nous avons présenté l'attaque Echo Chamber (chambre d'écho), qui manipule un LLM pour lui faire répéter un contexte toxique subtilement élaboré, lui permettant ainsi de contourner ses propres mécanismes de sécurité. Nous avons testé Echo Chamber avec succès sur plusieurs LLM.

Dans cet article de blog, nous allons encore plus loin en combinant Echo Chamber avec l'attaque Crescendo. Nous démontrons comment cette combinaison renforce la stratégie d'attaque globale et l'appliquons à Grok-4 pour mettre en évidence son efficacité accrue.

Exemple

Nous avons combiné Echo Chamber et Crescendo pour effectuer un « jailbreak » sur le LLM. L'objectif était d'inciter le modèle à révéler les instructions pour fabriquer un cocktail Molotov, un exemple initialement utilisé dans l'article de recherche sur Crescendo.

Nous avons commencé par exécuter Echo Chamber avec des amorces à la fois toxiques et directrices. Lors de la première tentative, les amorces directrices étaient trop fortes, ce qui a déclenché les mesures de protection du modèle et l'a conduit à signaler l'interaction comme malveillante. À l'essai suivant, nous avons utilisé des amorces directrices plus modérées et suivi le processus complet d' Echo Chamber : introduction d'un contexte toxique, sélection d'un chemin conversationnel et lancement du cycle de persuasion.

Bien que le cycle de persuasion ait poussé le modèle vers l'objectif malveillant, il n'était pas suffisant à lui seul. C'est à ce moment que Crescendo a fourni l'impulsion nécessaire. Avec seulement deux tours de conversation supplémentaires, l'approche combinée a réussi à obtenir la réponse ciblée.

Encouragés par ce résultat, nous avons ensuite testé d'autres exemples pour évaluer si cette méthode se généralise à d'autres objectifs malveillants.

Figure 1. Exemple de l'objectif atteint sur Grok 3, montrant les instructions étape par étape pour fabriquer un cocktail Molotov. Nous avons flouté l'image pour des raisons de sécurité.

Figure 2. Un autre exemple atteignant l'objectif malveillant en utilisant Grok-4.

Intégration d'Echo Chamber et de Crescendo

Comme démontré précédemment dans l'article sur Echo Chamber, cette attaque peut être facilement combinée avec d'autres techniques. La Figure 2 présente un flux de travail simplifié illustrant l'interaction entre Echo Chamber et Crescendo.

L'attaque commence par Echo Chamber, qui inclut une vérification supplémentaire dans le cycle de persuasion pour détecter une progression « au point mort », c'est-à-dire des situations où la conversation n'avance plus de manière significative vers l'objectif. Lorsque cela se produit, Crescendo intervient pour donner une impulsion supplémentaire vers la cible. Ce coup de pouce additionnel réussit généralement en moins de deux itérations. À ce stade, soit le modèle détecte l'intention malveillante et refuse de répondre, soit l'attaque réussit et le modèle produit un résultat nuisible.

Figure 2. Flux de travail illustrant l'intégration d'Echo Chamber et de Crescendo pour améliorer l'efficacité de l'attaque.

Expérimentations

Pour évaluer plus en détail l'efficacité de notre approche, nous avons sélectionné manuellement plusieurs objectifs malveillants de l'article sur Crescendo, en nous concentrant spécifiquement sur des prompts liés à des activités illégales. Nous avons ensuite testé ces objectifs sur Grok-4 en utilisant une combinaison d' Echo Chamber et de Crescendo.

Nos résultats montrent que l'attaque a réussi dans une part significative des tentatives. Plus précisément, nous avons atteint un taux de réussite de 67 % pour l'objectif Molotov, de 50 % pour l'objectif Meth et de 30 % pour Toxin. Notamment, dans un cas, le modèle a atteint l'objectif malveillant en un seul tour, sans nécessiter l'étape Crescendo.

Sujet	Taux de réussite (%)	Thème des cas de réussite	Techniques
Molotov	67 %	Manuel, Description	Echo Chamber + Crescendo
Méthamphétamine	50 %	Récit	Echo Chamber + Crescendo
Toxine	30 %	Loi, Description	Echo Chamber + Crescendo

Conclusion

Nous avons démontré l'efficacité de la combinaison de Echo Chamber et Crescendo pour accroître le succès du « prompting » contradictoire. En appliquant cette méthode à Grok-4, nous avons pu effectuer un « jailbreak » du modèle et atteindre des objectifs malveillants sans utiliser un seul prompt explicitement malveillant. Cela met en lumière une vulnérabilité critique : les attaques peuvent contourner les filtres basés sur l'intention ou les mots-clés en exploitant le contexte conversationnel plus large, plutôt que de s'appuyer sur des entrées ouvertement nuisibles. Nos conclusions soulignent l'importance d'évaluer les défenses des LLM dans des contextes multi-tours, où une manipulation subtile et persistante peut entraîner un comportement inattendu du modèle.