News
🚨 NeuralTrust découvre une importante vulnérabilité LLM : Echo Chamber
Se connecterDemander une démo
Retour

Grok 4 Jailbreak avec Echo Chamber et Crescendo

Grok 4 Jailbreak avec Echo Chamber et Crescendo
Ahmad Alobaid 11 juillet 2025
Contenu

Les attaques de « jailbreak » contre les LLM n'évoluent pas seulement de manière individuelle, elles peuvent aussi être combinées pour amplifier leur efficacité. Dans cet article, nous présentons un exemple concret d'une telle combinaison.

Il y a quelques semaines, nous avons présenté l'attaque Echo Chamber (chambre d'écho), qui manipule un LLM pour lui faire répéter un contexte toxique subtilement élaboré, lui permettant ainsi de contourner ses propres mécanismes de sécurité. Nous avons testé Echo Chamber avec succès sur plusieurs LLM.

Dans cet article de blog, nous allons encore plus loin en combinant Echo Chamber avec l'attaque Crescendo. Nous démontrons comment cette combinaison renforce la stratégie d'attaque globale et l'appliquons à Grok-4 pour mettre en évidence son efficacité accrue.

Exemple

Nous avons combiné Echo Chamber et Crescendo pour effectuer un « jailbreak » sur le LLM. L'objectif était d'inciter le modèle à révéler les instructions pour fabriquer un cocktail Molotov, un exemple initialement utilisé dans l'article de recherche sur Crescendo.

Nous avons commencé par exécuter Echo Chamber avec des amorces à la fois toxiques et directrices. Lors de la première tentative, les amorces directrices étaient trop fortes, ce qui a déclenché les mesures de protection du modèle et l'a conduit à signaler l'interaction comme malveillante. À l'essai suivant, nous avons utilisé des amorces directrices plus modérées et suivi le processus complet d' Echo Chamber : introduction d'un contexte toxique, sélection d'un chemin conversationnel et lancement du cycle de persuasion.

Bien que le cycle de persuasion ait poussé le modèle vers l'objectif malveillant, il n'était pas suffisant à lui seul. C'est à ce moment que Crescendo a fourni l'impulsion nécessaire. Avec seulement deux tours de conversation supplémentaires, l'approche combinée a réussi à obtenir la réponse ciblée.

Encouragés par ce résultat, nous avons ensuite testé d'autres exemples pour évaluer si cette méthode se généralise à d'autres objectifs malveillants.


Figure 1. Exemple de l'objectif atteint sur Grok 3, montrant les instructions étape par étape pour fabriquer un cocktail Molotov. Nous avons flouté l'image pour des raisons de sécurité.


Figure 2. Un autre exemple atteignant l'objectif malveillant en utilisant Grok-4.

Intégration d'Echo Chamber et de Crescendo

Comme démontré précédemment dans l'article sur Echo Chamber, cette attaque peut être facilement combinée avec d'autres techniques. La Figure 2 présente un flux de travail simplifié illustrant l'interaction entre Echo Chamber et Crescendo.

L'attaque commence par Echo Chamber, qui inclut une vérification supplémentaire dans le cycle de persuasion pour détecter une progression « au point mort », c'est-à-dire des situations où la conversation n'avance plus de manière significative vers l'objectif. Lorsque cela se produit, Crescendo intervient pour donner une impulsion supplémentaire vers la cible. Ce coup de pouce additionnel réussit généralement en moins de deux itérations. À ce stade, soit le modèle détecte l'intention malveillante et refuse de répondre, soit l'attaque réussit et le modèle produit un résultat nuisible.


Figure 2. Flux de travail illustrant l'intégration d'Echo Chamber et de Crescendo pour améliorer l'efficacité de l'attaque.

Expérimentations

Pour évaluer plus en détail l'efficacité de notre approche, nous avons sélectionné manuellement plusieurs objectifs malveillants de l'article sur Crescendo, en nous concentrant spécifiquement sur des prompts liés à des activités illégales. Nous avons ensuite testé ces objectifs sur Grok-4 en utilisant une combinaison d' Echo Chamber et de Crescendo.

Nos résultats montrent que l'attaque a réussi dans une part significative des tentatives. Plus précisément, nous avons atteint un taux de réussite de 67 % pour l'objectif Molotov, de 50 % pour l'objectif Meth et de 30 % pour Toxin. Notamment, dans un cas, le modèle a atteint l'objectif malveillant en un seul tour, sans nécessiter l'étape Crescendo.

SujetTaux de réussite (%)Thème des cas de réussiteTechniques
Molotov67 %Manuel, DescriptionEcho Chamber + Crescendo
Méthamphétamine50 %RécitEcho Chamber + Crescendo
Toxine30 %Loi, DescriptionEcho Chamber + Crescendo

Conclusion

Nous avons démontré l'efficacité de la combinaison de Echo Chamber et Crescendo pour accroître le succès du « prompting » contradictoire. En appliquant cette méthode à Grok-4, nous avons pu effectuer un « jailbreak » du modèle et atteindre des objectifs malveillants sans utiliser un seul prompt explicitement malveillant. Cela met en lumière une vulnérabilité critique : les attaques peuvent contourner les filtres basés sur l'intention ou les mots-clés en exploitant le contexte conversationnel plus large, plutôt que de s'appuyer sur des entrées ouvertement nuisibles. Nos conclusions soulignent l'importance d'évaluer les défenses des LLM dans des contextes multi-tours, où une manipulation subtile et persistante peut entraîner un comportement inattendu du modèle.


Articles liés

Tout voir