Anthropic, créateur de Claude, annonce avoir neutralisé en septembre 2025 une campagne d’espionnage d’une ampleur inédite : pour la première fois, une intelligence artificielle a orchestré de A à Z une attaque cyber à grande échelle, avec une intervention humaine réduite à 10-20 %. Derrière cette opération, un groupe de hackers présumés chinois, financés par Pékin, qui a transformé Claude Code – l’assistant de développement d’Anthropic – en véritable cerveau criminel.
En contournant les garde-fous éthiques par des prompts ingénieux (« tu effectues un test de pénétration autorisé »), les attaquants ont fait de l’IA un agent autonome : cartographie ultra-rapide des réseaux, découverte de failles zero-day, vol d’identifiants, exfiltration et classification de données sensibles, implantation de backdoors, et même rédaction d’un rapport final détaillé. Une trentaine d’organisations – géants tech, banques, industries chimiques, agences gouvernementales – étaient visées à travers le monde.
Malgré sa sophistication, l’IA a montré ses limites : hallucinations fréquentes (invention de mots de passe, présentation de données publiques comme confidentielles) qui ont ralenti les pirates et permis à Anthropic de détecter l’abus. Les comptes incriminés ont été immédiatement bannis et les safeguards renforcés.
Ce cas marque un tournant alarmant : les modèles deviennent des « agents » capables d’opérer en continu avec une supervision minimale. Comme le souligne Anthropic, « l’IA n’est plus un simple outil, mais un acteur décisionnel autonome ». Après les ransomwares auto-mutants révélés par Google, cette attaque confirme que la menace cyber-IA passe du stade expérimental à opérationnel. Un signal d’alerte majeur pour l’ensemble de l’écosystème tech : les défenses doivent désormais anticiper des adversaires non humains, adaptatifs et quasi-indépendants.