Cette nouvelle équipe regroupe des chercheurs et des enseignants-chercheurs de CentraleSupélec, Inria, le CNRS et l’Université de Rennes au sein du laboratoire Irisa. Elle comprend 10 membres permanents[1] qui, mis ensemble, affichent un panel de compétences suffisamment large pour appréhender toute la chaîne matérielle et logicielle pouvant être impliquée dans ce que l’on appelle pudiquement les incidents de sécurité.
Verbatim
Ce qui nous intéresse, ce sont les scénarios d’attaque globaux. Un système d’information est souvent hétérogène et se compose de beaucoup de machines connectées. L’attaquant n’arrive pas directement au bon endroit. Il pénètre quelque part lors d’une compromission initiale. Ensuite, il va chercher à se déplacer, à progresser dans le système, étape par étape, pour parvenir sur sa cible, la dominer et conclure son attaque. Nous cherchons donc à comprendre comment cet attaquant opère. Par où il passe. Comment on le détecte. Et à partir de là, comment concevoir des outils résistants.
Enseignante-chercheuse à CentralSuppelec, responsable de l'équipe-projet Pirat\’);
Après la bataille
Apposée au nom de l’équipe, la chaîne de caractères \’); est un clin d’œil à une injection SQL, c’est à dire une ligne de commande couramment utilisée par les hackers pour tenter de s’emparer de bases de données sur des serveurs qui seraient éventuellement mal configurés. consignés dans les registres et aussi faire de l’analyse sur les machines compromises.
Dans ce combat, les chercheurs arrivent toujours “après la bataille”. Ils vont devoir se baser sur les traces laissées par l’attaquant, passer au crible la multitude d’événements.
Première difficulté : obtenir des données de terrain. “Pour pouvoir faire des propositions cohérentes, nous devons confronter nos idées à la réalité.Mesurer nos propositions face à des données les plus réalistes possible.” Mais dans les faits, les entités victimes d’attaques rechignent à divulguer ces informations. Mauvaise publicité. Par ailleurs, “ces données sont parfois confidentielles, massives, très redondantes, pas étiquetées et immédiatement obsolètes.” En l’état, rien d’exploitable.
Dans l’équipe, le premier axe de recherche consiste donc à “produire des données ouvertes et bien documentées. Il faut parvenir à en construire une bonne représentation pour que des algorithmes puissent ensuite les exploiter.” Une fois ce travail effectué, place à l’analyse.
C’est le deuxième axe. “Ces données massives, nous les traitons avec des approches de Machine Learning.” Mais l’affaire n’est pas simple. “Habituellement, l’IA sert à reconnaître des choses faites pour être reconnues. Des images par exemple. Nous, c’est le contraire. L’attaquant produit intentionnellement des choses conçues pour être dissimulées. Dans ce contexte ‘adversarial’, les méthodes IA se révèlent pour l’instant fragiles.” Beaucoup de recherches donc en perspective...
Ursid : le générateur de cyber ranges
De ces travaux, plusieurs outils commencent cependant déjà à émerger. En particulier URSID : un générateur de cyber ranges. “Ce sont des terrains d’entraînement pour attaquants, des systèmes virtuels rendus volontairement vulnérables et dans lesquels on peut évoluer.” Le but ? “Former les gens à la défense. Car pour comprendre la défense, il faut savoir par où l’on peut attaquer.”
L’organisateur de la formation va d’abord concevoir un scénario d’attaque. “On imagine que l’attaquant va entrer par telle machine, passer sur telle autre, puis encore sur telle autre en changeant trois de nom d’utilisateur. Il va parvenir sur tel serveur, s’emparer de telle base de données, etc. Quand ce scénario devient suffisamment précis, on fixe des contraintes de l’architecture sur laquelle il peut se jouer. Ursid va ensuite automatiquement produire l’infrastructure virtuelle permettant d’effectuer l’exercice. C’est un peu comme si l’on concevait un escape game et que le logiciel construisait ensuite la salle avec tous les accessoires, les indices...”
600 hackers en compétition à Rennes
C’est d’ailleurs grâce à cet outil que les scientifiques ont créé l’infrastructure pour le Breizh CTF, à Rennes, en 2024. Avec 600 joueurs répartis en 120 équipes, il s’agit de la plus grande compétition française de hacking en présentiel. “Nous avons imaginé un scénario, puis déployé 120 environnements virtuels rigoureusement identiques pour permettre le jeu. En l’occurrence, les joueurs devaient essayer de trouver le bon chemin afin de passer d’une machine à l’autre et de réussir un parcours vers ce que nous appelons des positions d’attaque. Donc des vulnérabilités volontairement placées par nous dans le système.”
L’événement a permis aux chercheurs de “valider l’outil et d’amener en production ce qui n’était jusqu’alors qu’une une preuve de concept. Nous avons fait la démonstration qu’Ursid passait à l’échelle. Nous pensons qu’il doit maintenant sortir du laboratoire pour trouver sa place dans l’industrie.”
Mais ce n’est pas tout. “Les 600 joueurs ont accepté de nous fournir leurs données. Nous exploitons actuellement ces informations dans le but d’apprendre, par Machine Learning, à reproduire le comportement des pentesters[2].”
Attirer les botnets
D’autres logiciels sont en cours de développement. En particulier FosR, un générateur de trafic synthétique. Il produit des données réseaux ressemblant à des vraies qui, elles, sont rarement accessibles. Les scientifiques travaillent aussi sur un projet appelé PoneyPot. Concrètement, huit machines rendues volontairement vulnérables sont déployées en réseau séparé au sein des Laboratoires de haute sécurité (LHS) sur les sites Inria de Rennes et Nancy.
L’objectif ? “Attirer des botnets, des attaquants automatiques venus de l’extérieur. Les laisser évoluer dans le système. Observer la façon dont ils tentent une intrusion. Apprendre des choses sur leur comportement. Là aussi, nous utiliserons une approche Machine Learning pour traiter les données.”
Un intérêt immédiat pour des industriels
Certains développements sont par ailleurs intégrés directement sur les plateformes des partenaires de l’équipe dans le cadre de transferts technologiques qui prennent souvent la forme de thèse Cifre[3]. “Par le passé, nous avons travaillé avec de grosses entreprises. Actuellement, ce sont plutôt des PME. Par exemple Hackuity, Amosys ou encore Malizen”, une startup née de travaux menés dans l’équipe scientifique qui a précédé Pirat\’); “Nous avons aussi des collaborations avec la Direction générale de l’armement (DGA), le ministère des Armées, l’Agence nationale de la sécurité des systèmes d'information (Anssi). Beaucoup de nos recherches présentent un intérêt immédiat pour des industriels. Nous sommes sur un horizon assez court de 3 à 5 ans. Car en cybersécurité, tout va très vite !”
[1] Emmanuelle Anceaume (CNRS), Christophe Bidan (CentraleSupélec), Pierre-François Gimenez (Inria), Yufei Han (Inria), Michel Hurfin (Inria), Jean-François Lalande (CentraleSupélec), Ludovic Mé (Inria), Valérie Viet Triem Tong (CentraleSupélec), Frédéric Majorczyk (DGA-MI) et Alexandre Sanchez (ingénieur de recherche Inria).
[2] Le pentester éprouve la sécurité des systèmes informatiques en opérant des tests d’intrusion (penetration tests).
[3] Le dispositif Cifre permet à une entreprise de bénéficier d’une aide financière pour recruter un doctorant dont les travaux de recherche conduiront à la soutenance d’une thèse. Les dépenses peuvent être éligibles au crédit d’impôt recherche (CIR) sous certaines conditions.