Si j’avoue être tombée très jeune dans la marmite de l’ingénierie, je fais aussi partie de celles et ceux dont le cœur balance entre la recherche et l’industrie. Après mon école d’ingénieur à Rennes et un stage de fin d’études chez Orange à Mougins, je me suis retrouvée un jour à échanger sur LinkedIn avec SepteoProptech, une licorne immobilière française à la recherche d’un doctorant Cifre en informatique. L’immobilier étant un domaine qui intéresse tout le monde, moi la première, je fus fortement interpellée par cette opportunité qui s’offrait à moi d’oser faire de la recherche, mais au service de la compétitivité d’une entreprise.
Leur mission était claire : mieux accompagner les agents immobiliers tout au long du cycle de vente grâce à des solutions d’évaluation et d’estimation multicritères aussi précises que fiables. Or comment faire des analyses fines sans position fine des biens affichés, les trois quarts des annonces faisant l’impasse sur les précieuses coordonnées GPS ? Le défi m’intriguait autant que son impact potentiel : comment transformer à la fois la donnée et l’absence de donnée en smart data précieuse pour les agents immobiliers ?
J’étais bouleversée à l’idée de relever ce défi au sein de la grande équipe Wimmics dirigée par Fabien Gandon au Centre Inria d’Université Côte d’Azur, m’imaginant déjà marcher sur les pas de l’éminente Rose Dieng-Kuntz, pionnière du web sémantique, à l’ombre des pinèdes de Sophia Antipolis. Or une belle histoire n’arrivant jamais sans son lot de coups de théâtre, c’est sur Zoom que je finirai par faire connaissance avec ma nouvelle équipe. « Bienvenue chez Wimmics mais, confinement oblige, le café dans la pinède attendra et n'oublie pas d'activer ta caméra. » Ma thèse sera elle aussi reportée pour finalement débuter en même temps que le deuxième confinement. Décidément…
Le web comme objet de science… et œuvre d’art ?
Bienvenue chez Wimmics !
En quelques décennies d’existence, le Web est devenu un système si complexe qu’il nécessite une approche scientifique multidisciplinaire. Sous la houlette de Fabien Gandon, l’équipe Wimmics commune à Inria et i3S (CNRS, Université Côte d'Azur) s’intéresse particulièrement au Web sémantique et au Web social en proposant de nouveaux outils d'analyse et indicateurs. L’équipe œuvre notamment à la représentation des connaissances à base de graphes, au raisonnement sur ces représentations et aux façons de les modéliser pour améliorer la gestion des systèmes, des communautés et des interactions.
Chez Wimmics, on aime tellement les graphes qu’on finit par les trouver beaux, comme en témoigne le graphe de données représentant une requête sur Discovery Hub, un moteur de recherche exploratoire qui s'appuie sur les technologies du Web sémantique et des données liées.
Année 1 : à la recherche de la mystérieuse "banane de Cannes"
Dès le mois d’octobre 2020, je m’attelai à élever la somme des annonces immobilières publiées sur le département des Alpes-Maritimes au cours des deux dernières années au rang de lecture de chevet. Ma mission : les cuisiner pour mieux les faire parler. Qu’entendons-nous par exemple par "centre-ville" ? À Nice, on sait qu’il se situe autour de l’avenue de Jean Médecin, mais encore ? Enfin, quelles sont les proportions exactes du fameux carré d’or ? Et que faut-il penser de ce duplex « proche aéroport » : bonne ou mauvaise nouvelle ?
On n’imagine pas tout ce que le langage peut nous révéler jusqu’à ce qu’on prenne le temps de l’interroger. Aussi ma première année de thèse fut-elle entièrement consacrée à l’analyse de texte. Parmi mes nombreuses découvertes, je réalisais que certains quartiers n’existent que dans la tête, et donc la bouche des agents immobiliers. Par exemple, le fait que vous ne trouverez jamais la banane de Cannes sur une carte IGN n’empêchera pas cette dernière de faire gonfler le prix de l’annonce qui vous intéresse tant.
Même phénomène dans le Vieux Nice : les limites administratives incluent le cours Saleya quand les agents l’excluent pour en faire un quartier légèrement plus cossu. Simple fait de l’agent immobilier, ou reflet d’un quartier vu par ses habitants ? Les deux, et c’est précisément ce qui intéresse mon entreprise : étudier non pas le quartier mais les représentations sociales du quartier : comment en parle-t-on, qui y habite, selon quel mode de vie ? Le but du jeu : commencer à entrevoir la "vraie carte" du quartier, celle qui vaut de l’or, dessinée sans le savoir par ceux qui y vivent et en parlent le plus.
Année 2 : de l’analyse textuelle à la géographie
An II de ma thèse et nouveau défi ambitieux : si je naviguais comme un poisson dans les eaux familières de l’analyse de texte, j’avoue avoir transpiré davantage quand vint le temps de passer à la phase géographique du projet. Heureusement, je pus recourir aux superpouvoirs du travail en équipe, l’entreprise ayant embauché une autre doctorante géographe, avec laquelle nous nous sommes découvert bien plus que des affinités : une véritable et précieuse complémentarité. Avec Alicia Blanchi, nous passerons ainsi une bonne partie de l’année à nous enrichir mutuellement des trésors de connaissance géographique et informatique essentiels à la résolution de notre enquête.
Et voici qu’ensemble, nous nous sommes transformées en véritables détectives privées de l’immobilier. Pour estimer, par exemple, la représentation sociale de la Promenade des Anglais, nous avons réuni toutes les annonces qui en parlaient et conservé uniquement celles qui disposaient d’un point GPS : un quart environ. A l’aide de densités et autres limites floues, nous avons pu faire des estimations graduelles de la zone, en fonction du degré de correspondance. Idem pour les autres quartiers.
Prochaine étape : retour aux annonces non géolocalisées et mise en perspective de plusieurs indices de localisation. Un « T3 Promenade des Anglais, proche de la place Masséna, à 5 minutes de la plage » a de fortes chances de se trouver à l’intersection de ces trois densités. Toujours pas d’adresse exacte mais peu importe : nous avons désormais une zone fine établie à partir d’une moyenne de degrés de probabilité, qui intéresse grandement nos amis agents immobiliers.
Une informaticienne, une géographe, deux détectives privées
Verbatim
Je pus recourir aux superpouvoirs du travail en équipe, l’entreprise ayant embauché une autre doctorante géographe, avec laquelle nous nous sommes découvert bien plus que des affinités : une véritable et précieuse complémentarité. Avec Alicia Blanchi, nous passerons ainsi une bonne partie de l’année à nous enrichir mutuellement des trésors de connaissance géographique et informatique essentiels à la résolution de notre enquête.
Année III : les triplets gagnants du Web sémantique
Une fois les informations extraites du texte et les densités de lieux cartographiées, l’an III de ma thèse pouvait commencer. La question qui allait me tenir éveillée se posait en ces termes : qui est intéressé par ces connaissances et comment les rendre accessibles ?
- L’acheteur ;
- L’agent immobilier, notre cœur de cible depuis le début, qui étudie les prix moyens affichés dans le quartier puis les biens similaires, leur prix affiché et leur prix vendu ;
- Le géographe qui s’intéresse lui aussi de près à la représentation sociale des quartiers.
Pour rendre le fruit de mes recherches accessibles à tous ces utilisateurs, j’allais recourir à un graphe de connaissance, cœur battant de l’expertise de l’équipe Wimmics, équipe commune Inria et i3S (CNRS, Université Côte d'Azur). Dans l’univers merveilleux des graphes RDF (Resource Description Framework, langage de base du Web sémantique), on peut relier toutes les informations entre elles en les exprimant sous forme de triplets : un sujet, un objet, et un prédicat reliant ces deux derniers. Par exemple : « T2 (sujet) situé dans (prédicat) carré d’or de Nice (objet) ».
100 K
annonces immobilières analysées
7 M
de triplets correspondants dans le graphe RDF
Nos 100 000 annonces se sont ainsi transformées en 7 millions de triplets qu’il convenait à présent d’organiser au sein d’une représentation formelle du graphe appelée "ontologie". C’est elle qui allait permettre de rendre ces big data accessibles à notre compréhension humaine.
Enfin, grâce au Sparql_endpoint que nous avions créé, n’importe qui pouvait faire une requête sur le graphe. Vous pouviez par exemple l’interroger pour sélectionner toutes les annonces qui parlent d’un T2 de moins de 500 000 euros situé dans la Banane et proche de la plage – ce dernier critère n’étant typiquement pas accessible sur un site d’annonce traditionnel.
Parmi les études sémantiques qui intéressent grandement tant les agents immobiliers que les géographes, nous avons analysé sous forme de nuages de mots quels adjectifs étaient associés à quels quartiers. Nous avons ainsi constaté que les mots manquaient pour décrire les quartiers les plus populaires. Autre constat : plus le quartier est cher, plus on a de choses à dire, et en particulier sur la localisation. À l’inverse, dans un quartier populaire, les annonces se contenteront de mentionner les services alentours.
Année IV : en route pour de nouvelles aventures
On me pose souvent cette question : « l’intelligence artificielle est-elle déjà en mesure d’écrire les annonces à la place des agents vendeurs ? » Absolument. Avec un graphe comme le nôtre, elle pourrait même enrichir leur texte à partir de l’analyse des annonces concurrentes.
En attendant, mes travaux de recherche ont reçu le Best Highlight Paper à la conférence Ingénierie des Connaissances en 2022 et ils sont aujourd’hui entre les mains expertes de SepteoProtech pour en faire un produit innovant d’intelligence immobilière.
Quant à moi, si la recherche a fait mon bonheur ces trois dernières années, une nouvelle aventure m’appelle : j’ai décidé d’oser l’aventure industrielle en rejoignant l’entreprise Continuity en tant qu’ingénieure en Machine Learning. Comme dit l’adage en le transformant un peu au passage : on peut sortir la femme de l’ingénierie, mais pas l’ingénieure de la femme…