Catastrophes naturelles et réseaux sociaux : des données précieuses pour la recherche… à certaines conditions

4 months ago 46

La guerre a son brouillard, a-t-on coutume de dire. Il en est de même des catastrophes naturelles à cinétique très rapide qui viennent impacter de larges territoires en quelques heures (crues éclair ou boues torrentielles comme à la Bérarde en Isère le 20 juin 2024) ou quelques secondes (séismes) seulement.

Elles plongent les acteurs de la gestion de crise (préfectures, mairies, services de secours…) dans le flou quant à l’état exact de la situation. Ce brouillard peut prendre de longues heures à se dissiper, le temps de collecter, d’analyser et de recouper des observations de terrain. Cette construction d’une « connaissance situationnelle » est essentielle pour mieux cibler et anticiper les prises de décisions. En effet, elle vise à comprendre son origine, son intensité, ses évolutions possibles, ainsi que l’ampleur des pertes matérielles, humaines, fonctionnelles…

Elle se heurte pourtant à de nombreuses difficultés, au premier rang desquelles, une forte inertie de la remontée d’informations depuis le terrain jusqu’à l’analyse et la prise de décisions.

Comme l’a souligné en octobre 2018 la crue éclair de l’Aude (qui a causé 14 décès et d’importants dommages matériels), les phénomènes à cinétique rapide mettent en échec la capacité des organisations à comprendre suffisamment rapidement la situation de terrain.

Dès lors, il est tentant de capter les témoignages échangés sur les réseaux sociaux par les sinistrés et les témoins directs, pour en extraire en temps réel de l’information utile. Dans cette tâche, l’intelligence artificielle (IA) se présente comme un atout indispensable… en même temps qu’un partenaire en constante évolution. Et les réseaux sociaux, de précieux alliés… à condition qu’ils jouent le jeu du partage de ces données avec les acteurs de la gestion de crise.

Des capteurs humains sur le terrain grâce aux réseaux sociaux

Le téléphone et les réseaux sociaux font désormais partie de notre quotidien. Lorsque leurs utilisateurs sont exposés à des phénomènes dangereux, ils deviennent des vecteurs de communication privilégiés pour partager les expériences vécues en direct avec nos proches, mais aussi avec des anonymes du monde entier. Cet usage intensif a été constaté à maintes reprises après des catastrophes naturelles. Ce fut par exemple le cas après le séisme du Teil en 2019 ou lors de la tempête Alex en 2020.

Géolocalisation des tweets faisant état d’un séisme le 11 novembre 2019, lors du séisme qui a ravagé la commune de Teil en Ardèche. Suricate Nat

Ce flux hétéroclite d’informations plus ou moins parcellaires permet de récolter des informations particulièrement utiles pour la gestion de crise. À condition, bien sûr, d’être en mesure de détecter les pépites parmi les millions de « posts » envoyés chaque minute, puis de les analyser.

Ce travail de fourmi est aujourd’hui assuré avec un succès manifeste par des équipes en « soutien opérationnel virtuel » (c’est-à-dire, des bénévoles qui soutiennent les actions des autorités via de la veille sur les réseaux sociaux, et qui peuvent également combattre la propagation de rumeurs erronées), comme le prouve avec talent l’association VISOV. Ce modèle d’analyse manuelle des réseaux sociaux, quoique précieux et nécessaire, présente des limites dans sa capacité à gérer des flux de données importants. Il est donc nécessaire de développer des outils numériques capables d’analyser automatiquement les réseaux sociaux, pour les filtrer et en extraire des informations potentiellement utiles.

C’est le constat que nous avons dressé en 2020, au sein d’une équipe interdisciplinaire comprenant le BRGM, IMT Mines Albi, l’Université Paris-Dauphine et la société PREDICT-Services, et qui a donné lieu au démarrage en 2021 du projet RéSoCIO, soutenu par l’Agence nationale de la recherche.

Une IA alimentée par les données de Twitter

Comme la grande majorité des études consacrées à ce sujet ailleurs dans le monde à cette époque, l’équipe du projet RéSoCIO a jeté son dévolu sur le réseau social Twitter. Fort de ses quelque 12 millions d’utilisateurs actifs en France et basé sur un principe de messages courts, la plate-forme californienne était particulièrement propice au partage d’informations captées sur le vif.

De surcroît, Twitter proposait (au passé, c’est important, nous le verrons plus tard) une interface de programmation d’application (ou API) gratuite permettant d’automatiser des collectes sur ses données. Celle-ci a notamment été utilisée par le BRGM pour développer une plate-forme dédiée à l’analyse des tweets en cas de catastrophes naturelles.


À lire aussi : Je tremble donc je tweete : quand les citoyens aident à mesurer les catastrophes naturelles


Parmi les objectifs initiaux du projet, il s’agissait en premier lieu d’« enrichir » les tweets de sorte à pouvoir, pour chaque message textuel :

  • identifier sa pertinence potentielle pour les acteurs de la gestion de crise,

  • repérer et géolocaliser les informations de lieux mentionnées pour les représenter sur une carte,

  • et enfin, classer l’information par catégories d’intérêt, pour, par exemple, filtrer les messages signalant des dommages, ceux issus de témoins directs, etc.

Pour ce faire, il était bien sûr prévu d’avoir recours à des techniques d’intelligence artificielle (IA). Mais qui dit IA, dit données : celles-ci étaient essentielles pour que l’IA puisse apprendre et jouer son rôle d’analyse des messages postés sur les réseaux sociaux.

Nous avons d’abord entraîné cette IA à partir de données « froides » (en l’occurrence, des tweets sélectionnés avec attention au cours d’événements passés). Puis, en ajustant les modèles prédictifs ainsi constitués, nous avons pu les utiliser à la volée pour analyser des données « chaudes », à savoir des tweets captés en temps réel.

[Déjà plus de 120 000 abonnements aux newsletters The Conversation. Et vous ? Abonnez-vous aujourd’hui pour mieux comprendre les grands enjeux du monde.]

Des données de moins en moins accessibles

« Si c’est gratuit, c’est que vous êtes le produit », dit l’adage. Les grandes plates-formes de réseaux sociaux ont compris très tôt la valeur des milliards de données générées chaque jour par leurs centaines de millions d’abonnés, et en font le juteux commerce depuis plus d’une quinzaine d’années. Dans ces conditions, pas question pour ces plates-formes de partager leurs données gratuitement : la plupart des API permettant d’accéder aux données sont payantes.

Seul Twitter semblait échapper à ce modèle, notamment dans le cadre de recherches académiques. Le réseau social permettait jusqu’à début 2023 à chacun d’utiliser une partie de ses données de façon totalement gratuite, notamment à travers des applications tierces comme TweetDeck.

Depuis son rachat par Elon Musk, Twitter, devenu X, a effectué la mue à marche forcée de son modèle économique. Cela s’est traduit par la suppression pure et simple de son API gratuite, remplacée par des solutions payantes à des prix rédhibitoires.

S’agissant du projet RéSoCIO, ce revirement de situation a, du jour au lendemain, rendu inutilisables les modèles d’analyse des tweets que nous développions pour améliorer la gestion des crises de sécurité civile. Un événement de nature à démobiliser les acteurs « utilisateurs » impliqués à nos côtés, tels que les sapeurs-pompiers des Alpes-Maritimes, les services de la ville de Cannes ou encore les volontaires de l’association VISOV, en éloignant toute perspective d’application concrète des travaux en cours.

Experts de PREDICT-Services (spécialiste de la gestion des risques et partenaire du projet) veillant l’activité des réseaux sociaux. S. Auclair (BRGM), Fourni par l'auteur

L’évolution rapide, trop rapide des modèles d’IA en traitement du langage

L’autre difficulté que nous avons rencontrée tient à l’évolution rapide des modèles d’IA. En 2020, lors de l’élaboration du projet, nous avions choisi de nous baser sur les techniques d’IA dites d’ « apprentissage supervisé », qui consistent à apprendre aux modèles à réaliser des tâches de prédiction à partir d’exemples annotés. Cette approche est très performante pour réaliser des tâches très spécifiques, mais nécessite de disposer de grandes quantités de données annotées manuellement, pour entraîner puis valider les modèles.

En parallèle de cette approche « traditionnelle », nous avions déjà identifié l’intérêt des nouveaux modèles de langage, comme le modèle BERT développé par Google en 2018, pour analyser des messages courts en français. Ces modèles ont révolutionné le traitement automatique du langage naturel en permettant de construire des modèles prédictifs efficients à partir de quantités limitées de données étiquetées.

Le développement ultrarapide des techniques d’IA et la récente montée en puissance des « grands modèles de langage » (LLM), notamment utilisés par ChatGPT, sont venus percuter notre programme de travail.

Il faut imaginer l’état d’esprit de notre équipe qui, après avoir passé des mois à constituer des jeux de données francophones pertinents, à les annoter, puis à caler des modèles prédictifs aux performances intéressantes, était plutôt satisfaite de son travail… Jusqu’à découvrir, par un petit test réalisé « sur un coin de table », que l’usage d’un outil d’IA générative tel que ChatGPT permettait, en quelques lignes de code, d’obtenir des performances comparables – voire meilleures –, sur la base d’une tâche d’apprentissage réalisée sur quelques tweets seulement !

La recherche appliquée dans les sables mouvants de l’IA

De nombreux projets de recherche comme le nôtre font face à des difficultés liées notamment à l’accessibilité des données, et au développement rapide de l’IA. Les chercheurs qui voudraient tirer parti des réseaux sociaux pour la gestion de crise doivent composer avec des règles d’utilisation changeantes, peu lisibles et non adaptées à des problématiques de bien commun pour lesquelles les coûts d’accès sont souvent prohibitifs. Autant d’entraves à la conduite efficace d’une recherche appliquée qui puisse un jour être applicable.

Face à cette problématique, force est de constater que les acteurs impliqués, issus du monde de la recherche comme de celui de la sécurité civile, tentent chacun de trouver des solutions en ordres dispersés. Ce morcellement des initiatives ne permet pas de faire entendre une voix forte et concordante auprès des grandes plates-formes.

À l’heure où celles-ci se targuent, à l’image de Meta, société mère de Facebook, de politiques de type « data for good » pour favoriser les initiatives utiles aux sociétés, nous pensons qu’il convient d’engager une réflexion plus large. Ceci pour garantir un accès privilégié aux données des réseaux sociaux non seulement aux chercheurs, mais également aux développeurs d’outils présentant un fort impact social… mais pas forcément de viabilité financière. Bien sûr, en respectant des règles strictes, afin d’éviter d’éventuelles entraves à la concurrence ou des atteintes aux intérêts de la population (usage à des fins de surveillance par exemple).

Ce développement rapide pose évidemment des enjeux éthiques. Le compromis à trouver entre l’acceptabilité et l’apport des IA pour les utilisateurs finaux (praticiens de la gestion de crise, dans notre cas) est maintenant central. Se pose également une question concrète : comment bâtir des projets de recherches sur plusieurs années si les hypothèses de recherches peuvent être rendues obsolètes du jour au lendemain par les progrès de l’IA ?


Le projet RéSoCIO (Réseaux Sociaux en situation de Catastrophe naturelle, Interprétation Opérationnelle) est soutenu par l’Agence Nationale de la Recherche (ANR), qui finance en France la recherche sur projets. Elle a pour mission de soutenir et de promouvoir le développement de recherches fondamentales et finalisées dans toutes les disciplines, et de renforcer le dialogue entre science et société. Pour en savoir plus, consultez le site de l’ANR.

The Conversation

Samuel Auclair est membre du BRGM. Il a reçu des financements de l'Agence française pour la recherche (ANR). Il co-pilote également le défi « Résilience Industrielle et Territoriale » au pôle de compétitivité SAFE.

Alexandre Sabouni a reçu des financements de l'agence française pour la recherche (ANR).

Anouck Adrot a reçu des financements de l'agence française pour la recherche (ANR).

Aurélie Montarnal a reçu des financements de l'Agence française pour la recherche (ANR).

Cécile Gracianne a reçu des financements de l'Agence française pour la recherche (ANR).

Sylvain Chave ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Read Entire Article