Des mots pour les maux environnementaux:
Analyse des données textuelles produites sur les réseaux sociaux à propos des COP
Volume horaire : 24h
Semestre : S2
ECTS : 6 ECTS
Pre-requis : aucun
Mode de validation : travail individuel ou en petit groupe sur projet
Langue : Français (ou Anglais si une personne le demande)
Cours du soir – mercredi 18h-20h
Dates des cours : 08/03, 15/03, 22/03, 29/03, 05/04, 19/04, 10/05, 17/05 soutenances de validation avant le 07/06
Google Agenda des cours :
https://calendar.google.com/calendar/u/0?cid=NmZkNzI5MWM1ZWExNmY0ZjEyZmQwYzNlODMxNWE5NGNmOTNjZGM5ZGUwZTFlOWUyZjk3ZDgxNTBhMjg4NGRkZUBncm91cC5jYWxlbmRhci5nb29nbGUuY29t
Responsable : Shufan JIANG
Salle : INFO 3
Les données textuelles, telles que des microblogs, des échanges dans les forums ou des articles des journaux, contiennent des informations contextualisées. Ces informations peuvent représenter les perceptions des différents acteurs sur les sujets d’environnement et peuvent servir comme une source de données complémentaire peu coûteuse pour des recherches qualitative ou quantitative. Pour extraire ces informations, nous pouvons soit créer des règles en s’appuyant sur des connaissances de domaine, soit créer des classifieurs basés sur des méthodes d’apprentissage automatique.
Ce cours d’ouverture, destiné à tous les élèves de l’ENS, a pour objectif d’introduire les différentes technologies en fouille de texte et les ressources existantes pour étudier les divers sujets autours des Conférencesdes Parties (COP) liés à l’environnement dans les données textuelles et peu exploitées.
Nous découvrirons ensemble différentes discussions dans les textes pour identifier des pistes de recherche. Nous travaillerons aussi sur l’intégration des données hétérogènes pour alimenter des projets de recherche multidisciplinaires.
Le but du cours est de fournir une formation sur des compétences de base en traitement des textes et une expérience concrète d’application de l’intelligence artificielle pour la recherche sur l’environnement. Les codes seront préparés donc pas de compétence en programmation nécessaire.
Date
|
Sujet
|
Durée
|
08/03
|
Cours : Introduction sur les COPs et le social crowdsensing
|
2h
|
15/03
|
TD : Introduction sur les traces digitales (EPPO Global Database, les données sur les rendements et sur les prix) et les APIs différents (API Géorisques, Twitter, New York Times, OpenStreetMap, Reddit, CrossRef, Wikipedia)
|
2h
|
22/03
|
Cours : Introduction sur les graphes de connaissance pour l’environnement. En informatique et en science de l’information, un graphe de connaissance est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné. Par exemple, AGROVOC est un vocabulaire contrôlé multilingue conçu pour englober les concepts et la terminologie sur l’agriculture afin de faciliter l’accès et la visibilité des données à travers les domaines et les langues.
|
2h
|
29/03
|
TD : Exploration des les graphe de connaissance avec SparQL. SPARQL est un langage de requête et un protocole qui permet de rechercher, d’ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet.
|
2h
|
05/04
|
Cours : introduction au traitement du langage naturel – vectorisation de texte
Cas d’étude : les textes sur la santé du végétal
|
2h
|
19/04
|
Cours : introduction au traitement du langage naturel – apprentissage automatique
Cas d’étude : évolutions des opinions sur la biodiversité
|
2h
|
TBD / office hours
|
TP : fouille de textes sur Twitter / Reddit / New York Times au tour de COP 15/ COP27
Les élèves proposent des idées de recherche et essaient d’identifier des sources de données.
|
2h
|
10/05
|
Présentations à mi-parcours des élèves sur leurs découverts de la séance précédant
|
2h
|
17/05
|
Cours : analyse des réseaux avec python, visualisation des données
Cas d’étude : un observatoire climatique basé sur les réseaux sociaux
|
2h
|
TBD / office hours
|
TP : développement de chaque projet
|
2h
|
TBD / office hours
|
TP : développement de chaque projet
|
2h
|
TBD, avant le 07/06
|
Présentation des projets
|
2h
|