Atelier Des mots pour les maux environnementaux

Des mots pour les maux environnementaux

Analyse des données textuelles produites sur les réseaux sociaux à propos des COP

Des mots pour les maux environnementaux:

Analyse des données textuelles produites sur les réseaux sociaux à propos des COP

 

Volume horaire : 24h

Semestre : S2

ECTS : 6 ECTS

Pre-requis : aucun

Mode de validation : travail individuel ou en petit groupe sur projet

Langue : Français (ou Anglais si une personne le demande)

Cours du soir – mercredi 18h-20h

Dates des cours : 08/03, 15/03, 22/03, 29/03, 05/04, 19/04, 10/05, 17/05 soutenances de validation avant le 07/06

Google Agenda des cours : 

https://calendar.google.com/calendar/u/0?cid=NmZkNzI5MWM1ZWExNmY0ZjEyZmQwYzNlODMxNWE5NGNmOTNjZGM5ZGUwZTFlOWUyZjk3ZDgxNTBhMjg4NGRkZUBncm91cC5jYWxlbmRhci5nb29nbGUuY29t

Responsable : Shufan JIANG

Salle : INFO 3

Les données textuelles, telles que des microblogs, des échanges dans les forums ou des articles des journaux, contiennent des informations contextualisées. Ces informations peuvent représenter les perceptions des différents acteurs sur les sujets d’environnement et peuvent servir comme une source de données complémentaire peu coûteuse pour des recherches qualitative ou quantitative. Pour extraire ces informations, nous pouvons soit créer des règles en s’appuyant sur des connaissances de domaine, soit créer des classifieurs basés sur des méthodes d’apprentissage automatique.

Ce cours d’ouverture, destiné à tous les élèves de l’ENS, a pour objectif d’introduire les différentes technologies en fouille de texte et les ressources existantes pour étudier les divers sujets autours des Conférencesdes Parties (COP) liés à l’environnement dans les données textuelles et peu exploitées. 

Nous découvrirons ensemble différentes discussions dans les textes pour identifier des pistes de recherche. Nous travaillerons aussi sur l’intégration des données hétérogènes pour alimenter des projets de recherche multidisciplinaires.

Le but du cours est de fournir une formation sur des compétences de base en traitement des textes et une expérience concrète d’application de l’intelligence artificielle pour la recherche sur l’environnement. Les codes seront préparés donc pas de compétence en programmation nécessaire.

 

Date

Sujet

Durée

08/03

Cours : Introduction sur les COPs et le social crowdsensing

2h

15/03 

TD : Introduction sur les traces digitales (EPPO Global Database, les données sur les rendements et sur les prix) et les APIs différents (API Géorisques, Twitter, New York Times, OpenStreetMap, Reddit, CrossRef, Wikipedia) 

2h

22/03

Cours : Introduction sur les graphes de connaissance pour l’environnement. En informatique et en science de l’information, un graphe de connaissance est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné. Par exemple, AGROVOC est un vocabulaire contrôlé multilingue conçu pour englober les concepts et la terminologie sur l’agriculture afin de faciliter l’accès et la visibilité des données à travers les domaines et les langues.

2h

29/03

TD : Exploration des les graphe de connaissance avec SparQL. SPARQL est un langage de requête et un protocole qui permet de rechercher, d’ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet.

2h

05/04 

Cours : introduction au traitement du langage naturel – vectorisation de texte 

Cas d’étude : les textes sur la santé du végétal

2h

19/04

Cours : introduction au traitement du langage naturel – apprentissage automatique

Cas d’étude : évolutions des opinions sur la biodiversité

2h

TBD / office hours

TP : fouille de textes sur Twitter / Reddit / New York Times au tour de COP 15/ COP27

Les élèves proposent des idées de recherche et essaient d’identifier des sources de données.

2h

10/05

Présentations à mi-parcours des élèves sur leurs découverts de la séance précédant

2h

17/05

Cours : analyse des réseaux avec python, visualisation des données

Cas d’étude : un observatoire climatique basé sur les réseaux sociaux

2h

TBD / office hours

TP : développement de chaque projet

2h

TBD / office hours

TP : développement de chaque projet

2h

TBD, avant le 07/06

Présentation des projets

2h

Contact

CERES

■ Adresse postale
CERES
École Normale supérieure
45 rue d’Ulm
F-75230 Paris cedex 05

■ Direction
Alessandra Giannini, Marc Fleurbaey

■  Reponsable pédagogique

2022-2023 : Marine Fauche : marine.fauche[at]cefe.cnrs.fr

2020-22 : Gaëlle Ronsin - gaelle.ronsin[at]gmail.com

■ Administration
Ouissem Trabelsi et Micheline Rialet

Plan