L’Institut national de l’information géographique et forestière (IGN) est un établissement public à caractère administratif placé sous la tutelle des ministères chargés de l’écologie et de la forêt. Sa vocation est de produire et diffuser des données (open data) et des représentations (cartes en ligne et papier, géovisualisation) de référence relatives à la connaissance du territoire national et des forêts françaises ainsi qu'à leur évolution.

Grâce à son école d’ingénieurs, l'ENSG-Géomatique, et à ses équipes de recherche pluridisciplinaires, l’institut cultive un potentiel d’innovation de haut niveau dans plusieurs domaines (géodésie, forêt, photogrammétrie, intelligence artificielle, analyse spatiale, visualisation 3D, etc.).


Contexte

Le géocodage, soit l'attribution de coordonnées géographiques à des descriptions textuelles de lieux, est une tâche d’information retrieval essentielle pour les sciences de l'information géographique. Elle est une étape cruciale dans les chaînes de traitement et d’analyse de nombreux domaines, scientifique ou techniques, de la recherche en sciences sciences sociales aux acteurs de l’aménagement du territoire car il permet de cartographier automatiquement de grandes quantités de ressources diverses : documents, tweets, etc.
Si de nombreux outils grand-public intègrent un géocodeur (ex. Nominatim pour OpenstreetMap, Mes Adresses pour l’IGN, Google Maps), plusieurs défis persistent, en particulier le géocodage de descriptions textuelles complexes ou imprécises, la prise en compte des relations spatiales relatives (ex. « en face de... ») ou encore le géocodage de lieux historiques n’existant plus dans les bases de données actuelles.

L'avènement des (grands) modèles de langage ouvre de nouvelles perspectives pour surmonter ces obstacles en apportant une capacité de compréhension fine et contextuelle des descriptions complexes de lieux. Ce stage vise deux objectifs. D’abord, réaliser une preuve de concept de géocodeur fondé sur une approche index-retrieve-rank classique exploitant des plongements lexicaux de textes / documents. Celui-ci servira de baseline pour explorer le potentiel d’une approche émergente : la recherche d'information générative. Celle-ci est dite end-to-end car elle consiste à exploiter les capacités génératives d’un LLM pour prédire directement l’identifiant du document correspondant à une requête donnée. Outre le fait de réduire les étapes de traitement, cette approche laisse espérer des gains conséquents pour le géocodage de descriptions complexes. Le verrou principal de cette expérimentation réside dans la proposition d’identifiants  de ressources (docId) encodant une connaissance géographique.

Ce stage de recherche s’insérera dans une dynamique de recherche interdisciplinaire déjà en place entre le LASTIG de l’IGN et le Centre de Recherches Historique de l’EHESS et bénéficiera d’un cadre de travail résultant d’une collaboration de longue durée entre les deux équipes de recherche.

Missions

Afin d’entraîner les modèles et évaluer les approches, le stage exploitera un jeu de données géohistorique produit par le projet ANR TopUrbi contenant les descriptions et localisations de près de 15 000 lieux de l’empire hispanique au XVIIIe siècle.

Inscrit dans une démarche de science ouverte, l’intégralité des codes et modèles seront déposés en open source/data sur des plateformes ouvertes.
Missions :
- créer une preuve de concept d’un outil de géocodage index-retrieve-rank exploitant un modèle de langage & évaluer les performances de cette approche ;
- concevoir, entraîner et évaluer un LLM de recherche d'information générative pour le géocodage, en proposant une approche de création d’identifiants de ressources « géographiques » ;
- réaliser une étude comparative des approches testées ;

 

Profil recherché

étudiant ou étudiante, M2 ou ingénieur en 3ème année. 

Conditions particulières

sans objet

Atouts de l’environnement de travail

Sur le campus de l'Université Gustave Eiffel, accès facile par le RER A. Accès aux bibliothèques, au restaurant universitaire et au restaurant de l'entreprise. 

Contact

Pour tout renseignement complémentaire :

Nathalie Abadie (nathalie-f.abadie@ign.fr)

Julien Perret (julien.perret@ign.fr)

Aucune candidature envoyée à ces adresses mails ne sera traitée. Merci de postuler à cette offre en cliquant sur « Je postule »

Je postule