L’Institut national de l’information géographique et forestière (IGN) est un établissement public à caractère administratif placé sous la tutelle des ministères chargés de l’écologie et de la forêt. Sa vocation est de produire et diffuser des données (open data) et des représentations (cartes en ligne et papier, géovisualisation) de référence relatives à la connaissance du territoire national et des forêts françaises ainsi qu'à leur évolution.
Grâce à son école d’ingénieurs, l'ENSG-Géomatique, et à ses équipes de recherche pluridisciplinaires, l’institut cultive un potentiel d’innovation de haut niveau dans plusieurs domaines (géodésie, forêt, photogrammétrie, intelligence artificielle, analyse spatiale, visualisation 3D, etc.).
Contexte
Ce stage s’inscrit dans un ensemble de travaux visant à proposer une méthodologie générique et reproductible pour la construction d’une base de connaissances géohistorique des voies et des adresses à partir des documents historiques ou de données publiées sur le Web qui contiennent des informations hétérogènes et fragmentaires. De nombreuses informations sur les rues anciennes se présentent sous la forme de textes : de nombreux corpus textuels (dictionnaires des rues de Paris, bulletin officiel de la ville de Paris...) qui décrivent l’évolution des rues et des adresses (création, disparition, renommage, extension d’une rue...) sont aujourd’hui accessibles en ligne. Les informations qu’ils renferment renseignent à la fois sur l’état des rues ou des adresses à une période donnée ou bien sur les événements qui conduisent à leur évolution. Mais à ce stade, ces informations ne sont pas structurées et sont donc difficilement exploitables pour retrouver l’état d’une rue ou d’une adresse à une date donnée ou bien encore reconstituer leur généalogie de façon automatique.
Depuis quelques années, les grands modèles de langue (Large Language Models) génératifs sont de plus en plus utilisés pour reconnaître et structurer des données à partir de textes et alimenter des graphes de connaissances.
Missions
Ce stage vise à explorer et adapter ces approches fondées sur des LLM pour produire des données structurées sur l’évolution des rues de Paris du 17ème siècle à nos jours à partir de corpus textuels décrivant la ville et ses rues. Le stagiaire devra :
Identifier et rassembler un corpus de textes pertinents sur les rues et les adresses parisiennes sur la période d’étude.
Identifier une ou plusieurs approches fondées sur des LLM pour peupler des ontologies à partir de textes, tester sur le corpus.
Adapter, tester et évaluer la ou les approches identifiées pour l’ontologie PeGazUs, sur le corpus constitué.
Profil recherché
étudiant ou étudiante, M2 ou ingénieur en 3ème année.
Conditions particulières
sans objet
Atouts de l’environnement de travail
Sur le campus de l'Université Gustave Eiffel, accès facile par le RER A. Accès aux bibliothèques, au restaurant universitaire et au restaurant de l'entreprise.
Contact
Pour tout renseignement complémentaire :
Charly Bernard (charly.bernard@ign.fr)
Nathalie Abadie (nathalie-f.abadie@ign.fr)
Aucune candidature envoyée à ces mails ne sera prise en compte.
Merci de postuler à cette offre en cliquant sur "Je postule"