2 postes ouverts

RÉSOLUTION D’ENTITÉS SCIENTIFIQUES POUR LE TEXT MINING

Type d'offre : Stage M2/Ingénieur en informatique, 6 mois, avril-septembre 2017, environ 512€ par mois.

Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris

Mots-clés : résolution d’entités, text mining, machine learning, information scientifique.

À propos d’Inria : INRIA, institut de recherche dédié au numérique, promeut « l'excellence scientifique au service du transfert technologique et de la société ». INRIA emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences informatiques et mathématiques. Son modèle ouvert et agile lui permet d’explorer des voies originales avec ses partenaires industriels et académiques. INRIA répond ainsi efficacement aux enjeux pluridisciplinaires et applicatifs de la transition numérique. INRIA est à l'origine de nombreuses innovations créatrices de valeur et d'emplois.

Description du stage :

Ce stage a pour cadre un projet retenu dans les « chantiers d’usage » d’ISTEX au sein du groupe de Laurent Romary (équipe INRIA Alpage). Notre projet vise à enrichir à grande échelle les corpus scientifiques ISTEX à l’aide de techniques d’extraction et d’annotations de documents que nous développons, basées sur des algorithmes d’apprentissage automatique. Le but de ces traitements est d’utiliser la littérature scientifique comme une base de connaissance permettant la génération automatique d’hypothèses scientifiques et d’assister les scientifiques dans leur travail de recherche.

Les extractions d’information réalisées sur les corpus scientifiques ISTEX nous permettent d’identifier de façon fiable un volume très important de métadonnées telles que le nom des auteurs, leurs affiliations ou encore des mentions de concepts ou de nomenclatures scientifiques (substances, procédés, etc.). Cependant, au delà de l’extraction automatique de telles informations brutes, la valeur ajoutée devient maximale en identifiant de façon univoque à quelles entités il est fait référence, c’est-à-dire en les liant à des bases de connaissance faisant autorité (souvent nommées « référentiels » : base d’auteurs, bases d’institutions, bases de composés chimiques, etc.).

Notre groupe développe une bibliothèque générique de résolution automatique d’entités basée sur de l’apprentissage automatique, impliquant matching flou, graphe, et distances entre structures hétérogènes. Le travail proposé consiste à appliquer et optimiser cette bibliothèque sur certaines données extraites du corpus ISTEX et de l’archive scientifique nationale HAL.

Le stage s’effectuera au sein de l’équipe Alpage de l’Inria Paris.

Formation et expérience souhaitées :

  • Dernière année master ou école d’ingénieur en informatique
  • Compétences en programmation Java
  • Intérêt pour le machine learning
  • Capacité à travailler en équipe
  • Bon niveau d’anglais

Contacts : Luca Foppiano – Patrice Lopez -

TEXT MINING APPLIQUÉ AUX ACCORDS D’ENTREPRISE

Type d'offre : Stage M2/Ingénieur en informatique, 6 mois, avril-septembre 2017, environ 500€ par mois

Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris

Mots-clés : text mining, recherche d’information, entités nommées, accords d’entreprise

À propos d’Inria : INRIA, institut de recherche dédié au numérique, promeut « l'excellence scientifique au service du transfert technologique et de la société ». INRIA emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences informatiques et mathématiques. Son modèle ouvert et agile lui permet d’explorer des voies originales avec ses partenaires industriels et académiques. INRIA répond ainsi efficacement aux enjeux pluridisciplinaires et applicatifs de la transition numérique. INRIA est à l'origine de nombreuses innovations créatrices de valeur et d'emplois.

Description du stage :

Ce stage a pour cadre une collaboration avec la DARES (Direction de l’animation de la recherche, des études et des statistiques) du ministère du travail, de la formation professionnelle et du dialogue social. La DARES dispose d’un corpus national exhaustif d’accord d’entreprise d’environ 1 million de documents, qui s’enrichit de 80.000 nouveaux documents par an. Cette base documentaire offre donc la possibilité d’analyser et de mieux comprendre les mécanismes et évolutions du dialogue sociale en France sur une base quantitative, et dans un contexte d’évolution législatif important. Exploiter au mieux un tel volume de documents suppose cependant l’utilisation de techniques de fouille et d’analyse automatiques de textes à relativement grande échelle.

L’objectif du stage est d’expérimenter des outils de text mining et de recherche d’information développés par notre équipe INRIA Alpage sur un sous-ensemble de ce corpus. Nos outils se basent sur des techniques d’apprentissage automatiques et ne sont pas dépendantes d’un domaine particulier. Cette collaboration est l’opportunité d’évaluer l’application de ces outils génériques sur le domaine spécifique des accords d’entreprise, ceci recouvrant en particulier la reconnaissance d’entités nommées, la disambiguisation et la résolution d’entités par rapport à un référentiel comme Wikipedia, l’extraction automatique de termes et catégories clefs et l’indexation du sous-corpus annoté pour une interface de recherche sémantique. Idéalement ce travail mettra en évidence les capacités et les limites de nos algorithmes, et donc les besoins en customisation et reconnaissances d’entités plus spécifiques.

Le stage s’effectuera au sein de l’équipe Alpage dans les locaux de l’Inria Paris.

Formation et expérience souhaitées :

  • Dernière années master ou école d’ingénieur en informatique
  • Compétences en programmation, Java étant un plus
  • Intérêt pour l’apprentissage automatique et la recherche d’information
  • Capacité à travailler en équipe
  • Bon niveau de française et d’anglais technique

Contacts : Patrice Lopez -


LANGUE/LANGUAGE

Calendrier

Lu Ma Me Je Ve Sa Di
26 27 28 29 01 02 03
04 05 06 07 08 09 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
01 02 03 04 05 06 07