LANGUE/LANGUAGE
Calendrier
Lu | Ma | Me | Je | Ve | Sa | Di |
---|---|---|---|---|---|---|
26 | 27 | 28 | 29 | 01 | 02 | 03 |
04 | 05 | 06 | 07 | 08 | 09 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
01 | 02 | 03 | 04 | 05 | 06 | 07 |
2 postes ouverts
Type d'offre : Stage M2/Ingénieur en informatique, 6 mois, avril-septembre 2017, environ 512€ par mois.
Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris
Mots-clés : résolution d’entités, text mining, machine learning, information scientifique.
À propos d’Inria : INRIA, institut de recherche dédié au numérique, promeut « l'excellence scientifique au service du transfert technologique et de la société ». INRIA emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences informatiques et mathématiques. Son modèle ouvert et agile lui permet d’explorer des voies originales avec ses partenaires industriels et académiques. INRIA répond ainsi efficacement aux enjeux pluridisciplinaires et applicatifs de la transition numérique. INRIA est à l'origine de nombreuses innovations créatrices de valeur et d'emplois.
Description du stage :
Ce stage a pour cadre un projet retenu dans les « chantiers d’usage » d’ISTEX au sein du groupe de Laurent Romary (équipe INRIA Alpage). Notre projet vise à enrichir à grande échelle les corpus scientifiques ISTEX à l’aide de techniques d’extraction et d’annotations de documents que nous développons, basées sur des algorithmes d’apprentissage automatique. Le but de ces traitements est d’utiliser la littérature scientifique comme une base de connaissance permettant la génération automatique d’hypothèses scientifiques et d’assister les scientifiques dans leur travail de recherche.
Les extractions d’information réalisées sur les corpus scientifiques ISTEX nous permettent d’identifier de façon fiable un volume très important de métadonnées telles que le nom des auteurs, leurs affiliations ou encore des mentions de concepts ou de nomenclatures scientifiques (substances, procédés, etc.). Cependant, au delà de l’extraction automatique de telles informations brutes, la valeur ajoutée devient maximale en identifiant de façon univoque à quelles entités il est fait référence, c’est-à-dire en les liant à des bases de connaissance faisant autorité (souvent nommées « référentiels » : base d’auteurs, bases d’institutions, bases de composés chimiques, etc.).
Notre groupe développe une bibliothèque générique de résolution automatique d’entités basée sur de l’apprentissage automatique, impliquant matching flou, graphe, et distances entre structures hétérogènes. Le travail proposé consiste à appliquer et optimiser cette bibliothèque sur certaines données extraites du corpus ISTEX et de l’archive scientifique nationale HAL.
Le stage s’effectuera au sein de l’équipe Alpage de l’Inria Paris.
Formation et expérience souhaitées :
Contacts : Luca Foppiano – Patrice Lopez -
Type d'offre : Stage M2/Ingénieur en informatique, 6 mois, avril-septembre 2017, environ 500€ par mois
Lieu de travail: INRIA Paris, 2 rue Simone Iff, 75012 Paris
Mots-clés : text mining, recherche d’information, entités nommées, accords d’entreprise
À propos d’Inria : INRIA, institut de recherche dédié au numérique, promeut « l'excellence scientifique au service du transfert technologique et de la société ». INRIA emploie 2700 collaborateurs issus des meilleures universités mondiales, qui relèvent les défis des sciences informatiques et mathématiques. Son modèle ouvert et agile lui permet d’explorer des voies originales avec ses partenaires industriels et académiques. INRIA répond ainsi efficacement aux enjeux pluridisciplinaires et applicatifs de la transition numérique. INRIA est à l'origine de nombreuses innovations créatrices de valeur et d'emplois.
Description du stage :
Ce stage a pour cadre une collaboration avec la DARES (Direction de l’animation de la recherche, des études et des statistiques) du ministère du travail, de la formation professionnelle et du dialogue social. La DARES dispose d’un corpus national exhaustif d’accord d’entreprise d’environ 1 million de documents, qui s’enrichit de 80.000 nouveaux documents par an. Cette base documentaire offre donc la possibilité d’analyser et de mieux comprendre les mécanismes et évolutions du dialogue sociale en France sur une base quantitative, et dans un contexte d’évolution législatif important. Exploiter au mieux un tel volume de documents suppose cependant l’utilisation de techniques de fouille et d’analyse automatiques de textes à relativement grande échelle.
L’objectif du stage est d’expérimenter des outils de text mining et de recherche d’information développés par notre équipe INRIA Alpage sur un sous-ensemble de ce corpus. Nos outils se basent sur des techniques d’apprentissage automatiques et ne sont pas dépendantes d’un domaine particulier. Cette collaboration est l’opportunité d’évaluer l’application de ces outils génériques sur le domaine spécifique des accords d’entreprise, ceci recouvrant en particulier la reconnaissance d’entités nommées, la disambiguisation et la résolution d’entités par rapport à un référentiel comme Wikipedia, l’extraction automatique de termes et catégories clefs et l’indexation du sous-corpus annoté pour une interface de recherche sémantique. Idéalement ce travail mettra en évidence les capacités et les limites de nos algorithmes, et donc les besoins en customisation et reconnaissances d’entités plus spécifiques.
Le stage s’effectuera au sein de l’équipe Alpage dans les locaux de l’Inria Paris.
Formation et expérience souhaitées :
Contacts : Patrice Lopez -
Lu | Ma | Me | Je | Ve | Sa | Di |
---|---|---|---|---|---|---|
26 | 27 | 28 | 29 | 01 | 02 | 03 |
04 | 05 | 06 | 07 | 08 | 09 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
01 | 02 | 03 | 04 | 05 | 06 | 07 |