Projets en cours


LabEx EFL (2011-2021)

Le LabEx EFL (Empirical Foundations of Linguistics), sous la responsabilité de Jacqueline Vaissière, est à la fois un projet ambitieux et un consortium d'équipes. Il vise à ouvrir de nouvelles perspectives par une approche intégrative. Il regroupe des équipes françaises de recherche de premier plan en linguistique théorique et appliquée, en linguistique computationnelle et en psycholinguistique, qui travailleront sur des actions de recherche, de formation et de valorisation des résultats.

ANR ASFALDA (2013--2015)

Le projet ASFALDA, dirigé par Marie Candito (Alpage) a pour objectif de construire à la fois un corpus du français annoté sémantiquement et des outils d'analyse sémantique de surface reposant sur des techniques d'apprentissage automatique exploitant le corpus. Les annotations sémantiques visées peuvent être approximativement caractérisées comme une explicitation de "qui fait quoi quand et où", en faisant abstraction de l'ordre des mots et des variations syntaxiques, et dans une certaine mesure de la variation lexicale inhérente à la langue.

ANR Polymnie (2013--2015)

Le projet ANR Polymnie porte sur l'étude et la mise en œuvre de la modélisation de phrases puis de textes (discours) dans un paradigme compositionnel qui prenne en compte leurs aspects de dynamicité et de structure. Ceci en analyse mais également en synthèse. Les travaux s'appuient pour ce faire sur le cadre formel des ACG. Le type de traitement applicatif visé relève du résumé automatique ou de la simplification de textes dans la limite de la modélisation des facultés linguistiques (et non inférentielles) que ces tâches requièrent.

Projet européen ICT COST PARSEME

L'objectif de ce projet est d'améliorer la représentativité linguistique, la précision et l'efficacité computationnelle d'applications du TAL, en se concentrant sur l'un des goulots d'étranglement majeurs: les entités polylexicales (multi-word expressions, MWE), c'est-à-dire les séquences de mots aux propriétés non prédictibles, telles que "se prendre une veste" ou "casser du surre surl e dos de". Des avancées sur leur modélisation et leur traitement sont attendues, grâce aux efforts coordonnés d'experts multidisciplinaires travaillant sur 14 langues.

Ce projet vise à faciliter le multilinguisme européen en (1) identifiant et créant un portail pour les ressources discursives en europe, et notamment des outils d'annotation, des moteurs de recherche et des corpus annotés discursivement; (2) caractérisant les dimensions et les propriétés des annotations discursives dans les corpus; (3) organisant ces propriétés dans une taxonomie partagée; (4) encourageant l'utilisation de cette taxonomie dans les travaux futurs d'annotation discursive, de recherche multilingue et de développement de dispositifs de structuration discursive; (5) promouvant l'utilisation du portail, de ses ressources et de la taxonomie partagée.

Projet "Investissements d'avenir" PACTE (2011--2014)

Le projet "Investissements d'avenir" PACTE, dirigé par l'entreprise Numen, vise l’amélioration de la performance des processus de capture textuelle (OCR, reconnaissance d’écriture manuscrite, saisie manuelle, rédaction) par l’utilisation du traitement de la langue, et plus spécifiquement des méthodes linguistiques statistiques et hybrides. Il concerne le domaine applicatif des projets de numérisation du patrimoine écrit, dans un contexte multilingue.

Projet FUI Combi

Combi se propose de réaliser une solution d'analyse de la relation client intégrant des méthodes de fouille de données structurées ou non, un module de raisonnement fondé sur l'intelligence artificielle et de produire automatiquement des rapports riches et variés. Alpage se focalise dans ce projet sur les aspects liés à la génération de textes.

ISO subcommittee TC37 SC4

The participation of Alpage (formerly Atoll) to French Technolangue action Normalangue has resulted in a strong implication in ISO subcommittee TC37 SC4 on "Language Resources Management". Eric de La Clergerie is participating regularly to ISO events and plays a role of expert (in particular on morpho-syntactic annotations (MAF), feature structures (FSR and new FSD), and on the new work item on syntactic annotations (SynAF)).


Anciens Projets


ANR EDyLex (2010 — 2012)

EDyLex (Enrichissement Dynamique de Lexiques) est un projet ANR financé par le programme STIC CONTINT 2009, porté par Alpage (Benoît Sagot)

ANR SEQUOIA (2009 — 2011)

Projet ANR DEFI porté par le LIF (Alexis Nasr, Marseille), autour de l'analyse syntaxique probabiliste pour le français.

ANR-DFG PerGram (2009 — 2011)

Projet SHS franco-allemand co-financé par l'ANR et la DFG, porté par Pollet Samvelian (Paris 3) et Stefan Müller (Freie Universität Berlin). Son objectif est l'étude linguistique et l'implementation d'une grammaire HPSG du Persan ainsi que le développement de ressources lexicales électroniques TAL pour cette langue.

Scribo (2008 — 2010)

Scribo (Semi-automatic and Collaborative Retrieval of Information Based on Ontologies) aims at algorithms and collaborative free software for the automatic extraction of knowledge from texts and images, and for the semi-automatic annotation of digital documents. Scribo has a total budget of 4.3M Euros and is partially funded by the French administration. It brings 9 participants together: AFP, CEA LIST, INRIA, LRDE (Epita), Mandriva, Nuxeo, Proxem, Tagmatica and XWiki.

ANR Annodis (2007 — 2010)

Le projet ANNODIS, piloté par Marie-Paule Péry-Woodley (Toulouse), a pour objectif la construction d'un corpus annoté et outillé. Ce corpus sera une référence pour l'étude de l'organisation du discours en français. Les annotations proposées se situent à deux niveaux d'analyse : la perspective ascendante qui part d'objets élémentaires (les unités minimales de discours) pour construire des structures plus complexes via les relations de discours, et la perspective descendante qui aborde le texte dans son entier et se base sur divers indices de surface pour identifier des structures discursives de haut niveau (macro-structures).

ANR Rhapsodie (Programme Corpus SHS)

L'ambition est de cette ANR, pilotée par Anne Lacheret, est de produire un corpus prosodique et syntaxique de référence pour le français parlé.

ANR MDCA Passage (2007 — 2009)

Projet ANR piloté par Alpage (Éric de La Clergerie) visant à Produire des Annotations SyntaxiqueS À Grande Échelle pour aller de l'avant.

ARC MOSAIQUE (2006 — 2007)

Cette Action INRIA de Recherche Coopérative s'intéresse au développement de modèles syntaxique de haut niveau, en considérant, en particulier, la notion de méta-grammaire.

Action LexSynt (2005 — 2007)

Cette action s'intéresse au développement de modèles linguistiques pour les lexiques syntaxiques et sémantiques, ainsi qu'à la constitution d'un lexique de référence pour le français. LexSynt est soutenu par l'ILF (Institut de la Langue Française).

Action BIOTIM (2003 — 2006)

Cette action s'inscrit dans le cadre de l' ACI «Masse de données» et concerne l'acquisition de connaissance à partir de collections botaniques comprenant du texte et des images. Les partenaires sont ATOLL et IMEDIA au sein de l'INRIA, IRD, INRA, LIFO et CNAM. Cette action est prévue pour 3 ans à partir de l'automne 2003. Elle poursuit une collaboration antérieure avec l' IRD.

Action NORMALANGUE (2003 — 2005)

Cette action s'inscrit dans le cadre du programme national Technolangue et concerne les questions de normalisation de ressources linguistiques.

Action EVALDA-EASY (2003 — 2005)

Cette action s'inscrit dans le cadre du programme national Technolangue et a concerné la mise en place d'une campagne d'évaluation d'analyseur syntaxique à laquelle a participé ATOLL.

KLING (2004 — 2006)

Dans le cadre du programme d'action franco-portugaise (PAI Pessoa), cette action fait suite à RELING et ORSLINSROC. Elle permet le financement de missions. Les objectifs sont de poursuivre notre collaboration avec l'équipe GLinT* dans le domaine de la linguistique en favorisant des échanges d'expertise dans les deux sens et en essayant de démarrer des applications linguistiques communes.

CATALINA-2 (2003)

Cette action s'est inscrite dans le cadre du programme d'actions intégrées franco-espagnol et relance la précédente action CATALINA. Elle a permi le financement de missions. Les objectifs étaient de poursuivre notre collaboration avec l'équipe COLE (Université de la Corogne, Espagne). Les thèmes de recherche portaient sur la technologie des analyseurs syntaxiques (en particulier pour les TAG), la notion de forêt partagée et la recherche d'information. Bien que cette action soit terminée et qu'elle ne puisse être renouvellée pour des raisons administrative, notre collaboration continue au travers de visites et d'accueils d'étudiants espagnols.

Action e-COTS (2001 — 2003)

Projet RNTL prévu sur 18 mois et comprenant ATOLL/INRIA, Thomson-CSF, EDF et Bull. Le projet porte sur la réalisation d'un portail Internet coopératif et ouvert pour la gestion d'information sur les composants logiciels.

ARC GENI (2002 — 2003)

Cette Action de Recherche Coopérative s'intéresse à la génération et aux techniques d'inférence fondées sur des éléments de sémantique lexicale améliorant la qualité de la génération.

ARC RLT (2001 — 2002)

Cette Action de Recherche Coopérative coordonnée par ATOLL est maintenant close. Elle s'est intéressée à l'acquisition semi-automatique de lexiques pour une grammaires d'arbres adjoints du français.

TermIT (1998 — 1999)

Un projet européen finançant une étude de faisabilité pour la construction de thesaurus multilingues dans le domaine culturel.

CATALINA ( 1997 — 1998 )

Financement de missions dans le cadre du programme d'action franco-espagnol PICASSO avec l'équipe COLE (Université de la Corogne, Espagne)

RELING ( — 1999) et ORLINSROC (2001)

Financements de missions dans le cadre de réseaux franco-portugais.


LANGUE/LANGUAGE

Calendrier

Lu Ma Me Je Ve Sa Di
27 28 01 02 03 04 05
06 07 08 09 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 01 02