Ongoing projects

LabEx EFL (2011-2021)

The LabEx (excellency cluster) EFL "Empirical Foundations of Linguistics" (PI: Jacqueline Vaissière) is both an ambitious project and a consortium of many teams. It opens new perspectives by adopting an integrative approach. It groups together some of leading French research teams in theoretical and applied linguistics, in computational linguistics, and in psycholinguistics.

ANR ASFALDA (2013--2015)

The ASFALDA project, lead by Marie Candito (Alpage) aims to provide both a French corpus with semantic annotations and automatic tools for shallow semantic analysis, using machine learning techniques to train analyzers on this corpus. The target semantic annotations can be characterized roughly as an explicitation of “who does what when and where”, that abstracts away from word order / syntactic variation, and to some of the lexical variation found in natural language.

ANR Polymnie (2013--2015)

The ANR Polymnie focuses on studying and implementing the modeling of sentences and discourses in a compositional paradigm that takes into account their dynamics and their structures, both in parsing and in generation. To that end, the project relies on the ACG framework. The kind of processing intended relates to the automatic construction of summaries or to text simplification. This has to be considered in the limits of the modelling of the linguistic processes (as opposed to inferential processes, e.g.) these tasks involve.

European action ICT COST PARSEME

The aim of this project is to improve linguistic representativeness, precision and computational efficiency of Natural Language Processing (NLP) applications, focusing on the major bottleneck of these applications: Multi-Word Expressions (MWEs), i.e., sequences of words with unpredictable properties such as "to count somebody in" or "to take a haircut". A breakthrough in their modelling and processing is targeted, as the result of a coordinated effort of multidisciplinary experts working on fourteen different languages.

This action will facilitate European multilingualism by (1) identifying and creating a portal into discourse-level resources within Europe - including annotation tools, search tools, and discourse-annotated corpora; (2) delineating the dimensions and properties of discourse annotation across corpora; (3) organising these properties into a sharable taxonomy; (4) encouraging the use of this taxonomy in subsequent discourse annotation and in cross-lingual search and studies of devices that relate and structure discourse; and (5) promoting use of the portal, its resources and sharable taxonomy.

Industrial project ("Investissements d'avenir") PACTE (2011--2014)

The "Investissements d'avenir" project PACTE (Projet d’Amélioration de la Capture TExtuelle - text capture improvement project), lead by the company Numen, aims to improve the optical character recognition process, (OCR - handwritten, manually entered or drafted documents) using language processing and more specifically statistical and hybrid linguistic methods. It is related to applications for digitization projects handling written heritage, in a multi-lingual context.

Industrial project (FUI) Combi

Combi aims at building a solution for analyzing customer relation that involves techniques from structured or unstructured text mining, a reasoning module based on artificial intelligence, and the automatic generation of rich and diverse reports. Alpage focuses in this project on automatic text generation.

ISO subcommittee TC37 SC4

The participation of Alpage (formerly Atoll) to French Technolangue action Normalangue has resulted in a strong implication in ISO subcommittee TC37 SC4 on "Language Resources Management".

Anciens Projets

ANR EDyLex (2010 — 2012)

EDyLex (Enrichissement Dynamique de Lexiques) is an ANR project funded by the STIC CONTINT 2009 program, lead by Alpage (PI: Benoît Sagot)

ANR SEQUOIA (2009 — 2011)

ANR DEFI project lead by the LIF (PI: Alexis Nasr, Marseille), about probabilistic parsing for French.

ANR-DFG PerGram (2009 — 2011)

French-German project co-funded by ANR and DFG, lead by Pollet Samvelian (Paris 3) and Stefan Müller (Freie Universität Berlin). Its goals are the linguistic study and implementation of an HPSG grammar for Persian and the development of NLP lexical resources for this language.

Scribo (2008 — 2010)

Scribo (Semi-automatic and Collaborative Retrieval of Information Based on Ontologies) aims at algorithms and collaborative free software for the automatic extraction of knowledge from texts and images, and for the semi-automatic annotation of digital documents. Scribo has a total budget of 4.3M Euros and is partially funded by the French administration. It brings 9 participants together: AFP, CEA LIST, INRIA, LRDE (Epita), Mandriva, Nuxeo, Proxem, Tagmatica and XWiki.

ANR Rhapsodie (Programme Corpus SHS)

L'ambition est de cette ANR, pilotée par Anne Lacheret, est de produire un corpus prosodique et syntaxique de référence pour le français parlé.

ANR MDCA Passage (2007 — 2009)

Projet ANR piloté par Alpage (Éric de La Clergerie) visant à Produire des Annotations SyntaxiqueS À Grande Échelle pour aller de l'avant.

ARC MOSAIQUE (2006 — 2007)

Cette Action INRIA de Recherche Coopérative s'intéresse au développement de modèles syntaxique de haut niveau, en considérant, en particulier, la notion de méta-grammaire.

Action LexSynt (2005 — 2007)

Cette action s'intéresse au développement de modèles linguistiques pour les lexiques syntaxiques et sémantiques, ainsi qu'à la constitution d'un lexique de référence pour le français. LexSynt est soutenu par l'ILF (Institut de la Langue Française).

Action BIOTIM (2003 — 2006)

Cette action s'inscrit dans le cadre de l' ACI «Masse de données» et concerne l'acquisition de connaissance à partir de collections botaniques comprenant du texte et des images. Les partenaires sont ATOLL et IMEDIA au sein de l'INRIA, IRD, INRA, LIFO et CNAM. Cette action est prévue pour 3 ans à partir de l'automne 2003. Elle poursuit une collaboration antérieure avec l' IRD.

Action NORMALANGUE (2003 — 2005)

Cette action s'inscrit dans le cadre du programme national Technolangue et concerne les questions de normalisation de ressources linguistiques.

Action EVALDA-EASY (2003 — 2005)

Cette action s'inscrit dans le cadre du programme national Technolangue et a concerné la mise en place d'une campagne d'évaluation d'analyseur syntaxique à laquelle a participé ATOLL.

KLING (2004 — 2006)

Dans le cadre du programme d'action franco-portugaise (PAI Pessoa), cette action fait suite à RELING et ORSLINSROC. Elle permet le financement de missions. Les objectifs sont de poursuivre notre collaboration avec l'équipe GLinT* dans le domaine de la linguistique en favorisant des échanges d'expertise dans les deux sens et en essayant de démarrer des applications linguistiques communes.

CATALINA-2 (2003)

Cette action s'est inscrite dans le cadre du programme d'actions intégrées franco-espagnol et relance la précédente action CATALINA. Elle a permi le financement de missions. Les objectifs étaient de poursuivre notre collaboration avec l'équipe COLE (Université de la Corogne, Espagne). Les thèmes de recherche portaient sur la technologie des analyseurs syntaxiques (en particulier pour les TAG), la notion de forêt partagée et la recherche d'information. Bien que cette action soit terminée et qu'elle ne puisse être renouvellée pour des raisons administrative, notre collaboration continue au travers de visites et d'accueils d'étudiants espagnols.

Action e-COTS (2001 — 2003)

Projet RNTL prévu sur 18 mois et comprenant ATOLL/INRIA, Thomson-CSF, EDF et Bull. Le projet porte sur la réalisation d'un portail Internet coopératif et ouvert pour la gestion d'information sur les composants logiciels.

ARC GENI (2002 — 2003)

Cette Action de Recherche Coopérative s'intéresse à la génération et aux techniques d'inférence fondées sur des éléments de sémantique lexicale améliorant la qualité de la génération.

ARC RLT (2001 — 2002)

Cette Action de Recherche Coopérative coordonnée par ATOLL est maintenant close. Elle s'est intéressée à l'acquisition semi-automatique de lexiques pour une grammaires d'arbres adjoints du français.

TermIT (1998 — 1999)

Un projet européen finançant une étude de faisabilité pour la construction de thesaurus multilingues dans le domaine culturel.

CATALINA ( 1997 — 1998 )

Financement de missions dans le cadre du programme d'action franco-espagnol PICASSO avec l'équipe COLE (Université de la Corogne, Espagne)

RELING ( — 1999) et ORLINSROC (2001)

Financements de missions dans le cadre de réseaux franco-portugais.



Mo Tu We Th Fr Sa Su
30 01 02 03 04 05 06
07 08 09 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31 01 02 03