Séminaire Alpage

Il s'agit du séminaire de recherche en linguistique informatique organisé par l'équipe Alpage.

Dates : irrégulièrement le vendredi, de 11h à 12h30

Lieu : Bâtiment Olympe de Gouges, rue Albert Einstein, 75013 - métro Bibliothèque (cf. visualisation sous google map)

Toute personne intéressée est la bienvenue.

Programme



21 Octobre 2016: Barbara Plank (University of Groningen)

Processing non-canonical data: Deep Learning Meets Fortuitous Data

Bâtiment Olympe de Gouge, salle : 357

abstract: Successful Natural Language Processing (NLP) depend on large amounts of annotated training data, that is abundant, completely labeled and preferably canonical. However, such data is only available to a limited degree. For example for parsing, annotated treebank data is only available for a limited set of languages and domains. This is the fundamental problem of data sparsity.

In this talk, I review the notion of canonicity, and how it shapes our community's approach to language. I argue for leveraging what I call fortuitous data, i.e., non-obvious data that is hitherto neglected, hidden in plain sight, or raw data that needs to be refined. For example, keystroke dynamics have been extensively used in psycholinguistics and writing research. But do keystroke logs contain actual signal that can be used to learn better NLP models? I will present recent work on keystroke dynamics to improve shallow syntactic parsing. I will also present recent work on using bi-LSTMs for POS tagging, which combines the POS tagging loss function with an auxiliary loss function that accounts for rare words and achieves state-of-the-art performance across 22 languages.

References:

1 Barbara Plank. What to do about non-standard (or non-canonical) language in NLP. In KONVENS 2016. Bochum, Germany.

2 Barbara Plank, Anders Søgaard and Yoav Goldberg. Multilingual Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Models and Auxiliary Loss. In ACL, 2016. Berlin, Germany.

3 Barbara Plank. Keystroke dynamics as signal for shallow syntactic parsing. In Proceedings of the 26th International Conference on Computational Linguistics (COLING), 2016. Osaka, Japan.


30 septembre 2016: Grzegorz Chrupala (Tilburg University)

Investigating language representations in visually grounded neural models

Bâtiment Olympe de Gouge, salle : 130

Abstract: The task of learning language in a visually-grounded setting, with weak and noisy supervision, is of interest to scientists trying to understand the human mind as well as to engineers trying to build smart conversational agents or robots. In this talk I present models of grounded language learning based on recurrent neural networks which learn language from sentences paired with images of corresponding visual scenes. Input sentences are given at different levels of granularity: as sequences of words, sequences of phonemes, or as an acoustic signal. I evaluate the internal representations induced by the models in these scenarios and present quantitative and qualitative analyses of their characteristics. I show how they encode language form and function, and specifically how they are selectively sensitive to certain aspects of language structure such as word boundaries, lexical categories and grammatical functions.


3 juin 2016: Alain Polguère (ATILF, CNRS, Université de Lorraine, IUF)

Visite guidée dans la phraséologie des Systèmes Lexicaux

NB: le séminaire est bien maintenu malgré la grève SNCF, en salle 118 à OdG

Bâtiment OdG, salle : 118

Résumé: Un Système Lexical d’une langue donnée est un modèle du lexique de cette langue qui obéit à un ensemble de contraintes formelles, notamment : structuration en graphe dit « petit-monde », non taxinomique, dont les sommets sont en tout premier lieu les unités lexicales de la langue et les arcs les liens lexicaux paradigmatiques et syntagmatiques universaux appelés fonctions lexicales ; non-atomicité des sommets, qui encapsulent l’information correspondant à toutes les propriétés individuelles des unités lexicales ; stricte formalisation, qui rend le modèle calculable – par exemple, pour la génération automatique de modèles dérivés (dictionnaires, bases lexicales pour le TAL, visualisations graphiques...) ou le raisonnement analogique sur la connaissance lexicale. En 2010, a débuté au laboratoire ATILF un projet à long terme visant la construction lexicographique de Systèmes Lexicaux et l’exploitation de ces modèles aussi bien pour la recherche que pour diverses applications, telles que l’enseignement des langues et le TAL. Le Système Lexical dont la construction lexicographique est la plus avancée est le Réseau Lexical du Français RL-fr. Notre intervention portera sur la modélisation des expressions phraséologiques dans les Systèmes Lexicaux, avec une focalisation sur le RL-fr. Nous considérerons simultanément la typologie des phrasèmes du RL-fr, leur mode d’encodage dans la ressource lexicale et leurs possibles exploitations.

25 Mars 2016: Ophélie Lacroix (LIMSI, CNRS)

Apprentissage partiel de dépendances syntaxiques et application au transfert cross-lingue

Résumé : L'apprentissage supervisé est largement utilisé dans le domaine du TAL mais requiert l'exploitation de données correctement annotées. Nous nous intéressons en particulier au cas de l'analyse syntaxique en dépendances et montrons qu'il est possible d'apprendre un analyseur par transition à partir de données partiellement annotées. Ce procédé est notamment profitable dans le cas du transfert d'annotations cross-lingue pour lequel les informations syntaxiques (les dépendances) sont projetées d'une langue source (bien dotée) à une langue cible (peu dotée) via des liens d'alignements. Les données partiellement annotées générées à partir de cette méthode permettent d'apprendre des analyseurs en dépendances pour les langues ciblées. Cette méthode simple de transfert obtient des performances qui rivalisent avec celles de méthodes état-de-l'art récentes, tout en ayant un coût algorithmique moindre.

25 Mars 2016: Alexandra Simonenko (Labex EFL, Alpage, Lattice)

Null subject loss and subject agreement syncretisation: quantificational models for Medieval French ?

abstract: This work examines quantitative and structural relations between the availability of null subjects and the “richness” of verbal subject agreement, known as Taraldsen’s Generalisation (Taraldsen 1980), from the point of view of grammar change in Medieval French based on corpus data. The original generalisation states that a language having rich (i.e. non-syncretic) subject agreement implies the possibility of non-expression of subjects. The loss of non-syncretic agreement has been considered as a trigger for the null subject loss in Medieval French (Ewert 1943, Vennemann 1975, Mathieu 2006). We present the first quantitative model of the syncretisation of verbal subject agreement in Medieval French and consider it, together with a model of the loss of null subjects, against the backdrop of the synchronic treatments of null subjects which commonly involve a functional head specified with person features which makes possible null subjects. Specifically, we investigate the diachronic variation in subject non-/syncretic agreement and null/overt subjects as a competition between an old grammar with a verbal head specified for person features and a new grammar without such head. We show that the two changes proceeded at the same rate. On the Constant Rate Hypothesis of Kroch (1989), which states that a grammatical change has the same rate in different contexts, these results support approaches that view non-syncretic agreement and null subjects as manifestations of the same grammar. We also flesh out a model of the diachronic interaction between verbal endings and subject expression building on Yang’s (2010) model of child language acquisition. According to this model, the appearance of syncretic endings creates a disadvantage for the original null subject grammar but not for its competitor, which eventually drives the former to extinction.

11 Mars 2016: Sylvain Kahanne (Univ. Nanterre, CNRS)

Que représentent les représentations syntaxiques ?

Résumé: Nous aborderons diverses questions sur les représentations syntaxiques. Nous comparerons la façon dont les représentations syntaxiques en dépendance et en constituants encodent la façon dont les signes linguistiques se combinent. Nous définirons les dépendances syntaxiques comme des classes d'équivalence de combinaisons et nous montrerons, à travers l'opération de réification, qu'un schéma de constituance (comme S -> NP VP) est avant tout une instance particulière d'une relation de dépendance (comme la relation subjectale) (Gerdes & Kahane 2011 réinterprété). Ceci nous permettra d'interpréter et de comparer une grande diversité de représentations syntaxiques proposées depuis Clark (1847) jusqu'aux polygraphes de Kahane & Mazziotta (2015), en passant par des stemmas méconnus de Tesnière (1934, 1959) ou les structures de Gladkij (1968) (que préfiguraient les descriptions de Beauzée 1765). Une ébauche de grammaire polygraphique sera proposée.

''(travaux en collaboration avec Nicolas Mazziotta et Kim Gerdes) ''

26 Février 2016: Anais Lefeuvre-Halftermeyer (Univ. Paris Sorbonne)

Représentation sémantique des temps conjugués : adaptation d'un système compositionnel pour le français

Abstract: Nos travaux s’intéressent à l’analyse automatique de la sémantique des temps verbaux du français. Disposant d’un analyseur syntaxique et sémantique à large échelle du français, GRAIL (Moot 2001), basé sur les grammaires catégorielles et la sémantique compositionnelle (λ-DRT) (Moot &Retoré 2012), notre tâche a été de prendre en compte les temps des verbes pour reconstituer la temporalité des événements et des états, notions regroupées sous le termes d’éventualité. Cette thèse se concentre sur la construction d’un lexique sémantique traitant des temps verbaux du français. Nous proposons une extension et une adaptation du système d’opérateurs compositionnels conçu pour les temps du verbe anglais nommé Binary Tense (Verkuyl 2008), aux temps et à l’aspect du verbe français du XIXème siècle à nos jours. Cette formalisation est de facto opérationnelle, car elle est définie en terme d’opérateurs du λ-calcul dont la composition et la réduction, déjà programmées, calculent automatiquement les représentations sémantiques souhaitées, des formules multisortes de la logique d’ordre supérieur. Le Passage de l’énoncé comportant une éventualité seule au discours, dont le maillage référentiel est complexe, est discuté et nous concluons par les perspectives qu’ouvre nos travaux pour l’analyse du discours.

5 Février 2016: Tal Linzen (Ecole Normale Supérieure, Paris)

Do distributional word vector representations encode logical features?

Abstract: Unsupervised vector-space models of semantics represent the meaning of a word as a real-valued vector derived from the contexts in which the word occurs. Evaluation of such models typically focuses on their representation of concrete words and conceptual knowledge ("dog", "animal"); indeed, it is often argued that distributional representations are unlikely to be adequate for words that are involved in logical inference, such as quantifiers or modals. In this talk, I will report on an ongoing investigation of the vector representations of such words, focusing on the test cases of quantifiers and attitude verbs. I will show that that those representations to a large extent do encode the logical features proposed in formal semantics, such as quantificational force ("everywhere" vs. "somewhere") or factivity ("believe" vs. "know"). Not all vector spaces perform equally well, raising the possibility that this success on this task can be used as an evaluation metric for word representations.

13 novembre 2015: Roberto Navigli (Sapienza University - Roma)

BabelNet et ses amis: création du plus grand réseau sémantique, désambiguïsation multilingue et un jeu vidéo avec un but

Résumé : Dans cet exposé nous allons introduire BabelNet 3.5, la version la plus récente du plus grand réseau sémantique multilingue. BabelNet, qui est obtenu par un algorithme de liaison sémantique qui intègre WordNet, Wikipédia, Wiktionnaire, OmegaWiki, Wikidata et des dizaines de wordnets dans d'autres langues. Le reseau contient 14 millions de concepts et entités nommées, 272 langues, 11 millions d’images, 380 millions de relations sémantiques.

Dans la deuxième partie de cet exposé nous allons présenter Babelfy, un système intégré de désambiguïsation lexicale et de entity linking basé sur des algorithmes de graphes. Comme les interprétations sémantiques sont obtenus à partir de BabelNet, la désambiguïsation peut être effectuée dans toutes les langues, y compris une option de langue agnostique.

Dans la dernière partie de l'exposé, je présenterai BabelTag, un jeu vidéo pour les smartphones dont le but est de valider et d'enrichir BabelNet avec des connaissances de haute qualité.


6 novembre 2015: Maximin Coavoux (Alpage - Université Paris Diderot/INRIA)

Apprentissage profond pour l'analyse en constituants par transition : modèles locaux et modèles globaux

La présentation portera sur l'analyse syntaxique en constituants par transition à l'aide de méthodes statistiques, et se focalisera sur les modèles de pondération de type réseaux de neurones. Dans une première partie, nous présenterons un analyseur syntaxique entièrement supervisé basé sur des représentations distribuées (embeddings). Il utilise un modèle de pondération local et un décodage glouton. Nous présenterons ensuite une extension de ce modèle au cas de l'apprentissage structuré et de la recherche par faisceau. Nos expériences confrontent ces modèles à des méthodes de pondérations basées sur le perceptron. La dernière partie, plus succincte, évoquera deux travaux en cours destinés à améliorer l'analyse en constituants : l'entraînement à l'aide d'un oracle dynamique et l'utilisation de représentations distribuées basées sur les caractères.

Les travaux présentés sont réalisés en collaboration avec Benoît Crabbé.


16 octobre 2015: Matthieu Constant (Université Paris-Est, en délégation à Alpage)

Expressions polylexicales et analyse syntaxique statistique

Cette présentation vise à faire un point sur nos travaux de recherche combinant l'analyse des expressions polylexicales avec l'analyse syntaxique au moyen de méthodes statistiques. Dans un premier temps, nous décrirons les expressions polylexicales dans toute leur diversité et montrerons comment leur analyse s'entremêle avec l'analyse syntaxique. Nous montrerons ensuite diverses expériences combinant ces deux analyses au moyen de stratégies statistiques supervisées. Ces méthodes étant limitées en termes de couverture et de finesse d'analyse des expressions polylexicales, nous évoquerons quelques pistes que nous souhaitons explorer dans le futur. En particulier, nous décrirons le projet PARSEME-FR qui vise à développer de nouvelles ressources et de nouveaux traitements syntaxico-sémantiques des expressions polylexicales pour le français.

Cette présentation est le fruit d'un travail collaboratif avec M. Candito, J. Le Roux, Y. Parmentier, C. Ramisch, A. Savary, A. Sigogne, I. Tellier, N. Tomeh, P. Watrin.


2 octobre 2015: Lucie Barque (Alpage - Université Paris 13)

Morphologie dérivationnelle et polysémie : vers un lexique morpho-sémantique pour le TAL

Slides : slides of the talk

Le projet PolyMorph vise la construction pour le français d’une ressource morpho-sémantique à large couverture dédiée à la désambiguïsation lexicale automatique. Construite à partir de ressources existantes, elle aura pour caractéristique principale de proposer un découpage à gros grain des sens lexicaux qui respecte les liens de dérivations morphologiques entre sens d’unités dérivées (ex. allumette, distributeur, plumage) et sens de leur(s) base(s) (allumer, distribuer, plumer/plume). Dans cette présentation, j’évoquerai tout d’abord les méthodes de classification sémantiques envisagées pour les catégories à décrire (noms et verbes), puis je parlerai des liens entre dérivation morphologique et polysémie et de l’intérêt de les exploiter pour guider un prédécoupage automatique des sens.


25 septembre 2015: Yoav Goldberg (Bar Ilan University)

Understanding Neural Word Embeddings

Slides : Fichier joint inexistant sur cette page

Neural word embeddings, such as word2vec (Mikolov et al., 2013), have become increasingly popular in both academic and industrial NLP. These methods attempt to capture the semantic meanings of words by processing huge unlabeled corpora with methods inspired by neural networks and the recent onset of Deep Learning. The result is a vector representation of every word in a low-dimensional continuous space. These word vectors exhibit interesting arithmetic properties (e.g. king - man + woman = queen) (Mikolov et al., 2013), and seemingly outperform traditional vector-space models of meaning inspired by Harris's Distributional Hypothesis (Baroni et al., 2014). Our work attempts to demystify word embeddings, and understand what makes them so much better than traditional methods at capturing semantic properties.

Our main result shows that state-of-the-art word embeddings are actually "more of the same". In particular, we show that skip-grams with negative sampling, the latest algorithm in word2vec, is implicitly factorizing a word-context PMI matrix, which has been thoroughly used and studied in the NLP community for the past 20 years. We also identify that the root of word2vec's perceived superiority is a collection of design choices and hyperparameter settings, which can be ported to distributional methods, yielding similar gains. Among our qualitative results are a method for observing the salient contexts of a given word-vector, and the answer to why king - man + woman = queen. We also show task-specific extensions to the word2vec model, achieving improved accuracy for specific tasks.


19 juin 2015: Yuval Marton (Microsoft)

Distributional Paraphrasing with Distributional and Hybrid Semantic Distance Measures

Semantic distance measures estimate how close in meaning two words or phrases (or larger text units) are. These measures are useful in paraphrase generation, which in turn, is useful in NLP tasks such as statistical machine translation (SMT), information retrieval (IR), syntactic parsing, summarization and language generation. I will start with presenting semantic measures: Lexicon-based semantic measures rely a dictionary, thesaurus, or taxonomy (e.g., WordNet), while distributional measures rely instead only on word distributions in a large corpus of non-annotated text (word2vec being a recent example). Lexicon-based measures tend to have higher correlation with human judgments, but lower coverage than distributional measures, especially for multi-word terms, specialized domains, resource-poor ("low density") languages, or non-classical semantic relations. Therefore, we are motivated to explore hybrid lexicon/corpus-based models that would benefit from both worlds. Previous work used shallow thesaurus-based “concepts” (lists of related words) for defining a coarse-grained aggregated distributional representation. I will show that finer granularity, in hybrid models, can benefit from concept information while retaining high-coverage word-based distributional representation. Next, I will present a largely language-independent distributional paraphrase generation method, employing some of these semantic measures. Time permitting, I will conclude with describing the integration and evaluation of paraphrasing in state-of-the-art SMT and in the IR task of event discovery and annotation.


12 juin 2015: Marianne Djemaa (Alpage - INRIA / Paris Diderot)

Construction d'un FrameNet du français : annotation en corpus de cadres et rôles sémantiques

Je présenterai mes travaux de thèse portant sur la construction d'un FrameNet du français, dans le cadre du projet ANR ASFALDA. Je présenterai en introduction les caractéristiques de cette instanciation pratique de la théorie de la "Frame Semantics" de Fillmore. Puis je détaillerai la méthodologie employée dans le projet pour obtenir un corpus annoté en frames et rôles sémantiques, les problèmes typiques rencontrés, ainsi que l'état d'avancement de l'annotation.


22 mai 2015: Anders Søgaard (University of Copenhagen)

LANGUAGE TECHNOLOGY FOR EVERYONE

High-quality NLP tools - from tokenization to semantic parsers - exist for 10-15 of the world’s seven thousand languages, of which we have digital texts for at least a quarter. Even for the major languages, such as English, our tools only fair reasonably well on standard language, and not on informal language or dialect. We even see gender and age biases affect our tools’ performance. In addition our tools often over-fit arbitrary annotation choices, arguably making them even less robust to lingustic diversity. This talk surveys recent efforts in the COASTAL group to bridge these gaps.


11 mai 2015: Dan Roth (Urbana Champaign University)

TBA


10 avril 2015: Laurent Romary (DARIAH / INRIA)

Modélisation lexicale sémasiologique et onomasiologique

Je présenterai dans un premier temps les principales actions menées ces dernières années afin de faciliter la diffusion des données scientifiques, notamment dans le domaine des politiques d’information scientifique, de la mise en place d’infrastructures de recherche et la définition de standards dans le domaine des documents et des ressources linguistique. Ce sera l’occasion au Passage de présenter brièvement la politique d’accès libre d’Inria et d’en expliquer les fondements.

Dans une deuxième partie, je présenterai mes travaux en cours sur les modèles lexicaux afin de montrer comment les standards internationaux existants peuvent être compris comme des outils de modélisation pour une variété de formes lexicales. J’aborderai en particulier deux études que je mène actuellement : dans le domaine onomasiologique, la comparaison des modèles TBX de l’ISO et SKOS du W3C afin de définir des conditions d’interopérabilités entre ceux-ci (travaux menés avec Detlef Reineke (Las Palmas)) dans le domaine sémasiologique, l’étude d’améliorations possibles à LMF (ISO) et aux directives de la TEI pour disposer d’un modèle fin de la représentation d’informations étymologiques (travaux menés avec Jack Bowers (Inria))


13 mars 2015: Gregory Grefenstette (INRIA Saclay)

Personal semantics

Abstract : In the near future, we each will be storing terabytes of information about ourselves. To quickly access this information we will need to induce personal semantics dimensions that will act as filters for search. We present our current research in this direction.


5 février 2015: Guy Lapalme RALI (Université de Montréal)

Traitement automatique des langues et Web Sémantique

Résumé : Même avec l'arrivée du Web Sémantique, la majorité du contenu disponible sur le web est encore en langue naturelle. Je présenterai quelques liens (jeu de mots ici...) entre le traitement automatique de la langue (TAL) et le web: comment le TAL aide le traitement de l'information sur le web et comment les technologies web soutiennent le développement du TAL.


23 janvier 2015: Tim Van de Cruys (IRIT) :

Tensor factorization methods for lexical acquisition and the modeling of semantic compositionality

Abstract : In this talk, we will look at a number of tensor factorization methods for the modeling of language data. First, we present a method for the joint unsupervised aquisition of verb subcategorization frame (SCF) and selectional preference (SP) information. Treating SCF and SP induction as a multi-way co-occurrence problem, we use multi-way tensor factorization to cluster frequent verbs from a large corpus according to their syntactic and semantic behaviour. The method is able to predict whether a syntactic argument is likely to occur with a verb lemma (SCF) as well as which lexical items are likely to occur in the argument slot (SP). Secondly, we present a method for the computation of semantic compositionality within a distributional framework. We use our method to model the composition of subject verb object triples. The key idea is that compositionality is modeled as a multi-way interaction between latent factors, which are automatically constructed from corpus data. The method consists of two steps. First, we compute a latent factor model for nouns from standard co-occurrence data. Next, the latent factors are used to induce a latent model of three-way subject verb object interactions. By treating language data as multi-way co-occurrence frequencies, both methods are able to properly model the tasks at hand in an entirely unsupervised way.


16 janvier 2015: Quentin Pradet (CEA LIST)

Annotation en rôles sémantiques fondée sur la connaissance du français en domaine spécifique

Nous présenterons nos travaux de thèse, qui portent sur l’annotation automatique en rôles sémantiques du français en domaine spécifique. Cette tâche consiste à la fois à désambiguïser le sens des verbes d’un texte et à annoter leurs syntagmes avec des rôles sémantiques tels qu’Agent, Patient, ou Destination. Elle aide de nombreuses applications dans les domaines où des corpus annotés existent : on peut alors entraîner des algorithmes supervisés performants. Nous cherchons au contraire à annoter des domaines ne disposant pas de tels corpus annotés. Nous considérons ici trois domaines : le réchauffement climatique, Informatique/Internet, et le football, leurs corpus annotés ne nous servant que pour l’évaluation. Nous montrons que nos traductions vers le français de lexiques sémantiques pour l’anglais donnent la possibilité d’annoter en rôles sémantiques des textes aussi bien en domaine général qu’en domaine spécifique sans avoir à entraîner un modèle statistique.

Nos travaux portent sur deux grands axes : les ressources puis les méthodes servant à l’annotation en rôles sémantiques.

Concernant les ressources, nous commençons par traduire la base de données lexicales WordNet vers le français à l’aide d’un modèle de langue syntaxique issu du web. Cette ressource, WoNeF, est disponible en trois versions : une à haute précision (93,3 %), une à haut F-score (70,9 %), et l’autre à haute couverture, plus large mais plus bruitée. Nous traduisons ensuite le lexique VerbNet dans lequel les verbes sont regroupés suivant leur traits syntaxiques, morphologiques et sémantiques. Contrairement à WordNet, la traduction, Verb∋Net a été obtenue à la fois en réutilisant au maximum les lexiques verbaux du français (le Lexique-Grammaire et Les Verbes Français) mais aussi avec un travail manuel important pour contrôler au mieux son contenu.

Concernant les méthodes, nous commençons par évaluer notre méthode basée sur VerbNet sur le corpus annoté FrameNet, en suivant les travaux de Swier and Stevenson 2005 (http://www.aclweb.org/anthology/H05-1111). Nous montrons que des améliorations conséquentes peuvent être obtenues à la fois d’un point de vue syntaxique avec la prise en compte de la voix passive et d’un point de vue sémantique en filtrant les syntagmes ne correspondant pas aux restrictions de sélection indiquées dans VerbNet et en réutilisant les résultats des premières annotations automatiques non ambigües.

Enfin, une fois ces briques en place, nous évaluons la faisabilité de l’annotation en rôles sémantiques du français dans nos trois domaines spécifiques. Nous évaluons en effet quelles sont les avantages et inconvénients de se baser sur VerbNet et Verb∋Net pour annoter ces domaines en anglais et en français.


14 novembre 2014: Serena Villata (WIMMICS, INRIA Sophia Antipolis - Méditerranée / I3S (CNRS and Université Nice Sophia Antipolis))

Slides : Fichier joint inexistant sur cette page

Argumentation meets Natural Language Processing: results achieved and open challenges

In this talk we will present existing approaches coupling Argumentation Theory and Natural Language Processing, and then we will present our contributions in that area, highlighting the remaining open challenges. In order to cut in on a debate on the web, the participants need first to evaluate the opinions of the other users to detect whether they are in favor or against the debated issue. Bipolar argumentation proposes algorithms and semantics to evaluate the set of accepted arguments, given the support and the attack relations among them. Two main problems arise. First, an automated framework to detect the relations among the arguments represented by the natural language formulation of the users’ opinions is needed. Our talk addresses this open issue by proposing and evaluating the use of natural language techniques to identify the arguments and their relations. In particular, we adopt the textual entailment approach, a generic framework for applied semantics, where linguistic objects are mapped by means of semantic inferences at a textual level. Textual entailment is then coupled together with an abstract bipolar argumentation system which allows to identify the arguments that are accepted in the considered online debate. Second, we address the problem of studying and comparing the different proposals put forward for modeling the support relation. The emerging scenario shows that there is not a unique interpretation of the support relation. In particular, different combinations of additional attacks among the arguments involved in a support relation are proposed. We provide a natural language account of the notion of support based on online debates, by discussing and evaluating the support relation among arguments with respect to the more specific notion of textual entailment in the natural language processing field.


24 octobre 2014: Djamé Seddah, Corentin Ribeyre, Eric de la Clergerie (Alpage, INRIA / Univ Paris Diderot / Univ Paris Sorbonne)

Semantic Parsing: Toward a data driven SYNTAX to semantic interface

This talk will introduce a new line of research currently investigated at Alpage, namely Direct Semantic Parsing. With most state-of-the-art statistical parsers routinely crossing a ninety percent performance plateau in capturing phrase structures or even higher when it comes to dependency-based parsing, the question of what next crucially arises. Indeed, it has long been thought that the bottleneck preventing the advent of accurate syntax-to-semantic interfaces, lied in the quality of the previous phase of analysis: the better the parse, the better the output. The truth is that most of the structures on which are trained the current parsing models are degraded versions of more informative data set: the Wall Street journal section of the Penn treebank is often stripped from its richer set of annotations (i.e. traces and functional labels are removed), while, for both reasons of efficiency and availability, projective dependency trees are often preferred over richer graph structures (Nivre and Nilsson, 2005; Sagae and Tsujii, 2008). However, newer data set that take advantage of this underestimated underlying deep SYNTAX layer and include enhanced annotation have recently been made available (DeepBank, GroningenBank, PAS, and so on). Those allows for a more straightforward parsing of graph-based predicate-argument structure. In this talk, we will introduce this bubbling line of research and will present our work on this matter, showing that accurate models can be built around these treebanks, at the not so-sad cost of adding a little bit of surface syntax. We will also present the current state of our work on French. We will briefly present the Deep Sequoia treebank, made in collaboration with LORIA's Semagramme team, and which constitute one of the first deep SYNTAX corpus. We show how its annotation scheme could be ported to the French Treebank and how we can induce translation rules between the surface syntactic layer and the deep one, leading to the first steps of a data driven SYNTAX to semantic interface.

Joint work of Corentin Ribeyre, Eric de La Clergerie, Djamé Seddah and Marie Candito


13 juin 2014: Rich Washington (Google)


16 mai 2014: Julia Hockenmaier (University of Illinois at Urbana-Champaign)

Describing images in natural language: Towards visually grounded semantics

Abstract : When we read a descriptive sentences like “People are shopping in a supermarket”, we picture an indoor scene where customers are pushing shopping carts down aisles of produce or other goods, standing to look at the items on the shelves, or waiting in line to pay, etc. That is, if we understand a sentence, we infer what other facts are likely to be true in any situation described by that sentence. These inferences are an integral part of language understanding, but they require a great deal of commonsense world knowledge. In this talk, I will consider two tasks that require systems to draw similar inferences automatically. First, I will describe our work on developing systems and data sets to associate images with sentences that describe what is depicted in them. I will show that systems that rely on visual and linguistic features that can be obtained with minimal supervision perform surprisingly well at describing new images. I will also define a ranking-based framework to evaluate such systems. In the second part of this talk, I will describe how we can combine ideas from distributional lexical semantics and denotational formal semantics to define novel measures of semantic similarity. We define the 'visual denotation' of linguistic expressions as the set of images they describe, and use our data set of 30K images and 150K descriptive captions to construct a 'denotation graph', i.e. a very large subsumption hierarchy over linguistic expressions and their denotations. This allows us to compute denotational similarities, which we show to yield state-of-the-art performance on tasks that require semantic inference.

References M. Hodosh, P. Young and J. Hockenmaier (2013) "Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics", Volume 47, pages 853-899 http://www.jair.org/papers/paper3994.html P. Young, A. Lai, M. Hodosh, and J. Hockenmaier. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association of Compuational Linguistics (TACL) 2014, 2(Feb), pages 67-78. http://www.transacl.org/wp-content/uploads/2014/02/41.pdf


11 avril 2014: Benoît Crabbé (ALPAGE, Univ. Paris Diderot / INRIA)

Vers la construction à large couverture de la représentation du sens de phrases de langue naturelle.

Dans cet exposé, je traiterai le problème d'analyse syntaxique à large couverture de phrases de langues naturelles et de son interface avec la sémantique. Partant de l'hypothèse que la représentation du sens de phrases de langue naturelle s'appuie sur leur structure, je présenterai principalement un algorithme d'analyse syntaxique robuste lexicalisé pour CFG inspiré de GLR et qui propose une désambiguisation des hypothèses d'analyse sur base d'un modèle entièrement discriminant. Une seconde partie de l'exposé, plus succincte, présentera les grandes lignes d'un projet de recherche destiné à augmenter l'algorithme de représentations vectorielles encodant une sémantique distributionnelle.


28 mars 2014 et 4 avril 2014: James Pustejovsky (Brandeis University)

Computational Models of Events (2 lectures)

CAUTION: the seminar will take place in the Halle aux Farines building, room 265E, 10 rue Françoise Dolto

The notion of event has long been central for both modeling the semantics of natural language as well as reasoning in goal-driven tasks in artificial intelligence. This talk examines developments in computational models for events, bringing together recent work from the areas of semantics, logic, computer science, and computational linguistics. The goal is to look at event structure from a unifying perspective, enabled by a new synthesis of how these disciplines have approached the problem. This entails examining the structure of events at all levels impacted by linguistic expressions: (a) predicate decomposition and subatomic event structure; (b) atomic events and the mapping to SYNTAX; (c) events in discourse structure; and (d) causation in the macro-event structure of narratives and scripts.

This talk outlines a unified theory of event structure. The demands on such a theory require it to both facilitate the systematic mapping from semantic forms to syntactic representations and support event-based inferences in texts. What emerges is a framework that represents a situation and its participants in terms of subevents, modeled dynamically through time and space. In addition, the theory must identify events as part of larger scenarios and scripts. The course covers recent work in this direction and models unifiying these representational levels for event-based reasoning.

Common to all traditions is the view that events are the means by which we model situations and changes in our world. We first examine the subatomic structure of events from the perspective of hybrid modal logic, using dynamic and linear temporal logics as our means of encoding change. Then, we look at the properties of atomic event structure, and the effects of discourse relations on temporal inferencing. Next, we examine the problem of identifying where events happens, which is critical for any deep causal reasoning involving events and their participants. We will develop a procedure for "event localization", which is the process of identifying the spatial extent of an event, activity, or situation. Finally, we examine events above the level of the sentence and local discourse. That is, we study how events are structured within larger narratives and scripts, reflecting conventionalized patterns of behavior and causal and coherence relations within texts and discourse.


7 février 2014 : Eric de la Clergerie (ALPAGE - INRIA / Université Paris Diderot)

Analyse syntaxique statistique et hybride: 2 expériences

Je présente 2 expériences d'analyse syntaxique qui n'ont en commun que de s'appuyer sur le système DyALog.

La première expérience, initiée dans le cadre de la campagne d'évaluation SPMRL 2013, concerne le développement rapide d'un analyseur statistique de type Shift-Reduce (à la MALT) mais avec faisceau et utilisation de techniques de programmation dynamique. Son autre originalité réside dans la possibilité de prendre des treillis de mots en entrée.

La seconde expérience s'inscrit dans le cadre du développement à long-terme de FRMG, un analyseur fondé sur une grammaire TAG symbolique à large couverture pour le français. L'utilisation de techniques d'apprentissage faiblement supervisé sur le French TreeBank (FTB) a permis d'améliorer fortement les performances du module de désambiguisation de FRMG. Les résultats obtenus par cette hybridation symbolique/statistique se situent au niveau de ceux obtenus par des analyseurs purement statistiques entraînés et évalués sur le FTB.


24 janvier 2014 : Aldo Gangemi (LIPN - Université Paris Nord)

Machine reading for the Semantic Web

Machine reading is a mild version of natural language understanding, aiming at extracting as many elements as possible from a text, possibly on a large scale, and with performance appropriate to industrial applications. In recent years, machine reading in a pure NLP tradition has been hybridised with semantic web techniques and standards, contributing substantially to the productive area of “semantic technologies”. In this seminar I make an overview of machine reading that applies, or is used by, semantic web (in that area machine reading is better known as “knowledge extraction from text”), and I will defend the position that a closer collaboration and sharing of assumptions and objectives can be mutually beneficial. In order to show a concrete case study, I will detail one tool designed by my group, FRED, which applies deep parsing and computational semantics to generate well connected and linked RDF/OWL graphs.


13 décembre 2013 : Djamé Seddah (Université Paris Sorbonne, ALPAGE)

Overview of the SPMRL 2013 Shared Task: Cross-Framework Evaluation of Parsing Morphologically Rich Languages

In this presentation, we will present the outcoumes on the first shared task on statistical parsing of morphologically rich languages. The task features data sets from nine languages (Arabic, Basque, French, German, Hebrew, Hungarian, Korean, Polish and Swedish), each available both in constituency and dependency annotation. We report on the preparation of the data sets, on the proposed parsing scenarios, and on the evaluation metrics for parsing MRLs given different representation types. We present and analyze parsing results obtained by the task participants, and then provide an analysis and comparison of the parsers across languages and frameworks, reported for gold input as well as more realistic parsing scenarios. The shared task saw submissions from seven teams, and results produced by more than 14 different systems. The parsing results were obtained in different input scenarios (gold, predicted, and raw) and evaluated using different protocols (cross-framework, cross-scenario, and cross-language). In particular, this is the first time a multilingual evaluation campaign reports on the execution of parsers in realistic, morphologically ambiguous, settings.

Djamé Seddah, Joint Work with Reut Tsarfaty, Sandra Küebler and many contributors1

1 Marie Candito, Jinho D. Choi, Richard Farkas , Jennifer Foster, Iakes Goenaga, Koldo Gojenola, YoavGoldberg, Spence Green, Nizar Habash, Marco Kuhlman, Wolfgang Maier, Joakim Nivre, Adam Przepiórkowski, Ryan Roth, Wolfgang Seeker, Yannick Versley, Veronika Vincze, Marcin Wolin ́ski, Alina Wróblewskav, Eric Villemonte de la Clergerie


15 novembre 2013 : Quentin Pradet (CEA LIST) et Laurence Danlos (Université Paris Diderot, ALPAGE)

Vers la création semi-automatique d’un VerbNet du français

VerbNet est une ressource lexicale pour les verbes anglais organisée autour de classes sémantiques et de sous-classes syntaxiques. Cette ressource est très utilisée, notamment pour l'annotation en rôles sémantiques (Swier et Stevenson, 2005 ; Palmer et al., 2013).

Il paraît donc nécessaire d’avoir une ressource équivalente pour le français. Les seuls efforts qui ont été faits pour l’instant se limitent à des constructions automatiques bruitées dont l'évaluation se limite à quelques verbes (Messiant et al., 2010 ; Falk et al., 2012). De plus ces efforts font abstraction des ressources lexicales qui existent pour le français, or celles–ci existent et sont de qualité. Pour les verbes, nous pensons en particulier à LVF+1 (http:// pageperso.lif.univ-mrs.fr/~paul.sabatier/Contribution_FondamenTAL.html) et au Lexique-Grammaire (http://infolingu.univ-mlv.fr/DonneesLinguistiques/Lexiques-Grammaires/Telechargement.html). Nous avons donc l’objectif de réaliser un VerbeNet du français semi-automatiquement en nous appuyant sur ces ressources, en particulier sur LVF+1 et LG, la première plus centrée sur les informations sémantiques, la seconde sur les informations syntaxiques. Ce VerbeNet garde la hiérarchie des classes sémantiques du VerbNet anglais, ce qui permet de garder à l'identique les informations sémantiques, entre autres les rôles thématiques.

Ce travail est en cours. Nous présenterons les premiers résultats, les difficultés rencontrées et les futurs liens que nous envisageons vers d'autres ressources du français utilisées en TAL.


20 septembre 2013 : Mark Johnson (Macquarie University)

Grammars and Topic Models

Abstract:Context-free grammars have been a cornerstone of theoretical computer science and computational linguistics since their inception over half a century ago. Topic models are a newer development in machine learning that play an important role in document analysis and information retrieval. It turns out there is a surprising connection between the two that suggests novel ways of extending both grammars and topic models. After explaining this connection, I go on to describe extensions which identify topical multiword collocations and automatically learn the internal structure of named-entity phrases. These new models have applications in text data mining and information retrieval.


2 juillet 2013 : Teresa Lynn (Macquarie University and Dublin City University)

Slides : slides of the talk

Development of the Irish dependency treebank

Abstract: In this talk I will discuss the ongoing development of the Irish dependency treebank. Irish is an Indo-European language and shares linguistic features with other Celtic languages such as rich morphology and VSO word order. Irish is a minority language of the EU. It is regarded as a low-density language in terms of NLP resources. My PhD research involves the development of the first treebank and statistical parser for Irish. I will discuss details such as the significance of Inter-annotator Agreement, preliminary parsing experiments and the analysis of a bootstrapping approach to the treebank development.


27 juin 2013 : Joakim Nivre (Uppsala University)

Slides : slides of the talk

Training Deterministic Parsers Using Non-Deterministic Oracles

(Joint work with Yoav Goldberg, Bar-Ilan University)

Abstract: Greedy transition-based dependency parsers are among the fastest available systems for natural language parsing but tend to suffer from search errors and subsequent error propagation. This problem is aggravated by the fact that they are normally trained using oracles that are deterministic and incomplete in the sense that they assume a unique canonical derivation and are only valid as long as the parser does not stray from this path. In this talk, I will introduce oracles that are nondeterministic and complete in the sense that they allow different derivations of the same parse tree and make optimal predictions for all parser states, including states from which the gold parse is no longer reachable. Experimental evaluation on a wide range of data sets shows that using these oracles to train greedy parsers gives substantial improvements in accuracy because of reduced error propagation. Moreover, this improvement comes at no cost in terms of efficiency, unlike other techniques like beam search.


21 mai 2013 : Owen Rambow (Columbia University)

Les manifestations du pouvoir dans le discours

Abstract: Les interventions dans un dialogue sont influencées par beaucoup de facteurs. Le pouvoir qu'un participant au discours peut exercer sur un autre (ou plusieurs autres) est un facteur extra-linguistique important qui limite la manière dont peuvent intervenir et répondre les participants au discours. Je définis quatre types de pouvoir (le pouvoir hiérarchique, le pouvoir situationnel, le pouvoir discursif, et l'influence), et je montre comment ces quatre types de pouvoir sont manifestés dans le dialogue. Les observations empiriques sont basées sur le corpus de courriel Enron.


22 mars 2013 : Matthieu Constant (Université Marne-la-Vallée)

Intégrer la reconnaissance des mots composés dans des analyseurs probabilistes

Résumé: La reconnaissance des expressions polylexicales est cruciale pour le Traitement Automatique des Langues. De nombreux travaux ont étudié ce type d'expressions mais essentiellement du point de vue de l'acquisition de ressources lexicales. Dans cet exposé, nous nous intéresserons à l'intégration de la reconnaissance des mots composés dans des analyseurs probabilistes. Nous aborderons à la fois l'analyse de surface et l'analyse en profondeur. Dans les deux cas, nous montrerons comment adapter les modèles probabilistes liés à ces tâches. Par ailleurs, comme les mots composés sont difficilement prédictibles, l'exploitation de ressources lexicales externes est primordiale pour leur reconnaissance. Nous montrerons diverses stratégies d'intégration de telles ressources dans nos modèles. Les différentes approches proposées durant cette présentation seront évaluées dans un cadre classique d'évaluation. Nous conclurons en discutant de la validité de ces évaluations et ébaucherons quelques pistes de recherches futures.

Les travaux présentés ont été réalisés en collaboration avec Olivier Blanc, Joseph Le Roux, Anthony Sigogne, Isabelle Tellier et Patrick Watrin.


22 février 2013 : Josef Ruppenhofer (Hildesheim Universität)

Emotion vocabulary and sentiment analysis in FrameNet

Abstract :

The FrameNet project (Baker, Fillmore & Lowe 1998) has been working for a while now on an analysis of the English vocabulary based on frame semantic theory (Fillmore 1982, 1985; Fillmore & Atkins 1992), documenting and verifying its analyses by creating corpus annotations. In this talk, I will give an overview of FrameNet's method using the example of emotion-related words and then present recent ideas for extending FrameNet's representation for the purposes of sentiment analysis.

In the discussion of emotion vocabulary, I will address several points. First, comparing different releases, we ask how have FrameNet's criteria for distinguishing frames evolved over time? For instance, the organization of emotion frames in the current FrameNet release 1.5 is less exclusively valence-driven than in earlier versions. The overall trajectory is towards an organization where frame divisions are becoming finer and lexical units in a given frame are more semantically similar to each other. A second key point is that even given the more fine-grained analysis, FrameNet's division of frames and lexical units does not follow any one psychological theory of emotion. However, as will be shown, it is closest in spirit to the work of Ortony, Clore & Collins (1988) whose work is linguistically inspired and whose categories are often compatible with work underway at FrameNet.

In the final part of the talk I suggest ways to extend FrameNet's representation for the purposes of sentiment analysis, producing a resource that allows for deep analysis of not only emotional vocabulary but evaluative and subjective language in general. A key feature of this approach is to piggy-back the extraction of opinion holders and targets onto automatic semantic role labeling systems.


25 janvier 2013 : Yannick Versley (Universität Tübingen)

A Graph-based Approach to Implicit Discourse Relation Classification

Abstract: Current approaches to recognizing discourse relations rely on a combination of shallow, surface- based features (e.g., bigrams, word pairs), and rather specialized hand-crafted features. As a way to avoid both the shallowness of word-based representations and the lack of coverage of specialized linguistic features, we use a graph-based representation of discourse segments, which allows for a more abstract (and hence generalizable) notion of syntactic (and partially of semantic) structure. Empirical evaluation on a hand-annotated corpus of German discourse relations shows that our graph- based approach not only provides a suitable representation for the linguistic factors that are needed in disambiguating discourse relations, but also improves results over a strong state-of-the-art baseline.


7 décembre 2012 : Sandra Kuebler (Indiana University)

20 Years of Statistical Parsing for German: What Have we Learned?

Abstract: In this talk, I will look at the development of statistical approaches to parsing German from the beginnings by Dubey and Keller in 2003. German is interesting for parsing research since it counts as a morphologically rich language. But on the richness scale, it is fairly low, and it is still close to English. German is also an interesting case because there are two large-size treebanks available with two different annotation schemes. This puts us in a unique position to look into the influence of decisions in the annotation schemes, independent of the language. However, as the results so far show, there are more questions than answers. I will discuss results on using different parsers as well as different treebanks.


16 novembre 2012 : Khalil Sima'an (Universiteit van Amsterdam)

On the Role of Syntactic Trees in Machine Translation

Abstract: Over the past years, major effort was spent on incorporating monolingual SYNTAX into statistical machine translation with mixed results. One difficulty in doing so often seems that translation equivalence does not necessarily conform to monolingual syntactic constituency structure, as assumed by traditional compositional semantics. In this talk I will reflect on syntactic structure aiming to show that the information represented in a syntactic tree can be represented in alternative ways. By representing this information in terms of translation equivalence, syntactic information can be brought into statistical MT models effectively. In the talk I will give a bird's-eye view of three recent models developed together with my co-workers and touch upon some relevant aspects of the interplay between SYNTAX and SMT. Subsequently, I will give a brief overview of the problem of how to represent the translation mapping hierarchically in order to capture the relations of translation equivalence adequately. I will also briefly discuss how to use this new hierarchical representation to pave the way for learning compositional statistical synchronous grammars from word-aligned parallel corpora.


5 octobre 2012 : Emmanuel Lassalle (Alpage)

Intégration de contraintes entre les tâches de résolution de la coréférence et d'extraction de relations

Résumé : La coréférence, bien qu'elle puisse être considérée comme une relation à part, peut être mise en concurrence avec d'autres relations entre mentions ou entités dans le texte (relations partie-tout, sociales, géographiques, etc). Apparaissent alors des contraintes fortes entre les diverses relations, que l'on peut chercher à exploiter dans les tâches de résolution associées. Nous nous intéresserons aux problèmes de résolution de la coréférence et de l'extraction de relations dans un texte. Les modèles seront développés et évalués dans le cadre idéal d'un corpus annoté (ACE2005) qui nous permettra d'étudier, en supposant d'autres tâches parfaitement résolues par ailleurs, l'effet de la prise en compte des contraintes inter-relationnelles dans le traitement des problèmes posés.


14 septembre 2012 : Dominique Willems (University of Gent)

Dominique Willems (Université de Gand) donnera un premier séminaire dans le cadre du LingLunch de Paris Diderot http://www.linguist.univ-paris-diderot.fr/linglunch.html :

le jeudi 13 septembre à 12h : "La typologie verbale : entre construction et lexique"

Puis le vendredi 14 septembre à 11h, dans le cadre du séminaire Alpage :

"Observer: entre voir et regarder. Les constructions en co(n)texte et en contraste."

Le champ sémantique des verbes de perception visuelle s'organise traditionnellement autour des deux verbes principaux: voir et regarder. Ces verbes partagent d'une part les propriétés syntaxiques et sémantiques essentielles des verbes de perception, à savoir la possibilité d'entrer dans une structure infinitive directe (ex. 2) et une structure à relative attributive (ex. 3), à côté de la structure transitive simple (ex. 1). Cette famille de constructions est en effet spécifique pour l'ensemble des verbes de perception en français (cf. Willems 1981, 1983; Willems & Defrancq 2000) et peut être corrélée à un sémantisme précis: la possibilité pour un sujet (généralement humain) de percevoir simultanément un objet et un procès lié à cet objet.

Nous examinerons en détail les propriétés syntaxiques, sémantiques et lexicales du verbe observer, afin de mieux cerner sa position particulière dans le champ de la perception. Notre étude est basée sur une analyse d'un ensemble de 575 exemples, pris d'une part à un corpus journalistique (le Monde 2006: 150 exemples, Libération 2006: 150 exemples), au corpus littéraire de Frantext d'autre part (275 exemples).


28 juin 2012 : Carlos Subirats (Autonomous University of Barcelona)

ATTENTION : horaire inhabituel : jeudi 28, à 16h

Spanish FrameNet and its applications to NLP

The meanings of lexical units (LUs) are constructed in relation to background knowledge. Frame Semantics is based on the assumption that the structure of this background knowledge can be analyzed in terms of semantic frames (Fillmore 1982, 1985). A frame is a schematic representation of a situation that includes its participants, props, and other conceptual elements. Each LU evokes a particular frame and profiles some element or aspect of that frame.

The Spanish FrameNet Project (SFN) is creating an online lexical resource for Spanish based on Frame Semantics (Fillmore and Baker 2010, Ruppenhofer et al. 2010) and supported by corpus evidence. The aim of SFN is to document the range of semantic and syntactic combinatory possibilities (valences) of each word of Spanish in each of its senses by annotating example sentences and automatically organizing the annotation results. The project database is online and can be queried at http://sfn.uab.es:9080/SFN. The SFN corpus of annotated sentences has been used as a training corpus for Shalmaneser (Erk and Padó 2006), a Frame-Semantics based statistical program for automatic semantic-role labeling. SFN has also begun to apply Construction Grammar (Fillmore and LeeGoldman 2011) to specifying the syntactic and semantic characteristics of Spanish grammatical constructions and linking them to semantic frames.

SFN is being developed at the Autonomous University of Barcelona (Spain) in cooperation with the FrameNet Project, housed at the International Computer Science Institute (Berkeley, CA). SFN is sponsored by Spain's Ministry of Economy and Competitiveness (Grant Nr. FFI2011-23231).


22 juin 2012 : Mark-Jan Nederhof (University of St Andrews)

Input and output restrictions of weighted synchronous grammars.

Abstract: We consider the problem of restricting the input or output of a synchronous grammar. Whereas solutions are easy to achieve in the unweighted case, complications arise for weighted and probabilistic grammars, especially when a compact representation is required. We also consider the problem of computing prefix probabilities, as a special case of restricting the input of a synchronous grammar to a regular string language. The emphasis will be on synchronous tree adjoining grammars, but also linear context-free rewriting systems will be addressed.


15 juin 2012 : Valérie Hanoka (Alpage INRIA/Paris Diderot - Vera)

Méthodologie de construction/extension de wordnets

Nous proposons une méthodologie pour la construction et/ou l'extension de wordnets. Notre méthode est basée sur l'exploitation d'un large graphe de traductions et de wordnets alignés en plusieurs langues. Des résultats préliminaires obtenus via une évaluation de la méthode pour le français indiquent que cette technique permet d'obtenir des résultats satisfaisants. En particulier, des littéraux fréquents et polysémiques que les précédentes approches d'extension/construction de wordnets ne parvenaient pas à découvrir sont devinés avec succès.


23 mars 2012 : Roser Saurì (BarcelonaMedia)

Are You Sure that This Happened? Assessing the Factuality Degree of Events in Text

Abstract: Identifying the veracity, or factuality, of event mentions in text is fundamental for reasoning about eventualities in discourse. Inferences derived from events judged as not having happened, or as being only possible, are different from those derived from events evaluated as factual. Event factuality involves two separate levels of information. On the one hand, it deals with polarity, which distinguishes between positive and negative instantiations of events. On the other, it has to do with degrees of certainty (e.g., possible, probable), an information level generally subsumed under the category of epistemic modality, and which has been widely discussed in linguistics and philosophy. In languages like English, these two levels of information are expressed through a variety of linguistic devices, from modal auxiliaries and polarity particles to syntactic constructions of different kind, passing through a number of lexical predicates, such as verbs and nouns conveying epistemic evaluations (e.g., believe, know, suspicion, idea).

This talk aims at contributing to a better understanding of how event factuality is articulated in natural language, with special focus on English data. For that purpose, I will present a linguistic-oriented computational model which has at its core an algorithm articulating the effect of factuality relations across levels of syntactic embedding. As a proof of concept, this model has been implemented in De Facto, a factuality profiler for eventualities mentioned in text, and tested against a corpus built specifically for the task, yielding an F-1 measure of 0.70 (macro-averaging) and 0.80 (micro-averaging). These two measures mutually compensate for an over-emphasis present in the other (either on the lesser or greater populated categories), and can therefore be interpreted as the lower and upper bounds of the De Facto's performance.


9 mars 2012 : Pierre Magistry (Alpage)

Segmentation non-supervisée du mandarin écrit

L'écriture chinoise est de celles qui n'utilisent pas de caractère d'espacement. Ceci complexifie grandement la tokenisation, première étape de presque tout système d'analyse de textes écrits en mandarin, étape que l'on appelle traditionnellement "segmentation".

Si les méthodes de segmentation supervisées donnent aujourd'hui de très bons résultats "en laboratoire", la qualité de leur sortie devient difficile à prédire si l'on doit faire face à toute forme de variation qui nous éloignerait du corpus d’entraînement (variations en genre, en style, dans le temps ou au contact d'autres langues sinitiques).

Pour cette raison, ainsi que pour les questions linguistiques sous-jacentes sur lesquelles les méthodes supervisées ne disent presque rien, la segmentation non-supervisée reste une option intéressante à étudier.

Après avoir évoqué les difficultés d'évaluation de tels systèmes, nous montrerons comment l'état de l'art actuel peut être atteint en simplifiant un modèle existant inspiré d'une hypothèse de Harris. Pour une qualité de sortie comparable, le modèle proposé présente les avantages d'être non paramétrique et de se baser sur une unique hypothèse linguistique, rendant son fonctionnement plus intuitif.


Vendredi 17 février 2012 : Richard Moot (Labri)

Vers l'analyse sémantique à grande échelle

Des travaux récents de Johan Bos et ses collègues ont montré la possibilité de transformer les sorties d'analyseurs à grande échelle en représentations sémantiques détaillées, utilisant de grammaires catégorielles pour la syntaxe (et l'interface syntaxe-sémantique) et Discourse Representation Structures (DRSs) pour la sémantique - le tout pour l'anglais. Travaillant dans le même esprit, je vous présente mes travaux sur le calcul des DRS pour le français, utilisant une grammaire extraite semi-automatiquement du French Treebank et un lexique français donnant des lambda-DRS des constructions les plus fréquentes du français. Je vous parlerai des différents étapes de ces travaux:

  • text extraction automatique d'une grammaire catégorielle,
  • text supertagging pour réduire l'ambiguïté lexicale,
  • text analyse syntaxique,
  • text de l'analyse syntaxique vers des (lambda-)DRS

et conclurai avec quelques défis qui restent à être résolus.


Vendredi 3 février 2012 :

Mickaël Morardo (ingénieur INRIA), François Brown de Colstoun (Lingua et Machina)

et Eric de La Clergerie (Alpage)

Dans le cadre d'une collaboration industrielle entre Alpage et la société Lingua et Machina, Mickaël Morardo a développé une interface de visualisation et de validation de terminologie monolingue au sein de la plateforme WEB Libellex.

François Brown de Colstoun, le dirigeant de Lingua et Machina, commencera par une brève présentation du positionnement de la plateforme Libellex et en précisera les fonctionnalités bilingues.

Eric de La Clergerie ensuite fera la présentation d'un algorithme d'extraction monolingue de termes à partir des sorties syntaxiques de FRMG.

Mickaël Morardo présentera enfin une démonstration de l'interface sur les termes résultants de cette extraction de manière à en illustrer les fonctionnalités et encourager une discussion sur les attentes concernant un tel outil.


LANGUE/LANGUAGE

Calendrier

Lu Ma Me Je Ve Sa Di
30 31 01 02 03 04 05
06 07 08 09 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 01 02 03