LANGUE/LANGUAGE
Calendrier
Lu | Ma | Me | Je | Ve | Sa | Di |
---|---|---|---|---|---|---|
27 | 28 | 29 | 30 | 01 | 02 | 03 |
04 | 05 | 06 | 07 | 08 | 09 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
01 | 02 | 03 | 04 | 05 | 06 | 07 |
Le corpus contient des phrases en français, provenant d'Europarl, du corpus l'Est Republicain, de la Wikipedia Fr, et de l'agence européenne du médicament (documents extraits du corpus EMEA). Le nombre total de phrases est d'environ 3200, et chaque phrase a été manuellement annotée pour les catégories morpho-syntaxiques et la structure syntagmatique, en suivant les guides d'annotation du French Treebank. Les arbres de constituants ont ensuite été automatiquement convertis en arbres de dépendances de surface.
Le corpus est librement disponible sous la licence LGPL-LR ( (Lesser General Public License For Linguistic Resources, cf. http://infolingu.univ-mlv.fr/DonneesLinguistiques/Lexiques-Grammaires/lgpllr.html ).
Merci de citer l'article ci-dessous si vous l'utilisez:
Candito M. and Seddah D., 2012 : "Le corpus Sequoia : annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical", Actes de TALN'2012, Grenoble, France
Des corrections manuelles ont été réalisées sur la version 3.1 pour obtenir les versions 3.1 puis 3.2, en utilisant des erreurs repérées par Bruno Guillaume, avec l'outil Grew ( http://wikilligramme.loria.fr/doku.php?id=sequoia ).
Les versions 4.0 et suivantes contiennent des annotations manuelles des dépendances longue distance, comme décrit dans:
Candito M. and Seddah D., "Effectively long-distance dependencies in French : annotation and parsing evaluation", Proceedings of TLT'11, 2012, Lisbon, Portugal)
Les fichiers *+fct.mrg_strict contiennent les analyses en constituants, au format parenthésé (une phrase par ligne), en suivant strictement le schéma d'annotation du French Treebank
Les fichiers *+fct.mrg correspondent aux analyses en constituants, en format parenthésé, mais suivant le schéma ftb-uc : - les prépositions introduisant un VP infinitif projette bien un PP - toute phrase introduite par un complémenteur (catégorie CS) est groupée sous un noeus Sint
Les fichiers *.p_conll correspondent aux analyses en dépendance, obtenues par conversion automatique, au format CoNLL 2006.
561 sentences Europarl file= Europar.550+fct.mrg
529 sentences EstRepublicain file= annodis.er+fct.mrg
996 sentences French Wikipedia file= frwiki_50.1000+fct.mrg
574 sentences EMEA (dev) file= emea-fr-dev+fct.mrg
544 sentences EMEA (test) file= emea-fr-test+fct.mrg
Le domaine "neutre" est constitué de EstRepublicain + Europarl + FrWiki, et le découpage en corpus de développement et de test est obtenu comme suit :
head -265 annodis.er+fct.mrg >> sequoia-neutre-dev+fct.mrg
head -280 Europar.550+fct.mrg >> sequoia-neutre-dev+fct.mrg
head -498 frwiki_50.1000+fct.mrg >> sequoia-neutre-dev+fct.mrg
tail -264 annodis.er+fct.mrg >> sequoia-neutre-test+fct.mrg
tail -281 Europar.550+fct.mrg >> sequoia-neutre-test+fct.mrg
tail -498 frwiki_50.1000+fct.mrg >> sequoia-neutre-test+fct.mrg
,
Lu | Ma | Me | Je | Ve | Sa | Di |
---|---|---|---|---|---|---|
27 | 28 | 29 | 30 | 01 | 02 | 03 |
04 | 05 | 06 | 07 | 08 | 09 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
01 | 02 | 03 | 04 | 05 | 06 | 07 |