Corpus Sequoia

Télécharger la dernière version du Corpus Sequoia

Note: le corpus Sequoia a été récemment annoté en syntaxe profonde, voir la page du Deep Sequoia Treebank

Le corpus contient des phrases en français, provenant d'Europarl, du corpus l'Est Republicain, de la Wikipedia Fr, et de l'agence européenne du médicament (documents extraits du corpus EMEA). Le nombre total de phrases est d'environ 3200, et chaque phrase a été manuellement annotée pour les catégories morpho-syntaxiques et la structure syntagmatique, en suivant les guides d'annotation du French Treebank. Les arbres de constituants ont ensuite été automatiquement convertis en arbres de dépendances de surface.

Le corpus est librement disponible sous la licence LGPL-LR ( (Lesser General Public License For Linguistic Resources, cf. http://infolingu.univ-mlv.fr/DonneesLinguistiques/Lexiques-Grammaires/lgpllr.html ).

Merci de citer l'article ci-dessous si vous l'utilisez:

Candito M. and Seddah D., 2012 : "Le corpus Sequoia : annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical", Actes de TALN'2012, Grenoble, France

Des corrections manuelles ont été réalisées sur la version 3.1 pour obtenir les versions 3.1 puis 3.2, en utilisant des erreurs repérées par Bruno Guillaume, avec l'outil Grew ( http://wikilligramme.loria.fr/doku.php?id=sequoia ).

Les versions 4.0 et suivantes contiennent des annotations manuelles des dépendances longue distance, comme décrit dans:

Candito M. and Seddah D., "Effectively long-distance dependencies in French : annotation and parsing evaluation", Proceedings of TLT'11, 2012, Lisbon, Portugal)

Contenu

Les fichiers *+fct.mrg_strict contiennent les analyses en constituants, au format parenthésé (une phrase par ligne), en suivant strictement le schéma d'annotation du French Treebank

Les fichiers *+fct.mrg correspondent aux analyses en constituants, en format parenthésé, mais suivant le schéma ftb-uc : - les prépositions introduisant un VP infinitif projette bien un PP - toute phrase introduite par un complémenteur (catégorie CS) est groupée sous un noeus Sint

Les fichiers *.p_conll correspondent aux analyses en dépendance, obtenues par conversion automatique, au format CoNLL 2006.

Nombre de phrases pour chaque sous-domaine :

561 sentences Europarl file= Europar.550+fct.mrg

529 sentences EstRepublicain file= annodis.er+fct.mrg

996 sentences French Wikipedia file= frwiki_50.1000+fct.mrg

574 sentences EMEA (dev) file= emea-fr-dev+fct.mrg

544 sentences EMEA (test) file= emea-fr-test+fct.mrg

Découpage des données (expériences article TALN 2012)

Le domaine "neutre" est constitué de EstRepublicain + Europarl + FrWiki, et le découpage en corpus de développement et de test est obtenu comme suit :

head -265 annodis.er+fct.mrg >> sequoia-neutre-dev+fct.mrg

head -280 Europar.550+fct.mrg >> sequoia-neutre-dev+fct.mrg

head -498 frwiki_50.1000+fct.mrg >> sequoia-neutre-dev+fct.mrg

tail -264 annodis.er+fct.mrg >> sequoia-neutre-test+fct.mrg

tail -281 Europar.550+fct.mrg >> sequoia-neutre-test+fct.mrg

tail -498 frwiki_50.1000+fct.mrg >> sequoia-neutre-test+fct.mrg

Contact

,


LANGUE/LANGUAGE

Calendrier

Lu Ma Me Je Ve Sa Di
01 02 03 04 05 06 07
08 09 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 01 02 03 04 05