Corpus Sequoia

Télécharger la dernière version du Corpus Sequoia

Note: le corpus Sequoia a été récemment annoté en syntaxe profonde, voir la page du Deep Sequoia Treebank

Le corpus contient des phrases en français, provenant d'Europarl, du corpus l'Est Republicain, de la Wikipedia Fr, et de l'agence européenne du médicament (documents extraits du corpus EMEA). Le nombre total de phrases est d'environ 3200, et chaque phrase a été manuellement annotée pour les catégories morpho-syntaxiques et la structure syntagmatique, en suivant les guides d'annotation du French Treebank. Les arbres de constituants ont ensuite été automatiquement convertis en arbres de dépendances de surface.

Le corpus est librement disponible sous la licence LGPL-LR ( (Lesser General Public License For Linguistic Resources, cf. http://infolingu.univ-mlv.fr/DonneesLinguistiques/Lexiques-Grammaires/lgpllr.html ).

Merci de citer l'article ci-dessous si vous l'utilisez:

Candito M. and Seddah D., 2012 : "Le corpus Sequoia : annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical", Actes de TALN'2012, Grenoble, France

Des corrections manuelles ont été réalisées sur la version 3.1 pour obtenir les versions 3.1 puis 3.2, en utilisant des erreurs repérées par Bruno Guillaume, avec l'outil Grew ( http://wikilligramme.loria.fr/doku.php?id=sequoia ).

Les versions 4.0 et suivantes contiennent des annotations manuelles des dépendances longue distance, comme décrit dans:

Candito M. and Seddah D., "Effectively long-distance dependencies in French : annotation and parsing evaluation", Proceedings of TLT'11, 2012, Lisbon, Portugal)

Contenu

Les fichiers *+fct.mrg_strict contiennent les analyses en constituants, au format parenthésé (une phrase par ligne), en suivant strictement le schéma d'annotation du French Treebank

Les fichiers *+fct.mrg correspondent aux analyses en constituants, en format parenthésé, mais suivant le schéma ftb-uc : - les prépositions introduisant un VP infinitif projette bien un PP - toute phrase introduite par un complémenteur (catégorie CS) est groupée sous un noeus Sint

Les fichiers *.p_conll correspondent aux analyses en dépendance, obtenues par conversion automatique, au format CoNLL 2006.

Nombre de phrases pour chaque sous-domaine :

561 sentences Europarl file= Europar.550+fct.mrg

529 sentences EstRepublicain file= annodis.er+fct.mrg

996 sentences French Wikipedia file= frwiki_50.1000+fct.mrg

574 sentences EMEA (dev) file= emea-fr-dev+fct.mrg

544 sentences EMEA (test) file= emea-fr-test+fct.mrg

Découpage des données (expériences article TALN 2012)

Le domaine "neutre" est constitué de EstRepublicain + Europarl + FrWiki, et le découpage en corpus de développement et de test est obtenu comme suit :

head -265 annodis.er+fct.mrg >> sequoia-neutre-dev+fct.mrg

head -280 Europar.550+fct.mrg >> sequoia-neutre-dev+fct.mrg

head -498 frwiki_50.1000+fct.mrg >> sequoia-neutre-dev+fct.mrg

tail -264 annodis.er+fct.mrg >> sequoia-neutre-test+fct.mrg

tail -281 Europar.550+fct.mrg >> sequoia-neutre-test+fct.mrg

tail -498 frwiki_50.1000+fct.mrg >> sequoia-neutre-test+fct.mrg

Contact

LANGUE/LANGUAGE

Calendrier

Juillet

Lu	Ma	Me	Je	Ve	Sa	Di
01	02	03	04	05	06	07
08	09	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31	01	02	03	04