Corpus téléchargeables librement | Freely downloadable corpora |
Le socle législatif de l'Union européenne Types : Institutionnel, juridique Taille : environ 6 300 000 mots par langue Langues : 20 langues officielles de l'UE (cs da de el en es et fi fr hu it lt lv mt nl pl pt ro sk sl sv). Traitements : Sentence segmentation. Alignement. Format : XCES Une mémoire de traduction tirée de ce corpus. 22 langues 231 paires de langues Format: TMX version 1 | The EU law corpus Types : Institutional, legal Taille : around 6,300,000 words per language Langues : 20 EU official languages officielles (cs da de el en es et fi fr hu it lt lv mt nl pl pt ro sk sl sv). Processing : Sentence segmentation. Aligning. Format : XCES A MT extracted from this corpus. 22 languages 231 language pairs Format: TMX version 1 |
Types : Institutionnel, technique, scientifique, littéraire. Taille : 400 000 mots dans chaque langue. Langues : en fr Traitements : Segmentation en phrases. Alignement. | Types: Institutional, technical, scientific, litterary. Size : 400,000 words per language. Languages : en fr Processing : Sentence segmentation. Aligning. |
Corpus CARMEL (lien périmé : bientôt disponible sur ce site) Classiques du récit de voyage (XIXe - début XXe) Type : Littéraire Taille :36 ouvrages, 10 000 000 de mots. Langues : en es fr it Traitements : Segmentation en phrases et tokens. Etiquetage mlorphosyntaxique et lemmatisation. Désambiguïsation sémantique. Identification thématique. | Corpus CARMEL (outdated link : soon availabe on this website) Classics of travel story from 19th to early 20th. Type : Litterary Size : 36 works, 10,000,000 words. Languages : en es fr it Processing : Sentence segmentation and tokenization. POS tagging and lemmatization. WSD, thematic identification. |
Type : Technique Domaine : Télécommunications Taille : 1 000 000 mots Langues : en fr es Traitements : Etiquetage des parties du discours. Alignement. | Type : Technical Domain : Telecommunications Size : 1,000,000 words Languages : en fr es Processing : POS tagging. Aligning. |
| Taille : 1 000 000 mots Langues : en sl Traitements : Segmentation en phrases, en tokens. Etiquetage morpho (Multext East tags). Alignement. Format : standard TMX (Translation Memory Exchange) - XML/TEI P4 | Size : 1,000,000 words Languages : en sl Processing : Sentence segmentation, tokenizations. Morphosyntactic tagging (Multext East tags). Aligning. Format : standard TMX (Translation Memory Exchange) - XML/TEI P4 |
Type : Legislatif. Taille: - et-en = 1,7 millions de tokens en estonien, 2,9 millions de tokens en anglais.
- en-et = 2,6 + 0,7 millions de tokens en estonien, 3,9 + 1,0 million de tokens en anglais.
| Type : Legal texts. Size : - et-en = 1.7 million tokens in Estonian, 2.9 million tokens in English.
- en-et = 2.6 + 0.7 million tokens in Estonian, 3.9 + 1.0 million tokens in English.
|
| Types : technique, institutionnel. Traitements : Segmentation en phrases, en tokens. Alignement. Format : XCES Description : - EUconst, Le projet de constitution de l'UE (21 langues). - Europarl, Comptes rendus du Parlement européen 1996-2003 (11 langues). - Documentation Open Office (6 langues : de en es fr jp sv). Etiquetage des parties du discours. - Manuel de PHP (21 langues). - Messages System de KDE (60 langues!). - Manuel de KDE (24 langues). | Types : technical, institutional. Processing : Sentence segmentation, tokenization. Aligning. Format : XCES Description : - EUconst, the EU constitution project (21 languages). - Europarl, European Parliament Proceedings 1996-2003 (11 languages). - Open Office Documentation (6 languages : de en es fr jp sv). POS tagged. - PHP Manual (21 languages). - KDE System Messages (60 languages!). - KDE Manual (24 languages). |
| Débats et directives du parlement européen Type : institutionnel Langues : da de en es fi fr it nl pl pt Traitements : Segmentation en paragraphes et phrases. Alignement. | Debates and directives from the EU parliament Type : institutional Languages : da de en es fi fr it nl pl pt Processing : Paragraph and sentence segmentation. Aligning. |
| Type : journalistique Langues : bg bs el en hr mk ro sq sr tr Taille : Approx. 9 500 paragraphes alignés, ~100,000 mots. Domaine public (merci à Francis Tyers) | Type : newspaper Languages : bg bs el en hr mk ro sq sr tr Size : Approx. 9,500 aligned paragraphs, ~100,000 words. This corpus is public domain and has been automatically generated. (thanks to Francis Tyers) |
| Textes du gouvernement suédois Langues: de en es fr sv Taille : 11 000 mots. Format : SGML - TEI Traitements : Alignement Fournisseur: Linguistic Modelling Laboratory, Bulgarian Academy of Sciences, Sofia, Bulgaria. Restrictions: Non disponible pour un usage commercial. | Texts from the Swedish government Languages: de en es fr sv Size : 11,000 words. Format : SGML - TEI Processing : Aligning Resource provider: Linguistic Modelling Laboratory, Bulgarian Academy of Sciences, Sofia, Bulgaria. Restrictions: Not available to industrial users |
13 langues | 13 languages |
Corpus interrogeables en ligne | Corpora that can be interrogated online |
| Projet Linguateca Languages: pt en Size : 62 paires de textes (fictions). Plus de 1 million de mots. Interface : DISPARA System, IMS Corpus Query Processor Processing : Alignement Resource provider: Linguateca consortium. | Linguateca project Languages: pt en Size : 62 text pairs (fictions). Over 1 M words. Interface : DISPARA System, IMS Corpus Query Processor Processing : Aligning Resource provider: Linguateca consortium. |
Consultable sur ce site. | On this website. |
Concordancier en ligne, avec corpus parallèle. | Online concordancer with parallel corpus. |
Langues : en fr
| Languages : en fr |
| Languages: de en es fr Size :39,314,085 words. Interface : Moteur de recherche Processing : Alignement phrastique et au niveau des mots. | Languages: de en es fr Size :39,314,085 words. Interface : Search engine style Processing : Aligning at sentence and word level. |
| Langues: da de en es fr | Languages: da de en es fr |
Corpus avec accès réservés | Restricted access |
The English-Norwegian Parallel Corpus Langues : en nb Traitements : Alignement Echantillon à : :http://www.hit.uib.no/enpc/st1-2.html | The English-Norwegian Parallel Corpus Languages : Anglais - Norvégien Processing : Aligning Sample at : http://www.hit.uib.no/enpc/st1-2.html |
| | |