Lexicométrie et corpus multilingues. Table-ronde. Résumé

Maria Zimina

Autre Publication Scientifique Année : 2004

Lexicométrie et corpus multilingues. Table-ronde. Résumé

(1)

Maria Zimina

Fonction : Auteur
PersonId : 4562
IdHAL : maria-zimina
ORCID : 0000-0002-0892-2531
IdRef : 087626497

Centre de Linguistique Inter-langues, de Lexicologie, de Linguistique Anglaise et de Corpus

Résumé

Beyond automatic parallel text alignment, which is now well-known of our scientific community, this panel session focuses on how to extend statistical techniques in view of exploring multilingual textual data. As regards parallel corpora, new tools and methodologies have emerged. Processing comparable corpora (i.e. made-up of similar texts which are not the translation of one another) is also a significant challenge. Textual statistics for monolingual corpora can be adapted to this new type of data. Furthermore, some corpora are written in languages which raise new issues as concerns textual statistics softwares: for example the management of the characters encoding, the corpus tokenisation into sensible word-like units, or the definition of clear and coherent linguistic annotation schemes. International standards have recently been published and others are in preparation. They constitute efficient guidelines for corpus and linguistical ressources encoding. As they deal with the genuine diversity of languages throughout the world, these standards allow the comparability and the reusability of textual data.

Par delà l’alignement automatique de corpus, fondamental mais bénéficiant déjà d’une certaine maturité et d’une bonne notoriété, cette table-ronde s’intéresse à l’extension des techniques et applications lexicométriques en contexte multilingue. Sont bien évidemment concernés les corpus parallèles, pour l’analyse et l’exploitation desquels peuvent être proposés de nouveaux outils et méthodes. Sont également en jeux les corpus comparables (non alignés), qu’il s’agit d’être capable d’exploiter moyennent l’adaptation de procédures d’analyse statistique jusque là pratiquées sur des corpus monolingues. Sont enfin également considérés les corpus dont la langue introduit de nouvelles questions théoriques et techniques pour les logiciels de lexicométrie, par exemple pour le codage des caractères, le découpage en « mots », ou le codage des informations morphosyntaxiques. Des normes internationales récentes et en cours d’élaboration guident maintenant le codage des corpus et des ressources linguistiques de tous ordres. Prenant en compte la diversité des langues, elles visent à favoriser la comparabilité et la réutilisabilité des données textuelles.

Mots clés

corpus parallèles corpus comparables corpus en langues orientales statistique textuelle spécificités réseaux de cooccurrences segments répétés représentation topographique de textes parallèles interfaces de navigation classification automatique analyse canonique non linéaire lexiques multilingues jeux de caractères découpage en mots étiquetage linguistique normalisation

Domaines

Linguistique Informatique [cs] Statistiques [stat]

TableRondeJADT-MZ.pdf (870.19 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Maria Zimina-Poirot : Connectez-vous pour contacter le contributeur

https://u-paris.hal.science/hal-01224679

Soumis le : jeudi 30 mars 2023-22:39:12

Dernière modification le : mercredi 5 avril 2023-15:49:34

Dates et versions

hal-01224679 , version 1 (30-03-2023)

Identifiants

HAL Id : hal-01224679 , version 1

Citer

Maria Zimina. Lexicométrie et corpus multilingues. Table-ronde. Résumé. Le poids des mots (JADT vol. 2). Actes des 7es Journées internationales d'analyse statistique des données. Première édition, 2004, pp.1203-1206. ⟨hal-01224679⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 CLILLAC-ARP UP-SOCIETES-HUMANITES

65 Consultations

7 Téléchargements

Lexicométrie et corpus multilingues. Table-ronde. Résumé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager