Lexicométrie et corpus multilingues. Table-ronde. Résumé - Université Denis Diderot - Paris VII Accéder directement au contenu
Autre Publication Scientifique Année : 2004

Lexicométrie et corpus multilingues. Table-ronde. Résumé

Résumé

Beyond automatic parallel text alignment, which is now well-known of our scientific community, this panel session focuses on how to extend statistical techniques in view of exploring multilingual textual data. As regards parallel corpora, new tools and methodologies have emerged. Processing comparable corpora (i.e. made-up of similar texts which are not the translation of one another) is also a significant challenge. Textual statistics for monolingual corpora can be adapted to this new type of data. Furthermore, some corpora are written in languages which raise new issues as concerns textual statistics softwares: for example the management of the characters encoding, the corpus tokenisation into sensible word-like units, or the definition of clear and coherent linguistic annotation schemes. International standards have recently been published and others are in preparation. They constitute efficient guidelines for corpus and linguistical ressources encoding. As they deal with the genuine diversity of languages throughout the world, these standards allow the comparability and the reusability of textual data.
Par delà l’alignement automatique de corpus, fondamental mais bénéficiant déjà d’une certaine maturité et d’une bonne notoriété, cette table-ronde s’intéresse à l’extension des techniques et applications lexicométriques en contexte multilingue. Sont bien évidemment concernés les corpus parallèles, pour l’analyse et l’exploitation desquels peuvent être proposés de nouveaux outils et méthodes. Sont également en jeux les corpus comparables (non alignés), qu’il s’agit d’être capable d’exploiter moyennent l’adaptation de procédures d’analyse statistique jusque là pratiquées sur des corpus monolingues. Sont enfin également considérés les corpus dont la langue introduit de nouvelles questions théoriques et techniques pour les logiciels de lexicométrie, par exemple pour le codage des caractères, le découpage en « mots », ou le codage des informations morphosyntaxiques. Des normes internationales récentes et en cours d’élaboration guident maintenant le codage des corpus et des ressources linguistiques de tous ordres. Prenant en compte la diversité des langues, elles visent à favoriser la comparabilité et la réutilisabilité des données textuelles.
TableRondeJADT-MZ.pdf (870.19 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01224679 , version 1 (30-03-2023)

Identifiants

  • HAL Id : hal-01224679 , version 1

Citer

Maria Zimina. Lexicométrie et corpus multilingues. Table-ronde. Résumé. Le poids des mots (JADT vol. 2). Actes des 7es Journées internationales d'analyse statistique des données. Première édition, 2004, pp.1203-1206. ⟨hal-01224679⟩
65 Consultations
7 Téléchargements

Partager

Gmail Facebook X LinkedIn More