Alignement de textes bilingues par classification ascendante hiérarchique - Université Paris Cité Accéder directement au contenu
Communication Dans Un Congrès Année : 2000

Alignement de textes bilingues par classification ascendante hiérarchique

Résumé

Existing translations contain a wealth of ready-made solutions that can be reused to generate new high-quality translations. For this reason, translation resources are frequently stored in electronic databases providing certain information retrieval facilities. The concept of bilingual text alignment enables a more efficient use of the translation resources, by reconstructing the links maintaining translation equivalence between the corresponding segments of the text and its translations in different languages. Current text alignment algorithms perform quite successfully on a sentence level. However, there is a need to continue research in finer-grained text alignment. In this regard, we propose to identify translation correspondences on the basis of hierarchical cluster analysis of graphical forms and repeated segments of bilingual texts. The principles of this technique enable to yield, through progressive agglomeration, clusters of textual units with similar (or identical) distributional profiles. The results obtained following this technique suggest that hierarchical cluster analysis can be applied for a wide rage of purposes in bilingual text alignment.
Le stockage électronique conjoint de textes originaux avec leurs traductions existantes facilite le travail quotidien du traducteur en mettant à sa disposition des solutions toutes faites aux nombreux problèmes de traduction. La conversion d’un ensemble de documents en une base de données bi-textuelles exige l’élaboration de techniques d’alignement. Il faut, donc, introduire une dimension interactive en reconstituant automatiquement des liens entre un grand nombre d’éléments du texte original et sa traduction. Les algorithmes développés pour calculer automatiquement une représentation bi-textuelle ne sont pas encore capables de rendre explicites toutes les correspondances de traduction dans un couple de textes donnés. Notre travail est orienté vers une étude de nouvelles méthodes statistiques d' alignement à base de classification hiérarchique ascendante des formes graphiques et des segments répétés. Les procédures de classification permettent d' agréger successivement formes et segments en fonction de leur répartition dans l'ensemble d'un corpus. Ce genre de regroupement est potentiellement utilisable pour la mise en correspondance de textes bilingues.
Fichier principal
Vignette du fichier
77.pdf (71.77 Ko) Télécharger le fichier
JADT_2000.pdf (923.24 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-01224603 , version 1 (10-03-2022)

Identifiants

  • HAL Id : hal-01224603 , version 1

Citer

Maria Zimina. Alignement de textes bilingues par classification ascendante hiérarchique. JADT 2000, Ecole Polytechnique Fédérale de Lausanne, Mar 2000, Lausanne, Suisse. pp.171-178. ⟨hal-01224603⟩
83 Consultations
26 Téléchargements

Partager

Gmail Facebook X LinkedIn More