Le deep learning auxiliaire de l'ADT dans le choix de textes à étiqueter en vue d'un corpus de comparaison : à propos de l'étude stylistique des lettres de Pierre Damien - Université Paris Cité Accéder directement au contenu
Chapitre D'ouvrage Année : 2022

Le deep learning auxiliaire de l'ADT dans le choix de textes à étiqueter en vue d'un corpus de comparaison : à propos de l'étude stylistique des lettres de Pierre Damien

Laurent Vanni

Résumé

To carry out a complete and reliable morphosyntactic labeling of Latin texts is a particularly time-consuming task. It is therefore necessary to choose wisely the texts to be included in a labelled comparison corpus when one wishes to study the intertextual distances between a given author, in particular a medieval one, and his predecessors. A stylistic research on the letters of Peter Damian (11th century) was the occasion to question the methods to be implemented to operate this selection. The intertextual distances were first computed on the forms using additive tree analysis. The results were then compared to the predictions of the deep learning, attributing with variable recognition rates passages of Damian to various authors of the comparison corpus. Where ADT relies primarily on the lexicon, the Convolutional Neural Network takes into account morphosyntactic parameters, with strong areas of activation suggesting a recognition of linguistic patterns that Damian shares with some of his predecessors.
Réaliser un étiquetage morphosyntaxique complet et fiable de textes latins est une tâche particulièrement chronophage. Il s’agit dès lors de choisir à bon escient les textes à intégrer à un corpus de comparaison étiqueté lorsque l’on désire étudier les distances intertextuelles entre un auteur donné, en particulier un auteur médiéval, et ses devanciers. Une recherche stylistique sur les lettres de Pierre Damien (XIe siècle) a été l’occasion de s’interroger sur les méthodes à mettre en œuvre pour opérer cette sélection : les distances intertextuelles ont été d’abord calculée sur les formes à l’aide d’analyses arborées ; les résultats ont été ensuite comparés aux prédictions du deep learning, attribuant, avec des taux de reconnaissance variables, des passages de Pierre Damien à divers auteurs du corpus de comparaison : là où l’ADT semble s’appuyer essentiellement sur le lexique, le Convolutional Neural Network prend mieux en compte des paramètres morphosyntaxiques, les zones d’activation fortes suggérant une reconnaissance de motifs linguistiques que Damien partagerait avec certains de ses prédécesseurs.
Fichier principal
Vignette du fichier
JADT2022.pdf (591.84 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03892792 , version 1 (10-12-2022)

Identifiants

  • HAL Id : hal-03892792 , version 1

Citer

Valérie Thon, Laurent Vanni, Dominique Longrée. Le deep learning auxiliaire de l'ADT dans le choix de textes à étiqueter en vue d'un corpus de comparaison : à propos de l'étude stylistique des lettres de Pierre Damien. JADT 2022 - Proceedings of the 16th International Conference on Statisical Analysis of Textual Data, 2022. ⟨hal-03892792⟩
20 Consultations
20 Téléchargements

Partager

Gmail Facebook X LinkedIn More