Méthodes d’attribution

Les recherches biographiques, idéologiques et stylistiques permettent d’approfondir l’analyse d’un texte à attribuer, qu’il soit anonyme ou pseudonyme, et apportent une information utile à son attribution [cf. : Áåðêîâ, 1958, ñ. 183].

 

Analyse stylistique et unités linguistiques

L’analyse stylistique d’une œuvre littéraire s’appuie sur les règles du fonctionnement des unités linguistiques à tous les niveaux de la langue. Après un travail préliminaire de recueil des données, les paramètres linguistiques d’un texte à attribuer se comparent aux paramètres relevés dans l’œuvre de l’écrivain à qui on veut l’attribuer. W. Fuchs (1975) souligne qu’il existe certaines conditions pour effectuer une recherche de paternité objective : les paramètres stylistiques doivent rester invariables tout au long de la vie de l’auteur, ils doivent être spécifiques à l’auteur et être facilement repérables dans le texte. Dans certains ouvrages consacrés à l’attribution, les chercheurs utilisent le terme « une invariable d’auteur » [cf. : Ïîñòíèêîâ, Ôîìåíêî, 1982, ñ. 24–43]. Ces recherches démontrent que l’écriture peut beaucoup varier avec le temps ou selon le genre littéraire des textes. Ainsi, le style individuel est en forte corrélation avec la période de création et avec le genre littéraire. L’objectif d’une analyse stylistique dans le cadre d’une recherche de paternité est de relever et d’identifier ces particularités stylistiques individuelles.

L’application des modèles mathématiques à l’analyse stylistique linguistique lui apporte une objectivité incontestable. V. V. Odintsov souligne cependant qu’une analyse stylistique linguistique se limite aux éléments qui forment le style, le contenu textuel devenant secondaire [cf. : Îäèíöîâ, 1980, ñ. 53–55]. Néanmoins, c’est bien la quantité des éléments uniformes repérés dans des textes à comparer qui est à la base de la recherche de paternité, le contenu étant l’objectif d’autres types d’analyses textuelles.

V. V. Vinogradov instaure, à la base des recherches linguistiques, la notion de style défini comme système complexe, individuel, original, mais structuré dans ses éléments constitutifs et dans ses formes [cf. : Âèíîãðàäîâ, 1959, ñ. 84].


- Le lexique

Le lexique étant étroitement lié au thème et au contenu d’une œuvre littéraire, il est clair que c’est le lexique qui est le plus facilement imité. La structure syntaxique étant d’un caractère latent, son imitation représente une grande complexité. Cela dit, l’analyse lexicale, appliquée à l’attribution des textes, doit être approfondie par l’analyse d’autres structures de la langue, surtout de la structure syntaxique.

La notion de « style » est vue aujourd’hui comme une catégorie syntaxique structurelle [cf. : Çàõàð÷óê, 2006].

Cette notion est une des notions-clés de la théorie d’attribution des œuvres anonymes qui repose sur la recherche des caractéristiques spécifiques du style du texte à attribuer et sur leur comparaison avec celles des textes des auteurs potentiels. Le style peut donc être considéré comme une distinction ou des distinctions entre au moins deux textes [cf. : Áîðóõîâ, 1989, ñ. 5].

Le style d’auteur se manifeste dans l’emploi de structures syntaxiques propres. S. I. Guindine souligne que derrière le large spectre des transformations stylistiques d’un même auteur, nous pouvons toujours apercevoir une unité structurelle profonde [cf. : Ãèíäèí, 1971].


- La syntaxe

On peut résumer les points positifs d’une analyse syntaxique appliquée au style :

- l’analyse syntaxique consiste en une recherche des paramètres spécifiques du texte littéraire au niveau syntaxique lui-même, mais également aux autres niveaux de la langue qui interviennent, par les contraintes qu’ils imposent, dans la structure syntaxique : lexicale, phraséologique et morphologique, ce qui permet une analyse textuelle complexe

- le niveau syntaxique a des modèles formalisés dont les éléments sont accessibles à la description quantitative

- le choix individuel des structures syntaxiques est plus libre que les autres niveaux de la langue

- les structures syntaxiques se composent d’unités minimales à haute fréquence, ce qui permet de réduire considérablement les échantillons des textes à analyser.



Méthodes d’analyse systématique

Il existe actuellement un certain nombre des logiciels et de méthodes qui ont pour objectif le traitement automatique des données des textes et leur attribution immédiate. Nous en avons utilisé trois.

 

- LEXICO 3

Le logiciel Lexico3 est l'édition 2001 du logiciel Lexico dont la première version remonte à 1990. Il a été développé au sein de l'équipe CLA2T (SYLED) à l'Université de Paris 3. Lexico3 permet d'effectuer des analyses globales ou partielles des textes, l'originalité principale de Lexico3 résidant dans la possibilité laissée à l'utilisateur de garder la maîtrise de l'ensemble des analyses lexicométriques depuis la segmentation initiale jusqu'à l'édition des résultats finals. Lexico3 offre les principales fonctionnalités suivantes : segmentation, décomptes sur les formes textuelles, concordances, segments répétés, spécificités, cooccurrences et analyses factorielles [cf. : Salem, 2003 ; Lebart, Salem, 2004].

Il est de coutume dans la statistique linguistique de mesurer l’accroissement du vocabulaire par l’indice de diversité lexicale, c’est-à-dire le nombre de formes différentes d’un mot par rapport au nombre de ses occurrences dans le texte. L’indice de diversité lexicale permet d’analyser la fréquence des formes dans le vocabulaire d’un écrivain. Il est sous-entendu qu’un écrivain qui emploie fréquemment les mêmes mots, fait preuve d’une envergure lexicale moins riche qu’un écrivain qui introduit de nouvelles formes avec l’accroissement du volume textuel. 

Cependant, on ne peut considérer la richesse du vocabulaire, l’envergure lexicale comme une condition indispensable d’un « bon » style ; il est probable que pour certains écrivains l’augmentation du vocabulaire induirait l’appauvrissement du style [cf. : Eco, 2007, p. 174].

En conclusion, on peut remarquer que, au cours des dernières décennies, le paramétrage du style (et, donc, toute recherche de la paternité) a changé son champ d’analyse privilégié : de l’analyse du lexique il s’est tourné vers l’analyse syntaxique, de la description unidimensionnelle (nombre limité d’unités linguistiques, par exemple) il s’est approché d’une description multidimensionnelle (analyse des unités de différents niveaux linguistiques), enfin, l’application du traitement des données assisté par ordinateur s’est faite de plus en plus large.


- Méthode de la « distance intertextuelle »

Une des dernières recherches appliquant le traitement automatique des données à été effectuée par Dominique Labbé. Sa méthode consiste à mesurer la distance intertextuelle, c’est-à-dire la distance entre deux textes. Cette distance est la somme des différences entre les fréquences de tous les vocables du plus petit texte comparé à ceux de tous les échantillons aléatoires possibles à la taille du plus petit que l'on peut extraire du plus grand [cf. : Labbé, 2001].

La distance relative permet d'obtenir une mesure entre 0 et 1. Si tous les mots sont employés dans deux textes avec la même fréquence, la distance relative est 0. Si les textes ne partagent aucun mot en commun, la distance est de 1. Cette distance mesure la ressemblance entre deux textes. Il faut respecter une taille de texte supérieure à 5 000 mots, et lemmatiser les deux textes (c’est-à-dire différencier les homonymes, repérer tous les genres d'un même mot, etc.). Après un étalonnage sur de nombreux textes de tout type, Labbé conclut que deux textes dont la distance intertextuelle est inférieure ou égale à 0,20 sont forcément du même auteur. Entre 0,20 et 0,25 ils sont probablement du même auteur, ou écrits à la même époque, dans un même genre, sur un sujet identique, avec des arguments comparables. Entre 0,25 et 0,40 il est difficile de définir la paternité d'un texte anonyme, et au-dessus de 0,40 les deux auteurs sont certainement différents, ou les deux textes sont de genres très éloignés.


- Méthode de « reconnaissance des formes »

La méthode d’attribution des œuvres anonymes basée sur la théorie de reconnaissance des formes [cf. : Ìàðóñåíêî, 1990] est très élaborée et satisfait pleinement les besoins de l’attribution des œuvres anonymes et pseudonymes. En se basant sur l’aperçu des méthodes mentionnées ci-dessus, nous pouvons constater qu’une méthode d’attribution des textes efficace doit répondre à un certain nombre de critères tels que l’analyse du texte dans son intégralité, touchant à tous les niveaux de la langue, ainsi que l’application d’une classification multidimensionnelle des objets à attribuer.

L’efficacité de cette méthode appliquée aux textes anonymes et pseudonymes a été prouvée et est d’une grande précision [cf. : Ìàðóñåíêî, 2001].

<<Lire la suite sur la méthode de "reconnaissance des formes"

Resource Links:
Chercheurs
Mikhail MARUSENKO, PR
Maria SLAUTINA
Elena RODIONOVA
Valentina CHEPIGA
Sergey KHOZYAINOV
Anastasia SINELEVA
Elena SHUVALOVA
Assya PETROVA
Panorama
Université d’Etat de Saint-Pétersbourg
©2009-2011 All copyright, trade marks, design rights, patents and other intellectual property rights (registered and unregistered) in and on corneille-moliere.com and all content located on the site shall remain vested in site authors. You may not copy, reproduce, republish, post, broadcast, transmit, make available to the public, or otherwise use.
©2009-2011 Generatum Ltd.