L'algorithme des rafales a été décrit dans plusieurs publications, on trouvera notamment dans le papier (brugidou, Lequeau 99) ci-dessous la version qui a été implémentée dans TROPES.
http://hal.archives-ouvertes.fr/docs/00/49/33/77/PDF/Analysis_of_non_directive_interviews_with_the_bundle_method.pdf
L'algorithme originel est décrit dans (Brugidou 1995), voici l'extrait correspondant (p227)
Dans un article paru en 1980 intitulé "statistiques des localisations des formes dans un texte", P. Lafon remarquait que " la plupart des études de linguistique quantitative sont fondées sur la notion de fréquence" et attirait l'attention sur l'intérêt d'une approche séquentielle (1). En adoptant un tel point de vue, il a montré qu'il était possible d'émettre un jugement en probabilité sur la régularité de la distribution d'une forme dans un "texte homogène ayant un début et une fin".
Une des principales conclusions de cette étude semble être la suivante : c'est l'irrégularité qui paraît être la règle, les formes ont tendance à arriver "en rafale", regroupée dans une région limitée du texte cependant que la régularité est plus rare et caractérise des formes "athématiques" qu'il définit après M. Michea comme des "termes plus ou moins communs à tous les sujets et à toutes les situations (2)".
Notre problématique s'inspire directement de ce constat : sachant que la plupart des mots-thèmes ont une distribution irrégulière, on peut penser que certains termes arrivent "en rafale" (3) au même endroit du texte, on aurait alors une concentration remarquable de termes à distribution irrégulière, c'est-à-dire probablement des mots-thèmes (4). Repérer de telles concentrations, recenser les cooccurrences de "rafales", c'est-à-dire les endroits du texte où les rafales arrivent à leur tour "en rafale", reviendrait à identifier des "thèmes".
Section 1 : problèmes méthodologiques
Une difficulté propre à cette entreprise est de localiser la rafale elle-même : on connaît l'adresse de chacune des formes qui la composent, on peut donc estimer que la moyenne de ces adresses nous indiquera le centre de gravité de la rafale que l'on pourra alors considérer comme son adresse.
Mais plus la distribution d'une forme est ramassée, plus la rafale est "dense" et meilleure sera l'indication donnée par l'adresse moyenne puisque les variations de part et d'autre de la moyenne arithmétique seront faibles. On a donc tout intérêt à chercher à "optimiser" la rafale, c'est-à-dire à ne retenir de la distribution d'une forme que sa partie la plus dense, là où les écarts entre ses différentes adresses seront les plus petits.
Autrement dit, il peut être avantageux de ne considérer qu'un segment de la liste d'adresses d'une forme quitte à juger qu' une forme arrive "en rafale" à plusieurs endroits du texte et donc à retenir plusieurs segments différents de la liste d'adresses d'une forme : une même forme pourrait donc donner naissance à plusieurs "rafales".
Pour cela le jugement en probabilité ne doit pas porter sur l'ensemble de la distribution mais il doit être réitéré à chaque nouvelle occurrence de la forme considérée. En effet, il ne s'agit pas tant de vérifier si la forme a une distribution globalement irrégulière que d'observer si dans une partie donnée du texte, la sous-fréquence d'une forme est remarquable connaissant sa fréquence totale dans le texte et ce autant de fois que la forme apparaît. On peut aisément imaginer le cas d'une forme fortement répétée au début d'un texte et réapparaissant de loin en loin - relativement régulièrement - dans la suite du texte. Un jugement sur l'ensemble de la distribution nous conduirait à ignorer que la forme est localement très concentrée.
Prenons à titre d'exemple le cas de la forme "situation" analysée par P. Lafon dans son article et dont la liste d'adresses est la suivante : 12, 206, 245, 756, 1207, 1271, 1470, 4398, 5068, 5272, 6415, 7348.
Considérant cette liste d'adresses, peut-on repérer un sur-emploi local de la forme "situation" ? En d'autres termes, celle-ci arrive-t-elle, dans une partie quelconque du texte, "en rafale" ?
Pour répondre à ces questions, on va considérer le premier segment de la liste d'adresses de "situation" (les trois premières adresses) et appliquer la notion d'intervalle de confiance (5).
Auparavant, il convient de définir différents paramètres : on notera T la taille du texte, F la fréquence de la forme dans le texte, @ l'écart type théorique, e l'effectif théorique, f la sous-fréquence (c'est-à-dire l'effectif observé), N la taille de l'échantillon prélevé dans le texte et ic, l'intervalle de confiance.
T= 8274 occurrences
F= 12
N= 233 (de la première à la troisième occurrence de "situation"
f = 3 (l'effectif observé).
La probabilité d'apparition de "situation" dans le texte est :
p = F/T soit 12/8274 = 0.0015
La probabilité complémentaire (q) est égale à
1 - p soit q = 1- 0.0015 = 0.9986.
Sachant que l'écart type théorique est égal à la racine carrée de (N x p x q) soit 233 x 0.0015 x 0.9986 = 0.58
L' effectif théorique est égal à N x p soit 233 x 0.0015 = 0.34.
L'intervalle de confiance avec un seuil de rejet à 5% étant égal à l'effectif théorique +/- l'écart type théorique multiplié par 2 soit 0.34 +/- (0.58 x 2)= + 1.5 <------> - 0.82
L'effectif observé pour cette tranche étant de 3, nous pouvons donc dire que la concentration de cette forme dans cette partie du texte est remarquable.
Ce test peut être fait à chaque occurrence de "situation", la valeur de N variant (il s'agit à chaque fois d'une tranche différente du texte, celle que délimite la première occurrence et la dernière occurrence testée), T p et q restant constants. Il suffit de répéter ce test en prenant en compte à chaque fois seulement trois occurrences de la forme (deux segments d'adresses "en rafale" possédant une intersection non vide formant un segment d'adresses lui- même "en rafale"). Si l'effectif observé (f) (qui est alors constant, égal à trois) se trouve en dehors de l'intervalle de confiance, il y a formation d'une "rafale" et ce aussi longtemps que f restera en dehors de l'intervalle.
Ce test peut être fait jusqu'à la septième occurrence de "situation". On remarquera que le troisième segment (adresse 245 à 1207) ne devrait pas être retenu puisque f (valeur constante égale à trois) est en dehors de l'intervalle de confiance. Mais il est inclu dans deux segments en rafale puisque les segments testés se chevauchent. La série s'arrête donc à la septième adresse de "situation"; toutes les valeurs observées au-delà se trouvent en dehors des intervalles de confiance. On peut le vérifier en considérant le segment allant de la première adresse de "situation" à la septième:
soit N = 1458 ; e= 2.05 ; @ = 1.43; ic = +4.91 <------> -0.81.
f étant égal à 7 le test est encore probant mais il ne l'est plus à la huitième occurrence de "situation":
soit N = 4386 ; e = 6.15 ; @ = 2.47 ; ic = +11.09 <-----> 1.21, f étant égal à 8 il est largement compris dans l'intervalle de confiance, "situation" dans cette partie du texte n'arrive plus "en rafale".
Bien que la forme "situation", si l'on considère l'ensemble de sa distribution, ne soit pas remarquable du point de vue de son irrégularité (ce que notait P. Lafon dans son article), on peut toutefois dire qu'elle arrive localement en rafale. On ne s'intéressera donc qu'aux sept premières adresses de "situation" qui nous fourniront l'adresse de la rafale soit 738.14 (c'est la moyenne des sept premières adresses).
On conçoit que le test puisse être positif pour un premier segment de la liste d'adresses, puis négatif (f se trouvant dans l'intervalle de confiance); et enfin de nouveau positif pour un autre segment de la liste d'adresse : la forme sera alors déclarée "en rafale" à plusieurs endroits du texte (mais le test aurait pu tout aussi bien s'avérer négatif dans un premier temps et positif après, il suffit pour cela de considérer la tranche comprise entre la deuxième et la quatrième occurrence, voire entre la troisième et la cinquième et ce jusqu'à la fin de la liste d'adresse de la forme).
Il est probable qu'avec une telle méthode une grande partie des mots d'un texte s'avère être à l'origine de "rafales". Il ne s'agit pas ici de chercher l'exception - nous savons que l'irrégularité est plutôt la règle - mais de cerner un nouveau type de forme, une "rafale" qui ne s'identifie pas forcément à la liste complète des adresses d'un terme.
Concernant la spécificité de l'algorithme dans Tropes, elle est triple :
- le calcul ne porte pas seulement sur les formes graphiques et peut être réalisé sur les différents 4 niveaux de classement de la référence dîsponibles dans Tropes
- le calcul prend en compte les mots-outils. Avec Pierre Molette, nous avions il y a quelques années discuté de l'intérêt ou non de les prendre en compte, suit aux experimentations que nous avions mené avec Pierre Le Queau.
- le découpage des épisodes diffère par rapport à celui proposé dans Brugidou 1995 :
TROPES effectue une analyse géométrique des rafales pour détecter les épisodes. Les rafales, qui sont des variables explicatives de la chronologie d’un récit, peuvent être utilisées pour définir une fonction mathématique discrète qui, pour chaque occurrence des mots du texte, est croissante, lorsqu’une rafale commence, et décroissante, lorsqu’une rafale se termine. L’algorithme analyse les extremums de cette fonction pour découper le texte en blocs chronologiques : les épisodes. Pour simplifier, disons qu’un nouvel épisode est détecté lorsqu’un grand nombre de rafales commencent et se terminent. Ce traitement peut être effectué sur les quatre niveaux de classification de la référence disponibles dans Tropes (i.e. Univers de référence 1 et 2, Références utilisées, Scénario). Dans tous les cas, certaines méta-catégories A.P.D. (verbes performatifs, joncteurs, modalisations et pronoms personnels) sont utilisées.
Lorsque les épisodes ont été repérés, TROPES utilise les adresses (moyenne des occurrences des mots qui la composent) des rafales pour les affecter dans leurs épisodes d’appartenance. Dans le graphe des rafales, le libellé de chaque rafale est centré sur son adresse. Bien que les rafales participent toujours à la construction d’un épisode, il est possible qu’un épisode soit vide, s’il ne contient aucune adresse de rafale (l’épisode contient des rafales qui le traversent, mais qui ne lui “ appartiennent ” pas). Puisque les épisodes sont définis par les bords (début et fin) des rafales, et non par leur adresse, ceci ne doit pas être considéré comme une anomalie.
A propos de la stabilité du découpage : étant donné que plusieurs niveaux de classification de la référence peuvent être utilisés, le nombre d’épisodes dépend du niveau de généralité souhaité.
http://hal.archives-ouvertes.fr/docs/00/49/33/77/PDF/Analysis_of_non_directive_interviews_with_the_bundle_method.pdf
L'algorithme originel est décrit dans (Brugidou 1995), voici l'extrait correspondant (p227)
Dans un article paru en 1980 intitulé "statistiques des localisations des formes dans un texte", P. Lafon remarquait que " la plupart des études de linguistique quantitative sont fondées sur la notion de fréquence" et attirait l'attention sur l'intérêt d'une approche séquentielle (1). En adoptant un tel point de vue, il a montré qu'il était possible d'émettre un jugement en probabilité sur la régularité de la distribution d'une forme dans un "texte homogène ayant un début et une fin".
Une des principales conclusions de cette étude semble être la suivante : c'est l'irrégularité qui paraît être la règle, les formes ont tendance à arriver "en rafale", regroupée dans une région limitée du texte cependant que la régularité est plus rare et caractérise des formes "athématiques" qu'il définit après M. Michea comme des "termes plus ou moins communs à tous les sujets et à toutes les situations (2)".
Notre problématique s'inspire directement de ce constat : sachant que la plupart des mots-thèmes ont une distribution irrégulière, on peut penser que certains termes arrivent "en rafale" (3) au même endroit du texte, on aurait alors une concentration remarquable de termes à distribution irrégulière, c'est-à-dire probablement des mots-thèmes (4). Repérer de telles concentrations, recenser les cooccurrences de "rafales", c'est-à-dire les endroits du texte où les rafales arrivent à leur tour "en rafale", reviendrait à identifier des "thèmes".
Section 1 : problèmes méthodologiques
Une difficulté propre à cette entreprise est de localiser la rafale elle-même : on connaît l'adresse de chacune des formes qui la composent, on peut donc estimer que la moyenne de ces adresses nous indiquera le centre de gravité de la rafale que l'on pourra alors considérer comme son adresse.
Mais plus la distribution d'une forme est ramassée, plus la rafale est "dense" et meilleure sera l'indication donnée par l'adresse moyenne puisque les variations de part et d'autre de la moyenne arithmétique seront faibles. On a donc tout intérêt à chercher à "optimiser" la rafale, c'est-à-dire à ne retenir de la distribution d'une forme que sa partie la plus dense, là où les écarts entre ses différentes adresses seront les plus petits.
Autrement dit, il peut être avantageux de ne considérer qu'un segment de la liste d'adresses d'une forme quitte à juger qu' une forme arrive "en rafale" à plusieurs endroits du texte et donc à retenir plusieurs segments différents de la liste d'adresses d'une forme : une même forme pourrait donc donner naissance à plusieurs "rafales".
Pour cela le jugement en probabilité ne doit pas porter sur l'ensemble de la distribution mais il doit être réitéré à chaque nouvelle occurrence de la forme considérée. En effet, il ne s'agit pas tant de vérifier si la forme a une distribution globalement irrégulière que d'observer si dans une partie donnée du texte, la sous-fréquence d'une forme est remarquable connaissant sa fréquence totale dans le texte et ce autant de fois que la forme apparaît. On peut aisément imaginer le cas d'une forme fortement répétée au début d'un texte et réapparaissant de loin en loin - relativement régulièrement - dans la suite du texte. Un jugement sur l'ensemble de la distribution nous conduirait à ignorer que la forme est localement très concentrée.
Prenons à titre d'exemple le cas de la forme "situation" analysée par P. Lafon dans son article et dont la liste d'adresses est la suivante : 12, 206, 245, 756, 1207, 1271, 1470, 4398, 5068, 5272, 6415, 7348.
Considérant cette liste d'adresses, peut-on repérer un sur-emploi local de la forme "situation" ? En d'autres termes, celle-ci arrive-t-elle, dans une partie quelconque du texte, "en rafale" ?
Pour répondre à ces questions, on va considérer le premier segment de la liste d'adresses de "situation" (les trois premières adresses) et appliquer la notion d'intervalle de confiance (5).
Auparavant, il convient de définir différents paramètres : on notera T la taille du texte, F la fréquence de la forme dans le texte, @ l'écart type théorique, e l'effectif théorique, f la sous-fréquence (c'est-à-dire l'effectif observé), N la taille de l'échantillon prélevé dans le texte et ic, l'intervalle de confiance.
T= 8274 occurrences
F= 12
N= 233 (de la première à la troisième occurrence de "situation"
f = 3 (l'effectif observé).
La probabilité d'apparition de "situation" dans le texte est :
p = F/T soit 12/8274 = 0.0015
La probabilité complémentaire (q) est égale à
1 - p soit q = 1- 0.0015 = 0.9986.
Sachant que l'écart type théorique est égal à la racine carrée de (N x p x q) soit 233 x 0.0015 x 0.9986 = 0.58
L' effectif théorique est égal à N x p soit 233 x 0.0015 = 0.34.
L'intervalle de confiance avec un seuil de rejet à 5% étant égal à l'effectif théorique +/- l'écart type théorique multiplié par 2 soit 0.34 +/- (0.58 x 2)= + 1.5 <------> - 0.82
L'effectif observé pour cette tranche étant de 3, nous pouvons donc dire que la concentration de cette forme dans cette partie du texte est remarquable.
Ce test peut être fait à chaque occurrence de "situation", la valeur de N variant (il s'agit à chaque fois d'une tranche différente du texte, celle que délimite la première occurrence et la dernière occurrence testée), T p et q restant constants. Il suffit de répéter ce test en prenant en compte à chaque fois seulement trois occurrences de la forme (deux segments d'adresses "en rafale" possédant une intersection non vide formant un segment d'adresses lui- même "en rafale"). Si l'effectif observé (f) (qui est alors constant, égal à trois) se trouve en dehors de l'intervalle de confiance, il y a formation d'une "rafale" et ce aussi longtemps que f restera en dehors de l'intervalle.
Ce test peut être fait jusqu'à la septième occurrence de "situation". On remarquera que le troisième segment (adresse 245 à 1207) ne devrait pas être retenu puisque f (valeur constante égale à trois) est en dehors de l'intervalle de confiance. Mais il est inclu dans deux segments en rafale puisque les segments testés se chevauchent. La série s'arrête donc à la septième adresse de "situation"; toutes les valeurs observées au-delà se trouvent en dehors des intervalles de confiance. On peut le vérifier en considérant le segment allant de la première adresse de "situation" à la septième:
soit N = 1458 ; e= 2.05 ; @ = 1.43; ic = +4.91 <------> -0.81.
f étant égal à 7 le test est encore probant mais il ne l'est plus à la huitième occurrence de "situation":
soit N = 4386 ; e = 6.15 ; @ = 2.47 ; ic = +11.09 <-----> 1.21, f étant égal à 8 il est largement compris dans l'intervalle de confiance, "situation" dans cette partie du texte n'arrive plus "en rafale".
Bien que la forme "situation", si l'on considère l'ensemble de sa distribution, ne soit pas remarquable du point de vue de son irrégularité (ce que notait P. Lafon dans son article), on peut toutefois dire qu'elle arrive localement en rafale. On ne s'intéressera donc qu'aux sept premières adresses de "situation" qui nous fourniront l'adresse de la rafale soit 738.14 (c'est la moyenne des sept premières adresses).
On conçoit que le test puisse être positif pour un premier segment de la liste d'adresses, puis négatif (f se trouvant dans l'intervalle de confiance); et enfin de nouveau positif pour un autre segment de la liste d'adresse : la forme sera alors déclarée "en rafale" à plusieurs endroits du texte (mais le test aurait pu tout aussi bien s'avérer négatif dans un premier temps et positif après, il suffit pour cela de considérer la tranche comprise entre la deuxième et la quatrième occurrence, voire entre la troisième et la cinquième et ce jusqu'à la fin de la liste d'adresse de la forme).
Il est probable qu'avec une telle méthode une grande partie des mots d'un texte s'avère être à l'origine de "rafales". Il ne s'agit pas ici de chercher l'exception - nous savons que l'irrégularité est plutôt la règle - mais de cerner un nouveau type de forme, une "rafale" qui ne s'identifie pas forcément à la liste complète des adresses d'un terme.
Concernant la spécificité de l'algorithme dans Tropes, elle est triple :
- le calcul ne porte pas seulement sur les formes graphiques et peut être réalisé sur les différents 4 niveaux de classement de la référence dîsponibles dans Tropes
- le calcul prend en compte les mots-outils. Avec Pierre Molette, nous avions il y a quelques années discuté de l'intérêt ou non de les prendre en compte, suit aux experimentations que nous avions mené avec Pierre Le Queau.
- le découpage des épisodes diffère par rapport à celui proposé dans Brugidou 1995 :
TROPES effectue une analyse géométrique des rafales pour détecter les épisodes. Les rafales, qui sont des variables explicatives de la chronologie d’un récit, peuvent être utilisées pour définir une fonction mathématique discrète qui, pour chaque occurrence des mots du texte, est croissante, lorsqu’une rafale commence, et décroissante, lorsqu’une rafale se termine. L’algorithme analyse les extremums de cette fonction pour découper le texte en blocs chronologiques : les épisodes. Pour simplifier, disons qu’un nouvel épisode est détecté lorsqu’un grand nombre de rafales commencent et se terminent. Ce traitement peut être effectué sur les quatre niveaux de classification de la référence disponibles dans Tropes (i.e. Univers de référence 1 et 2, Références utilisées, Scénario). Dans tous les cas, certaines méta-catégories A.P.D. (verbes performatifs, joncteurs, modalisations et pronoms personnels) sont utilisées.
Lorsque les épisodes ont été repérés, TROPES utilise les adresses (moyenne des occurrences des mots qui la composent) des rafales pour les affecter dans leurs épisodes d’appartenance. Dans le graphe des rafales, le libellé de chaque rafale est centré sur son adresse. Bien que les rafales participent toujours à la construction d’un épisode, il est possible qu’un épisode soit vide, s’il ne contient aucune adresse de rafale (l’épisode contient des rafales qui le traversent, mais qui ne lui “ appartiennent ” pas). Puisque les épisodes sont définis par les bords (début et fin) des rafales, et non par leur adresse, ceci ne doit pas être considéré comme une anomalie.
A propos de la stabilité du découpage : étant donné que plusieurs niveaux de classification de la référence peuvent être utilisés, le nombre d’épisodes dépend du niveau de généralité souhaité.