Conclusion

Table des matières

Au terme de ce mémoire, il convient de revenir sommairement sur ce qu’il a permis de mettre en évidence. Avant toute chose, le problème de la catégorisation automatique de textes a été introduit dans les deux premiers chapitres et on a pu constater son potentiel dans un contexte où une gestion efficace de l’information devient essentielle. Surtout, le fonctionnement, les particularités et les difficultés des classificateurs automatiques de textes ont été abordés. Des considérations relatives à la représentation des documents, à la sélection d’attributs et aux algorithmes d’apprentissage ont été exprimées.

Entre autres, un des aspects problématiques à avoir été mis en évidence est la constitution d’un corpus d’entraînement. La classification automatique de textes, mettant en place un mécanisme d’apprentissage supervisé, se base sur l’observation d’un ensemble de textes déjà classés par des humains. Le problème est que l’étiquetage de ces textes consomme du temps et des ressources considérables. Des solutions pour atténuer cette difficulté sont donc souhaitables. La discussion s’est tournée au chapitre 3 vers des moyens mis en place par certains chercheurs pour tirer profit de connaissances extérieures à cet ensemble d’entraînement. L’objectif poursuivi est d’éventuellement réduire le besoin d’un grand nombre de documents étiquetés requis pour obtenir le degré de performance souhaité d’un classificateur, ou, dans les situations où la cueillette de ceux-ci ne pose pas problème, d’améliorer tout simplement la qualité de la catégorisation. Dans cette optique, des travaux ont porté sur l’utilisation d’un lexique ou sur l’utilisation de textes non étiquetés. Cette dernière proposition ayant démontré du potentiel, la question se posait à savoir quelle information éventuellement utile au processus de catégorisation on pouvait tirer de ces textes.

On a alors vu que la connaissance du degré de cooccurrence entre les mots, leur tendance à apparaître dans un même contexte, pouvait être extraite d’un ensemble de textes non libellés et pouvait être utile à un classificateur. En ce sens, la notion de cooccurrence a été précisée au chapitre 4 et quelques façons de la mesurer numériquement ont été abordées.

Suite à ce survol de l’état de l’art dans le domaine de la catégorisation automatique de textes et à cette introduction à l’utilisation de documents non libellés et à la cooccurrence de mots, le sujet principal du mémoire a été mis à l’avant-plan au chapitre 5. Il s’agit de la proposition d’une approche étudiant la cooccurrence de mots au sein de documents non classés et modifiant en conséquence la représentation des textes à traiter. Sans revenir sur tous les détails, rappelons qu’un classificateur se représente un texte à classer à partir des mots qu’il a déjà rencontrés au cours de son entraînement. Il fait abstraction de tous les mots inconnus qui surviennent. La solution proposée est donc d’étudier, à l’intérieur de textes non libellés, la cooccurrence de ces mots inconnus par rapport aux mots présents dans le vocabulaire du classificateur. Ensuite, lorsque le classificateur rencontre un mot nouveau dans un texte à classer, et que ce mot s’est avéré très cooccurrent avec un mot qu’il connaît, alors il simule la présence de ce mot connu. Comme il a été jugé que ces deux mots avaient tendance à apparaître dans les mêmes documents, cette action peut aider le classificateur à mieux cerner la catégorie d’appartenance du texte.

Une évaluation exécutée sur différents corpus de textes et sur différents types de classificateurs a permis de démontrer que la mise en place d’un tel mécanisme pouvait donner lieu à une amélioration des performances du classificateur. La présentation des résultats de cette évaluation ainsi qu’une discussion à leur sujet ont occupé le chapitre 6. Certes, les hausses de micro-F1 observées au cours de nos expérimentations ne sont pas vertigineuses, au contraire. Dans la majorité des cas, l’analyse de cooccurrence a permis de gagner entre 1 et 4 points de micro-F1. Il faut savoir que, dans le domaine de la catégorisation automatique de textes, de telles améliorations sont en général très bien reçues, dans un contexte où l’on travaille à parfaire un classificateur dans des conditions «idéales », c’est-à-dire avec un ensemble d’entraînement de taille raisonnable. Comme il a déjà été spécifié, nos travaux se situent plutôt dans un contexte où cet ensemble est restreint. Évidemment, les résultats obtenus sans analyse de cooccurrence sont au départ beaucoup moins bons. L’impact paraît donc moins attrayant. Toutefois, comme l’analyse de cooccurrence est exécutée sur des textes non étiquetés, aucune ressource humaine ou presque n’est requise pour mener à bien cette tâche et donc les gains obtenus n’auront coûté que du temps de calcul machine.

Une autre conclusion à tirer : les expérimentations menées ont permis de déterminer que le test du χ² est préférable dans notre contexte pour mesurer la cooccurrence de mots que les autres mesures étudiées. En somme, l’approche nouvelle exposée dans ce mémoire a le potentiel d’assister un classificateur dans l’exécution de sa tâche lorsque les données d’entraînement se font plus rares. À défaut d’avoir observé des gains très importants au cours de nos expérimentations, nous avons pu mettre en évidence certaines problématiques et nous avons lancé une piste intéressante de solution qui mérite sûrement d’être raffinée.

Nos travaux comportent évidemment certaines limites ouvrant la voie à d’autres avenues de recherche. Les multiples variables intervenant dans le processus de catégorisation créent un nombre quasi infini de configurations de paramètres à tester. Malheureusement, le temps, lui, n’est pas infini et il a été nécessaire de fixer certains paramètres pour en étudier d’autres plus en profondeur. Évidemment, il aurait été intéressant d’observer le comportement de notre approche sur plus de trois corpus de textes et sur plus de deux classificateurs. En plus, faire varier les divers paramètres des classificateurs et la méthode de sélection d’attributs aurait peut-être permis de faire ressortir des phénomènes de compatibilité entre le processus d’analyse de cooccurrence et les caractéristiques des classificateurs.

Dans un même ordre d’idées, nos expérimentations n’ont pas pris en considération la nature du corpus de documents non libellés dans lequel se fait l’analyse de cooccurrence. Est-il préférable qu’il contienne des textes de nature semblable à ceux traités par le classificateur ou peut-il être constitué de documents cueillis sur le Web aléatoirement ? Il serait très possible que les bénéfices de la méthode soient influencés à un certain niveau par ce facteur. De la même façon, nos travaux n’ont pas permis d’évaluer l’influence de la taille de ce corpus.

Une étude plus poussée s’impose aussi concernant la détermination du seuil de cooccurrence idéal au-delà duquel deux mots sont jugés assez cooccurrents pour être substitués l’un à l’autre. L’idéal serait de mettre au point un moyen de calculer ce seuil idéal à partir de certaines caractéristiques de la tâche de catégorisation, mais les observations actuelles n’ont pas permis d’y arriver.

Un autre aspect qui semble ne pas avoir été étudié en profondeur concernant la méthode mise de l’avant est le choix des mots du vocabulaire étant impliqués dans l’analyse de cooccurrence. La stratégie retenue, qui consiste à ne considérer que le mot le plus relié à chacune des catégories selon le test du χ², peut paraître plutôt arbitraire. Il serait peut-être plus utile de baser ce choix de mots sur un autre critère.

Nos travaux portent aussi à croire qu’il pourrait être profitable d’imaginer d’autres façons d’incorporer dans le processus de catégorisation la connaissance sur la cooccurrence des mots. Également, des moyens supplémentaires de traiter le problème des mots inconnus du classificateur seraient sans contredit les bienvenus.

En ce qui a trait à la catégorisation automatique de textes en général, plusieurs portes sont également encore ouvertes pour la recherche. Du point de vue de la représentation des documents, une multitude de travaux ont déjà porté sur la recherche d’alternatives à la traditionnelle représentation «bag-of-words» . Cette dernière demeure pourtant celle qui semble la meilleure. Quoi qu’il en soit, il est toujours légitime de tenter de développer de nouvelles façons de représenter les documents. Mais, il serait sûrement intéressant d’essayer de comprendre précisément ce qui rend la représentation «bag-of-words» si efficace.

En ce qui concerne la sélection d’attributs, c’est un des aspects qui s’avèrent influencer significativement la capacité des classificateurs à bien effectuer leur travail. Alors, le développement de nouvelles techniques de sélection d’attributs constitue un thème qui inspirera encore plusieurs chercheurs. Un champ de recherche supplémentaire est bien sûr l’application et l’adaptation de nouveaux algorithmes d’apprentissage au problème de la catégorisation automatique de textes.

On peut également noter deux problèmes qui interfèrent certainement dans le processus de catégorisation : la synonymie et la polysémie. Le fait que des mots distincts puissent faire référence à une même sémantique ou qu’un mot unique puisse véhiculer des sens différents rend difficile la tâche d’un classificateur. D’un texte à l’autre, le vocabulaire utilisé pour parler d’un même sujet peut varier et il devient plus difficile pour un algorithme de généraliser, de faire des recoupements entre ces textes. La mise en correspondance risque aussi de se faire difficilement entre les textes d’entraînement et les textes à classer. Des solutions efficaces à ces problèmes sont donc souhaitables.

En un mot, la catégorisation automatique de textes est un domaine loin d’en être à ses débuts, mais qui présente encore plusieurs défis. Il s’agit d’une technologie ayant le potentiel de soutenir des applications très utiles et intéressantes, mais démontrant certaines lacunes qui doivent être résolues. Les travaux de recherche communiqués par ce mémoire s’attaquaient à l’une de ces lacunes : le coût de constitution des ensembles d’entraînement. Nous avons démontré qu’en étudiant la cooccurrence de mots dans une collection de textes non libellés, un classificateur entraîné sur un petit nombre d’exemples pouvait enrichir son vocabulaire et améliorer sa capacité à classer correctement de nouveaux documents. L’approche proposée apparaît donc comme une piste de solution alternative à l’usage d’ensembles d’entraînement volumineux et coûteux à construire. Elle peut également inspirer le développement de moyens similaires de répondre au même problème.