Lorsqu’il a été question à la section 5.2 des mots inconnus du classificateur traités par l’analyse de cooccurrence, on a pu constater que nos travaux les ont limités à ceux qui apparaissaient dans au moins quatre documents de test. En fait, la valeur de ce seuil a été fixée de façon empirique.
On a pris en considération la fréquence des mots inconnus survenant dans l’ensemble de test. L’observation des résultats de quelques expériences a permis de s’apercevoir que dès que l’on exige une fréquence minimale d’apparition dans deux documents, le nombre de mots inconnus à traiter chute de façon importante. Cette baisse du nombre de mots continue à se faire lorsque l’on passe à des fréquences minimales de trois ou quatre documents. Pour des valeurs supérieures, le nombre de documents continue évidemment de baisser, mais de façon moins marquée.
Comme il semblait que le seuil de quatre documents permettait de sélectionner un nombre raisonnable de mots à inclure dans l’analyse de cooccurrence, notre choix s’y est arrêté.
Le tableau suivant illustre le phénomène qui vient d’être décrit à l’aide de données provenant de tests effectués sur les corpus RCV1, WebKB et Ohsumed.