Collection Mémoires et thèses électroniques
AccueilÀ proposNous joindre

Annexe 7 – Discussion de l’erreur d’échantillonnage

Le présent projet de maîtrise a mené à la réalisation d’une enquête auprès des industriels de seconde transformation du panneau dans le but d’obtenir des informations sur la gestion de leurs résidus de panneaux. Au cours de la mise en application d’enquête, certaines erreurs surviennent inévitablement. Ces erreurs sont de natures multiples et bien souvent, il est possible de les minimiser sans toutefois pouvoir les éliminer complètement. La présente discussion traite de ces erreurs et plus précisément des deux principaux types d’erreurs, soit l’erreur d’échantillonnage et celle de non-échantillonnage.

L’erreur d’échantillonnage

La capacité d’estimer avec précision le pourcentage de la population possédant une certaine caractéristique avec des données provenant d’une petite fraction d’industriels est ce qui distingue les enquêtes des autres types de recherches. Par contre, ceci mène inévitablement à l’obtention d’une certaine erreur d’échantillonnage qui a lieu lorsque la précision de l’échantillon est limitée par le nombre d’usines questionnées. Ce type d’erreur vient de ce que l’on tente de questionner seulement quelques industriels et non toutes les unités faisant partie de la population. L’erreur d’échantillonnage dépend grandement de la taille de l’échantillon et comparativement à l’erreur de non-échantillonnage, peut être évaluée avec une certaine précision. La taille de l’échantillon peut être déterminée en prenant en considération l’erreur d’échantillonnage tolérée, la taille du cadre d’échantillonnage, la variance au sein du cadre d’échantillonnage ainsi que le niveau de confiance. Dillman (2000) propose l’équation suivante permettant d’estimer la taille de l’échantillon:

Où : Ns : Taille de l’échantillon devant retourner le questionnaire rempli

Np : Taille du cadre d’échantillonnage

P : proportion de la population qui répondrait par exemple oui (50/50, si grande variation ou 80/20 si homogénéité) 

B : erreur d’échantillonnage acceptable (0,1 = ± 10%)

C : valeur de Z associée à un niveau de confiance de 95% (1,96)

En incluant ces valeurs dans l’équation pour chaque strate précédemment définie, on obtient les tailles d’échantillon présentes au tableau 1. Il est à noter qu’une proportion de 80/20 a été utilisée lors du calcul, car les strates sont considérées homogènes.

Tableau 1: Taille échantillon devant retourner le questionnaire rempli

Grâce à l’équation précédente, on obtient le nombre d’usines devant retourner le questionnaire rempli pour chaque strate. La quantité de questionnaires ayant été retournés et remplis est inférieure à celle calculée pour toutes les strates. On est donc en présence d’une erreur d’échantillonnage. Si on applique un taux de réponse de 30% aux valeurs calculées avec l’équation ci-dessus, la quantité totale d’usines qui devraient être incluses dans l’échantillon est de 823 (247/0,3 = 823). C’est donc dire qu’il aurait fallu inclure toutes les usines du cadre d’échantillonnage (673 usines) dans l’échantillon, ce qui est illogique. C’est pourquoi le nombre d’usines échantillonnées par strate a été fixé à 50. Toutefois, ceci mène à la création d’une erreur d’échantillonnage.

Il existe deux principaux types d’erreurs, soit l’erreur de type I (α) et celle de type II (β) (Collin, 2003) [2] . L’erreur de type I est commise lorsque l’on rejette l’hypothèse nulle, H0, quand elle est vraie. C’est le type d’erreur le plus grave, cal l’on voit donc des choses qui n’existent pas. On commet une erreur de type II lorsque l’on est incapable de rejeter l’hypothèse nulle, H0, quand celle-ci est fausse. Ainsi, on est incapable de voir des choses qui existent. Ce type d’erreur peut être contrôlé grâce à la dimension de l’échantillon. En effet, le choix de la dimension de l’échantillon et la probabilité d’effectuer une erreur de type II sont étroitement liés. Ainsi, à mesure que la dimension de l’échantillon augmente, la probabilité d’effectuer une erreur de type II diminue et la puissance du test s’accroît.

L’erreur d’échantillonnage à laquelle nous faisons face dans cette étude est une erreur de type II étant donné la faible taille de l’échantillon. Donc au cours du processus d’analyse, certaines différences existantes n’ont peut-être pas été détectées en raison d’un manque d’unités composant l’échantillon. Toutefois, la présence d’erreur de type II ne met pas en cause les différences ayant été détectées. Les résultats obtenus sont donc valides, mais l’étude demeure conservatrice en raison d’un maigre échantillonnage.

L’erreur de non-échantillonnage

Les erreurs de non-échantillonnage sont souvent les plus fréquentes en recherche. Il existe deux types d’erreur de non-échantillonnage, les erreurs provenant d’observation et celles ne provenant pas d’observation. Une erreur de non-observation est plus problématique, car elle provient d’une erreur de non-réponse ou de non-couverture tandis qu’une erreur d’observation est simplement une différence entre les valeurs reportées et celles véridiques. La figure 1 présente les erreurs de non-échantillonnage (Churchill et Iacobucci, 2002).

Figure 1: Erreurs de non-échantillonnage

Figure 1: Erreurs de non-échantillonnage

L’erreur de non-couverture se présente lorsque la liste à partir de laquelle on sélectionne aléatoirement l’échantillon (cadre d’échantillonnage) n’inclut pas tous les éléments de la population. Il est donc impossible de donner une chance égale à tous les éléments de la population d’être inclus au sein de l’échantillon. Un exemple pourrait être l’omission des personnes sans téléphone lors d’une enquête par téléphone. Comme la majorité des enquêtes, la présente étude possède un certain degré d’erreur de non-couverture. Tel que mentionné précédemment, on ne retrouve pas tous les industriels sur le site Internet du CRIQ, car leur inscription est volontaire. Ceux qui ne sont pas présents n’ont donc pas de chance d’être sélectionnés pour faire partie de l’échantillon. Par exemple, certains industriels de petite taille peuvent avoir décidé de ne pas s’inscrire sur le site du CRIQ. De plus, une petite quantité d’industriels ne connaissant pas ce site Internet ont sans doute été oubliés. Néanmoins, ce cadre d’échantillonnage a été utilisé car l’erreur de couverture probable semblait être faible comparativement à d’autres alternatives abordables.

Une deuxième source d’erreur de non-observation, soit l’erreur de non-réponse, a lieu lorsque plusieurs industriels faisant partie de l’échantillon ne retournent pas leur questionnaire dûment rempli et possèdent des caractéristiques différentes de ceux ayant répondu. Par exemple, si 80% des industriels fabricant des armoires de cuisine répondent comparativement à seulement 20% dans le cas des meubles de maison. Il est donc essentiel de s’assurer que le nombre de questionnaires reçus est homogène entre les différentes strates afin de réduire ce type d’erreur. Les taux de réponse présentés au début du chapitre 3 (voir tableau 4) témoignent de l’obtention d’un nombre de réponses homogène entre les strates. La réalisation d’un échantillonnage stratifié a donc permis de minimiser l’erreur de non-réponse.

L’erreur de mesure est le premier type d’erreur d’observation. Elle prend naissance lorsque les réponses fournies par certains industriels sont imprécises et ne peuvent donc pas être interprétées et comparées aux réponses ayant été fournies par les autres répondants. Les facteurs menant à ce type d’erreur sont très nombreux. Ils ont lieu par exemple lorsque l’industriel ne comprend pas certaines questions, lorsqu’il lui est impossible de fournir une réponse ou lorsqu’il fournit des réponses dépourvues de tout sens ou ne répondant pas à la question. Habituellement, ce type d’erreur est la conséquence de questions mal formulées et de questionnaires mal présentés. Dans la présente étude, le questionnaire a été bâti avec le plus de précision possible afin de minimiser l’erreur de mesure. Toutefois, l’interprétation et la compréhension des questions varient bien sûr d’un répondant à l’autre. De plus, certaines questions se sont avérées difficiles à répondre. Donc, certaines réponses ont seulement été présentées à titre indicatif lorsque la quantité de réponses était trop faible.

Les erreurs de non-échantillonnage ne se terminent pas lors de la collecte des données. Des erreurs peuvent survenir lors de la compilation, du traitement ou de l’analyse des données. La plupart de ces erreurs peuvent être réduites grâce à un contrôle approprié. La révision de chaque questionnaire à deux reprises a permis d’éviter des erreurs de transfert de données sur logiciel informatique.

Il existe de nombreuses sources d’erreurs de non-échantillonnage et la découverte de celles-ci ne cesse de s’accroître. Cet annexe a donc tenté de souligner les sources d’erreurs les plus connues et les actions qui ont été prises au cours du processus méthodologique afin de les minimiser le plus possible.



[2] Collin, J. (2003). Dispositifs expérimentaux–BVG-60678–Notes de cours. Québec: Université Laval, 304 p

© Véronique Gilbert, 2005