Intervalle de confiance. Intervalles de confiance Qui a suggéré l'utilisation d'un intervalle de confiance

Le calcul de l'intervalle de confiance est basé sur l'erreur moyenne du paramètre correspondant. Intervalle de confiance montre dans quelles limites avec probabilité (1-a) se trouve la vraie valeur du paramètre estimé. Ici a est le niveau de signification, (1-a) est aussi appelé niveau de confiance.

Dans le premier chapitre, nous avons montré que, par exemple, pour la moyenne arithmétique, la vraie moyenne de la population se situe à moins de 2 erreurs moyennes de la moyenne environ 95 % du temps. Ainsi, les limites de l'intervalle de confiance à 95 % pour la moyenne seront à partir de la moyenne de l'échantillon de deux fois l'erreur moyenne de la moyenne, c'est-à-dire nous multiplions l'erreur moyenne de la moyenne par un facteur qui dépend du niveau de confiance. Pour la moyenne et la différence des moyennes, le coefficient de Student (la valeur critique du critère de Student) est pris, pour la part et la différence des parts, la valeur critique du critère z. Le produit du coefficient et de l'erreur moyenne peut être appelé l'erreur marginale de ce paramètre, c'est-à-dire le maximum que nous pouvons obtenir lors de son évaluation.

Intervalle de confiance pour moyenne arithmétique : .

Voici la moyenne de l'échantillon ;

Erreur moyenne de la moyenne arithmétique ;

s-écart-type de l'échantillon ;

n

f = n-1 (coefficient de Student).

Intervalle de confiance pour différence des moyennes arithmétiques :

Ici, est la différence entre les moyennes de l'échantillon ;

- l'erreur moyenne de la différence des moyennes arithmétiques ;

s 1 ,s 2 -échantillons d'écarts types ;

n1,n2

Valeur critique du critère de Student pour un niveau de signification a donné et le nombre de degrés de liberté f=n1 +n2-2 (coefficient de Student).

Intervalle de confiance pour actions :

.

Ici d est la part de l'échantillon ;

– erreur de partage moyenne;

n– taille de l'échantillon (taille du groupe) ;

Intervalle de confiance pour partager les différences :

Ici, est la différence entre les parts de l'échantillon ;

est l'erreur moyenne de la différence entre les moyennes arithmétiques ;

n1,n2– taille des échantillons (nombre de groupes) ;

La valeur critique du critère z à un niveau de signification donné a ( , , ).

En calculant les intervalles de confiance de la différence d'indicateurs, on voit d'abord directement les valeurs possibles de l'effet, et pas seulement son estimation ponctuelle. Deuxièmement, nous pouvons tirer une conclusion sur l'acceptation ou la réfutation de l'hypothèse nulle et, troisièmement, nous pouvons tirer une conclusion sur la puissance du critère.

Lors du test d'hypothèses à l'aide d'intervalles de confiance, la règle suivante doit être suivie :

Si l'intervalle de confiance de 100(1-a) pour cent de la différence moyenne ne contient pas zéro, alors les différences sont statistiquement significatives au niveau de signification a ; au contraire, si cet intervalle contient zéro, alors les différences ne sont pas statistiquement significatives.

En effet, si cet intervalle contient zéro, alors, cela signifie que l'indicateur comparé peut être soit plus ou moins dans l'un des groupes par rapport à l'autre, c'est-à-dire les différences observées sont aléatoires.

Par l'endroit où zéro se situe dans l'intervalle de confiance, on peut juger de la puissance du critère. Si zéro est proche de la limite inférieure ou supérieure de l'intervalle, alors peut-être qu'avec un plus grand nombre de groupes comparés, les différences atteindraient une signification statistique. Si zéro est proche du milieu de l'intervalle, cela signifie que l'augmentation et la diminution de l'indicateur dans le groupe expérimental sont également probables et, probablement, qu'il n'y a vraiment aucune différence.

Exemples:

Pour comparer la létalité opérationnelle lors de l'utilisation de deux types d'anesthésie différents : 61 personnes ont été opérées en utilisant le premier type d'anesthésie, 8 sont décédées, en utilisant la seconde - 67 personnes, 10 sont décédées.

d 1 \u003d 8/61 \u003d 0,131; d 2 \u003d 10/67 \u003d 0,149; d1-d2 = - 0,018.

La différence de létalité des méthodes comparées sera de l'ordre de (-0,018 - 0,122 ; -0,018 + 0,122) ou (-0,14 ; 0,104) avec une probabilité de 100(1-a) = 95 %. L'intervalle contient zéro, c'est-à-dire l'hypothèse d'une même létalité avec deux types d'anesthésie différents ne peut être rejetée.

Ainsi, la mortalité peut et va diminuer à 14% et augmenter à 10,4% avec une probabilité de 95%, c'est-à-dire zéro est approximativement au milieu de l'intervalle, on peut donc affirmer que, très probablement, ces deux méthodes ne diffèrent pas vraiment en termes de létalité.

Dans l'exemple considéré plus tôt, le temps de tapotement moyen a été comparé dans quatre groupes d'étudiants différant dans leurs résultats aux examens. Calculons les intervalles de confiance du temps de pressage moyen pour les étudiants qui ont réussi l'examen pour 2 et 5 et l'intervalle de confiance pour la différence entre ces moyennes.

Les coefficients de Student sont trouvés à partir des tableaux de distribution de Student (voir annexe) : pour le premier groupe : = t(0,05;48) = 2,011 ; pour le second groupe : = t(0.05;61) = 2.000. Ainsi, les intervalles de confiance pour le premier groupe : = (162,19-2,011 * 2,18 ; 162,19 + 2,011 * 2,18) = (157,8 ; 166,6) , pour le second groupe (156,55- 2,000*1,88 ; 156,55+2,000*1,88) = (152,8 ; 160.3). Ainsi, pour ceux qui ont réussi l'examen pour 2, le temps de pressage moyen varie de 157,8 ms à 166,6 ms avec une probabilité de 95%, pour ceux qui ont réussi l'examen pour 5 - de 152,8 ms à 160,3 ms avec une probabilité de 95% .

Vous pouvez également tester l'hypothèse nulle à l'aide d'intervalles de confiance pour les moyennes, et pas seulement pour la différence entre les moyennes. Par exemple, comme dans notre cas, si les intervalles de confiance des moyennes se chevauchent, alors l'hypothèse nulle ne peut pas être rejetée. Afin de rejeter une hypothèse à un niveau de signification choisi, les intervalles de confiance correspondants ne doivent pas se chevaucher.

Trouvons l'intervalle de confiance pour la différence de temps de pressage moyen dans les groupes qui ont réussi l'examen pour 2 et 5. La différence dans les moyennes : 162,19 - 156,55 = 5,64. Coefficient de Student : \u003d t (0,05 ; 49 + 62-2) \u003d t (0,05 ; 109) \u003d 1,982. Les écarts-types de groupe seront égaux à : ; . On calcule l'erreur moyenne de la différence entre les moyennes : . Intervalle de confiance : \u003d (5,64-1,982 * 2,87 ; 5,64 + 1,982 * 2,87) \u003d (-0,044 ; 11,33).

Ainsi, la différence de temps de pressage moyen dans les groupes ayant réussi l'examen à 2 et à 5 sera comprise entre -0,044 ms et 11,33 ms. Cet intervalle comprend zéro, c'est-à-dire le temps de pressage moyen pour ceux qui ont réussi l'examen avec d'excellents résultats peut à la fois augmenter et diminuer par rapport à ceux qui ont réussi l'examen de manière insatisfaisante, c'est-à-dire l'hypothèse nulle ne peut être rejetée. Mais zéro étant très proche de la limite inférieure, le temps de pressing est beaucoup plus susceptible de diminuer pour les excellents passeurs. Ainsi, nous pouvons conclure qu'il existe encore des différences dans le temps de clic moyen entre ceux qui sont passés par 2 et par 5, nous n'avons tout simplement pas pu les détecter pour un changement donné du temps moyen, de la propagation du temps moyen et des tailles d'échantillon.

La puissance du test est la probabilité de rejeter une hypothèse nulle incorrecte, c'est-à-dire trouver les différences là où elles sont vraiment.

La puissance du test est déterminée en fonction du niveau de signification, de l'ampleur des différences entre les groupes, de la répartition des valeurs dans les groupes et de la taille de l'échantillon.

Pour le test t de Student et l'analyse de la variance, vous pouvez utiliser des graphiques de sensibilité.

La puissance du critère peut être utilisée dans la détermination préliminaire du nombre requis de groupes.

L'intervalle de confiance indique dans quelles limites se situe la vraie valeur du paramètre estimé avec une probabilité donnée.

À l'aide d'intervalles de confiance, vous pouvez tester des hypothèses statistiques et tirer des conclusions sur la sensibilité des critères.

LITTÉRATURE.

Glantz S. - Chapitre 6.7.

Rebrova O.Yu. - p.112-114, p.171-173, p.234-238.

Sidorenko E.V. - pp. 32-33.

Questions pour l'auto-examen des étudiants.

1. Quelle est la puissance du critère ?

2. Dans quels cas faut-il évaluer la puissance des critères ?

3. Méthodes de calcul de la puissance.

6. Comment tester une hypothèse statistique à l'aide d'un intervalle de confiance ?

7. Que peut-on dire de la puissance du critère lors du calcul de l'intervalle de confiance ?

Tâches.

Estimation des intervalles de confiance

Objectifs d'apprentissage

Les statistiques tiennent compte des éléments suivants deux tâches principales:

    Nous avons une estimation basée sur des données d'échantillon et nous voulons faire une déclaration probabiliste sur la valeur réelle du paramètre estimé.

    Nous avons une hypothèse spécifique qui doit être testée sur la base de données d'échantillon.

Dans ce sujet, nous considérons le premier problème. Nous introduisons également la définition d'un intervalle de confiance.

Un intervalle de confiance est un intervalle qui est construit autour de la valeur estimée d'un paramètre et montre où se situe la vraie valeur du paramètre estimé avec une probabilité donnée a priori.

Après avoir étudié le matériel sur ce sujet, vous :

    apprendre quel est l'intervalle de confiance de l'estimation ;

    apprendre à classer les problèmes statistiques ;

    maîtriser la technique de construction des intervalles de confiance, tant à l'aide de formules statistiques qu'à l'aide d'outils logiciels ;

    apprendre à déterminer les tailles d'échantillon requises pour atteindre certains paramètres d'exactitude des estimations statistiques.

Distributions des caractéristiques de l'échantillon

Distribution en T

Comme discuté ci-dessus, la distribution de la variable aléatoire est proche d'une distribution normale standardisée avec les paramètres 0 et 1. Puisque nous ne connaissons pas la valeur de σ, nous la remplaçons par une estimation s . La quantité a déjà une distribution différente, à savoir, ou Répartition des étudiants, qui est déterminé par le paramètre n -1 (nombre de degrés de liberté). Cette distribution est proche de la distribution normale (plus n est grand, plus les distributions sont proches).

Sur la fig. 95
La distribution de Student avec 30 degrés de liberté est présentée. Comme vous pouvez le voir, il est très proche de la distribution normale.

Semblables aux fonctions pour travailler avec la distribution normale NORMDIST et NORMINV, il existe des fonctions pour travailler avec la distribution t - STUDIST (TDIST) et STUDRASPBR (TINV). Un exemple d'utilisation de ces fonctions se trouve dans le fichier STUDRIST.XLS (template et solution) et dans la fig. 96
.

Distributions des autres caractéristiques

Comme nous le savons déjà, pour déterminer l'exactitude de l'estimation de l'espérance, nous avons besoin d'une distribution t. Pour estimer d'autres paramètres, tels que la variance, d'autres distributions sont nécessaires. Deux d'entre eux sont la distribution F et x 2 -répartition.

Intervalle de confiance pour la moyenne

Intervalle de confiance est un intervalle qui est construit autour de la valeur estimée du paramètre et montre où se situe la vraie valeur du paramètre estimé avec une probabilité donnée a priori.

La construction d'un intervalle de confiance pour la valeur moyenne se produit de la manière suivante:

Exemple

Le fast-food prévoit d'élargir son assortiment avec un nouveau type de sandwich. Afin d'en estimer la demande, le responsable prévoit de sélectionner au hasard 40 visiteurs parmi ceux qui l'ont déjà essayé et de leur demander d'évaluer leur attitude vis-à-vis du nouveau produit sur une échelle de 1 à 10. Le responsable souhaite estimer la nombre prévu de points que le nouveau produit recevra et construisez un intervalle de confiance à 95 % pour cette estimation. Comment faire? (voir fichier SANDWICH1.XLS (modèle et solution).

Décision

Pour résoudre ce problème, vous pouvez utiliser . Les résultats sont présentés dans la fig. 97
.

Intervalle de confiance pour la valeur totale

Parfois, selon les données d'échantillon, il est nécessaire d'estimer non pas l'espérance mathématique, mais la somme totale des valeurs. Par exemple, dans une situation avec un auditeur, il peut être intéressant d'estimer non pas la valeur moyenne d'une facture, mais la somme de toutes les factures.

Soit N le nombre total d'éléments, n la taille de l'échantillon, T 3 la somme des valeurs de l'échantillon, T" l'estimation de la somme sur l'ensemble de la population, puis , et l'intervalle de confiance est calculé par la formule , où s est l'estimation de l'écart type pour l'échantillon, est l'estimation de la moyenne pour l'échantillon.

Exemple

Supposons qu'un bureau des impôts souhaite estimer le montant total des remboursements d'impôt pour 10 000 contribuables. Le contribuable reçoit soit un remboursement, soit paie des impôts supplémentaires. Trouvez l'intervalle de confiance à 95 % pour le montant du remboursement, en supposant un échantillon de 500 personnes (voir le fichier REFUND AMOUNT.XLS (modèle et solution).

Décision

Il n'y a pas de procédure spéciale dans StatPro pour ce cas, cependant, vous pouvez voir que les limites peuvent être obtenues à partir des limites de la moyenne en utilisant les formules ci-dessus (Fig. 98
).

Intervalle de confiance pour la proportion

Soit p l'espérance d'une part de clients, et pv une estimation de cette part, obtenue à partir d'un échantillon de taille n. On peut montrer que pour suffisamment grand la distribution estimée sera proche de la normale avec une moyenne p et un écart type . L'erreur type de l'estimation dans ce cas est exprimée par , et l'intervalle de confiance comme .

Exemple

Le fast-food prévoit d'élargir son assortiment avec un nouveau type de sandwich. Afin d'en estimer la demande, le responsable a tiré au sort 40 visiteurs parmi ceux qui l'avaient déjà essayé et leur a demandé de noter leur attitude vis-à-vis du nouveau produit sur une échelle de 1 à 10. Le responsable souhaite estimer la proportion attendue de clients qui évaluent le nouveau produit à au moins 6 points (il s'attend à ce que ces clients soient les consommateurs du nouveau produit).

Décision

Dans un premier temps, nous créons une nouvelle colonne sur la base de 1 si le score du client était supérieur à 6 points et 0 sinon (voir le fichier SANDWICH2.XLS (template et solution).

Méthode 1

En comptant le montant de 1, nous estimons la part, puis nous utilisons les formules.

La valeur de z cr est tirée de tables de distribution normale spéciales (par exemple, 1,96 pour un intervalle de confiance à 95 %).

En utilisant cette approche et des données spécifiques pour construire un intervalle à 95%, nous obtenons les résultats suivants (Fig. 99
). La valeur critique du paramètre z cr est de 1,96. L'erreur type de l'estimation est de 0,077. La limite inférieure de l'intervalle de confiance est de 0,475. La limite supérieure de l'intervalle de confiance est de 0,775. Ainsi, un responsable peut supposer avec une certitude de 95 % que le pourcentage de clients qui évaluent un nouveau produit de 6 points ou plus sera compris entre 47,5 et 77,5.

Méthode 2

Ce problème peut être résolu à l'aide des outils standard de StatPro. Pour ce faire, il suffit de noter que la part dans ce cas coïncide avec la valeur moyenne de la colonne Type. Appliquer ensuite StatPro/Inférence statistique/Analyse à un échantillon pour créer un intervalle de confiance pour la valeur moyenne (estimation de l'attente) pour la colonne Type. Les résultats obtenus dans ce cas seront très proches du résultat de la 1ère méthode (Fig. 99).

Intervalle de confiance pour l'écart type

s est utilisé comme estimation de l'écart type (la formule est donnée dans la section 1). La fonction de densité de l'estimation s est la fonction chi carré qui, comme la distribution t, a n-1 degrés de liberté. Il existe des fonctions spéciales pour travailler avec cette distribution CHI2DIST (CHIDIST) et CHI2OBR (CHIINV) .

L'intervalle de confiance dans ce cas ne sera plus symétrique. Le schéma conditionnel des limites est illustré à la fig. 100 .

Exemple

La machine doit produire des pièces d'un diamètre de 10 cm.Cependant, en raison de diverses circonstances, des erreurs se produisent. Le contrôleur qualité se préoccupe de deux choses : premièrement, la valeur moyenne doit être de 10 cm ; deuxièmement, même dans ce cas, si les écarts sont importants, de nombreux détails seront rejetés. Chaque jour il réalise un échantillon de 50 pièces (voir fichier QUALITY CONTROL.XLS (modèle et solution). Quelles conclusions un tel échantillon peut-il donner ?

Décision

Nous construisons des intervalles de confiance à 95 % pour la moyenne et pour l'écart type en utilisant StatPro/Inférence statistique/Analyse à un échantillon(Fig. 101
).

De plus, en utilisant l'hypothèse d'une distribution normale des diamètres, nous calculons la proportion de produits défectueux, en fixant un écart maximum de 0,065. En utilisant les capacités de la table de correspondance (cas de deux paramètres), nous construisons la dépendance du pourcentage de rejets sur la valeur moyenne et l'écart type (Fig. 102
).

Intervalle de confiance pour la différence de deux moyennes

C'est l'une des applications les plus importantes des méthodes statistiques. Exemples de situations.

    Un gérant de magasin de vêtements aimerait savoir combien une femme dépense en plus ou en moins dans le magasin qu'un homme.

    Les deux compagnies aériennes effectuent des vols similaires. Une organisation de consommateurs souhaite comparer la différence entre les temps de retard de vol moyens prévus pour les deux compagnies aériennes.

    L'entreprise envoie des coupons pour certains types de marchandises dans une ville et n'en envoie pas dans une autre. Les gestionnaires veulent comparer les achats moyens de ces articles au cours des deux prochains mois.

    Un concessionnaire automobile traite souvent avec des couples mariés lors de présentations. Pour comprendre leurs réactions personnelles à la présentation, les couples sont souvent interrogés séparément. Le manager veut évaluer la différence de notes attribuées par les hommes et les femmes.

Cas des échantillons indépendants

La différence moyenne aura une distribution t avec n 1 + n 2 - 2 degrés de liberté. L'intervalle de confiance pour μ 1 - μ 2 est exprimé par le rapport :

Ce problème peut être résolu non seulement par les formules ci-dessus, mais également par les outils StatPro standard. Pour ce faire, il suffit d'appliquer

Intervalle de confiance pour la différence entre les proportions

Soit l'espérance mathématique des actions. Soit leurs estimations d'échantillon construites sur des échantillons de taille n 1 et n 2, respectivement. Est alors une estimation de la différence. Par conséquent, l'intervalle de confiance pour cette différence s'exprime comme suit :

Ici z cr est la valeur obtenue à partir de la distribution normale de tables spéciales (par exemple, 1,96 pour un intervalle de confiance de 95 %).

L'erreur type de l'estimation s'exprime dans ce cas par la relation :

.

Exemple

Le magasin, en préparation de la grande vente, a entrepris la recherche marketing suivante. Les 300 meilleurs acheteurs ont été sélectionnés et divisés au hasard en deux groupes de 150 membres chacun. Tous les acheteurs sélectionnés ont reçu des invitations à participer à la vente, mais uniquement pour les membres du premier groupe était joint un coupon donnant droit à une remise de 5 %. Lors de la vente, les achats des 300 acheteurs sélectionnés ont été enregistrés. Comment un manager peut-il interpréter les résultats et porter un jugement sur l'efficacité du couponing ? (Voir le fichier COUPONS.XLS (modèle et solution)).

Décision

Pour notre cas particulier, sur 150 clients ayant reçu un coupon de réduction, 55 ont effectué un achat en solde, et parmi 150 n'ayant pas reçu de coupon, seuls 35 ont effectué un achat (Fig. 103
). Ensuite, les valeurs des proportions de l'échantillon sont respectivement 0,3667 et 0,2333. Et la différence d'échantillon entre eux est égale à 0,1333, respectivement. En supposant un intervalle de confiance de 95 %, nous trouvons à partir du tableau de distribution normale z cr = 1,96. Le calcul de l'erreur type de la différence d'échantillon est de 0,0524. Enfin, nous obtenons que la limite inférieure de l'intervalle de confiance à 95% est de 0,0307 et la limite supérieure est de 0,2359, respectivement. Les résultats obtenus peuvent être interprétés de telle manière que pour 100 clients ayant reçu un bon de réduction, on peut s'attendre à de 3 à 23 nouveaux clients. Cependant, il faut garder à l'esprit que cette conclusion en elle-même ne signifie pas l'efficacité de l'utilisation des coupons (car en offrant une remise, on perd en profit !). Démontrons cela sur des données concrètes. Supposons que le montant moyen des achats soit de 400 roubles, dont 50 roubles. il y a un profit de magasin. Alors le profit espéré pour 100 clients qui n'ont pas reçu de coupon est égal à :

50 0,2333 100 \u003d 1166,50 roubles.

Des calculs similaires pour 100 acheteurs ayant reçu un coupon donnent :

30 0,3667 100 \u003d 1100,10 roubles.

La diminution du bénéfice moyen à 30 s'explique par le fait qu'en utilisant la remise, les acheteurs qui ont reçu un coupon effectueront en moyenne un achat de 380 roubles.

Ainsi, la conclusion finale indique l'inefficacité de l'utilisation de tels coupons dans cette situation particulière.

Commenter. Ce problème peut être résolu à l'aide des outils standard de StatPro. Pour ce faire, il suffit de réduire ce problème au problème d'estimation de la différence de deux moyennes par la méthode, puis d'appliquer StatPro/Inférence statistique/Analyse à deux échantillons construire un intervalle de confiance pour la différence entre deux valeurs moyennes.

Contrôle de l'intervalle de confiance

La longueur de l'intervalle de confiance dépend de conditions suivantes:

    directement les données (écart-type);

    niveau de signification;

    taille de l'échantillon.

Taille de l'échantillon pour estimer la moyenne

Considérons d'abord le problème dans le cas général. Notons la valeur de la moitié de la longueur de l'intervalle de confiance qui nous est donné par B (Fig. 104
). Nous savons que l'intervalle de confiance pour la valeur moyenne d'une variable aléatoire X est exprimé par , où . En supposant:

et exprimant n , nous obtenons .

Malheureusement, nous ne connaissons pas la valeur exacte de la variance de la variable aléatoire X. De plus, nous ne connaissons pas la valeur de t cr car elle dépend de n par le nombre de degrés de liberté. Dans cette situation, nous pouvons faire ce qui suit. Au lieu de la variance s, nous utilisons une estimation de la variance pour certaines réalisations disponibles de la variable aléatoire à l'étude. Au lieu de la valeur t cr, nous utilisons la valeur z cr pour la distribution normale. Ceci est tout à fait acceptable, puisque les fonctions de densité pour les distributions normale et t sont très proches (sauf pour le cas de petit n ). Ainsi, la formule recherchée prend la forme :

.

Étant donné que la formule donne, en général, des résultats non entiers, l'arrondi avec un excès du résultat est considéré comme la taille d'échantillon souhaitée.

Exemple

Le fast-food prévoit d'élargir son assortiment avec un nouveau type de sandwich. Afin d'en estimer la demande, le responsable prévoit de sélectionner au hasard un certain nombre de visiteurs parmi ceux qui l'ont déjà essayé, et leur demande d'évaluer leur attitude vis-à-vis du nouveau produit sur une échelle de 1 à 10. Le responsable souhaite pour estimer le nombre de points attendus que le nouveau produit recevra. produit et tracer l'intervalle de confiance à 95 % de cette estimation. Cependant, il souhaite que la moitié de la largeur de l'intervalle de confiance ne dépasse pas 0,3. De combien de visiteurs a-t-il besoin pour interroger ?

comme suit:

Ici pourritures est une estimation de la fraction p, et B est une moitié donnée de la longueur de l'intervalle de confiance. Une valeur gonflée pour n peut être obtenue en utilisant la valeur pourritures= 0,5. Dans ce cas, la longueur de l'intervalle de confiance ne dépassera pas la valeur donnée B pour toute valeur vraie de p.

Exemple

Laissez le gestionnaire de l'exemple précédent prévoir d'estimer la proportion de clients qui préfèrent un nouveau type de produit. Il veut construire un intervalle de confiance à 90 % dont la demi-longueur est inférieure ou égale à 0,05. Combien de clients devraient être échantillonnés au hasard ?

Décision

Dans notre cas, la valeur de z cr = 1,645. Par conséquent, la quantité requise est calculée comme .

Si le gestionnaire avait des raisons de croire que la valeur souhaitée de p est, par exemple, d'environ 0,3, alors en substituant cette valeur dans la formule ci-dessus, nous obtiendrions une valeur plus petite de l'échantillon aléatoire, à savoir 228.

Formule à déterminer tailles d'échantillons aléatoires en cas de différence entre deux moyennesécrit comme:

.

Exemple

Certaines sociétés informatiques ont un centre de service client. Récemment, le nombre de plaintes de clients concernant la mauvaise qualité du service a augmenté. Le centre de services emploie principalement deux types d'employés : ceux qui ont peu d'expérience, mais qui ont suivi des cours de formation spéciaux, et ceux qui ont une vaste expérience pratique, mais qui n'ont pas suivi de cours spéciaux. L'entreprise souhaite analyser les plaintes des clients au cours des six derniers mois et comparer leurs nombres moyens pour chacun des deux groupes d'employés. On suppose que les nombres dans les échantillons pour les deux groupes seront les mêmes. Combien d'employés doivent être inclus dans l'échantillon pour obtenir un intervalle de 95 % avec une demi-longueur ne dépassant pas 2 ?

Décision

Ici, σ ots est une estimation de l'écart type des deux variables aléatoires sous l'hypothèse qu'elles sont proches. Ainsi, dans notre tâche, nous devons en quelque sorte obtenir cette estimation. Cela peut être fait, par exemple, comme suit. En examinant les données sur les plaintes des clients au cours des six derniers mois, un responsable peut remarquer qu'il y a généralement entre 6 et 36 plaintes par employé. Sachant que pour une distribution normale pratiquement toutes les valeurs ne sont pas à plus de trois écarts-types de la moyenne, il peut raisonnablement croire que :

, d'où σ ots = 5.

En remplaçant cette valeur dans la formule, on obtient .

Formule à déterminer la taille d'un échantillon aléatoire dans le cas de l'estimation de la différence entre les parts ressemble à:

Exemple

Certaines entreprises ont deux usines pour la production de produits similaires. Le responsable d'une entreprise souhaite comparer les taux de défauts des deux usines. Selon les informations disponibles, le taux de rebut dans les deux usines est de 3 à 5 %. Il est censé construire un intervalle de confiance à 99 % avec une demi-longueur ne dépassant pas 0,005 (ou 0,5 %). Combien de produits faut-il sélectionner dans chaque usine ?

Décision

Ici, p 1ot et p 2ot sont des estimations de deux fractions inconnues de rebuts aux 1ère et 2ème usines. Si nous mettons p 1ots \u003d p 2ots \u003d 0,5, alors nous obtiendrons une valeur surestimée pour n. Mais puisque dans notre cas nous avons quelques informations a priori sur ces parts, nous prenons l'estimation haute de ces parts, à savoir 0,05. On a

Lors de l'estimation de certains paramètres de population à partir de données d'échantillon, il est utile de fournir non seulement une estimation ponctuelle du paramètre, mais également un intervalle de confiance indiquant où se situe la valeur exacte du paramètre estimé.

Dans ce chapitre, nous nous sommes également familiarisés avec les relations quantitatives qui permettent de construire de tels intervalles pour différents paramètres ; appris des façons de contrôler la longueur de l'intervalle de confiance.

Nous notons également que le problème d'estimation de la taille de l'échantillon (problème de planification d'expérience) peut être résolu à l'aide des outils standard de StatPro, à savoir StatPro/Inférence statistique/Sélection de la taille de l'échantillon.

Konstantin Krawchik explique clairement ce qu'est un intervalle de confiance dans la recherche médicale et comment l'utiliser

"Katren-Style" continue de publier un cycle de Konstantin Kravchik sur les statistiques médicales. Dans deux articles précédents, l'auteur a abordé l'explication de concepts tels que et.

Constantin Kravchik

Mathématicien-analyste. Spécialiste dans le domaine de la recherche statistique en médecine et en sciences humaines

Ville de Moscou

Très souvent, dans les articles sur les essais cliniques, vous pouvez trouver une phrase mystérieuse : « intervalle de confiance » (IC à 95 % ou IC à 95 % - intervalle de confiance). Par exemple, un article pourrait dire : "Le test t de Student a été utilisé pour évaluer la signification des différences, avec un intervalle de confiance à 95 % calculé."

Quelle est la valeur de "l'intervalle de confiance à 95 %" et pourquoi le calculer ?

Qu'est-ce qu'un intervalle de confiance ? - Il s'agit de la plage dans laquelle se situent les vraies valeurs moyennes de la population. Et quoi, il y a des moyennes "fausses" ? Dans un sens, oui, ils le font. Dans nous avons expliqué qu'il est impossible de mesurer le paramètre d'intérêt dans l'ensemble de la population, les chercheurs se contentent donc d'un échantillon limité. Dans cet échantillon (par exemple, en poids corporel), il existe une valeur moyenne (un certain poids), par laquelle nous jugeons la valeur moyenne dans l'ensemble de la population générale. Cependant, il est peu probable que le poids moyen dans l'échantillon (en particulier un petit échantillon) coïncide avec le poids moyen dans la population générale. Par conséquent, il est plus correct de calculer et d'utiliser la fourchette des valeurs moyennes de la population générale.

Par exemple, supposons que l'intervalle de confiance à 95 % (IC à 95 %) pour l'hémoglobine se situe entre 110 et 122 g/L. Cela signifie qu'avec une probabilité de 95  %, la véritable valeur moyenne de l'hémoglobine dans la population générale se situera entre 110 et 122 g/L. En d'autres termes, nous ne connaissons pas l'hémoglobine moyenne dans la population générale, mais nous pouvons indiquer la plage de valeurs pour cette caractéristique avec une probabilité de 95 %.

Les intervalles de confiance sont particulièrement pertinents pour la différence de moyennes entre les groupes, ou ce qu'on appelle la taille de l'effet.

Supposons que nous comparions l'efficacité de deux préparations de fer : une qui est sur le marché depuis longtemps et une qui vient d'être homologuée. Après le traitement, la concentration d'hémoglobine dans les groupes de patients étudiés a été évaluée et le programme statistique a calculé pour nous que la différence entre les valeurs moyennes des deux groupes avec une probabilité de 95% est comprise entre 1,72 à 14,36 g/l (tableau 1).

Languette. 1. Critère pour les échantillons indépendants
(les groupes sont comparés par le taux d'hémoglobine)

Ceci doit être interprété comme suit : chez une partie des patients de la population générale qui prennent un nouveau médicament, l'hémoglobine sera plus élevée en moyenne de 1,72 à 14,36 g/l que chez ceux qui ont pris un médicament déjà connu.

En d'autres termes, dans la population générale, la différence des valeurs moyennes de l'hémoglobine dans les groupes avec une probabilité de 95% se situe dans ces limites. Ce sera au chercheur de juger si c'est beaucoup ou peu. Le point de tout cela est que nous ne travaillons pas avec une valeur moyenne, mais avec une plage de valeurs, par conséquent, nous estimons de manière plus fiable la différence d'un paramètre entre les groupes.

Dans les progiciels statistiques, à la discrétion du chercheur, on peut indépendamment réduire ou élargir les limites de l'intervalle de confiance. En abaissant les probabilités de l'intervalle de confiance, nous rétrécissons l'éventail des moyennes. Par exemple, à un IC à 90 %, la fourchette des moyennes (ou des différences moyennes) sera plus étroite qu'à un IC à 95 %.

Inversement, augmenter la probabilité à 99 % élargit la plage de valeurs. Lorsque l'on compare des groupes, la limite inférieure de l'IC peut franchir le zéro. Par exemple, si nous avons étendu les limites de l'intervalle de confiance à 99  %, alors les limites de l'intervalle allaient de -1 à 16 g/L. Cela signifie que dans la population générale, il existe des groupes dont la différence entre les moyennes pour le trait étudié est de 0 (M = 0).

Les intervalles de confiance peuvent être utilisés pour tester des hypothèses statistiques. Si l'intervalle de confiance croise la valeur zéro, alors l'hypothèse nulle, qui suppose que les groupes ne diffèrent pas dans le paramètre étudié, est vraie. Un exemple est décrit ci-dessus, lorsque nous avons étendu les limites à 99 %. Quelque part dans la population générale, nous avons trouvé des groupes qui ne différaient en rien.

Intervalle de confiance à 95 % de la différence d'hémoglobine, (g/l)


La figure montre l'intervalle de confiance à 95 % de la différence d'hémoglobine moyenne entre les deux groupes sous la forme d'une ligne. La ligne passe le zéro, donc, il y a une différence entre les moyennes égale à zéro, ce qui confirme l'hypothèse nulle que les groupes ne diffèrent pas. La différence entre les groupes varie de -2 à 5 g/l, ce qui signifie que l'hémoglobine peut soit diminuer de 2 g/l, soit augmenter de 5 g/l.

L'intervalle de confiance est un indicateur très important. Grâce à lui, vous pouvez voir si les différences dans les groupes étaient vraiment dues à la différence des moyennes ou à un grand échantillon, car avec un grand échantillon, les chances de trouver des différences sont plus grandes qu'avec un petit.

En pratique, cela pourrait ressembler à ceci. Nous avons pris un échantillon de 1000 personnes, mesuré le taux d'hémoglobine et constaté que l'intervalle de confiance pour la différence des moyennes se situe entre 1,2 et 1,5 g/L. Le niveau de signification statistique dans ce cas p

Nous voyons que la concentration d'hémoglobine a augmenté, mais presque imperceptiblement, par conséquent, la signification statistique est apparue précisément en raison de la taille de l'échantillon.

Les intervalles de confiance peuvent être calculés non seulement pour les moyennes, mais aussi pour les proportions (et les risques relatifs). Par exemple, nous nous intéressons à l'intervalle de confiance des proportions de patients qui ont obtenu une rémission tout en prenant le médicament développé. Supposons que l'IC à 95 % pour les proportions, c'est-à-dire pour la proportion de ces patients, se situe entre 0,60 et 0,80. Ainsi, on peut dire que notre médicament a un effet thérapeutique dans 60 à 80% des cas.

En statistique, il existe deux types d'estimations : ponctuelles et d'intervalle. Estimation ponctuelle est une statistique d'échantillon unique utilisée pour estimer un paramètre de population. Par exemple, la moyenne de l'échantillon est une estimation ponctuelle de la moyenne de la population et de la variance de l'échantillon S2- estimation ponctuelle de la variance de la population σ2. il a été démontré que la moyenne de l'échantillon est une estimation non biaisée des attentes de la population. La moyenne de l'échantillon est dite non biaisée car la moyenne de toutes les moyennes de l'échantillon (avec la même taille d'échantillon n) est égal à l'espérance mathématique de la population générale.

Afin que la variance de l'échantillon S2 est devenu un estimateur sans biais de la variance de la population σ2, le dénominateur de la variance de l'échantillon doit être égal à n – 1 , mais non n. En d'autres termes, la variance de la population est la moyenne de toutes les variances possibles de l'échantillon.

Lors de l'estimation des paramètres de la population, il convient de garder à l'esprit que les statistiques d'échantillonnage telles que , dépendent d'échantillons spécifiques. Pour tenir compte de ce fait, obtenir estimation d'intervalle l'espérance mathématique de la population générale analyser la distribution des moyennes de l'échantillon (pour plus de détails, voir). L'intervalle construit est caractérisé par un certain niveau de confiance, qui est la probabilité que le vrai paramètre de la population générale soit correctement estimé. Des intervalles de confiance similaires peuvent être utilisés pour estimer la proportion d'une caractéristique R et la principale masse distribuée de la population générale.

Télécharger note au format ou, exemples au format

Construction d'un intervalle de confiance pour l'espérance mathématique de la population générale avec un écart-type connu

Construire un intervalle de confiance pour la proportion d'un trait dans la population générale

Dans cette section, le concept d'intervalle de confiance est étendu aux données catégorielles. Cela vous permet d'estimer la part du trait dans la population générale R avec une part d'échantillon RS=X/n. Comme mentionné, si les valeurs nR et n(1 - p) dépasse le nombre 5, la distribution binomiale peut être approchée par la normale. Par conséquent, pour estimer la part d'un trait dans la population générale R il est possible de construire un intervalle dont le niveau de confiance est égal à (1 - α)x100 %.


pS- part d'échantillon de la fonctionnalité, égale à X/n, c'est à dire. le nombre de succès divisé par la taille de l'échantillon, R- la part du trait dans la population générale, Z est la valeur critique de la distribution normale standardisée, n- taille de l'échantillon.

Exemple 3 Supposons qu'un échantillon soit extrait du système d'information, composé de 100 factures complétées au cours du dernier mois. Disons que 10 de ces factures sont incorrectes. Ainsi, R= 10/100 = 0,1. Le niveau de confiance de 95 % correspond à la valeur critique Z = 1,96.

Ainsi, il y a 95 % de chances qu'entre 4,12 % et 15,88 % des factures contiennent des erreurs.

Pour une taille d'échantillon donnée, l'intervalle de confiance contenant la proportion du trait dans la population générale semble plus large que pour une variable aléatoire continue. En effet, les mesures d'une variable aléatoire continue contiennent plus d'informations que les mesures de données catégorielles. En d'autres termes, les données catégorielles qui ne prennent que deux valeurs contiennent des informations insuffisantes pour estimer les paramètres de leur distribution.

Àcalcul d'estimations tirées d'une population finie

Estimation de l'espérance mathématique. Facteur de correction pour la population finale ( fpc) a été utilisé pour réduire l'erreur type d'un facteur de . Lors du calcul des intervalles de confiance pour les estimations des paramètres de la population, un facteur de correction est appliqué dans les situations où les échantillons sont tirés sans remise. Ainsi, l'intervalle de confiance pour l'espérance mathématique, ayant un niveau de confiance égal à (1 - α)x100 %, est calculé par la formule :

Exemple 4 Pour illustrer l'application d'un facteur de correction pour une population finie, reprenons le problème du calcul de l'intervalle de confiance du montant moyen des factures traité dans l'exemple 3. Supposons qu'une entreprise émette 5 000 factures par mois, et X=110,27 USD, S= 28,95 $ N = 5000, n = 100, α = 0,05, t99 = 1,9842. D'après la formule (6) on obtient :

Estimation de la part de la fonctionnalité. Lorsque vous choisissez aucun retour, l'intervalle de confiance pour la proportion de la caractéristique qui a un niveau de confiance égal à (1 - α)x100 %, est calculé par la formule :

Intervalles de confiance et enjeux éthiques

Lors de l'échantillonnage d'une population et de la formulation d'inférences statistiques, des problèmes éthiques surviennent souvent. Le principal est de savoir comment les intervalles de confiance et les estimations ponctuelles des statistiques de l'échantillon concordent. La publication d'estimations ponctuelles sans spécifier les intervalles de confiance appropriés (généralement à des niveaux de confiance de 95 %) et la taille de l'échantillon à partir duquel elles sont dérivées peut être trompeuse. Cela peut donner à l'utilisateur l'impression qu'une estimation ponctuelle est exactement ce dont il a besoin pour prédire les propriétés de l'ensemble de la population. Ainsi, il est nécessaire de comprendre que dans toute recherche, ce ne sont pas les estimations ponctuelles, mais les estimations d'intervalle qui doivent être mises au premier plan. En outre, une attention particulière doit être accordée au choix correct des tailles d'échantillon.

Le plus souvent, les objets de manipulations statistiques sont les résultats d'enquêtes sociologiques auprès de la population sur diverses questions politiques. Dans le même temps, les résultats de l'enquête sont placés sur les premières pages des journaux, et l'erreur d'échantillonnage et la méthodologie de l'analyse statistique sont imprimées quelque part au milieu. Pour prouver la validité des estimations ponctuelles obtenues, il est nécessaire d'indiquer la taille de l'échantillon sur la base duquel elles ont été obtenues, les bornes de l'intervalle de confiance et son niveau de signification.

Note suivante

Les matériaux du livre Levin et al Statistiques pour les gestionnaires sont utilisés. - M. : Williams, 2004. - p. 448–462

Théorème central limite indique que, étant donné une taille d'échantillon suffisamment grande, la distribution d'échantillon des moyennes peut être approchée par une distribution normale. Cette propriété ne dépend pas du type de distribution de la population.

Supposons que nous ayons un grand nombre d'articles avec une distribution normale de certaines caractéristiques (par exemple, un entrepôt complet de légumes du même type, dont la taille et le poids varient). Vous souhaitez connaître les caractéristiques moyennes de l'ensemble du lot de marchandises, mais vous n'avez ni le temps ni l'envie de mesurer et de peser chaque légume. Vous comprenez que ce n'est pas nécessaire. Mais combien de pièces auriez-vous besoin de prendre pour une inspection aléatoire ? Avant de donner quelques formules utiles pour cette situation, rappelons quelques notations. Premièrement, si nous mesurions l'ensemble de l'entrepôt de légumes (cet ensemble d'éléments s'appelle la population générale), nous connaîtrions alors avec toute la précision dont nous disposons la valeur moyenne du poids de l'ensemble du lot. Appelons cette moyenne X gène moyen. - moyenne générale. Nous savons déjà ce qui est complètement déterminé si sa valeur moyenne et son écart s sont connus. Certes, jusqu'à présent, nous ne connaissons ni X gène moyen ni s de la population générale. Nous ne pouvons que prendre un échantillon, mesurer les valeurs dont nous avons besoin et calculer pour cet échantillon à la fois la valeur moyenne X moy et l'écart type S vyb. On sait que si notre contrôle d'échantillon contient un grand nombre d'éléments (généralement n plus de 30), et qu'ils sont pris vraiment au hasard, alors le s de la population ne différera presque pas des échantillons S. De plus, pour le cas de une distribution normale, on peut utiliser les formules suivantes :

Avec une probabilité de 95%

Avec une probabilité de 99%

.

En général, avec probabilité Р(t)

La relation entre la valeur de t et la valeur de la probabilité P(t), dont on veut connaître l'intervalle de confiance, peut être tirée du tableau suivant :

P(t) 0,683 0,950 0,954 0,990 0,997
t 1,00 1,96 2,00 2,58 3,00

Ainsi, nous avons déterminé dans quelle fourchette se situe la valeur moyenne pour la population générale (avec une probabilité donnée).

Si nous n'avons pas un échantillon suffisamment grand, nous ne pouvons pas prétendre que la population a s = S échantillons. De plus, dans ce cas, la proximité de l'échantillon avec la distribution normale est problématique. Dans ce cas, utilisez également S s au lieu de s dans la formule :

mais la valeur de t pour une probabilité fixe P(t) dépendra du nombre d'éléments dans l'échantillon n. Plus n est grand, plus l'intervalle de confiance résultant sera proche de la valeur donnée par la formule (1). Les valeurs t dans ce cas sont tirées d'un autre tableau (test t de Student), que nous fournissons ci-dessous :

Valeurs du test t de Student pour les probabilités 0,95 et 0,99 

n P n P
0.95 0.99 0.95 0.99
2 12.71 63.66 18 2.11 2.90
3 4.30 9.93 19 2.10 2.88
4 3.18 5.84 20 2.093 2.861
5 2.78 4.60 25 2.064 2.797
6 2.57 4.03 30 2.045 2.756
7 2.45 3.71 35 2.032 2.720
8 2.37 3.50 40 2.022 2.708
9 2.31 3.36 45 2.016 2.692
10 2.26 3.25 50 2.009 2.679
11 2.23 3.17 60 2.001 2.662
12 2.20 3.11 70 1.996 2.649
13 2.18 3.06 80 1.991 2.640
14 2.16 3.01 90 1.987 2.633
15 2.15 2.98 100 1.984 2.627
16 2.13 2.95 120 1.980 2.617
17 2.12 2.92 >120 1.960 2.576

Exemple 3 30 personnes ont été tirées au sort parmi les salariés de l'entreprise. Selon l'échantillon, il s'est avéré que le salaire moyen (par mois) est de 10 000 roubles avec un écart carré moyen de 3 000 roubles. Avec une probabilité de 0,99 déterminer le salaire moyen dans l'entreprise. Décision: Par condition, on a n = 30, X cf. =10000, S=3000, P=0,99. Pour trouver l'intervalle de confiance, on utilise la formule correspondant au critère de Student. Selon le tableau pour n \u003d 30 et P \u003d 0,99, nous trouvons t \u003d 2,756, donc,

ceux. intervalle de confiance souhaité 27484< Х ср.ген < 32516.

Ainsi, avec une probabilité de 0,99, on peut affirmer que l'intervalle (27484 ; 32516) contient le salaire moyen dans l'entreprise.
Nous espérons que vous utiliserez cette méthode sans nécessairement avoir une feuille de calcul avec vous à chaque fois. Les calculs peuvent être effectués automatiquement dans Excel. Dans un fichier Excel, cliquez sur le bouton fx dans le menu supérieur. Ensuite, sélectionnez parmi les fonctions le type "statistique", et dans la liste proposée dans la case - STEUDRASP. Ensuite, à l'invite, en plaçant le curseur dans le champ "probabilité", tapez la valeur de la probabilité réciproque (c'est-à-dire que, dans notre cas, au lieu de la probabilité de 0,95, vous devez taper la probabilité de 0,05). Apparemment, la feuille de calcul est conçue pour que le résultat réponde à la question de savoir dans quelle mesure nous pouvons nous tromper. De même, dans le champ "degré de liberté", entrez la valeur (n-1) pour votre échantillon.

Partager