Beispiel eines Konfidenzintervalls für eine Grundgesamtheitsvarianz
C. K. Taylor
Die Populationsvarianz gibt einen Hinweis darauf, wie die Verteilung eines Datensatzes ist. Leider ist es normalerweise unmöglich, genau zu wissen, was dieser Populationsparameter ist. Um unseren Mangel an Wissen auszugleichen, verwenden wir ein Thema aus der Inferenzstatistik namens Vertrauensintervalle . Wir werden ein Beispiel sehen, wie man ein Konfidenzintervall für eine Populationsvarianz berechnet
Konfidenzintervallformel
Die Formel für die (1 - α) Konfidenzintervall über die Populationsvarianz . Ist durch die folgende Folge von Ungleichungen gegeben:
[ ( n - 1) s zwei] / B <σzwei <[ ( n - 1) s zwei] / EIN .
Hier n ist die Stichprobengröße, s zweiist die Stichprobenvarianz. Die Nummer EIN ist der Punkt der Chi-Quadrat-Verteilung mit n -1 Freiheitsgrade, bei denen genau α/2 der Fläche unter der Kurve links davon liegt EIN . In ähnlicher Weise die Nummer B ist der Punkt derselben Chi-Quadrat-Verteilung mit genau α/2 der Fläche unter der Kurve rechts davon B .
Vorläufe
Wir beginnen mit einem Datensatz mit 10 Werten. Dieser Satz von Datenwerten wurde durch eine einfache Zufallsstichprobe erhalten:
97, 75, 124, 106, 120, 131, 94, 97,96, 102
Einige explorative Datenanalysen wären erforderlich, um zu zeigen, dass es keine Ausreißer gibt. Durch den Aufbau eines Stamm- und Blattplot Wir sehen, dass diese Daten wahrscheinlich aus einer ungefähr normalverteilten Verteilung stammen. Das bedeutet, dass wir damit fortfahren können, ein 95-%-Konfidenzintervall für die Populationsvarianz zu finden.
Stichprobenvarianz
Wir müssen die Populationsvarianz mit der Stichprobenvarianz schätzen, die mit bezeichnet wird s zwei. Also beginnen wir mit der Berechnung dieser Statistik. Im Wesentlichen mitteln wir die Summe der quadrierten Abweichungen von der Mitte. Anstatt diese Summe jedoch zu dividieren n wir teilen es durch n - 1.
Wir stellen fest, dass der Stichprobenmittelwert 104,2 beträgt. Damit haben wir die Summe der quadrierten Abweichungen vom Mittelwert, gegeben durch:
(97 – 104,2)zwei+ (75 – 104,3)zwei+ . . . + (96 – 104,2)zwei+ (102 – 104,2)zwei= 2495,6
Wir teilen diese Summe durch 10 – 1 = 9, um eine Stichprobenvarianz von 277 zu erhalten.
Chi-Quadrat-Verteilung
Wir wenden uns nun unserer Chi-Quadrat-Verteilung zu. Da wir 10 Datenwerte haben, haben wir 9 Freiheitsgrade . Da wir die mittleren 95 % unserer Verteilung wollen, brauchen wir 2,5 % in jedem der beiden Schwänze. Wir konsultieren eine Chi-Quadrat-Tabelle oder Software und sehen, dass die Tabellenwerte von 2,7004 und 19,023 95 % der Verteilungsfläche einschließen. Diese Zahlen sind EIN und B , beziehungsweise.
Wir haben jetzt alles, was wir brauchen, und wir sind bereit, unser Konfidenzintervall zusammenzustellen. Die Formel für den linken Endpunkt lautet [ ( n - 1) s zwei] / B . Das bedeutet, dass unser linker Endpunkt ist:
(9 x 277)/19,023 = 133
Der richtige Endpunkt wird durch Ersetzen gefunden B mit EIN :
(9 x 277)/2,7004 = 923
Wir sind uns also zu 95 % sicher, dass die Populationsvarianz zwischen 133 und 923 liegt.
Bevölkerungsstandardabweichung
Da die Standardabweichung natürlich die Quadratwurzel der Varianz ist, könnte diese Methode verwendet werden, um ein Konfidenzintervall für die Standardabweichung der Grundgesamtheit zu konstruieren. Alles, was wir tun müssten, ist, die Quadratwurzeln der Endpunkte zu ziehen. Das Ergebnis wäre ein 95%-Konfidenzintervall für die Standardabweichung .