Prüfung der Hypothese über die Gleichheit der Mittel. Testen statistischer Hypothesen zur Gleichheit der Mittel

8.1. Das Konzept der abhängigen und unabhängigen Stichproben.

Auswahl eines Kriteriums zum Testen einer Hypothese

wird in erster Linie dadurch bestimmt, ob die betrachteten Stichproben abhängig oder unabhängig sind. Lassen Sie uns die entsprechenden Definitionen einführen.

Def. Die Proben werden aufgerufen unabhängig, wenn das Verfahren zur Auswahl von Einheiten in der ersten Stichprobe in keinem Zusammenhang mit dem Verfahren zur Auswahl von Einheiten in der zweiten Stichprobe steht.

Ein Beispiel für zwei unabhängige Stichproben sind die oben besprochenen Stichproben von Männern und Frauen, die im selben Unternehmen (in derselben Branche usw.) arbeiten.

Beachten Sie, dass die Unabhängigkeit zweier Proben nicht bedeutet, dass keine bestimmte Art der Ähnlichkeit dieser Proben (ihre Homogenität) erforderlich ist. Wenn wir also das Einkommensniveau von Männern und Frauen untersuchen, ist es unwahrscheinlich, dass wir eine solche Situation zulassen, wenn Männer aus dem Umfeld Moskauer Geschäftsleute und Frauen aus den Ureinwohnern Australiens ausgewählt werden. Frauen sollten auch Moskauerinnen und darüber hinaus „Geschäftsfrauen“ sein. Hier geht es jedoch nicht um die Abhängigkeit von Stichproben, sondern um das Erfordernis der Homogenität der untersuchten Objektmenge, das sowohl bei der Erhebung als auch bei der Analyse soziologischer Daten erfüllt sein muss.

Def. Die Proben werden aufgerufen abhängig oder gepaart, wenn jede Einheit einer Stichprobe an eine bestimmte Einheit der zweiten Stichprobe „gebunden“ ist.

Die letzte Definition wird wahrscheinlich klarer, wenn wir ein Beispiel für abhängige Stichproben geben.

Angenommen, wir möchten herausfinden, ob der soziale Status des Vaters im Durchschnitt niedriger ist als sozialer Status Sohn (wir glauben, dass wir dieses komplexe und mehrdeutige soziale Merkmal einer Person messen können). Es scheint offensichtlich, dass es in einer solchen Situation sinnvoll ist, Paare von Befragten (Vater, Sohn) auszuwählen und davon auszugehen, dass jedes Element der ersten Stichprobe (einer der Väter) mit einem bestimmten Element der zweiten Stichprobe (seinem) „verbunden“ ist Sohn). Diese beiden Stichproben werden als abhängig bezeichnet.

8.2. Hypothesentest für unabhängige Stichproben

Für unabhängig Die Auswahl des Kriteriums hängt davon ab, ob wir die allgemeinen Varianzen s 1 2 und s 2 2 des betrachteten Merkmals für die untersuchten Stichproben kennen. Wir betrachten dieses Problem als gelöst, vorausgesetzt, dass die Stichprobenvarianzen mit den allgemeinen Varianzen übereinstimmen. In diesem Fall ist das Kriterium der Wert:

Bevor wir mit der Diskussion der Situation fortfahren, in der uns die allgemeinen Abweichungen (oder zumindest eine davon) unbekannt sind, stellen wir Folgendes fest.

Die Logik der Verwendung des Kriteriums (8.1) ähnelt der, die wir bei der Betrachtung des Kriteriums „Chi-Quadrat“ (7.2) beschrieben haben. Es gibt nur einen grundlegenden Unterschied. Als wir über die Bedeutung des Kriteriums (7.2) sprachen, betrachteten wir eine unendliche Anzahl von Stichproben der Größe n, die aus unserer Gesamtbevölkerung „geschöpft“ wurden. Wenn wir hier die Bedeutung des Kriteriums (8.1) analysieren, gehen wir zur Betrachtung einer unendlichen Zahl über Dampf Stichproben der Größe n 1 und n 2 . Für jedes Paar und wird eine Statistik der Form (8.1) berechnet. Die Menge der erhaltenen Werte einer solchen Statistik entspricht gemäß unserer Notation der Normalverteilung (wie wir vereinbart haben, wird der Buchstabe z verwendet, um ein solches Kriterium zu bezeichnen, das der Normalverteilung entspricht).

Wenn uns also die allgemeinen Varianzen unbekannt sind, sind wir gezwungen, stattdessen ihre Stichprobenschätzungen s 1 2 und s 2 2 zu verwenden. Allerdings sollte in diesem Fall die Normalverteilung durch die Student-Verteilung ersetzt werden – z sollte durch t ersetzt werden (wie es in einer ähnlichen Situation bei der Konstruktion eines Konfidenzintervalls für den mathematischen Erwartungswert der Fall war). Wie wir bereits wissen, stimmt die Student-Verteilung jedoch für ausreichend große Stichprobengrößen (n 1 , n 2 ³ 30) praktisch mit der Normalverteilung überein. Mit anderen Worten: Bei großen Stichproben können wir weiterhin das Kriterium verwenden:

Die Situation ist komplizierter, wenn beide Varianzen unbekannt sind und die Größe mindestens einer Stichprobe klein ist. Dann kommt ein weiterer Faktor ins Spiel. Die Art des Kriteriums hängt davon ab, ob wir die unbekannten Varianzen des betrachteten Merkmals in den beiden analysierten Stichproben als gleich betrachten können. Um das herauszufinden, müssen wir die Hypothese testen:

H 0: s 1 2 = s 2 2 . (8.3)

Um diese Hypothese zu testen, wird das Kriterium verwendet

Die Besonderheiten der Verwendung dieses Kriteriums werden weiter unten besprochen, und nun werden wir den Algorithmus zur Auswahl eines Kriteriums weiter diskutieren, das mathematische Erwartungen verwendet, um Hypothesen über Gleichheit zu testen.

Wenn Hypothese (8.3) abgelehnt wird, dann hat das für uns interessante Kriterium die Form:

(8.5)

(d. h. er unterscheidet sich vom Test (8.2), der für große Stichproben verwendet wird, darin, dass die entsprechende Statistik keine Normalverteilung, sondern eine Student-Verteilung aufweist). Wenn die Hypothese (8.3) akzeptiert wird, ändert sich die Art des verwendeten Kriteriums:

(8.6)

Fassen wir zusammen, wie das Kriterium ausgewählt wird, um die Hypothese der Gleichheit allgemeiner mathematischer Erwartungen auf der Grundlage der Analyse zweier unabhängiger Stichproben zu testen.

bekannt

Unbekannt

Die Stichprobengröße ist groß

H 0: s 1 = s 2 wird abgelehnt

akzeptiert

8.3. Hypothesentest für abhängige Stichproben

Kommen wir nun zur Betrachtung abhängiger Stichproben. Seien Zahlenfolgen

X 1 , X 2 , … , X n ;

Y 1 , Y 2 , … , Y n –

Dies sind die Werte des betrachteten Zufalls für die Elemente zweier abhängiger Stichproben. Lassen Sie uns die Notation einführen:

D i = X i - Y i , i = 1, ... , n.

Für abhängig Stichprobenkriterium, mit dem Sie eine Hypothese testen können

folgendermaßen:

Beachten Sie, dass der gerade angegebene Ausdruck für s D nichts anderes als ein neuer Ausdruck für die bekannte Formel ist, die die Standardabweichung ausdrückt. In diesem Fall sprechen wir von der Standardabweichung der Werte D i . Eine solche Formel wird in der Praxis häufig als einfachere (im Vergleich zur „frontalen“ Berechnung der Summe der quadrierten Abweichungen der Werte des betrachteten Wertes vom entsprechenden arithmetischen Mittel) Methode zur Berechnung der Varianz verwendet.

Wenn wir die obigen Formeln mit denen vergleichen, die wir bei der Erörterung der Prinzipien der Konstruktion eines Konfidenzintervalls verwendet haben, ist es leicht zu erkennen, dass das Testen der Hypothese über die Gleichheit der Mittelwerte für den Fall abhängiger Stichproben im Wesentlichen ein Test der Gleichheit mit Null ist des mathematischen Erwartungswertes der Werte D i . Wert

ist die Standardabweichung für D i . Daher ist der Wert des gerade beschriebenen Kriteriums t n -1 im Wesentlichen gleich dem Wert von D i, ausgedrückt in Bruchteilen der Standardabweichung. Wie wir oben gesagt haben (bei der Erörterung von Methoden zur Konstruktion von Konfidenzintervallen), kann dieser Indikator verwendet werden, um die Wahrscheinlichkeit des betrachteten Werts D i zu beurteilen. Der Unterschied besteht darin, dass wir oben von einem einfachen arithmetischen Mittel gesprochen haben, das normalverteilt ist, und hier von Durchschnittsdifferenzen sprechen, solche Durchschnittswerte haben die Student-Verteilung. Argumente über die Beziehung zwischen der Wahrscheinlichkeit der Abweichung des arithmetischen Mittels der Stichprobe von Null (mit einem mathematischen Erwartungswert von Null) und der Anzahl der s-Einheiten dieser Abweichung bleiben jedoch gültig.

Beispiel. Die Einnahmen der Apotheken eines der Mikrobezirke der Stadt betrugen für eine bestimmte Zeit 128; 192; 223; 398; 205; 266; 219; 260; 264; 98 (konventionelle Einheiten). Im benachbarten Mikrobezirk waren es zur gleichen Zeit 286; 240; 263; 266; 484; 223; 335.
Berechnen Sie für beide Stichproben den Mittelwert, die korrigierte Varianz und die Standardabweichung. Finden Sie den Variationsbereich, die mittlere absolute (lineare) Abweichung, den Variationskoeffizienten, linearer Koeffizient Variation, Schwingungskoeffizient.
Bestimmen Sie unter der Annahme, dass die gegebene Zufallsvariable eine Normalverteilung aufweist Konfidenzintervall für den allgemeinen Durchschnitt (in beiden Fällen).
Überprüfen Sie anhand des Fisher-Kriteriums die Hypothese der Gleichheit der allgemeinen Varianzen. Überprüfen Sie anhand des Student-Kriteriums die Hypothese über die Gleichheit der allgemeinen Mittel (eine alternative Hypothese betrifft ihre Ungleichheit).
In allen Berechnungen beträgt das Signifikanzniveau α = 0,05.

Die Lösung erfolgt mit dem Taschenrechner Testen der Varianzgleichheitshypothese.
1. Finden Sie die Variationsindikatoren für die erste Stichprobe.

X|x - x cf |(x - x sr) 2
98 127.3 16205.29
128 97.3 9467.29
192 33.3 1108.89
205 20.3 412.09
219 6.3 39.69
223 2.3 5.29
260 34.7 1204.09
264 38.7 1497.69
266 40.7 1656.49
398 172.7 29825.29
2253 573.6 61422.1


.



Variationsindikatoren.
.

R = X max - X min
R = 398 - 98 = 300
Durchschnittliche lineare Abweichung


Jeder Wert der Reihe unterscheidet sich um durchschnittlich 57,36 vom anderen
Streuung


Unvoreingenommener Varianzschätzer


.

Jeder Wert der Reihe weicht um durchschnittlich 78,37 vom Durchschnittswert 225,3 ab
.

.

Der Variationskoeffizient

Weil v>30 %, aber v oder

Oszillationsfaktor

.
.


Gemäß der Tabelle des Studenten finden wir:
T-Tabelle (n-1; α / 2) \u003d T-Tabelle (9; 0,025) \u003d 2,262

(225.3 - 59.09;225.3 + 59.09) = (166.21;284.39)

2. Finden Sie die Variationsindikatoren für die zweite Stichprobe.
Verschieben wir die Zeile. Sortieren Sie dazu die Werte in aufsteigender Reihenfolge.
Tabelle zur Berechnung von Indikatoren.

X|x - x cf |(x - x sr) 2
223 76.57 5863.18
240 59.57 3548.76
263 36.57 1337.47
266 33.57 1127.04
286 13.57 184.18
335 35.43 1255.18
484 184.43 34013.9
2097 439.71 47329.71

Zur Auswertung der Verteilungsreihe finden wir folgende Indikatoren:
Kennzahlen für Vertriebszentren.
einfaches arithmetisches Mittel


Variationsindikatoren.
Absolute Variationsraten.
Der Variationsbereich ist die Differenz zwischen den Maximal- und Minimalwerten des Attributs der Primärreihe.
R = X max - X min
R = 484 - 223 = 261
Durchschnittliche lineare Abweichung- berechnet, um die Unterschiede aller Einheiten der untersuchten Bevölkerung zu berücksichtigen.


Jeder Wert der Reihe unterscheidet sich um durchschnittlich 62,82 vom anderen
Streuung- charakterisiert das Maß der Streuung um seinen Mittelwert (Maß der Streuung, d. h. Abweichung vom Mittelwert).


Unvoreingenommener Varianzschätzer- konsistente Schätzung der Varianz (korrigierte Varianz).


Standardabweichung.

Jeder Wert der Reihe weicht um durchschnittlich 82,23 vom Durchschnittswert 299,57 ab
Schätzung der Standardabweichung.

Relative Variationsraten.
Zu den relativen Variationsindikatoren gehören: Oszillationskoeffizient, linearer Variationskoeffizient, relative lineare Abweichung.
Der Variationskoeffizient- ein Maß für die relative Streuung der Bevölkerungswerte: zeigt an, welcher Anteil des Durchschnittswerts dieser Größe ihre durchschnittliche Streuung ist.

Da v ≤ 30 % ist, ist die Population homogen und die Variation ist schwach. Den erzielten Ergebnissen kann man vertrauen.
Linearer Variationskoeffizient oder Relative lineare Abweichung- charakterisiert den Anteil des Durchschnittswerts am Vorzeichen der absoluten Abweichungen vom Durchschnittswert.

Oszillationsfaktor- spiegelt die relative Schwankung der Extremwerte des Attributs um den Durchschnitt wider.

Intervallschätzung des Bevölkerungszentrums.
Konfidenzintervall für den allgemeinen Mittelwert.

Bestimmen Sie den Wert von t kp gemäß der Student-Verteilungstabelle
Gemäß der Tabelle des Studenten finden wir:
T-Tabelle (n-1; α / 2) \u003d T-Tabelle (6; 0,025) \u003d 2,447

(299.57 - 82.14;299.57 + 82.14) = (217.43;381.71)
Mit einer Wahrscheinlichkeit von 0,95 kann argumentiert werden, dass der Durchschnittswert für eine größere Stichprobe die Grenzen des gefundenen Intervalls nicht überschreitet.
Wir testen die Hypothese der Varianzgleichheit:
H 0: D x = D y ;
H 1: D x Finden Sie den beobachteten Wert des Fisher-Kriteriums:

Da s y 2 > s x 2, dann s b 2 = s y 2, s m 2 = s x 2
Anzahl der Freiheitsgrade:
f 1 \u003d n y - 1 \u003d 7 - 1 \u003d 6
f 2 \u003d n x - 1 \u003d 10 - 1 \u003d 9
Gemäß der Tabelle der kritischen Punkte der Fisher-Snedekor-Verteilung bei einem Signifikanzniveau von α = 0,05 und einer gegebenen Anzahl von Freiheitsgraden finden wir Fcr (6;9) = 3,37
Weil F obl Wir testen die Hypothese über die Gleichheit allgemeiner Mittel:


Lassen Sie uns den experimentellen Wert des Student-Kriteriums ermitteln:


Anzahl der Freiheitsgrade f \u003d n x + n y - 2 \u003d 10 + 7 - 2 \u003d 15
Bestimmen Sie den Wert von t kp gemäß der Student-Verteilungstabelle
Gemäß der Tabelle des Studenten finden wir:
T-Tabelle (f; α / 2) \u003d T-Tabelle (15; 0,025) \u003d 2,131
Gemäß der Tabelle der kritischen Punkte der Student-Verteilung bei einem Signifikanzniveau von α = 0,05 und einer gegebenen Anzahl von Freiheitsgraden finden wir t cr = 2,131
Weil t obs

Zu den wichtigsten verallgemeinernden Merkmalen, welche Hypothesen am häufigsten aufgestellt werden, gehört der Durchschnittswert. Um die Hypothese über die Gleichheit der Mittel in der Gesamtbevölkerung zu testen, ist es notwendig, eine Nullhypothese zu formulieren. Dabei wird in der Regel davon ausgegangen, dass beide Stichproben einer normalverteilten Allgemeinbevölkerung mit entnommen werden mathematische Erwartung gleich X und mit einer Varianz gleich c0 . Wenn diese Annahme richtig ist, dann x1 - x2 ~ x. Tatsächlich bedeutet die Stichprobe, dass X1 und X2 aufgrund der Zufälligkeit der Stichprobe nicht gleich sind. Daher ist es notwendig, die Bedeutung der Unterschiede zwischen x1 x2 herauszufinden – ob ihr Unterschied innerhalb der Grenzen einer möglichen zufälligen Variation liegt oder ob er über diese Grenzen hinausgeht. Dann reduziert sich die Aufgabe, die Hypothese zu testen, auf die Prüfung der Signifikanz des Unterschieds

Jeder Stichprobenmittelwert hat seinen eigenen Fehler. /Und:

Nachdem Sie die Abweichungen ermittelt haben und durchschnittlicher Fehler Stichprobenmittelwerte: Sie können den tatsächlichen Wert des I-Tests berechnen und ihn mit dem kritischen (tabellarischen) Wert auf dem entsprechenden Signifikanzniveau und der Anzahl der Variationsfreiheitsgrade vergleichen (für Stichproben mit n > 30 beträgt der U- Test verwendet wird Normalverteilung und für Proben mit der Nummer n< 30 - и-критерий Стьюдента).

Der tatsächliche Wert des i-Kriteriums wird durch die Formel bestimmt

Fällt der Stichprobenwert des Kriteriums in den kritischen Bereich (їfakі> O), wird die Nullhypothese über die Gleichheit der Mittelwerte verworfen; liegt der Stichprobenwert des Kriteriums in den Bereich akzeptabler Werte (Іfaq< їа), нулевая гипотеза принимается.

Die Nullhypothese, dass die Mittelwerte in zwei Grundgesamtheiten gleich sind, kann auch durch Vergleich der tatsächlichen Mittelwertdifferenz überprüft werden [єFa,.t = ~~2 ) mit einem begrenzenden Zufallsfehler bei einem bestimmten Signifikanzniveau (ea). Wenn die tatsächliche Differenz zwischen den Stichprobenmittelwerten innerhalb des Zufallsfehlers liegt< еа), нулевая гипотеза принимается. Если же фактическая разница между средними выходит за пределы случайной ошибки (еф^т >ea) wird die Nullhypothese verworfen.

Bei der Lösung spezifischer Probleme beim Testen statistischer Hypothesen in Bezug auf Durchschnittswerte müssen die folgenden Punkte berücksichtigt werden: 1) das Stichprobenschema (Stichproben sind unabhängig und abhängig); 2) Gleichheit oder Ungleichheit der Stichprobengrößen; 3) Gleichheit oder Ungleichheit der Varianzen der Gesamtbevölkerung.

Der Algorithmus zum Testen der Hypothese bezüglich zweier Mittelwerte ändert sich etwas, wenn die Varianzen für die Stichproben (512 und 522) signifikant unterschiedlich sind. In diesem Fall wird bei der Bestimmung der Anzahl der Freiheitsgrade eine Änderung eingeführt:

Wenn bei ungleichen Varianzen zwischen den Stichproben auch deren Zahlen ungerade sind (n1 und n2), sollte der Tabellenwert des Student-t-Tests mithilfe der Formel berechnet werden

wobei u1 und u2 die Tabellenwerte des Student-t-Tests sind, die gemäß genommen werden n1- 1 und n2 - 1 Freiheitsgrade.

Betrachten Sie ein Beispiel für das Testen einer statistischen Hypothese über die Gleichheit zweier durchschnittlicher unabhängiger Stichproben gleicher Größe (n1=n2) und gleiche Streuungen (SG;2 =).

Ja, es liegen Daten zum Lebendgewicht der Kälber bei der Geburt für zwei Gruppen schwarz-weißer Kühe (gleichaltrige Kühe) vor. Die erste Gruppe von Kühen hatte eine normale Laktationsdauer (305 Tage), und die zweite Gruppe wurde 320 Tage lang gemolken. Jede Gruppe umfasste 5 Kühe. Diese Beobachtungen sind in der Tabelle aufgeführt. 7.2.

Tabelle 7.2. Lebendgewicht von Kälbern bei der Geburt nach Gruppen von Kühen mit unterschiedlicher Laktationsdauer

Der Vergleich der Lebendgewichte der Kälber in zwei Kuhgruppen zeigt, dass bei Kühen der I-Gruppe mit einer normalen Laktationsdauer ein höheres Lebendgewicht der Kälber beobachtet wird. Aufgrund der Tatsache, dass die Anzahl der Proben gering ist (n = 5), ist jedoch nicht auszuschließen, dass die Abweichungen zwischen den Lebendgewichten auf zufällige Ursachen zurückzuführen sind.

Es ist notwendig, den Unterschied zwischen den Durchschnittswerten der beiden Kuhgruppen statistisch auszuwerten.

Schließen Sie anhand der Ergebnisse der Hypothesenprüfung, dass der Unterschied zwischen den Mittelwerten innerhalb der Grenzen zufälliger Schwankungen liegt oder dass dieser Unterschied so signifikant ist, dass er nicht mit der Nullhypothese über die zufällige Natur der Unterschiede zwischen den Mittelwerten übereinstimmt.

Wenn die zweite Position bewiesen und die erste abgelehnt wird, kann argumentiert werden, dass die Laktationsdauer das Lebendgewicht der Kälber beeinflusst.

Die Problemstellung geht davon aus, dass beide Stichproben einer normalverteilten Allgemeinbevölkerung entnommen werden. Die Gruppenbildung erfolgt zufällig (unabhängig), daher sollte die Differenz zwischen den Mittelwerten ausgewertet werden.

Lassen Sie uns das durchschnittliche Lebendgewicht der Kälber für zwei Kuhgruppen bestimmen:

Der tatsächliche Unterschied zwischen den Mitteln ist:

Die Bedeutung dieses Unterschieds muss beurteilt werden. Dazu muss die Hypothese überprüft werden, dass die beiden Mittelwerte gleich sind.

Lassen Sie uns alle Phasen des Hypothesentestschemas im Detail betrachten. 1. Formulieren wir die Null-But- und Na-Alternativhypothesen:

2. Nehmen wir ein Signifikanzniveau a = 0,05, das die Annahme der Hypothese oder ihre Ablehnung mit der Fehlerwahrscheinlichkeit nur in 5 von 100 Fällen garantiert.

3. Das aussagekräftigste Kriterium zum Testen dieser Art von Hypothese H0 ist der Student-U-Test.

4. Lassen Sie uns eine Regel für die Entscheidungsfindung auf der Grundlage der Ergebnisse formulieren

H0 prüfen. Da nach der Alternativhypothese x1 kann weniger oder mehr sein x2, dann muss der kritische Bereich aus zwei ermittelt werden

Seiten: und - ~ ia und und - ia, oder kurz: ia.

Diese Form der Festlegung des Kriteriums wird aufgerufen bilaterale kritische Region. Der kritische Bereich bei a = 0,05 liegt innerhalb – aller Werte, die höher als die oberen 2,5 % und niedriger als 2,5 % des Verteilungspunkts des Student-u-Tests sind.

Vor diesem Hintergrund lassen sich die Schlussfolgerungen zur Überprüfung von H0 wie folgt formulieren: Die Hypothese H0 wird verworfen, wenn sich herausstellt, dass der tatsächliche Wert des Γ-Kriteriums gleich ist

tabellarischer Wert, d. h. if if > ia. Andernfalls muss Ka akzeptiert werden.

5. Um H0 zu überprüfen, müssen Sie den tatsächlichen Wert des Student-G-Tests ermitteln und ihn mit dem Tabellenwert vergleichen.

Um den tatsächlichen Wert des Student-t-Tests zu ermitteln, führen wir die folgenden Berechnungen durch.

6. Berechnen Sie für jede Stichprobe die um den Verlust von Freiheitsgraden korrigierten Varianzvariationen. Dazu quadrieren wir zunächst die Werte von хц und х2і:

7. Berechnen Sie die quadratischen mittleren Fehler für jede Stichprobe und den verallgemeinerten mittleren Fehler der mittleren Differenz:

8. Berechnen Sie den tatsächlichen Wert des Student-G-Tests:

9. Bestimmen Sie den Tabellenwert des G-Student-Tests basierend auf dem Signifikanzniveau a = 0,05 und der Anzahl der Freiheitsgrade für zwei Stichproben:

Gemäß der Tabelle „Kritische Punkte der Student-Verteilung“ (zusätzlich 3) finden wir und bei a = 0,05 und k = 8: i005 = 2,31.

10. Vergleichen wir den tatsächlichen und den tabellarischen Wert – Student-Kriterium:

Da ifackg< и^05 (выборочное значение критерия находится в области допустимых значений), нулевая гипотеза о равенстве средних генеральных совокупностях принимается.

Daher wird der Einfluss der Laktationsdauer auf das Lebendgewicht der Kälber bei der Geburt unterschätzt.

Allerdings sollte man auf einen so wesentlichen Punkt achten: Das Lebendgewicht der Kälber bei der Geburt ist in allen Beobachtungen des Experiments in der ersten Gruppe von Kühen mit normaler Laktationsdauer höher. Daher anstelle der Alternativhypothese An x1 F x2 ein weiterer kann genommen werden. Da es keinen Grund zu der Annahme gibt, dass das Lebendgewicht der Kälber bei normaler Laktationsdauer geringer sein wird, liegt es auf der Hand, dass eine passendere Form der Alternativhypothese lautet: Ha: x1 > x2.

Dann liegt die kritische Fläche, die 0,05 der gesamten Fläche unter der Verteilungskurve beträgt, nur auf einer (rechten) Seite, da negative Werte der Lebendgewichte als mit den Problembedingungen unvereinbar gelten. Dabei sollte das tabellarische Wertkriterium bei einem doppelten Wert des Signifikanzniveaus (d. h. bei 2a; ia = 2 o 0,05 = 0,10) ermittelt werden. Das Kriterium zur Prüfung der Hypothese wird wie folgt formuliert: Die Nullhypothese wird abgelehnt, wenn > і2а.

Diese Form des Problems der kritischen Region heißt einseitig. Der einseitige Test ist empfindlicher gegenüber Fehlern der zweiten Art, seine Anwendung ist jedoch nur zulässig, wenn die Gültigkeit dieser Alternativhypothese nachgewiesen ist.

Legen wir anhand der Tabellen (Anhang 3) das tabellarische Wertkriterium bei a = 0,10 und k = 8, i0D0 = 1,86 fest.

Wenn also ein einseitiger Test verwendet wird, wird die Nullhypothese abgelehnt, d. h. das Kriterium wird im kritischen Bereich liegen (ifakg > i0d0; 2,14 > 1,86). So ist das Lebendgewicht der Kälber bei der Geburt in der Gruppe der Kühe mit normaler Laktationsdauer deutlich höher. Diese Schlussfolgerung ist genauer als die, die auf der Grundlage eines zweiseitigen Tests gewonnen wurde, da hier zusätzliche Informationen verwendet werden, um die Richtigkeit der Anwendung eines einseitigen Tests zu rechtfertigen.

Die gleiche Schlussfolgerung kann durch Vergleich des möglichen Grenzfehlers zweier Stichproben ea mit der tatsächlichen Differenz zwischen den Mittelwerten gezogen werden.

Berechnen wir den möglichen Grenzfehler der Differenz zwischen den Durchschnittswerten für zwei Stichproben:

Wenn wir den geringfügigen möglichen Fehler mit der tatsächlichen Differenz der Mittelwerte vergleichen, können wir eine ähnliche Schlussfolgerung ziehen, dass die aufgestellte Hypothese über die Gleichheit der Mittelwerte nicht mit den erzielten Ergebnissen übereinstimmt.

Wir werden die Hypothese anhand des folgenden Beispiels für den Fall abhängiger Stichproben mit gleichen Zahlen und gleichen Varianzen testen.

Ja, es liegen Stichprobendaten zur Produktivität von Mutterkühen und Tochterkühen vor (Tabelle 7.3).

Tabelle 7.3. Produktivität von Mutter- und Tochterkühen

Es ist notwendig, eine statistische Hypothese bezüglich der mittleren Differenz zwischen Paaren verwandter Beobachtungen in der Population zu testen.

Da die Beobachtungen zweier Stichproben paarweise miteinander verbunden sind (abhängige Stichproben), muss nicht die Differenz zwischen den Mittelwerten, sondern der Durchschnittswert der Differenzen zwischen Beobachtungspaaren (u) verglichen werden. Betrachten wir alle Phasen des Hypothesentestverfahrens. 1. Formulieren wir die Null- und Alternativhypothese:

Bei dieser Alternative muss ein zweiseitiger Test angewendet werden.

2. Wir nehmen das Signifikanzniveau gleich a = 0,05 an.

3. Der aussagekräftigste Test für H0 ist der Student-u-Test.

4. Berechnen Sie die durchschnittliche Differenz

5. Berechnen Sie die angepasste Varianz der Mittelwertdifferenz:

6. Bestimmen Sie den mittleren Fehler der mittleren Differenz:

7. Berechnen Sie das tatsächliche Wert-Student-Kriterium:

8. Legen Sie die Anzahl der Freiheitsgrade basierend auf der Anzahl der Paare miteinander verbundener Differenzen fest:

9. Lassen Sie uns den tabellarischen Wert des Student-G-Tests für ermitteln Zu= 4 und a = 0,05; V. = 2,78 (Anh. 3).

10. Vergleichen wir den tatsächlichen und den tabellarischen Wert des Kriteriums:

Der tatsächliche Wert des Kriteriums steht oberhalb der Tabelle. Daher ist der Wert der durchschnittlichen Differenz zwischen den Milcherträgen der beiden Proben signifikant und die Nullhypothese wird abgelehnt.

Die gleichen Schlussfolgerungen erhalten wir, wenn wir den möglichen Grenzfehler mit der tatsächlichen durchschnittlichen Differenz vergleichen:

Der Grenzfehler zeigt, dass die durchschnittliche Differenz aufgrund zufälliger Variation 2,4 c erreichen kann. Der tatsächliche durchschnittliche Unterschied ist höher:

Den Ergebnissen der Studie zufolge lässt sich also mit hoher Wahrscheinlichkeit argumentieren, dass Unterschiede in den Werten der durchschnittlichen Milchleistungen von Mutterkühen und Tochterkühen wahrscheinlich sind.

Manchmal stellt sich das heraus durchschnittliches Ergebnis aus der Hauptversuchsreihe unterscheidet sich vom durchschnittlichen Ergebnis einer anderen Versuchsreihe. Es ist notwendig, diesen Unterschied zufällig zu bestimmen oder nicht, d. h. Können wir davon ausgehen, dass das Ergebnis des Experiments eine Stichprobe von zwei unabhängigen ist? Populationen mit den gleichen Mitteln, oder die Mittel dieser Populationen sind nicht gleich.

Die formale Formulierung dieses Problems lautet wie folgt: Wir untersuchen zwei zufällige Variablen nach dem Normalgesetz verteilt:

, Wo σ ist die Standardabweichung.

Es wird davon ausgegangen, dass die Varianzen und bekannt sind, die mathematischen Erwartungen jedoch nicht.

Es gebe zwei Beobachtungsreihen von x und y.

Χ: x 1, x 2, ..., x n 1.

Υ: y 1 , y 2 , …, y n 2 .

Wir stellen die folgende Hypothese auf m x = m y. Basierend auf Beobachtungen ist es notwendig, diese Hypothese zu bestätigen oder zu widerlegen. Wenn die Nullhypothese bestätigt wird, können wir sagen, dass die Unterschiede zwischen den Mittelwerten in den beiden Stichproben statistisch nicht signifikant sind, d. h. als Zufallsfehler erklärt.

Um diese Hypothese zu testen, wird ein Z-Test verwendet. Dafür wird es berechnet

Z-Score (Z-Statistik), der wie folgt definiert ist:

Arithmetisches Mittel der Reihe N Beobachtungen.

Der Z-Test ist normalverteilt mit einem Mittelwert von Null und einer Einheitsvarianz.

H 1: m x ≠ m y

Nullhypothese, dass die Mittelwerte gleich sind: H0: =

Die alternative Hypothese, dass die Mittelwerte nicht gleich sind, lautet wie folgt :H1:≠.

Unter der Alternativhypothese sind folgende Optionen möglich: entweder< , либо >. Dementsprechend müssen wir einen zweiseitigen Test anwenden. Daher gibt es zwei kritische Punkte: und .

Diese Punkte werden aus der Bedingung ausgewählt:

(1) Р(-∞

(2) P(

Wertmäßig bestimmen wir die linken und rechten kritischen Punkte.

,

Dabei ist F(z) die Integralverteilungsfunktion der Zufallsvariablen Z und F -1 (…) die Umkehrfunktion.

Definition: Die Funktion y = f(x) sei auf dem Segment definiert und das Segment [α, β] sei die Wertemenge dieser Funktion. Weiterhin sei angenommen, dass jedes y aus dem Segment [α, β] nur einem Wert x aus dem Segment entspricht, für das f(x) = y gilt. Dann kann man auf dem Segment [α, β] die Funktion x = f -1 (y) definieren und jedem y aus [α, β] den Wert x zuweisen, für den f(x) = y. Die Funktion x = f -1 (y) heißt die Umkehrung der Funktion y = f(x).

Die Werte kritischer Punkte können über die Funktion ermittelt werden: =NORMSINV, Geben Sie im Dialogfeld den Wahrscheinlichkeitswert () an, um den Wert zu finden, oder den Wert (1 -), um den Wert zu finden.

Wert Z, normalverteilt mit Parametern Z=N(0;1), ist symmetrisch verteilt:

0,05

Geometrische Interpretation: Die Wahrscheinlichkeit, die Ablehnungsbereiche der Hypothese zu treffen, ist gleich der Summe der schattierten Bereiche.

Der Testablauf:

1. Berechnen Sie Statistiken Z.

2. Stellen Sie das Signifikanzniveau ein.

3. Wir bestimmen die kritischen Punkte anhand der Bedingungen (1) und (2).

4. Vergleichen Sie den in Schritt 1 berechneten Wert Z mit dem Wert kritischer Punkte:

Wenn der Wert Z- Ist der absolute Wert der Statistik größer als der Wert des kritischen Punkts, wird die Nullhypothese bei einem bestimmten Signifikanzniveau abgelehnt. Dies bedeutet, dass die beiden Grundgesamtheiten, aus denen die Stichprobe besteht, unterschiedlich sind und daher die Mittelwerte und mathematischen Erwartungen für diese Stichproben nicht gleich sind. Andernfalls wird die Hypothese der Mittelwertgleichheit akzeptiert und diese beiden Populationen können als eine gemeinsame Population mit demselben mathematischen Wert betrachtet werden.

Im Excel-Paket gibt es ein Analysetool namens „Two-Sample“. Z-Test auf Durchschnittswerte" (Service - Datenanalyse - zwei Stichproben Z- Durchschnittstest). Es dient dazu, die Hypothese über den Unterschied zwischen den Mittelwerten (Erwartungen) zweier Normalverteilungen mit bekannten Varianzen zu testen.

Beim Aufruf dieses Tools erscheint ein Dialogfenster, in dem folgende Parameter eingestellt werden:

* Hypothetische Mittelwertdifferenz: Es wird eine Zahl eingegeben, die erwartete Differenz zwischen den Durchschnittswerten für die untersuchte allgemeine Sequenz. Um die Hypothese über die Gleichheit der Mittelwerte zu testen, müssen Sie den Wert Null eingeben.

* Varianz von Variable 1 (bekannt): der bekannte Wert der Varianz der Zufallsvariablen X wird eingeführt.

* Varianz von Variable 2 (bekannt): der bekannte Wert der Varianz der Zufallsvariablen Y wird eingeführt.

* Tags: Wenn diese Option aktiviert ist, wird die erste Zeile als Überschrift behandelt und nicht gezählt.

* Alpha: Das Signifikanzniveau wird gleich der Wahrscheinlichkeit gesetzt, einen Fehler vom Typ I zu machen.

ÜBUNG 1:

Es sind selektive Angaben zum Durchmesser der von der Maschine 1 und 2 hergestellten Walzen in Millimetern bekannt.

Streuung für Maschine 1: = 5 mm 2 .

Streuung für Maschine 2: =7 mm 2 .

Signifikanzniveau = 0,05.

1.Verwendung von zwei Stichproben Z- Mittelwerttest, um für Ihre Variante die Hypothese über die Gleichheit der Mittelwerte zu testen.

2. Überprüfen Sie dieselbe Hypothese mithilfe von Berechnungsformeln.

Betrachten Sie das gleiche Problem wie im vorherigen Abschnitt 3.4, jedoch nur unter der Bedingung, dass die Stichprobengrößen klein sind (weniger als 30). In diesem Fall kann der Ersatz der allgemeinen Varianzen und in (3.15) durch die korrigierten Stichprobenvarianzen zu einem großen Fehler im Wert von und folglich zu einem großen Fehler bei der Festlegung des Akzeptanzbereichs von führen Hypothese H0. Wenn jedoch die Gewissheit besteht, dass der unbekannte General und sind gleich(Wenn beispielsweise die durchschnittlichen Größen zweier Chargen von Teilen verglichen werden, die auf derselben Maschine hergestellt wurden), ist es in diesem Fall möglich, mithilfe der Student-Verteilung ein Kriterium zum Testen der Hypothese zu erstellen H0 X Und Y. Führen Sie dazu eine Zufallsvariable ein

, (3.16)

(3.17)

Der Durchschnitt der korrigierten Stichprobenvarianzen und , der als Punktschätzung sowohl identischer unbekannter allgemeiner Varianzen als auch dient. Wie sich herausstellt (siehe , S. 180), wenn die Nullhypothese wahr ist, H0 Zufallswert T hat eine Studentenverteilung mit Freiheitsgrade, unabhängig von den Werten und Stichprobengrößen. Wenn die Hypothese H0 Stimmt, der Unterschied sollte gering sein. Das heißt, der experimentelle Wert T Exp. Mengen T sollte klein sein. Es muss nämlich innerhalb einiger Grenzen liegen. Wenn es über diese Grenzen hinausgeht, betrachten wir es als Widerlegung der Hypothese H0, und wir werden dies mit einer Wahrscheinlichkeit zulassen, die dem gegebenen Signifikanzniveau entspricht α .

Somit ist der Bereich der Akzeptanz der Hypothese H0 wird ein Intervall sein, in dem die Werte der Zufallsvariablen liegen T muss mit Wahrscheinlichkeit 1- treffen α :

Der durch Gleichheit (3.18) definierte Wert für verschiedene Signifikanzniveaus α und verschiedene Zahlen K Freiheitsgrade T finden Sie in der Tabelle der kritischen Punkte der Student-Verteilung (Tabelle 4 im Anhang). Dadurch wird das Intervall für die Annahme der Hypothese ermittelt H0. Und wenn der experimentelle Wert T Exp-Wert T fällt in dieses Intervall - die Hypothese H0 akzeptieren. Fällt nicht – nicht akzeptieren.

Anmerkung 1. Wenn es keinen Grund gibt, die allgemeinen Abweichungen und Mengen als gleich zu betrachten X Und Y, dann in diesem Fall, um die Hypothese zu testen H0über die Gleichheit der mathematischen Erwartungen der Größen X Und Y Die Verwendung des oben genannten Student-t-Tests ist zulässig. Erst jetzt die Größenordnung T Nummer K Freiheitsgrade sollten als gleich betrachtet werden, nicht als gleich, sondern als gleich (siehe )

(3.19)

Wenn die korrigierten Stichprobenvarianzen erheblich voneinander abweichen, ist der zweite Term in der letzten Klammer von (3.19) klein im Vergleich zu 0,5, sodass Ausdruck (3.19) im Vergleich zu Ausdruck ist reduziert die Anzahl der Freiheitsgrade einer Zufallsvariablen T fast das Doppelte. Und dies führt zu einer deutlichen Erweiterung des Intervalls für die Annahme der Hypothese H0 und dementsprechend zu einer deutlichen Einengung des kritischen Ablehnungsbereichs dieser Hypothese. Und das ist durchaus fair, da der Grad der Streuung der möglichen Werte der Differenz hauptsächlich durch die Streuung der Werte einer der Größen bestimmt wird X Und Y, was eine große Varianz aufweist. Das heißt, Informationen aus einer Stichprobe mit geringerer Varianz verschwinden sozusagen, was zu einer größeren Unsicherheit in den Schlussfolgerungen über die Hypothese führt H0 .

Beispiel 4. Vergleichen Sie anhand der Daten in der Tabelle die durchschnittliche Milchleistung von Kühen, die mit unterschiedlichen Diäten gefüttert wurden. Beim Testen der Nullhypothese H0Über die Gleichheit der durchschnittlichen Milchleistungen akzeptieren Sie das Signifikanzniveau α =0,05.

Die Anzahl der Kühe, die mit dem Futter gefüttert wurden

(Ziele)

Durchschnittliche tägliche Milchleistung in Bezug auf den Grundfettgehalt

(kg/Kopf)

Standardabweichung der täglichen Milchproduktion von Kühen

(kg/Kopf)

. Da die angegebenen Tabellendaten auf der Grundlage kleiner Proben mit Volumina = 10 und = 8 ermittelt wurden, müssen wir zum Vergleich der mathematischen Erwartungen der durchschnittlichen täglichen Milchleistungen von Kühen, die die eine und die andere Futterration erhalten haben, die dargelegte Theorie verwenden in diesem Absatz. Dazu werden wir zunächst herausfinden, ob die gefundenen korrigierten Stichprobenvarianzen =(3,8)2=14,44 und =(4,2)2=17,64 es uns ermöglichen, die allgemeinen Varianzen und gleich zu berücksichtigen. Dazu verwenden wir das Fisher-Snedekor-Kriterium (siehe Abschnitt 3.3). Wir haben:

Gemäß der Tabelle der kritischen Punkte der Fischer-Snedekor-Verteilung für α =0,05; K1 =8-1=7 und K2 =10-1=9 finden

Und seitdem haben wir auf dieser Bedeutungsebene keinen Grund mehr α =0,05 lehnt die Hypothese ab H0 über die Gleichheit allgemeiner Varianzen und .

Nun berechnen wir gemäß (3.17) und (3.16) den experimentellen Wert der Größe T:

Als nächstes gemäß der Formel Nummer finden K Freiheitsgrade T: K=10+8-2=16. Danach für n0+8-2=16. odes (3.16) berechnen wir den experimentellen Wert von T: α =0,05 und K= 16 gemäß der Tabelle der kritischen Punkte der Student-Verteilung (Tabelle 4 des Anhangs) finden wir: = 2,12. Somit ist das Intervall für die Annahme der Hypothese H0 Über die Gleichheit der durchschnittlichen Milchleistung von Kühen, die die Diäten Nr. 1 und Nr. 2 erhalten, ist das Intervall = (-2,12; 2,12). Und da = - 0,79 in dieses Intervall fällt, haben wir keinen Grund, die Hypothese abzulehnen H0 . Das heißt, wir können davon ausgehen, dass der Unterschied in den Futterrationen keinen Einfluss auf die durchschnittliche tägliche Milchleistung der Kühe hat.

Notiz 2. In den oben diskutierten Absätzen 3.4 und 3.5 wurde die Nullhypothese berücksichtigt H0 über Gleichberechtigung M(X)=M(Y) unter der Alternativhypothese H1über ihre Ungleichheit: M(X)≠M(Y). Aber die Alternativhypothese H1 es kann auch andere geben, zum Beispiel M(Y)>M(X). In der Praxis wird dieser Fall eintreten, wenn eine gewisse Verbesserung (positiver Faktor) eingeführt wird, die es uns ermöglicht, mit einem Anstieg der Durchschnittswerte einer normalverteilten Zufallsvariablen zu rechnen Y verglichen mit den Werten der normalverteilten Größe X. So wurde beispielsweise ein neuer Futterzusatz in die Ernährung von Kühen eingeführt, der es ermöglicht, mit einer Steigerung der durchschnittlichen Milchleistung der Kühe zu rechnen; Unter der Ernte wurde ein zusätzlicher Top-Dressing eingeführt, der es ermöglicht, mit einer Steigerung des durchschnittlichen Ernteertrags usw. zu rechnen. Und ich würde gerne herausfinden, ob dieser eingeführte Faktor signifikant (signifikant) oder unbedeutend ist. Dann bei großen Volumina und Proben (siehe Abschnitt 3.4) als Kriterium für die Gültigkeit der Hypothese H0 Betrachten Sie eine normalverteilte Zufallsvariable

Auf einem bestimmten Signifikanzniveau α Hypothese H0 über Gleichberechtigung M(X) Und M(Y) wird abgelehnt, wenn der experimentelle Wert der Menge positiv und größer ist

Da unter der Gültigkeit der Hypothese H0 M(Z)= 0 also



Fehler: Der Inhalt ist geschützt!!