Pearson-T-Test und andere. Pearson-Kriterium zur Prüfung der Hypothese über die Form des Verteilungsgesetzes einer Zufallsvariablen

Statistischer Test

Die Regel, nach der die Hypothese I 0 abgelehnt oder akzeptiert wird, heißt statistisches Kriterium. Der Name des Kriteriums enthält in der Regel einen Buchstaben, der ein speziell zusammengestelltes Merkmal aus Absatz 2 des Verifizierungsalgorithmus bezeichnet statistische Hypothese(siehe Abschnitt 4.1), berechnet im Kriterium. Unter den Bedingungen dieses Algorithmus würde das Kriterium aufgerufen werden „V-Kriterium".

Beim Testen statistischer Hypothesen sind zwei Arten von Fehlern möglich:

  • - Fehler vom Typ I(Sie können die Hypothese I 0 ablehnen, wenn sie tatsächlich wahr ist);
  • - Fehler vom Typ II(Sie können die Hypothese I 0 akzeptieren, wenn sie tatsächlich nicht wahr ist).

Wahrscheinlichkeit A Das Begehen eines Fehlers erster Art wird aufgerufen Kriterium Signifikanzniveau.

Wenn ja R bezeichnen die Wahrscheinlichkeit, einen Fehler zweiter Art zu machen, dann (l - P) - die Wahrscheinlichkeit, keinen Fehler vom Typ II zu machen, die man nennt Stärke des Kriteriums.

Pearson-x-2-Anpassungstest

Es gibt verschiedene Arten statistischer Hypothesen:

  • - über das Verteilungsgesetz;
  • - Homogenität der Proben;
  • - Zahlenwerte von Verteilungsparametern usw.

Wir werden die Hypothese über das Verteilungsgesetz am Beispiel des Pearson-x-2-Anpassungstests betrachten.

Übereinstimmungskriterium wird als statistisches Kriterium zum Testen der Nullhypothese über das angenommene Gesetz einer unbekannten Verteilung bezeichnet.

Der Pearson-Anpassungstest basiert auf einem Vergleich empirischer (beobachteter) und theoretischer Häufigkeiten von Beobachtungen, die unter der Annahme eines bestimmten Verteilungsgesetzes berechnet werden. Hypothese Nr. 0 wird hier wie folgt formuliert: Entsprechend dem untersuchten Merkmal ist die Population normalverteilt.

Algorithmus Nr. 0 zum Testen statistischer Hypothesen für das Kriterium x 1 Pearson:

  • 1) Wir stellen die Hypothese I 0 auf – entsprechend dem untersuchten Merkmal ist die Gesamtbevölkerung normal verteilt;
  • 2) Berechnen Sie den Stichprobenmittelwert und die Stichprobenstandardabweichung O V;

3) entsprechend der verfügbaren Volumenprobe N wir berechnen eine speziell zusammengestellte Kennlinie,

wobei: i empirische Häufigkeiten sind, - theoretische Frequenzen,

P - Stichprobengröße,

H- die Größe des Intervalls (die Differenz zwischen zwei benachbarten Optionen),

Normalisierte Werte des beobachteten Merkmals,

- Tabellenfunktion. Auch theoretische Frequenzen

kann mit der Standard-MS-Excel-Funktion NORMIDIST unter Verwendung der Formel berechnet werden;

4) Anhand der Stichprobenverteilung ermitteln wir den kritischen Wert eines speziell zusammengestellten Merkmals XL P

5) wenn Hypothese Nr. 0 abgelehnt wird, wenn Hypothese Nr. 0 akzeptiert wird.

Beispiel. Betrachten wir das Zeichen X- der Wert der Testindikatoren für Sträflinge in einer der Justizvollzugskolonien hinsichtlich einiger psychologischer Merkmale, dargestellt in Form einer Variationsreihe:

Testen Sie bei einem Signifikanzniveau von 0,05 die Hypothese der Normalverteilung Bevölkerung.

1. Basierend auf der empirischen Verteilung kann eine Hypothese aufgestellt werden H 0: nach dem untersuchten Kriterium „der Wert des Testindikators für ein bestimmtes psychologisches Merkmal“, die Allgemeinbevölkerung

erwartet ist normalverteilt. Alternativhypothese 1: Gemäß dem untersuchten Kriterium „Wert des Testindikators für ein bestimmtes psychologisches Merkmal“ ist die Gesamtpopulation der Verurteilten nicht normalverteilt.

2. Berechnen wir die numerischen Probeneigenschaften:

Intervalle

x g y

X) sch

3. Berechnen wir die speziell zusammengestellte Kennlinie j 2 . Dazu finden wir in der vorletzten Spalte der vorherigen Tabelle die theoretischen Häufigkeiten anhand der Formel und in der letzten Spalte

Berechnen wir die Eigenschaften % 2. Wir bekommen x 2 = 0,185.

Zur Verdeutlichung konstruieren wir ein Polygon der empirischen Verteilung und eine Normalkurve basierend auf theoretischen Häufigkeiten (Abb. 6).

Reis. 6.

4. Bestimmen Sie die Anzahl der Freiheitsgrade S: k = 5, t = 2, s = 5-2-1 = 2.

Gemäß der Tabelle oder unter Verwendung der Standard-MS-Excel-Funktion „HI20BR“ für die Anzahl der Freiheitsgrade 5 = 2 und das Signifikanzniveau a = 0,05 finden wir den kritischen Wert des Kriteriums xl P .=5,99. Für Signifikanzniveau A= 0,01 kritischer Kriteriumswert X%. = 9,2.

5. Beobachteter Kriteriumswert X=0,185 weniger als alle gefundenen Werte Hk R.-> Daher wird die Hypothese I 0 auf beiden Signifikanzniveaus akzeptiert. Die Diskrepanz zwischen empirischen und theoretischen Häufigkeiten ist unbedeutend. Daher stimmen die Beobachtungsdaten mit der Hypothese einer normalen Bevölkerungsverteilung überein. Gemäß dem untersuchten Kriterium „Wert des Testindikators für ein bestimmtes psychologisches Merkmal“ ist die Gesamtpopulation der Verurteilten also normal verteilt.

  • 1. Koryachko A.V., Kulichenko A.G. Höhere Mathematik und mathematische Methoden in der Psychologie: Ein Leitfaden für praktische Übungen für Studierende der Fakultät für Psychologie. Rjasan, 1994.
  • 2. Nasledov A.D. Mathematische Methoden psychologische Forschung. Analyse und Interpretation von Daten: Lehrbuch, Handbuch. St. Petersburg, 2008.
  • 3. Sidorenko E.V. Methoden der mathematischen Verarbeitung in der Psychologie. St. Petersburg, 2010.
  • 4. Soshnikova L.A. und andere. Multivariate statistische Analyse in den Wirtschaftswissenschaften: Lehrbuch, Handbuch für Universitäten. M., 1999.
  • 5. Sukhodolsky E.V. Mathematische Methoden in der Psychologie. Charkow, 2004.
  • 6. Shmoilova R.A., Minashkin V.E., Sadovnikova N.A. Workshop zur Theorie der Statistik: Lehrbuch, Handbuch. M., 2009.
  • Gmurman V.E. Wahrscheinlichkeitstheorie und mathematische Statistik. S. 465.

Die Breite des Intervalls beträgt:

Xmax ist der Maximalwert des Gruppierungsmerkmals im Aggregat.
Xmin ist der Minimalwert des Gruppierungsmerkmals.
Lassen Sie uns die Grenzen der Gruppe definieren.

GruppennummerUntere GrenzeObergrenze
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Derselbe Attributwert dient als obere und untere Grenze zweier benachbarter (vorheriger und nachfolgender) Gruppen.
Für jeden Wert der Reihe zählen wir, wie oft er in ein bestimmtes Intervall fällt. Dazu sortieren wir die Reihen aufsteigend.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

Die Gruppierungsergebnisse stellen wir Ihnen in tabellarischer Form vor:
GruppenSammlungsnr.Häufigkeit f ich
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

Tabelle zur Berechnung von Indikatoren.
Gruppenx iMenge, f ix i * f iKumulierte Häufigkeit, S|x - x av |*f(x - x Durchschnitt) 2 *fFrequenz, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Zur Auswertung der Verteilungsreihe finden wir folgende Indikatoren:
Indikatoren für Vertriebszentren.
Gewichteter Durchschnitt


Mode
Der Modus ist der häufigste Wert eines Merkmals unter Einheiten einer bestimmten Grundgesamtheit.

wobei x 0 der Beginn des modalen Intervalls ist; h – Intervallwert; f 2 – Frequenz entsprechend dem Modalintervall; f 1 – prämodale Frequenz; f 3 – postmodale Frequenz.
Wir wählen 51,49 als Beginn des Intervalls, da dieses Intervall die größte Zahl ausmacht.

Der häufigste Wert der Reihe ist 52,8
Mittlere
Der Median teilt die Stichprobe in zwei Teile: Die Hälfte ist kleiner als der Median, die andere Hälfte ist mehr.
IN Intervallreihe Verteilung können Sie sofort nur das Intervall angeben, in dem sich der Modus oder Median befindet. Der Median entspricht der Option in der Mitte der Rangliste. Der Median ist das Intervall 51,49 - 54,32, weil In diesem Intervall ist die akkumulierte Häufigkeit S größer als die mittlere Zahl (der Median ist das erste Intervall, dessen akkumulierte Häufigkeit S die Hälfte der Gesamtsumme der Häufigkeiten überschreitet).


Somit werden 50 % der Einheiten in der Bevölkerung eine geringere Größe als 53,06 haben
Variationsindikatoren.
Absolute Variationen.
Die Variationsbreite ist die Differenz zwischen den Maximal- und Minimalwerten der primären Serieneigenschaft.
R = X max - X min
R = 60 - 43 = 17
Durchschnittliche lineare Abweichung- berechnet, um die Unterschiede aller untersuchten Bevölkerungseinheiten zu berücksichtigen.


Jeder Wert der Reihe unterscheidet sich vom anderen um nicht mehr als 2,3
Streuung- charakterisiert das Maß der Streuung um seinen Durchschnittswert (ein Maß für die Streuung, d. h. Abweichung vom Durchschnitt).


Unvoreingenommener Varianzschätzer- konsistente Schätzung der Varianz.


Standardabweichung.

Jeder Wert der Reihe weicht vom Durchschnittswert von 53,3 um nicht mehr als 3,21 ab
Schätzung der Standardabweichung.

Relative Variationsmaße.
Zu den relativen Variationsindikatoren gehören: Oszillationskoeffizient, linearer Koeffizient Variationen, relative lineare Abweichung.
Variationskoeffizient- ein Maß für die relative Streuung von Bevölkerungswerten: zeigt an, welcher Anteil des Durchschnittswerts dieses Werts seine durchschnittliche Streuung ist.

Da v ≤ 30 % ist, ist die Population homogen und die Variation ist schwach. Den erzielten Ergebnissen kann man vertrauen.
Linearer Variationskoeffizient oder Relative lineare Abweichung- charakterisiert den Anteil des Durchschnittswerts am Vorzeichen der absoluten Abweichungen vom Durchschnittswert.

Testen von Hypothesen über die Art der Verteilung.
1. Überprüfen wir die Hypothese, dass X verteilt ist normales Gesetz unter Verwendung des Pearson-Anpassungstests.

wobei p i die Trefferwahrscheinlichkeit ist i-tes Intervall Zufallsvariable, verteilt nach dem hypothetischen Gesetz
Um die Wahrscheinlichkeiten p i zu berechnen, wenden wir die Formel und Tabelle der Laplace-Funktion an

Wo
s = 3,21, xav = 53,3
Die theoretische (erwartete) Häufigkeit beträgt n i = np i , wobei n = 36
GruppierungsintervalleBeobachtete Häufigkeit n ix 1 = (x i - x avg)/sx 2 = (x i+1 - x av)/sF(x 1)F(x 2)Wahrscheinlichkeit, in das i-te Intervall zu gelangen, p i = Ф(x 2) - Ф(x 1)Erwartete Frequenz, 36p iPearson-Statistikbegriffe, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

Lassen Sie uns die Grenze des kritischen Bereichs bestimmen. Da die Pearson-Statistik den Unterschied zwischen der empirischen und der theoretischen Verteilung misst, ist das Argument gegen die Haupthypothese umso stärker, je größer der beobachtete Wert K obs ist.
Daher ist der kritische Bereich für diese Statistik immer rechtshändig:

Empirische Häufigkeiten

ni

Wahrscheinlichkeiten
Pi

Theoretische Frequenzen
npi

(ni-npi)2

Pearson-Kriterium

Pearson-Kriterium, oder χ 2-Test- das am häufigsten verwendete Kriterium zur Prüfung der Hypothese über das Verteilungsgesetz. Bei vielen praktischen Problemen ist das genaue Verteilungsgesetz unbekannt, das heißt, es handelt sich um eine Hypothese, die einer statistischen Überprüfung bedarf.

Bezeichnen wir mit X die untersuchte Zufallsvariable. Angenommen, wir möchten eine Hypothese testen H 0, dass diese Zufallsvariable dem Verteilungsgesetz gehorcht F(X). Um die Hypothese zu testen, erstellen wir eine Stichprobe bestehend aus n unabhängigen Beobachtungen der Zufallsvariablen X. Mithilfe der Stichprobe können wir eine empirische Verteilung erstellen F * (X) der untersuchten Zufallsvariablen. Vergleich empirischer F * (X) und theoretische Verteilungen werden mithilfe einer speziell ausgewählten Zufallsvariablen erstellt – dem Kriterium der Anpassungsgüte. Eines dieser Kriterien ist das Pearson-Kriterium.

Kriterienstatistik

Zur Überprüfung des Kriteriums werden Statistiken eingegeben:

Wo - geschätzte Trefferwahrscheinlichkeit ich-Intervall, - der entsprechende Erfahrungswert, N ich- Anzahl der Beispielelemente aus ich-tes Intervall.

Diese Größe wiederum ist zufällig (aufgrund der Zufälligkeit von X) und muss der Verteilung χ 2 gehorchen.

Kriteriumsregel

Bevor eine Regel für die Annahme oder Ablehnung einer Hypothese formuliert wird, muss dies berücksichtigt werden Das Pearson-Kriterium hat einen rechtsseitigen kritischen Bereich.

Regel.
Wenn die erhaltene Statistik das Quantil des Verteilungsgesetzes eines bestimmten Signifikanzniveaus mit oder mit Freiheitsgraden überschreitet, wobei k die Anzahl der Beobachtungen oder die Anzahl der Intervalle (im Fall einer Intervallvariationsreihe) und p ist die Anzahl der geschätzten Parameter des Verteilungsgesetzes, dann wird die Hypothese abgelehnt. Andernfalls wird die Hypothese mit dem angegebenen Signifikanzniveau akzeptiert.

Literatur

  • Kendall M., Stewart A. Statistische Schlussfolgerungen und Zusammenhänge. - M.: Nauka, 1973.

Siehe auch

  • Pearson-Kriterium auf der Website der Staatlichen Universität Nowosibirsk
  • Chi-Quadrat-Tests auf der Website der Staatlichen Technischen Universität Nowosibirsk (Empfehlungen zur Standardisierung R 50.1.033–2001)
  • Informationen zur Auswahl der Anzahl der Intervalle finden Sie auf der Website der Staatlichen Technischen Universität Nowosibirsk
  • Über das Nikulin-Kriterium auf der Website der Staatlichen Technischen Universität Nowosibirsk

Wikimedia-Stiftung.

2010.

    Sehen Sie, was das „Pearson-Kriterium“ in anderen Wörterbüchern ist:

    Oder Kolmogorov-Smirnov-Anpassungstest ist ein statistischer Test, der verwendet wird, um zu bestimmen, ob zwei empirische Verteilungen demselben Gesetz gehorchen oder ob die resultierende Verteilung dem angenommenen Modell gehorcht.... ... Wikipedia

    - (Maximalkriterium) eines der Kriterien für die Entscheidungsfindung unter Bedingungen der Unsicherheit. Kriterium des extremen Pessimismus. Geschichte Das Wald-Kriterium wurde 1955 von Abraham Wald für Stichproben gleicher Größe vorgeschlagen und dann auf ... Wikipedia erweitert

    Der Wallis-Test dient dazu, die Gleichheit der Mediane mehrerer Stichproben zu testen. Dieses Kriterium ist eine mehrdimensionale Verallgemeinerung des Wilcoxon-Mann-Whitney-Tests. Das Kruskal-Wallis-Kriterium ist ein Rangkriterium und daher invariant gegenüber jeder... ... Wikipedia

    - (F-Test, φ*-Test, Test der geringsten signifikanten Differenz) ein nachträglicher statistischer Test zum Vergleich der Varianzen zweier Variationsreihe, das heißt, um signifikante Unterschiede zwischen Gruppenmitteln in ... ... Wikipedia zu bestimmen

    Der Cochran-Test wird verwendet, wenn drei oder mehr Proben gleicher Größe verglichen werden. Die Diskrepanz zwischen den Varianzen gilt auf dem gewählten Signifikanzniveau als zufällig, wenn: wobei das Quantil der Zufallsvariablen mit der Anzahl der summierten... ... Wikipedia ist

    Ein nach Hubert Lilliefors, Professor für Statistik an der George Washington University, benannter statistischer Test, der eine Modifikation des Kolmogorov-Smirnov-Tests darstellt. Wird verwendet, um die Nullhypothese zu testen, dass die Stichprobe... ... Wikipedia

    Um diesen Artikel zu verbessern, ist es wünschenswert?: Links zu maßgeblichen Quellen, die das Geschriebene bestätigen, finden und in Form von Fußnoten anordnen. Fügen Sie Illustrationen hinzu. T Kreta ... Wikipedia

    In der Statistik wird der Kolmogorov-Anpassungstest (auch bekannt als Kolmogorov-Smirnov-Anpassungstest) verwendet, um festzustellen, ob zwei empirische Verteilungen demselben Gesetz gehorchen, oder um festzustellen, ob ... ... Wikipedia

    Unabhängigkeitskriterium– Testet für Kontingenztabellen die Hypothese, dass die Zeilen- und Spaltenvariablen unabhängig sind. Zu diesen Kriterien gehören der Chi-Quadrat-Unabhängigkeitstest (Pearson) und der exakte Fisher-Test ... Wörterbuch der soziologischen Statistik

Bücher

  • Kriterien zur Überprüfung der Abweichung der Verteilung vom einheitlichen Gesetz. Leitfaden zur Verwendung: Monographie, Lemeshko B.Yu.. Das Buch richtet sich an Spezialisten, die in ihrer Tätigkeit in gewissem Maße mit Fragen der statistischen Datenanalyse, der Verarbeitung experimenteller Ergebnisse, der Anwendung ... konfrontiert sind.




Fehler: Inhalt geschützt!!