Testul Pearson t și altele. Criteriul Pearson pentru testarea ipotezei despre forma legii de distribuție a unei variabile aleatoare

Test statistic

Se numește regula prin care ipoteza I 0 este respinsă sau acceptată criteriu statistic. Numele criteriului, de regulă, conține o literă care denotă o caracteristică special compilată de la paragraful 2 al algoritmului de verificare ipoteza statistica(a se vedea clauza 4.1), calculată în criteriu. În condițiile acestui algoritm, criteriul ar fi numit „V-criteriu".

La testarea ipotezelor statistice sunt posibile două tipuri de erori:

  • - Eroare de tip I(puteți respinge ipoteza I 0 când este de fapt adevărată);
  • - Eroare de tip II(puteți accepta ipoteza I 0 când de fapt nu este adevărată).

Probabilitate O se face o eroare de primul tip nivelul de semnificație al criteriului.

Dacă pentru r indicați probabilitatea de a face o eroare de al doilea tip, apoi (l -p)- probabilitatea de a nu face o eroare de al doilea tip, care se numește puterea criteriului.

Testul de bunăstare a potrivirii lui Pearson x 2

Există mai multe tipuri de ipoteze statistice:

  • - despre legea distributiei;
  • - omogenitatea probelor;
  • - valorile numerice ale parametrilor de distribuție etc.

Vom lua în considerare ipoteza despre legea distribuției folosind exemplul testului Pearson x 2 de bunătate a potrivirii.

Criteriul acordului se numește criteriu statistic pentru testarea ipotezei nule despre legea presupusă a unei distribuții necunoscute.

Testul Pearson de bunătate a potrivirii se bazează pe o comparație a frecvențelor empirice (observate) și teoretice ale observațiilor calculate în ipoteza unei anumite legi de distribuție. Ipoteza #0 aici este formulată astfel: în funcție de caracteristica studiată, populația este distribuită normal.

Algoritmul de testare a ipotezelor statistice #0 pentru criteriu x 1 Pearson:

  • 1) propunem ipoteza I 0 - în funcţie de caracteristica studiată, populaţia generală este distribuită normal;
  • 2) calculați media eșantionului și abaterea standard a eșantionului O V;

3) în funcție de volumul eșantionului disponibil n calculăm o caracteristică special compilată,

unde: i, sunt frecvențe empirice, - frecvente teoretice,

p - dimensiunea eșantionului,

h- dimensiunea intervalului (diferența dintre două opțiuni adiacente),

Valori normalizate ale caracteristicii observate,

- funcția de masă. De asemenea, frecvențele teoretice

poate fi calculat folosind funcția standard MS Excel NORMIDIST folosind formula;

4) folosind distribuția eșantionului, determinăm valoarea critică a unei caracteristici special compilate xl P

5) când ipoteza # 0 este respinsă, când ipoteza # 0 este acceptată.

Exemplu. Să luăm în considerare semnul X- valoarea indicatorilor de testare pentru condamnații dintr-una din coloniile de corecție pentru o anumită caracteristică psihologică, prezentați sub forma unei serii de variații:

La un nivel de semnificație de 0,05, testați ipoteza distribuției normale populatia.

1. Pe baza distribuției empirice se poate formula o ipoteză H 0: conform criteriului studiat „valoarea indicatorului de testare pentru o anumită caracteristică psihologică”, populația generală

aşteptat este distribuit normal. Ipoteza alternativă 1: conform criteriului studiat „valoarea indicatorului de test pentru o anumită caracteristică psihologică”, populația generală de condamnați nu este distribuită în mod normal.

2. Să calculăm caracteristicile numerice ale eșantionului:

Intervale

x g y

X) sch

3. Să calculăm caracteristica special compilată j 2 . Pentru a face acest lucru, în penultima coloană a tabelului precedent găsim frecvențele teoretice folosind formula, iar în ultima coloană

Să calculăm caracteristicile % 2. Primim x 2 = 0,185.

Pentru claritate, vom construi un poligon al distribuției empirice și o curbă normală bazată pe frecvențe teoretice (Fig. 6).

Orez. 6.

4. Determinați numărul de grade de libertate s: k = 5, t = 2, s = 5-2-1 = 2.

Conform tabelului sau folosind funcția standard MS Excel „HI20BR” pentru numărul de grade de libertate 5 = 2 și nivelul de semnificație a = 0,05 vom găsi valoarea critică a criteriului xl P .=5,99. Pentru nivelul de semnificație O= 0,01 valoarea criteriului critic X%. = 9,2.

5. Valoarea criteriului observat X=0,185 mai puțin decât toate valorile găsite Hk R.-> prin urmare, ipoteza I 0 este acceptată la ambele niveluri de semnificație. Discrepanța dintre frecvențele empirice și cele teoretice este nesemnificativă. Prin urmare, datele observaționale sunt în concordanță cu ipoteza unei distribuții normale a populației. Astfel, conform criteriului studiat „valoarea indicatorului de testare pentru o anumită caracteristică psihologică”, populația generală de condamnați este distribuită normal.

  • 1. Koryachko A.V., Kulichenko A.G. Matematică superioarăși metode matematice în psihologie: un ghid de exerciții practice pentru studenții Facultății de Psihologie. Ryazan, 1994.
  • 2. Nasledov A.D. Metode matematice cercetare psihologică. Analiza și interpretarea datelor: manual, manual. Sankt Petersburg, 2008.
  • 3. Sidorenko E.V. Metode de prelucrare matematică în psihologie. Sankt Petersburg, 2010.
  • 4. Soshnikova L.A. și altele. Analiza statistică multivariată în economie: manual, manual pentru universități. M., 1999.
  • 5. Suhodolsky E.V. Metode matematice în psihologie. Harkov, 2004.
  • 6. Shmoilova R.A., Minashkin V.E., Sadovnikova N.A. Workshop de teoria statisticii: manual, manual. M., 2009.
  • Gmurman V.E. Teoria probabilității și statistica matematică. p. 465.

Lățimea intervalului va fi:

Xmax este valoarea maximă a caracteristicii de grupare în agregat.
Xmin este valoarea minimă a caracteristicii de grupare.
Să definim limitele grupului.

Numărul grupuluiLimită inferioarăLimita superioara
1 43 45.83
2 45.83 48.66
3 48.66 51.49
4 51.49 54.32
5 54.32 57.15
6 57.15 60

Aceeași valoare de atribut servește drept limite superioară și inferioară a două grupuri adiacente (anterioare și ulterioare).
Pentru fiecare valoare a seriei, numărăm de câte ori se încadrează într-un anumit interval. Pentru a face acest lucru, sortăm seria în ordine crescătoare.
43 43 - 45.83 1
48.5 45.83 - 48.66 1
49 48.66 - 51.49 1
49 48.66 - 51.49 2
49.5 48.66 - 51.49 3
50 48.66 - 51.49 4
50 48.66 - 51.49 5
50.5 48.66 - 51.49 6
51.5 51.49 - 54.32 1
51.5 51.49 - 54.32 2
52 51.49 - 54.32 3
52 51.49 - 54.32 4
52 51.49 - 54.32 5
52 51.49 - 54.32 6
52 51.49 - 54.32 7
52 51.49 - 54.32 8
52 51.49 - 54.32 9
52.5 51.49 - 54.32 10
52.5 51.49 - 54.32 11
53 51.49 - 54.32 12
53 51.49 - 54.32 13
53 51.49 - 54.32 14
53.5 51.49 - 54.32 15
54 51.49 - 54.32 16
54 51.49 - 54.32 17
54 51.49 - 54.32 18
54.5 54.32 - 57.15 1
54.5 54.32 - 57.15 2
55.5 54.32 - 57.15 3
57 54.32 - 57.15 4
57.5 57.15 - 59.98 1
57.5 57.15 - 59.98 2
58 57.15 - 59.98 3
58 57.15 - 59.98 4
58.5 57.15 - 59.98 5
60 57.15 - 59.98 6

Vom prezenta rezultatele grupării sub forma unui tabel:
GrupuriColectia nr.Frecvența f i
43 - 45.83 1 1
45.83 - 48.66 2 1
48.66 - 51.49 3,4,5,6,7,8 6
51.49 - 54.32 9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26 18
54.32 - 57.15 27,28,29,30 4
57.15 - 59.98 31,32,33,34,35,36 6

Tabel pentru calcularea indicatorilor.
Grupurix iCantitatea, f ix i * f iFrecvența acumulată, S|x - x av |*f(x - x medie) 2 *fFrecvența, f i /n
43 - 45.83 44.42 1 44.42 1 8.88 78.91 0.0278
45.83 - 48.66 47.25 1 47.25 2 6.05 36.64 0.0278
48.66 - 51.49 50.08 6 300.45 8 19.34 62.33 0.17
51.49 - 54.32 52.91 18 952.29 26 7.07 2.78 0.5
54.32 - 57.15 55.74 4 222.94 30 9.75 23.75 0.11
57.15 - 59.98 58.57 6 351.39 36 31.6 166.44 0.17
36 1918.73 82.7 370.86 1

Pentru a evalua seria de distribuție, găsim următorii indicatori:
Indicatori centre de distribuție.
Medie ponderată


Modă
Modul este cea mai comună valoare a unei caracteristici între unitățile unei populații date.

unde x 0 este începutul intervalului modal; h – valoarea intervalului; f 2 – frecvența corespunzătoare intervalului modal; f 1 – frecvență premodală; f 3 – frecvență postmodală.
Alegem 51,49 ca început al intervalului, deoarece acest interval este cel care reprezintă cel mai mare număr.

Cea mai comună valoare a seriei este 52,8
Median
Mediana împarte proba în două părți: jumătate este mai mică decât mediana, jumătate este mai mult.
ÎN serie de intervale distribuție, puteți specifica imediat doar intervalul în care va fi situat modul sau mediana. Mediana corespunde opțiunii din mijlocul seriei clasate. Mediana este intervalul 51,49 - 54,32, deoarece în acest interval, frecvența acumulată S este mai mare decât numărul median (mediana este primul interval a cărui frecvență acumulată S depășește jumătate din suma totală a frecvențelor).


Astfel, 50% din unitățile din populație vor fi mai mici ca magnitudine decât 53,06
Indicatori de variație.
Variații absolute.
Intervalul de variație este diferența dintre valorile maxime și minime ale caracteristicii seriei primare.
R = X max - X min
R = 60 - 43 = 17
Abaterea liniară medie- calculată pentru a lua în considerare diferențele tuturor unităților populației studiate.


Fiecare valoare a seriei diferă de cealaltă cu cel mult 2,3
Dispersia- caracterizează măsura dispersiei în jurul valorii sale medii (o măsură a dispersiei, adică abaterea de la medie).


Estimator de varianță imparțial- estimarea consistentă a varianței.


Abaterea standard.

Fiecare valoare a seriei diferă de valoarea medie de 53,3 cu cel mult 3,21
Estimarea abaterii standard.

Măsuri de variație relativă.
Indicatorii relativi de variație includ: coeficientul de oscilație, coeficient liniar variații, abatere liniară relativă.
Coeficientul de variație- o măsură a dispersiei relative a valorilor populației: arată ce proporție din valoarea medie a acestei valori este dispersia medie a acesteia.

Deoarece v ≤ 30%, populația este omogenă și variația este slabă. Rezultatele obținute pot fi de încredere.
Coeficient liniar de variație sau Deviația liniară relativă- caracterizează ponderea valorii medii a semnului abaterilor absolute de la valoarea medie.

Testarea ipotezelor despre tipul de distribuție.
1. Să verificăm ipoteza că X este distribuit peste legea normală folosind testul Pearson de bunăstare a potrivirii.

unde p i este probabilitatea de a lovi intervalul i-lea variabilă aleatoare, distribuite conform legii ipotetice
Pentru a calcula probabilitățile p i, aplicăm formula și tabelul funcției Laplace

Unde
s = 3,21, xav = 53,3
Frecvența teoretică (așteptată) este n i = np i , unde n = 36
Intervalele de grupareFrecvența observată n ix 1 = (x i - x medie)/sx 2 = (x i+1 - x av)/sF(x 1)F(x 2)Probabilitatea de a intra în intervalul i, p i = Ф(x 2) - Ф(x 1)Frecvența așteptată, 36p iTermenii statistici Pearson, K i
43 - 45.83 1 -3.16 -2.29 -0.5 -0.49 0.01 0.36 1.14
45.83 - 48.66 1 -2.29 -1.42 -0.49 -0.42 0.0657 2.37 0.79
48.66 - 51.49 6 -1.42 -0.56 -0.42 -0.21 0.21 7.61 0.34
51.49 - 54.32 18 -0.56 0.31 -0.21 0.13 0.34 12.16 2.8
54.32 - 57.15 4 0.31 1.18 0.13 0.38 0.26 9.27 3
57.15 - 59.98 6 1.18 2.06 0.38 0.48 0.0973 3.5 1.78
36 9.84

Să determinăm limita regiunii critice. Deoarece statistica Pearson măsoară diferența dintre distribuțiile empirice și teoretice, cu cât valoarea sa observată K obs este mai mare, cu atât argumentul împotriva ipotezei principale este mai puternic.
Prin urmare, regiunea critică pentru această statistică este întotdeauna dreptaci:

Frecvențele empirice

ni

Probabilități
pi

Frecvențe teoretice
npi

(ni-npi)2

criteriul Pearson

criteriul Pearson, sau testul χ 2- criteriul cel mai des utilizat pentru testarea ipotezei despre legea distribuţiei. În multe probleme practice, legea distribuției exacte este necunoscută, adică este o ipoteză care necesită verificare statistică.

Să notăm cu X variabila aleatoare studiată. Să presupunem că vrem să testăm o ipoteză H 0 că această variabilă aleatoare respectă legea distribuției F(x). Pentru a testa ipoteza, vom face un eșantion format din n observații independente ale variabilei aleatoare X. Folosind eșantionul, putem construi o distribuție empirică F * (x) a variabilei aleatoare studiate. Comparația empirice F * (x) iar distribuțiile teoretice sunt realizate folosind o variabilă aleatoare special selectată - criteriul de bunătate a potrivirii. Unul dintre aceste criterii este criteriul Pearson.

Statistica criteriilor

Pentru a verifica criteriul, se introduc statistici:

Unde - probabilitatea estimată de lovire i-interval, - valoarea empirică corespunzătoare, n i- numărul de elemente de probă din i- al-lea interval.

Această mărime, la rândul ei, este aleatorie (datorită aleatoriei lui X) și trebuie să respecte distribuția χ 2.

Regula criteriului

Înainte de a formula o regulă de acceptare sau respingere a unei ipoteze, este necesar să se țină cont de faptul că Criteriul lui Pearson are o regiune critică pe partea dreaptă.

Regulă.
Dacă statistica obținută depășește cuantila legii de distribuție a unui anumit nivel de semnificație cu sau cu grade de libertate, unde k este numărul de observații sau numărul de intervale (pentru cazul unei serii de variații de interval), iar p este numărul de parametri estimați ai legii distribuției, atunci ipoteza este respinsă. În caz contrar, ipoteza este acceptată la nivelul de semnificație specificat.

Literatură

  • Kendall M., Stewart A. Inferențe statistice și conexiuni. - M.: Nauka, 1973.

Vezi de asemenea

  • Criteriul Pearson pe site-ul Universității de Stat din Novosibirsk
  • Teste chi-pătrat pe site-ul web al Universității Tehnice de Stat din Novosibirsk (Recomandări pentru standardizare R 50.1.033–2001)
  • Despre alegerea numărului de intervale pe site-ul web al Universității Tehnice de Stat din Novosibirsk
  • Despre criteriul Nikulin pe site-ul Universității Tehnice de Stat Novosibirsk

Fundația Wikimedia.

2010.

    Vedeți care este „criteriul Pearson” în alte dicționare:

    Sau testul de bunătate Kolmogorov Smirnov este un test statistic utilizat pentru a determina dacă două distribuții empirice respectă aceeași lege sau dacă distribuția rezultată se supune modelului presupus.... ... Wikipedia

    - (criteriul maxim) unul dintre criteriile de luare a deciziilor în condiţii de incertitudine. Criteriul pesimismului extrem. Istoric Criteriul Wald a fost propus de Abraham Wald în 1955 pentru mostre de dimensiuni egale și apoi extins la... Wikipedia

    Testul Wallis este conceput pentru a testa egalitatea medianelor mai multor probe. Acest criteriu este o generalizare multidimensională a testului Wilcoxon-Mann-Whitney. Criteriul Kruskal Wallis este un criteriu de rang, deci este invariant în raport cu orice... ... Wikipedia

    - (testul F, testul φ*, testul diferenței cel mai puțin semnificative) test statistic a posteriori utilizat pentru a compara variațiile a două serie de variații, adică pentru a determina diferențe semnificative între mediile de grup în ... ... Wikipedia

    Testul Cochran este utilizat atunci când se compară trei sau mai multe eșantioane de aceeași dimensiune. Discrepanța dintre varianțe este considerată aleatorie la nivelul de semnificație selectat dacă: unde este cuantila variabilei aleatoare cu numărul de... ... Wikipedia

    Un test statistic numit după Hubert Lilliefors, profesor de statistică la Universitatea George Washington, care este o modificare a testului Kolmogorov-Smirnov. Folosit pentru a testa ipoteza nulă că eșantionul... ... Wikipedia

    Pentru a îmbunătăți acest articol, este de dorit?: Găsiți și aranjați sub formă de note de subsol linkuri către surse autorizate care confirmă ceea ce a fost scris. Adăugați ilustrații. T Creta ... Wikipedia

    În statistică, testul Kolmogorov de bunătate de potrivire (cunoscut și ca testul de bunătate de potrivire Kolmogorov-Smirnov) este utilizat pentru a determina dacă două distribuții empirice respectă aceeași lege sau pentru a determina dacă ... ... Wikipedia

    criteriul de independență- pentru tabelele de contingente, testeaza ipoteza ca variabilele rand si coloana sunt independente. Astfel de criterii includ testul chi-pătrat al independenței (Pearson) și testul exact al lui Fisher... Dicţionar de statistică sociologică

Cărți

  • Criterii de verificare a abaterii distribuţiei de la legea uniformă. Ghid de utilizare: monografie, Lemeshko B.Yu.. Cartea este destinată specialiștilor care, într-o măsură sau alta, se confruntă în activitățile lor cu probleme de analiză a datelor statistice cu prelucrarea rezultatelor experimentale, aplicarea...




eroare: Continut protejat!!