Pearsonův t test a další. Pearsonovo kritérium pro testování hypotézy o tvaru distribučního zákona náhodné veličiny

27.09.2019 | Internet

Statistický test

Pravidlo, podle kterého je hypotéza I 0 zamítnuta nebo přijata, se nazývá statistické kritérium. Název kritéria zpravidla obsahuje písmeno, které označuje speciálně sestavenou charakteristiku z odstavce 2 ověřovacího algoritmu statistická hypotéza(viz odstavec 4.1), vypočtené v kritériu. Za podmínek tohoto algoritmu by bylo voláno kritérium "PROTI-kritérium".

Při testování statistických hypotéz jsou možné dva typy chyb:

- Chyba typu I(můžete odmítnout hypotézu I 0, když je skutečně pravdivá);
- Chyba typu II(můžete přijmout hypotézu I 0, když ve skutečnosti není pravdivá).

Pravděpodobnost A vytvoření chyby typu I se nazývá hladina významnosti kritéria.

Pokud pro r označují pravděpodobnost, že uděláte chybu druhého typu, pak (l - p) - pravděpodobnost, že se nedopustí chyby typu II, která se nazývá síla kritéria.

Pearsonův x 2 test dobré shody

Existuje několik typů statistických hypotéz:

- o zákonu rozdělování;
- homogenita vzorků;
- číselné hodnoty distribučních parametrů atd.

Hypotézu o distribučním zákoně budeme uvažovat na příkladu Pearsonova x 2 testu dobré shody.

Kritérium dohody se nazývá statistické kritérium pro testování nulové hypotézy o předpokládaném zákonu neznámého rozdělení.

Pearsonův test dobré shody je založen na srovnání empirických (pozorovaných) a teoretických četností pozorování vypočítaných za předpokladu určitého distribučního zákona. Hypotéza č. 0 je zde formulována následovně: podle studované charakteristiky je populace normálně rozložena.

Algoritmus testování statistických hypotéz č. 0 pro kritérium x 1 Pearson:

1) předkládáme hypotézu I 0 - podle studované charakteristiky je obecná populace rozložena normálně;
2) vypočítat výběrový průměr a výběrovou směrodatnou odchylku Ó PROTI;

3) podle dostupného objemu vzorku n vypočítáme speciálně sestavenou charakteristiku,

kde: i, jsou empirické frekvence, - teoretické frekvence,

p - velikost vzorku,

h- velikost intervalu (rozdíl mezi dvěma sousedními možnostmi),

normalizované hodnoty sledované charakteristiky,

- funkce stolu. Také teoretické frekvence

lze vypočítat pomocí standardní funkce MS Excel NORMIDIST pomocí vzorce;

4) pomocí výběrového rozdělení určíme kritickou hodnotu speciálně sestavené charakteristiky xl P

5) když je hypotéza # 0 zamítnuta, když je hypotéza # 0 přijata.

Příklad. Podívejme se na znamení X- hodnota testovacích ukazatelů pro odsouzené v jedné z nápravných kolonií pro nějakou psychologickou charakteristiku, prezentovaná ve formě variační řady:

Na hladině významnosti 0,05 otestujte hypotézu normálního rozdělení populace.

1. Na základě empirického rozdělení lze vyslovit hypotézu H 0: podle studovaného kritéria „hodnota testovacího ukazatele pro danou psychologickou charakteristiku“ obecná populace

očekávaný je distribuován normálně. Alternativní hypotéza 1: podle studovaného kritéria „hodnota indikátoru testu pro danou psychologickou charakteristiku“ není běžná populace odsouzených rozložena.

2. Vypočítejme numerické charakteristiky vzorku:

Intervaly	x g y	X) sch

3. Vypočítejme speciálně sestavenou charakteristiku j 2 . Za tímto účelem najdeme v předposledním sloupci předchozí tabulky teoretické četnosti pomocí vzorce a v posledním sloupci

Vypočítejme charakteristiky % 2. Dostáváme x 2 = 0,185.

Pro názornost sestrojíme polygon empirického rozdělení a normálovou křivku na základě teoretických četností (obr. 6).

Rýže. 6.

4. Určete počet stupňů volnosti s: k = 5, t = 2, s = 5-2-1 = 2.

Podle tabulky nebo pomocí standardní funkce MS Excel „HI20BR“ pro počet stupňů volnosti 5 = 2 a hladinu významnosti a = 0,05 najdeme kritickou hodnotu kritéria xl P.=5,99. Pro hladinu významnosti A= 0,01 hodnota kritického kritéria X %. = 9,2.

5. Hodnota sledovaného kritéria X=0,185 méně než všechny nalezené hodnoty Hk R.-> proto je hypotéza I 0 přijata na obou hladinách významnosti. Rozdíl mezi empirickými a teoretickými četnostmi je nevýznamný. Údaje z pozorování jsou tedy v souladu s hypotézou o normální distribuci populace. Podle studovaného kritéria „hodnota indikátoru testování pro danou psychologickou charakteristiku“ je tedy běžná populace odsouzených rozložena normálně.

1. Koryachko A.V., Kulichenko A.G. Algebra pro pokročilé a matematické metody v psychologii: průvodce praktickými cvičeními pro studenty PF. Rjazaň, 1994.
2. Následov A.D. Matematické metody psychologický výzkum. Analýza a interpretace dat: Učebnice, příručka. Petrohrad, 2008.
3. Sidorenko E.V. Metody matematického zpracování v psychologii. Petrohrad, 2010.
4. Soshnikova L.A. a další Vícerozměrná statistická analýza v ekonomii: učebnice, příručka pro vysoké školy. M., 1999.
5. Suchodolskij E.V. Matematické metody v psychologii. Charkov, 2004.
6. Shmoilova R.A., Minashkin V.E., Sadovnikova N.A. Workshop z teorie statistiky: Učebnice, příručka. M., 2009.

Gmurman V.E. Teorie pravděpodobnosti a matematická statistika. str. 465.

Šířka intervalu bude:

Xmax je maximální hodnota seskupovací charakteristiky v agregaci.
Xmin je minimální hodnota seskupovací charakteristiky.
Definujme hranice skupiny.

Číslo skupiny	Dolní hranice	Horní hranice
1	43	45.83
2	45.83	48.66
3	48.66	51.49
4	51.49	54.32
5	54.32	57.15
6	57.15	60

Stejná hodnota atributu slouží jako horní a dolní hranice dvou sousedních (předchozí a následující) skupin.
Pro každou hodnotu řady počítáme, kolikrát spadá do určitého intervalu. Za tímto účelem seřadíme řady ve vzestupném pořadí.

43	43 - 45.83	1
48.5	45.83 - 48.66	1
49	48.66 - 51.49	1
49	48.66 - 51.49	2
49.5	48.66 - 51.49	3
50	48.66 - 51.49	4
50	48.66 - 51.49	5
50.5	48.66 - 51.49	6
51.5	51.49 - 54.32	1
51.5	51.49 - 54.32	2
52	51.49 - 54.32	3
52	51.49 - 54.32	4
52	51.49 - 54.32	5
52	51.49 - 54.32	6
52	51.49 - 54.32	7
52	51.49 - 54.32	8
52	51.49 - 54.32	9
52.5	51.49 - 54.32	10
52.5	51.49 - 54.32	11
53	51.49 - 54.32	12
53	51.49 - 54.32	13
53	51.49 - 54.32	14
53.5	51.49 - 54.32	15
54	51.49 - 54.32	16
54	51.49 - 54.32	17
54	51.49 - 54.32	18
54.5	54.32 - 57.15	1
54.5	54.32 - 57.15	2
55.5	54.32 - 57.15	3
57	54.32 - 57.15	4
57.5	57.15 - 59.98	1
57.5	57.15 - 59.98	2
58	57.15 - 59.98	3
58	57.15 - 59.98	4
58.5	57.15 - 59.98	5
60	57.15 - 59.98	6

Výsledky seskupení uvedeme ve formě tabulky:

Skupiny	Sbírka čís.	Frekvence f i
43 - 45.83	1	1
45.83 - 48.66	2	1
48.66 - 51.49	3,4,5,6,7,8	6
51.49 - 54.32	9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26	18
54.32 - 57.15	27,28,29,30	4
57.15 - 59.98	31,32,33,34,35,36	6

Tabulka pro výpočet ukazatelů.

Skupiny	x i	Množství, f i	x i * f i	Akumulovaná frekvence, S	\|x - x prům. \|*f	(x - x prům.) 2 *f	Frekvence, f i /n
43 - 45.83	44.42	1	44.42	1	8.88	78.91	0.0278
45.83 - 48.66	47.25	1	47.25	2	6.05	36.64	0.0278
48.66 - 51.49	50.08	6	300.45	8	19.34	62.33	0.17
51.49 - 54.32	52.91	18	952.29	26	7.07	2.78	0.5
54.32 - 57.15	55.74	4	222.94	30	9.75	23.75	0.11
57.15 - 59.98	58.57	6	351.39	36	31.6	166.44	0.17
		36	1918.73		82.7	370.86	1

Pro vyhodnocení distribuční řady najdeme následující ukazatele:
Indikátory distribučního centra.
Vážený průměr

Móda
Režim je nejběžnější hodnota charakteristiky mezi jednotkami dané populace.

kde x 0 je začátek modálního intervalu; h – intervalová hodnota; f 2 – frekvence odpovídající modálnímu intervalu; f 1 – premodální frekvence; f 3 – postmodální frekvence.
Jako začátek intervalu zvolíme 51,49, protože tento interval představuje největší číslo.

Nejběžnější hodnota řady je 52,8
Medián
Medián rozděluje vzorek na dvě části: polovina je menší než medián, polovina je více.
V intervalové řady distribuce, můžete rovnou určit pouze interval, ve kterém se bude režim nebo medián nacházet. Medián odpovídá opci uprostřed hodnocené série. Medián je interval 51,49 - 54,32, protože v tomto intervalu je akumulovaná frekvence S větší než střední číslo (medián je první interval, jehož akumulovaná frekvence S přesahuje polovinu celkového součtu frekvencí).

Tedy 50 % jednotek v populaci bude mít menší velikost než 53,06
Variační indikátory.
Absolutní variace.
Rozsah variace je rozdíl mezi maximální a minimální hodnotou charakteristiky primární řady.
R = X max - X min
R = 60-43 = 17
Průměrná lineární odchylka- vypočítané tak, aby byly zohledněny rozdíly všech jednotek zkoumané populace.

Každá hodnota řady se od druhé neliší o více než 2,3
Disperze- charakterizuje míru rozptylu kolem své průměrné hodnoty (míra rozptylu, tj. odchylka od průměru).

Nestranný odhad rozptylu- konzistentní odhad rozptylu.

Směrodatná odchylka.

Každá hodnota řady se liší od průměrné hodnoty 53,3 nejvýše o 3,21
Odhad směrodatné odchylky.

Míry relativní variace.
Mezi relativní ukazatele variace patří: koeficient oscilace, lineární koeficient variace, relativní lineární odchylka.
Variační koeficient- míra relativního rozptylu populačních hodnot: ukazuje, jaký podíl průměrné hodnoty této hodnoty tvoří její průměrný rozptyl.

Protože v ≤ 30 %, populace je homogenní a variace je slabá. Získaným výsledkům lze věřit.
Lineární variační koeficient nebo Relativní lineární odchylka- charakterizuje podíl průměrné hodnoty znaménka absolutních odchylek od průměrné hodnoty.

Testování hypotéz o typu distribuce.
1. Ověřte hypotézu, že X je distribuováno přes normální zákon pomocí Pearsonova testu dobré shody.

kde p i je pravděpodobnost zásahu i-tý interval náhodná veličina, distribuované podle hypotetického zákona
Pro výpočet pravděpodobností p i použijeme vzorec a tabulku Laplaceovy funkce

Kde
s = 3,21, xav = 53,3
Teoretická (očekávaná) frekvence je n i = np i , kde n = 36

Intervaly seskupování	Pozorovaná frekvence n i	x 1 = (x i - x prům.)/s	x 2 = (x i+1 - x av)/s	F(x 1)	F(x 2)	Pravděpodobnost vstupu do i-tého intervalu, p i = Ф(x 2) - Ф(x 1)	Očekávaná frekvence, 36p i	Pearsonovy statistické termíny, K i
43 - 45.83	1	-3.16	-2.29	-0.5	-0.49	0.01	0.36	1.14
45.83 - 48.66	1	-2.29	-1.42	-0.49	-0.42	0.0657	2.37	0.79
48.66 - 51.49	6	-1.42	-0.56	-0.42	-0.21	0.21	7.61	0.34
51.49 - 54.32	18	-0.56	0.31	-0.21	0.13	0.34	12.16	2.8
54.32 - 57.15	4	0.31	1.18	0.13	0.38	0.26	9.27	3
57.15 - 59.98	6	1.18	2.06	0.38	0.48	0.0973	3.5	1.78
	36							9.84

Stanovme hranici kritické oblasti. Protože Pearsonova statistika měří rozdíl mezi empirickým a teoretickým rozdělením, čím větší je její pozorovaná hodnota K obs, tím silnější je argument proti hlavní hypotéze.
Proto je kritická oblast pro tuto statistiku vždy pravá:

Empirické frekvence

Pravděpodobnosti
pí

Teoretické frekvence
npi

(ni-npi)2

Pearsonův test

Pearsonův test nebo χ 2 test- nejčastěji používané kritérium pro testování hypotézy o distribučním zákoně. V mnoha praktických problémech je přesný zákon rozdělení neznámý, to znamená, že jde o hypotézu, která vyžaduje statistické ověření.

Označme X zkoumanou náhodnou veličinu. Předpokládejme, že chceme otestovat hypotézu H 0, že tato náhodná veličina vyhovuje distribučnímu zákonu F(x). Pro ověření hypotézy vytvoříme vzorek skládající se z n nezávislých pozorování náhodné veličiny X. Pomocí vzorku můžeme sestrojit empirické rozdělení F * (x) zkoumané náhodné proměnné. Srovnání empirických F * (x) a teoretická rozdělení se provádějí pomocí speciálně vybrané náhodné veličiny – kritéria dobré shody. Jedním z těchto kritérií je Pearsonovo kritérium.

Statistika kritérií

Pro kontrolu kritéria se zadávají statistiky:

Kde - odhadovaná pravděpodobnost zásahu i-interval, - odpovídající empirická hodnota, n i- počet prvků vzorku z i-tý interval.

Tato veličina je zase náhodná (kvůli náhodnosti X) a musí se řídit rozdělením χ 2.

Pravidlo kritéria

Před formulováním pravidla pro přijetí nebo zamítnutí hypotézy je nutné vzít v úvahu to Pearsonovo kritérium má pravostrannou kritickou oblast.

Pravidlo.
Pokud získaná statistika překročí kvantil distribučního zákona dané hladiny významnosti se stupni volnosti nebo se stupni volnosti, kde k je počet pozorování nebo počet intervalů (pro případ intervalové variační řady) a p je počet odhadovaných parametrů distribučního zákona, pak je hypotéza zamítnuta. Jinak je hypotéza přijata na zadané hladině významnosti.

Literatura

Kendall M., Stewart A. Statistické závěry a souvislosti. - M.: Nauka, 1973.

Viz také

Pearsonovo kritérium na webových stránkách Novosibirské státní univerzity
Chí-kvadrát testy na stránkách Novosibirské státní technické univerzity (Doporučení pro standardizaci R 50.1.033–2001)
O výběru počtu intervalů na webu Novosibirské státní technické univerzity
O kritériu Nikulin na webových stránkách Státní technické univerzity v Novosibirsku

Nadace Wikimedia.

2010.

Podívejte se, co je „Pearsonovo kritérium“ v jiných slovnících:

Nebo Kolmogorov Smirnov test dobré shody je statistický test používaný k určení, zda se dvě empirická rozdělení řídí stejným zákonem, nebo zda výsledné rozdělení vyhovuje předpokládanému modelu.... ... Wikipedia

- (maximální kritérium) jedno z kritérií pro rozhodování za podmínek nejistoty. Kritérium extrémního pesimismu. Historie Waldovo kritérium navrhl Abraham Wald v roce 1955 pro vzorky stejné velikosti a poté jej rozšířil na ... Wikipedia

Wallisův test je určen k testování rovnosti mediánů několika vzorků. Toto kritérium je vícerozměrným zobecněním Wilcoxon-Mann-Whitneyho testu. Kritérium Kruskal Wallis je kritériem pořadí, takže je invariantní s ohledem na jakékoli... ... Wikipedia

- (F test, φ* test, test nejmenších významných rozdílů) a posteriori statistický test používaný k porovnání rozptylů dvou variační série, tedy určit významné rozdíly mezi skupinovými prostředky v ... ... Wikipedii

Cochranův test se používá při porovnávání tří nebo více vzorků stejné velikosti. Nesoulad mezi rozptyly se na zvolené hladině významnosti považuje za náhodný, pokud: kde je kvantil náhodné veličiny s počtem sečtených... ... Wikipedie

Statistický test pojmenovaný po Hubertu Lillieforsovi, profesorovi statistiky na Univerzitě George Washingtona, který je modifikací Kolmogorova-Smirnovova testu. Používá se k testování nulové hypotézy, že vzorek... ... Wikipedie

Pro vylepšení tohoto článku je žádoucí?: Najděte a uspořádejte ve formě poznámek pod čarou odkazy na věrohodné zdroje potvrzující to, co bylo napsáno. Přidejte ilustrace. T Kréta ... Wikipedie

Ve statistice se Kolmogorovův test dobré shody (také známý jako Kolmogorov-Smirnovův test dobré shody) používá k určení, zda dvě empirická rozdělení dodržují stejný zákon, nebo k určení, zda ... ... Wikipedia

kritérium nezávislosti- u kontingenčních tabulek testuje hypotézu, že řádkové a sloupcové proměnné jsou nezávislé. Mezi taková kritéria patří chí-kvadrát test nezávislosti (Pearson) a Fisherův přesný test... Slovník sociologické statistiky

knihy

Kritéria pro kontrolu odchylky rozdělení od jednotného zákona. Návod k použití: monografie, Lemeshko B.Yu.. Kniha je určena odborníkům, kteří se v té či oné míře při své činnosti potýkají s problematikou statistické analýzy dat se zpracováním experimentálních výsledků, aplikací ...

Pearsonův t test a další. Pearsonovo kritérium pro testování hypotézy o tvaru distribučního zákona náhodné veličiny

Statistický test

Pearsonův x 2 test dobré shody

Statistika kritérií

Pravidlo kritéria

Literatura

Viz také

2010.

knihy

Nechám si 1 citron, je jich hodně, kniha snů

Amulety, talismany a jejich význam

Stručný přehled armád středověku

Jak vybrat nejlepší šampaňské (šumivé víno)

Kategorie