Válassza az Oldal lehetőséget

Hogyan számítsuk ki a tanulói együtthatót a táblázat segítségével. Student-féle t-próba eloszlás az átlagról szóló hipotézis tesztelésére és a konfidencia intervallum kiszámítására MS Excelben

Az egyik leghíresebb statisztikai eszköz a Student-féle t-próba. Mérésre szolgál statisztikai jelentőség különböző páros mennyiségek. Microsoft Excel speciális funkcióval rendelkezik ennek a mutatónak a kiszámításához. Tanuljuk meg a Student-féle t-próba kiszámítását Excelben.

De először nézzük meg, mi a Student-féle t-próba általában. Ez a mutató két minta átlagértékeinek egyenlőségének ellenőrzésére szolgál. Vagyis két adatcsoport közötti különbségek jelentőségét határozza meg. Ugyanakkor ennek a kritériumnak a meghatározására módszerek egész sorát alkalmazzák. A mutató kiszámítható egy- vagy kétoldali eloszlás figyelembevételével.

Indikátor kiszámítása Excelben

Most térjünk át közvetlenül arra a kérdésre, hogy hogyan kell kiszámítani ezt a mutatót az Excelben. Ezt a függvényen keresztül lehet megtenni DIÁK TESZT. 2007-ben és az Excel korábbi verzióiban az ún TTEST. A későbbi verziókban azonban meghagyták kompatibilitási okokból, de azokban továbbra is ajánlott egy modernebbet használni - DIÁK TESZT. Ez a funkció háromféleképpen használható, amelyeket az alábbiakban részletesen tárgyalunk.

1. módszer: Funkcióvarázsló

A mutató kiszámításának legegyszerűbb módja a Funkcióvarázsló.


A számítás végrehajtásra kerül, és az eredmény megjelenik a képernyőn egy előre kiválasztott cellában.

2. módszer: A Képletek lap használata

Funkció DIÁK TESZT fülre lépve is hívható "képletek" a szalagon található speciális gomb segítségével.


3. módszer: Kézi bevitel

Képlet DIÁK TESZT Kézzel is beírhatja a munkalap bármely cellájába vagy a függvénysorba. A szintaktikai formája így néz ki:

STUDENT.TESZT(tömb1,tömb2,farok,típus)

Az első módszer elemzésekor figyelembe vettük, hogy az egyes érvek mit jelentenek. Ezeket az értékeket be kell cserélni ebbe a függvénybe.

Az adatok megadása után nyomja meg a gombot Belép hogy az eredmény megjelenjen a képernyőn.

Amint látja, a Hallgató tesztjének kiszámítása Excelben nagyon egyszerű és gyors. A lényeg az, hogy a számításokat végző felhasználónak meg kell értenie, mi ő, és milyen bemeneti adatok miért felelősek. A program maga végzi el a közvetlen számítást.

A Student-féle t-teszt a módszerek egy osztályának általános neve statisztikai tesztelés hipotézisek (statisztikai tesztek) a Student-eloszlás alapján. A t-próba leggyakoribb felhasználási módjai közé tartozik az átlagok egyenlőségének tesztelése két mintában.

1. A t-próba kialakulásának története

Ezt a kritériumot dolgozták ki William Gossett hogy felmérje a sör minőségét a Guinness cégnél. A céggel szembeni, az üzleti titkok felfedésére vonatkozó kötelezettségek miatt Gosset cikke 1908-ban jelent meg a Biometrics folyóiratban „Student” álnéven.

2. Mire használható a Student-féle t-próba?

A Student-féle t-próbát az átlagok közötti különbségek statisztikai szignifikanciájának meghatározására használják. Független minták összehasonlítása esetén is használható ( például betegcsoportok diabetes mellitusés egészséges csoportok), és a kapcsolódó populációk összehasonlításakor ( például ugyanazon betegek átlagos pulzusszáma egy antiaritmiás gyógyszer bevétele előtt és után).

3. Milyen esetekben használható a Student-féle t-próba?

A Student t-próba alkalmazásához szükséges, hogy az eredeti adatok rendelkezzenek normális eloszlás . Független minták kétmintás kritériumának alkalmazása esetén is szükséges a feltétel teljesítése varianciaegyenlőség (homoscedaszticitás)..

Ha ezek a feltételek nem teljesülnek, hasonló módszereket kell alkalmazni a mintaátlagok összehasonlításakor. nem paraméteres statisztika, amelyek közül a leghíresebbek Mann-Whitney U teszt(kétmintás tesztként független mintákhoz), és előjel kritériumÉs Wilcoxon teszt(függő minták esetén használatos).

4. Hogyan számítsuk ki a Student-féle t-próbát?

Az átlagértékek összehasonlításához a Student-féle t-próbát a következő képlet segítségével számítjuk ki:

Ahol M 1- az első összehasonlított sokaság (csoport) számtani átlaga, M 2- a második összehasonlított sokaság (csoport) számtani átlaga, m 1 - átlagos hiba első számtani átlag, m 2- a második számtani átlag átlagos hibája.

5. Hogyan értelmezzük a Student-féle t-próba értékét?

Az így kapott Student-féle t-próbaértéket helyesen kell értelmezni. Ehhez tudnunk kell az egyes csoportok tantárgyainak számát (n 1 és n 2). A szabadságfokok számának meghatározása f a következő képlet szerint:

f = (n 1 + n 2) - 2

Ezután meghatározzuk a Student-féle t-próba kritikus értékét a szükséges szignifikanciaszintre (például p = 0,05) és adott számú szabadsági fokra. f táblázat szerint ( lásd alább).

Összehasonlítjuk a kritérium kritikus és számított értékeit:

  • Ha a Student-féle t-próba számított értéke egyenlő vagy nagyobb kritikus, a táblázatból megállapítottuk, hogy az összehasonlított értékek közötti különbségek statisztikailag szignifikánsak.
  • Ha a számított Student-féle t-próba értéke Kevésbé táblázatos, ami azt jelenti, hogy az összehasonlított értékek közötti különbségek statisztikailag nem szignifikánsak.

6. Példa a Student-féle t-próba kiszámítására

Egy új vaskészítmény hatékonyságának vizsgálatára két vérszegény betegcsoportot választottak ki. Az első csoportban a betegek két hétig új gyógyszert, a második csoportban placebót kaptak. Ezt követően a perifériás vér hemoglobinszintjét mértük. Az első csoportban az átlagos hemoglobinszint 115,4±1,2 g/l volt, a második csoportban pedig - 103,7±2,3 g/l (az adatok a formátumban vannak feltüntetve M±m), az összehasonlított populációk normális eloszlásúak. Az első csoport száma 34, a második 40 beteg volt. Következtetést kell levonni a kapott különbségek statisztikai szignifikanciájáról és az új vaskészítmény hatékonyságáról.

Megoldás: A különbségek szignifikanciájának felmérésére Student-féle t-próbát használunk, amelyet az átlagértékek különbségének és a hibák négyzetének összegével számolunk ki:

A számítások elvégzése után a t-próba értéke 4,51 lett. A szabadságfokok számát a következőképpen kapjuk: (34 + 40) - 2 = 72. A kapott Student-féle t-próba 4,51-es értékét összehasonlítjuk a táblázatban feltüntetett p = 0,05-nél lévő kritikus értékkel: 1,993. Mivel a kritérium számított értéke nagyobb, mint a kritikus érték, arra a következtetésre jutottunk, hogy a megfigyelt különbségek statisztikailag szignifikánsak (p szignifikancia szint<0,05).

Milyen esetekben használható a Student-féle t-próba?

A Student t-próba alkalmazásához szükséges, hogy az eredeti adatok rendelkezzenek normális eloszlás. Független minták kétmintás kritériumának alkalmazása esetén is szükséges a feltétel teljesítése varianciaegyenlőség (homoscedaszticitás)..

Ha ezek a feltételek nem teljesülnek, hasonló módszereket kell alkalmazni a mintaátlagok összehasonlításakor. nem paraméteres statisztika, amelyek közül a leghíresebbek Mann-Whitney U teszt(kétmintás tesztként független mintákhoz), és előjel kritériumÉs Wilcoxon teszt(függő minták esetén használatos).

Az átlagértékek összehasonlításához a Student-féle t-próbát a következő képlet segítségével számítjuk ki:

Ahol M 1- az első összehasonlított sokaság (csoport) számtani átlaga, M 2- a második összehasonlított sokaság (csoport) számtani átlaga, m 1- az első számtani átlag átlagos hibája, m 2- a második számtani átlag átlagos hibája.

Hogyan értelmezzük a Student-féle t-próba értékét?

Az így kapott Student-féle t-próbaértéket helyesen kell értelmezni. Ehhez tudnunk kell az egyes csoportok tantárgyainak számát (n 1 és n 2). A szabadságfokok számának meghatározása f a következő képlet szerint:

f = (n 1 + n 2) - 2

Ezután meghatározzuk a Student-féle t-próba kritikus értékét a szükséges szignifikanciaszintre (például p = 0,05) és adott számú szabadsági fokra. f táblázat szerint ( lásd alább).

Összehasonlítjuk a kritérium kritikus és számított értékeit:

· Ha a Student-féle t-próba számított értéke egyenlő vagy nagyobb kritikus, a táblázatból megállapítottuk, hogy az összehasonlított értékek közötti különbségek statisztikailag szignifikánsak.

· Ha a számított Student-féle t-próba értéke Kevésbé táblázatos, ami azt jelenti, hogy az összehasonlított értékek közötti különbségek statisztikailag nem szignifikánsak.

Példa a Student-féle t-próba kiszámítására

Egy új vaskészítmény hatékonyságának vizsgálatára két vérszegény betegcsoportot választottak ki. Az első csoportban a betegek két hétig új gyógyszert, a második csoportban placebót kaptak. Ezt követően a perifériás vér hemoglobinszintjét mértük. Az első csoportban az átlagos hemoglobinszint 115,4±1,2 g/l volt, a második csoportban pedig - 103,7±2,3 g/l (az adatok a formátumban vannak feltüntetve M±m), az összehasonlított populációk normális eloszlásúak. Az első csoport száma 34, a második 40 beteg volt. Következtetést kell levonni a kapott különbségek statisztikai szignifikanciájáról és az új vaskészítmény hatékonyságáról.

Megoldás: A különbségek szignifikanciájának felmérésére Student-féle t-próbát használunk, amelyet az átlagértékek különbségének és a hibák négyzetének összegével számolunk ki:

A számítások elvégzése után a t-próba értéke 4,51 lett. A szabadságfokok számát a következőképpen kapjuk: (34 + 40) - 2 = 72. A kapott Student-féle t-próba 4,51-es értékét összehasonlítjuk a táblázatban feltüntetett p = 0,05-nél lévő kritikus értékkel: 1,993. Mivel a kritérium számított értéke nagyobb, mint a kritikus érték, arra a következtetésre jutottunk, hogy a megfigyelt különbségek statisztikailag szignifikánsak (p szignifikancia szint<0,05).

A Fisher-eloszlás egy valószínűségi változó eloszlása

hol vannak a valószínűségi változók X 1És X 2 függetlenek és khi-négyzet eloszlásúak a szabadságfok számával k 1És k 2 illetőleg. Ugyanakkor a pár (k 1, k 2)– a Fisher-eloszlás „szabadságfokának” párja, nevezetesen, k 1 a számláló szabadságfokainak száma, és k 2– a nevező szabadságfokainak száma. Valószínűségi változó eloszlása F R. Fisher (1890-1962) nagy angol statisztikusról nevezték el, aki aktívan használta munkáiban.

A Fisher-eloszlást a modell regresszióanalízisben, a varianciaegyenlőségben és az alkalmazott statisztika egyéb problémáiban való megfelelőségére vonatkozó hipotézisek tesztelésére használják.

A tanuló kritikus értékeinek táblázata.

Az űrlap kezdete

A szabadságfokok száma, f Student-féle t-próba értéke p=0,05-nél
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

A módszer lehetővé teszi annak a hipotézisnek a tesztelését, hogy két általános populáció átlagértékei, amelyekből az összehasonlítottakat kivonják. függő a minták különböznek egymástól. A függőség feltételezése legtöbbször azt jelenti, hogy ugyanazon a mintán kétszer, például a beavatkozás előtt és utána is megmérjük a tulajdonságot. Általános esetben egy minta minden képviselőjéhez hozzárendelnek egy másik mintából származó képviselőt (párokba egyesítik), így a két adatsor pozitívan korrelál egymással. A mintafüggőség gyengébb típusai: 1. minta - férjek, 2. minta - feleségeik; 1. minta - egyéves gyerekek, a 2. mintát az 1. mintában szereplő gyermekek ikrei alkotják stb.

Tesztelhető statisztikai hipotézis, mint az előző esetben, H 0: M 1 = M 2(az 1. és 2. mintában az átlagértékek egyenlőek, ha elvetjük, akkor elfogadjuk azt az alternatív hipotézist, hogy M 1 többé kevésbé) M 2.

Kezdeti feltételezések statisztikai teszteléshez:

□ egy minta (egy általános sokaságból) minden képviselője egy másik (egy másik általános sokaságból származó) minta képviselőjéhez kapcsolódik;

□ két minta adatai pozitívan korrelálnak (párokat alkotnak);

□ a vizsgált jellemző eloszlása ​​mindkét mintában megfelel a normáltörvénynek.

Forrás adatszerkezet: a vizsgált jellemzőnek két értéke van minden objektumhoz (minden párhoz).

Korlátozások: a jellemző eloszlása ​​mindkét mintában nem térhet el jelentősen a normáltól; mindkét mintának megfelelő két mérés adatai pozitívan korrelálnak.

Alternatívák: Wilcoxon T teszt, ha legalább egy minta eloszlása ​​jelentősen eltér a normáltól; t-Student teszt független mintákra - ha a két minta adatai nem korrelálnak pozitívan.

Képlet mert a Student-féle t-próba tapasztalati értéke azt a tényt tükrözi, hogy a különbségek elemzési egysége különbség (eltolódás) jellemző értékeket minden egyes megfigyeléspárhoz. Ennek megfelelően az N attribútumérték-pár mindegyikéhez először a különbséget kell kiszámítani d i = x 1 i - x 2 i.

(3) ahol M d – az értékek átlagos eltérése; σ d – eltérések szórása.

Számítási példa:

Tegyük fel, hogy a tréning hatékonyságának tesztelése során mind a 8 csoporttagnak feltették a kérdést: „Milyen gyakran esik egybe az Ön véleménye a csoport véleményével?” - kétszer, edzés előtt és után. A válaszokhoz 10 pontos skálát használtunk: 1 - soha, 5 - félig, 10 - mindig. Azt a hipotézist teszteltük, hogy a tréning hatására a résztvevők konformitási önértékelése (a csoport többi tagjának lenni vágya) nő (α = 0,05). Készítsünk táblázatot a közbenső számításokhoz (3. táblázat).

3. táblázat

A különbség számtani átlaga M d = (-6)/8= -0,75. Vonja le ezt az értéket minden d-ből (a táblázat utolsó előtti oszlopa).

A szórás képlete csak annyiban tér el, hogy X helyett d szerepel benne. Az összes szükséges értéket behelyettesítjük, és azt kapjuk

σ d = = 0,886.

1. lépés Számítsa ki a kritérium tapasztalati értékét a (3) képlet segítségével: átlagos különbség Md= -0,75; szórás σ d = 0,886; t e = 2,39; df = 7.

2. lépés: A t-Student kritérium kritikus értékeinek táblázata segítségével meghatározzuk a szignifikancia p-szintjét. df = 7 esetén a tapasztalati érték a p = 0,05 és a p - 0,01 kritikus értékei között van. Ezért p< 0,05.

df R
0,05 0,01 0,001
2,365 3,499 5,408

3. lépés Statisztikai döntést hozunk és következtetést fogalmazunk meg. Az átlagegyenlőség statisztikai hipotézise elvetendő. Következtetés: statisztikailag szignifikánsan nőtt a tréning után a résztvevők megfelelőségi önértékelésének mutatója (szignifikancia szinten p< 0,05).

A paraméteres módszerek közé tartozik két minta szórásának összehasonlítása a kritérium szerint F-Fisher. Ez a módszer néha értékes és értelmes következtetésekhez vezet, és független minták átlagainak összehasonlítása esetén a szórások összehasonlítása kötelező eljárást.

Számolni F em meg kell találni a két minta szórásának arányát, és úgy, hogy a nagyobb szórás a számlálóban, a kisebb pedig a nevezőben legyen.

Az eltérések összehasonlítása. A módszer lehetővé teszi annak a hipotézisnek a tesztelését, hogy annak a két populációnak a szórása, amelyből az összehasonlított mintákat vettük, különbözik egymástól. Ellenőrzött statisztikai hipotézis H 0: σ 1 2 = σ 2 2 (az 1. minta varianciája megegyezik a 2. minta varianciájával). Ha elutasítjuk, elfogadjuk azt az alternatív hipotézist, hogy az egyik szórás nagyobb, mint a másik.

Kezdeti feltételezések: véletlenszerűen két mintát vesznek különböző populációkból, a vizsgált jellemző normális eloszlásával.

Forrás adatszerkezet: a vizsgált jellemzőt olyan tárgyakban (alanyokban) mérik, amelyek mindegyike a két összehasonlított minta valamelyikéhez tartozik.

Korlátozások: a tulajdonság eloszlása ​​mindkét mintában nem tér el szignifikánsan a normáltól.

Alternatív módszer: Levene teszt, melynek használata nem igényli a normalitás feltevésének ellenőrzését (az SPSS programban használatos).

Képlet a Fisher-féle F-teszt tapasztalati értékéhez:

(4)

ahol σ 1 2 - nagy diszperzió, és σ 2 2 - kisebb diszperzió. Mivel előre nem ismert, hogy melyik szórás a nagyobb, ezért a p-szint meghatározásához ezt használjuk A nem irányított alternatívák kritikus értékeinek táblázata. Ha F e > F Kp a megfelelő számú szabadságfokra, akkor R < 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Számítási példa:

A gyerekek szabályos számtani feladatokat kaptak, majd a tanulók egy véletlenszerűen kiválasztott felének közölték, hogy nem sikerült a teszten, a többieknek pedig az ellenkezőjét. Ezután minden gyereket megkérdeztek, hány másodpercbe telik egy hasonló probléma megoldása. A kísérletvezető kiszámította a különbséget a gyermek által hívott idő és az elvégzett feladat eredménye között (másodpercben). Várható volt, hogy a kudarc üzenete némi elégtelenséget okoz a gyermek önértékelésében. A tesztelés alatt álló hipotézis (α = 0,005 szinten) az volt, hogy az aggregált önértékelés szórása nem függ a sikerről vagy kudarcról szóló beszámolóktól (H 0: σ 1 2 = σ 2 2).

A következő adatokat kaptuk:


1. lépés Számítsa ki a kritérium tapasztalati értékét és a szabadságfokok számát a (4) képletekkel:

2. lépés. A Fisher f-kritérium kritikus értékeinek táblázata szerint irányítatlan alternatívák, amelyeknél megtaláljuk a kritikus értéket df szám = 11; df tudom= 11. Kritikus érték azonban csak a df szám= 10 és df know = 12. Nem lehet nagyobb számú szabadsági fokot felvenni, ezért a kritikus értéket vesszük df szám= 10: Mert R = 0,05 F Kp = 3,526; Mert R = 0,01 F Kp = 5,418.

3. lépés Statisztikai döntés meghozatala és értelmes következtetés. Mivel a tapasztalati érték meghaladja a kritikus értéket R= 0,01 (és még inkább a p = 0,05), akkor ebben az esetben p< 0,01 и принимается альтернативная гипо­теза: дисперсия в группе 1 превышает дисперсию в группе 2 (R< 0,01). Következésképpen a kudarcról szóló üzenet után az önbecsülés elégtelensége magasabb, mint a sikerről szóló üzenet után.

/ gyakorlati statisztika / referencia anyagok / hallgatói t-teszt értékei

Jelentéset - Diák t-próba 0,10, 0,05 és 0,01 szignifikanciaszinteken

ν – a variációs szabadság fokai

Standard Student-féle t-próbaértékek

A szabadságfokok száma

Jelentősségi szintek

A szabadságfokok száma

Jelentősségi szintek

asztal XI

Standard Fisher-teszt értékek, amelyek a két minta közötti különbségek szignifikanciájának felmérésére szolgálnak

A szabadság fokai

Jelentősségi szint

A szabadság fokai

Jelentősségi szint

Student-féle t-próba

Student-féle t-próba- a Student-eloszláson alapuló hipotézisek statisztikai tesztelésére szolgáló módszerek (statisztikai tesztek) általános elnevezése. A t-próba leggyakoribb felhasználási módjai közé tartozik az átlagok egyenlőségének tesztelése két mintában.

t A statisztikát általában a következő általános elv szerint állítják össze: a számláló egy valószínűségi változó nulla matematikai várakozással (ha a nullhipotézis teljesül), a nevező pedig ennek a valószínűségi változónak a minta szórása, amelyet négyzetgyökként kapunk. a keveretlen varianciabecslés.

Sztori

Ezt a kritériumot William Gosset dolgozta ki a Guinness sör minőségének értékelésére. A céggel szembeni, az üzleti titkok felfedésének tilalmával kapcsolatos kötelezettségekkel kapcsolatban (a Guinness vezetése a statisztikai apparátus alkalmazását ilyennek tekintette) Gosset cikke 1908-ban jelent meg a Biometrics folyóiratban „Student” álnéven.

Adatkövetelmények

Ennek a kritériumnak az alkalmazásához szükséges, hogy az eredeti adatok normális eloszlásúak legyenek. Független minták kétmintás vizsgálatának alkalmazása esetén is be kell tartani a varianciaegyenlőség feltételét. Vannak azonban alternatívák a Student-féle t-próbára az egyenlőtlen szórású helyzetekre.

Az adatok normál eloszlásának követelménye szükséges a pontos t (\displaystyle t) -teszthez. Azonban még más adateloszlásoknál is lehetséges a t (\displaystyle t) -statisztika használata. Ennek a statisztikának sok esetben aszimptotikusan szabványos normális eloszlása ​​van - N (0, 1) (\displaystyle N(0,1)) , így ennek az eloszlásnak a kvantilisei használhatók. Azonban még ebben az esetben is gyakran nem a standard normális eloszlásból, hanem a megfelelő Student-eloszlásból használunk kvantiliseket, mint a pontos t (\displaystyle t) tesztben. Aszimptotikusan egyenértékűek, de kis mintákban a Student-eloszlás konfidencia intervallumai szélesebbek és megbízhatóbbak.

Egymintás t-próba

A H 0 nullhipotézis tesztelésére szolgál: E (X) = m (\displaystyle H_(0):E(X)=m) az E (X) (\displaystyle E(X)) matematikai elvárás egyenlőségéről valamilyen ismert érték m ( \displaystyle m) .

Nyilvánvalóan, ha a nullhipotézis teljesül, E (X ¯) = m (\displaystyle E((\overline (X)))=m) . Figyelembe véve a megfigyelések feltételezett függetlenségét, V (X ¯) = σ 2 / n (\displaystyle V((\overline (X)))=\sigma ^(2)/n) . Torzítatlan varianciabecslés használatával s X 2 = ∑ t = 1 n (X t − X ¯) 2 / (n − 1) (\displaystyle s_(X)^(2)=\sum _(t=1)^( n )(X_(t)-(\overline (X)))^(2)/(n-1)) a következő t-statisztikát kapjuk:

t = X ¯ − m s X / n (\displaystyle t=(\frac ((\overline (X))-m)(s_(X)/(\sqrt (n)))))

A nullhipotézis szerint a statisztika eloszlása ​​t (n − 1) (\displaystyle t(n-1)) . Következésképpen, ha a statisztika abszolút értéke meghaladja egy adott eloszlás kritikus értékét (adott szignifikancia szinten), a nullhipotézist elvetjük.

Kétmintás t-próba független mintákhoz

Legyen két független n 1, n 2 térfogatú minta (\displaystyle n_(1)~,~n_(2)) az X 1, X 2 normális eloszlású valószínűségi változóknak (\displaystyle X_(1),~X_(2 )). A H 0 valószínűségi változókra vonatkozó matematikai elvárások egyenlőségének nullhipotézisének tesztelése szükséges (\displaystyle H_(0):~M_(1)=M_(2)) mintaadatok felhasználásával.

Tekintsük a mintaátlagok közötti különbséget: Δ = X ¯ 1 − X ¯ 2 (\displaystyle \Delta =(\overline (X))_(1)-(\overline (X))_(2)) . Nyilvánvalóan, ha a nullhipotézis igaz, akkor E (Δ) = M 1 − M 2 = 0 (\displaystyle E(\Delta)=M_(1)-M_(2)=0) . Ennek a különbségnek a szórása egyenlő, a minták függetlensége alapján: V (Δ) = σ 1 2 n 1 + σ 2 2 n 2 (\displaystyle V(\Delta)=(\frac (\sigma _(1) )^(2))( n_(1)))+(\frac (\sigma _(2)^(2))(n_(2)))) . Ezután az elfogulatlan varianciabecslést használva s 2 = ∑ t = 1 n (X t − X ¯) 2 n − 1 (\displaystyle s^(2)=(\frac (\sum _(t=1)^(n)) ( X_(t)-(\overline (X)))^(2))(n-1))) torzítatlan becslést kapunk a mintaátlagok közötti különbség szórására: s Δ 2 = s 1 2 n 1 + s 2 2 n 2 (\ displaystyle s_(\Delta )^(2)=(\frac (s_(1)^(2))(n_(1)))+(\frac (s_(2)^( 2))(n_(2) ))) . Ezért a nullhipotézis tesztelésének t-statisztikája az

T = X ¯ 1 − X ¯ 2 s 1 2 n 1 + s 2 2 n 2 (\displaystyle t=(\frac ((\overline (X))_(1)-(\overline (X))_( 2))(\sqrt ((\frac (s_(1)^(2))(n_(1)))+(\frac (s_(2)^(2))(n_(2)))) ))

Ha a nullhipotézis igaz, ennek a statisztikának t (d f) eloszlása ​​van (\displaystyle t(df)), ahol d f = (s 1 2 / n 1 + s 2 2 / n 2) 2 (s 1 2 / n 1) 2 / (n 1 - 1) + (s 2 2 / n 2) 2 / (n 2 - 1) (\displaystyle df=(\frac ((s_(1)^(2)/n_(1)) +s_(2)^(2)/n_(2)^(2))((s_(1)^(2)/n_(1))^(2)/(n_(1)-1)+ (s_(2)^(2)/n_(2))^(2)/(n_(2)-1))))

Egyenlő szórású eset

Ha a minták szórását egyenlőnek tételezzük fel, akkor

V (Δ) = σ 2 (1 n 1 + 1 n 2) (\displaystyle V(\Delta)=\sigma ^(2)\left((\frac (1)(n_(1)))+(\ frac (1)(n_(2)))\jobbra))

Ekkor a t-statisztika:

T = X ¯ 1 - X 2 s X 1 n 1 + 1 n 2, s X = (n 1 - 1) s 1 2 + (n 2 - 1) s 2 2 n 1 + n 2 - 2 (\ displaystyle t=(\frac ((\overline (X))_(1)-(\overline (X))_(2))(s_(X)(\sqrt ((\frac (1)(n_(1) )))+(\frac (1)(n_(2))))))~,~~s_(X)=(\sqrt (\frac ((n_(1)-1)s_(1)^ ( 2)+(n_(2)-1)s_(2)^(2))(n_(1)+n_(2)-2))))

Ennek a statisztikának t eloszlása ​​van (n 1 + n 2 − 2) (\displaystyle t(n_(1)+n_(2)-2))

Kétmintás t-próba függő mintákra

A t (\displaystyle t) -kritérium tapasztalati értékének kiszámításához két függő minta (például ugyanazon teszt két mintája egy időintervallum) közötti különbségekre vonatkozó hipotézis tesztelésekor a következő képletet használjuk:

T = M d s d / n (\displaystyle t=(\frac (M_(d))(s_(d)/(\sqrt (n)))))

ahol M d (\displaystyle M_(d)) az értékek átlagos különbsége, s d (\displaystyle s_(d)) a különbségek szórása, n pedig a megfigyelések száma

Ennek a statisztikának t (n − 1) eloszlása ​​van (\displaystyle t(n-1)) .

Lineáris kényszer tesztelése lineáris regressziós paramétereken

A t-próba tetszőleges (egyszeri) lineáris kényszert is tesztelhet a közönséges legkisebb négyzetekkel becsült lineáris regresszió paramétereire. Legyen szükséges a H 0 hipotézis tesztelése: c T b = a (\displaystyle H_(0):c^(T)b=a) . Nyilvánvalóan, ha a nullhipotézis teljesül, E (c T b ^ − a) = c T E (b ^) − a = 0 (\displaystyle E(c^(T)(\hat (b))-a)= c^( T)E((\hat (b)))-a=0) . Itt az E (b ^) = b (\displaystyle E((\hat (b)))=b) modellparaméterek elfogulatlan legkisebb négyzetek becslésének tulajdonságát használjuk. Ezenkívül V (c T b ^ − a) = c T V (b ^) c = σ 2 c T (X T X) − 1 c (\displaystyle V(c^(T)(\hat (b)))-a )=c^(T)V((\hat (b)))c=\sigma ^(2)c^(T)(X^(T)X)^(-1)c) . Az ismeretlen variancia helyett annak torzítatlan becslését használva s 2 = E S S / (n − k) (\displaystyle s^(2)=ESS/(n-k)) a következő t-statisztikát kapjuk:

T = c T b ^ − a s c T (X T X) − 1 c (\displaystyle t=(\frac (c^(T)(\hat (b)))-a)(s(\sqrt (c^(T)) (X^(T)X)^(-1)c))))

Ez a statisztika, ha a nullhipotézis teljesül, t (n − k) eloszlású (\displaystyle t(n-k)) , tehát ha a statisztikai érték magasabb, mint a kritikus érték, akkor a lineáris kényszer nullhipotézise elvetődik. .

Hipotézisek tesztelése a lineáris regressziós együtthatóról

A lineáris kényszer speciális esete annak a hipotézisnek a tesztelése, hogy a b j (\displaystyle b_(j)) regressziós együttható egy bizonyos a (\displaystyle a) értékkel egyenlő. Ebben az esetben a megfelelő t-statisztika:

T = b ^ j − a s b ^ j (\displaystyle t=(\frac ((\hat (b))_(j)-a)(s_((\hat (b))_(j)))))

ahol s b ^ j (\displaystyle s_((\hat (b))_(j))) az együtthatóbecslés standard hibája - az együtthatóbecslések kovarianciamátrixának megfelelő átlós elemének négyzetgyöke.

Ha a nullhipotézis igaz, a statisztika eloszlása ​​t (n − k) (\displaystyle t(n-k)) . Ha a statisztika abszolút értéke nagyobb, mint a kritikus érték, akkor az együttható és a (\displaystyle a) különbsége statisztikailag szignifikáns (nem véletlenszerű), egyébként nem szignifikáns (véletlen, azaz a valódi együttható valószínűleg egyenlő vagy nagyon közel van a becsült értékéhez (\ megjelenítési stílus a))

Megjegyzés

A matematikai elvárások egymintás tesztje lecsökkenthető a lineáris regresszió paramétereire vonatkozó lineáris kényszer tesztelésére. Egymintás tesztben ez egy konstans "regressziója". Ezért a regresszió s 2 (\displaystyle s^(2)) a vizsgált valószínűségi változó varianciájának mintabecslése, az X T X mátrix (\displaystyle X^(T)X) egyenlő n-nel (\displaystyle n ) , és a modell „együtthatójának” becslése megegyezik a minta átlagával. Innen kapjuk az általános esetre fent megadott t-statisztika kifejezést.

Hasonlóképpen kimutatható, hogy egy kétmintás teszt egyenlő mintavarianciákkal szintén lineáris kényszerek tesztelésére redukálódik. Egy kétmintás tesztben ez egy "regresszió" egy állandóra és egy álváltozóra, amely az almintát azonosítja az értéktől (0 vagy 1) függően: y = a + b D (\displaystyle y=a+bD) . A minták matematikai elvárásainak egyenlőségére vonatkozó hipotézis ennek a modellnek a b együtthatójának nullával való egyenlőségére vonatkozó hipotézisként fogalmazható meg. Kimutatható, hogy ennek a hipotézisnek a tesztelésére a megfelelő t-statisztika megegyezik a kétmintás tesztnél megadott t-statisztikával.

Le is redukálható a lineáris kényszer ellenőrzésére különböző diszperziók esetén. Ebben az esetben a modell hibavarianciája két értéket vesz fel. Ebből a kétmintás teszthez hasonló t-statisztikát is kaphatunk.

Nem paraméteres analógok

A független minták kétmintás tesztjének analógja a Mann-Whitney U teszt. A függő minták esetében az analógok az előjelteszt és a Wilcoxon T-teszt

Irodalom

Diák. Egy átlag valószínű hibája. // Biometrika. 1908. 6. szám (1). P. 1-25.

Linkek

Az eszközök homogenitására vonatkozó hipotézisek tesztelésének kritériumairól a Novoszibirszki Állami Műszaki Egyetem honlapján

A példában végig fiktív információkat fogunk használni, hogy az olvasó önállóan elvégezhesse a szükséges átalakításokat.

Tehát mondjuk a kutatás során megvizsgáltuk az A gyógyszer hatását a C szövet B anyagtartalmára (mmol/g-ban), illetve a betegek vérében a D anyag koncentrációjára (mmol/l). valamilyen E kritérium szerint 3 egyenlő térfogatú csoportra osztva (n = 10). Egy ilyen fiktív tanulmány eredményeit a táblázat mutatja:

B anyag tartalma, mmol/g

D anyag, mmol/l

koncentráció növekedése


Figyelmeztetjük, hogy a gyakorlatban az adatok bemutatásának és számításainak megkönnyítése érdekében 10-es méretű mintákat veszünk figyelembe, ilyen mintanagyság általában nem elegendő a statisztikai következtetés levonásához.

Példaként tekintsük a táblázat 1. oszlopában található adatokat.

Leíró statisztika

Mintaátlag

A számtani átlagot, amelyet gyakran egyszerűen "átlagnak" neveznek, úgy kapjuk meg, hogy összeadjuk az összes értéket, és elosztjuk az összeget a készletben lévő értékek számával. Ez egy algebrai képlet segítségével mutatható ki. Egy x változó n megfigyelésének halmaza ábrázolható x 1 , x 2 , x 3 , ..., x n

A megfigyelések számtani középértékének meghatározására szolgáló képlet (X vonallal ejtve):

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Minta szórása

Az adatok szórásának mérésének egyik módja annak meghatározása, hogy az egyes megfigyelések milyen mértékben térnek el a számtani átlagtól. Nyilvánvaló, hogy minél nagyobb az eltérés, annál nagyobb a megfigyelések változékonysága, változékonysága. Ezeknek az eltéréseknek az átlagát azonban nem tudjuk használni szóródás mértékeként, mert a pozitív eltérések kompenzálják a negatív eltéréseket (összegük nulla). A probléma megoldásához minden eltérést négyzetre emelünk, és megkeressük az eltérések négyzetes átlagát; ezt a mennyiséget variációnak vagy diszperziónak nevezzük. Vegyünk n megfigyelést x 1, x 2, x 3, ..., x n, átlag ami egyenlő azzal. Variancia számítása ezt általában úgy emlegetiks2,ezek a megfigyelések:

Ennek a mutatónak a mintavarianciája s 2 = 3,2.

Szórás

A standard (átlagos négyzet) eltérés a variancia pozitív négyzetgyöke. Példaként n megfigyelést használva így néz ki:

A szórást a megfigyelések egyfajta átlagos eltérésének tekinthetjük az átlagtól. Kiszámítása az eredeti adatokkal azonos mértékegységekben (dimenziókban) történik.

s = négyzetméter (s 2) = négyzetméter (3,2) = 1,79.

A variációs együttható

Ha a szórást elosztjuk a számtani átlaggal, és az eredményt százalékban fejezzük ki, akkor megkapjuk a variációs együtthatót.

CV = (1,79 / 13,1) * 100% = 13,7

Minta átlag hiba

1,79/sqrt(10) = 0,57;

Student-féle t-együttható (egymintás t-próba)

Az átlagos érték és valamilyen ismert m érték különbségére vonatkozó hipotézis tesztelésére szolgál

A szabadsági fokok számát a következőképpen számítjuk ki: f=n-1.

Ebben az esetben az átlag konfidenciaintervalluma a 11,87 és 14,39 közötti határok között van.

95%-os konfidenciaszint esetén m=11,87 vagy m=14,39, azaz = |13,1-11,82| = |13,1-14,38| = 1,28

Ennek megfelelően ebben az esetben a szabadsági fokok száma f = 10 - 1 = 9 és a 95%-os konfidenciaszint t = 2,26.

Dialógus alapstatisztikák és táblázatok

A modulban Alapstatisztika és táblázatok válasszunk Leíró statisztika.

Megnyílik egy párbeszédpanel Leíró statisztika.

A terepen Változók válasszunk 1. csoport.

Megnyomás rendben, eredménytáblázatokat kapunk a kiválasztott változók leíró statisztikai adataival.

Megnyílik egy párbeszédpanel Egymintás t-próba.

Tegyük fel, hogy tudjuk, hogy a B anyag átlagos tartalma a C szövetben 11.

Az eredmények táblázata leíró statisztikákkal és Student-féle t-próbával a következő:

El kellett vetnünk azt a hipotézist, hogy a C szövetben a B anyag átlagos tartalma 11.

Mivel a kritérium számított értéke nagyobb, mint a táblázatos érték (2,26), a kiválasztott szignifikancia szinten a nullhipotézist elvetjük, a minta és az ismert érték közötti különbségeket statisztikailag szignifikánsnak tekintjük. Így a Student-féle teszttel levont különbségek létezésére vonatkozó következtetést ezzel a módszerrel megerősítjük.



hiba: A tartalom védett!!