Wybierz stronę

Analiza wariancji jest przeprowadzana, jeśli. Zajęcia: Analiza wariancji

Analiza wariancji to metoda statystyczna przeznaczona do oceny wpływu różnych czynników na wynik eksperymentu, a także do późniejszego planowania podobnych eksperymentów.

Początkowo (1918) analiza wariancji został opracowany przez angielskiego matematyka - statystyka R.A. Fishera do przetwarzania wyników eksperymentów agronomicznych w celu określenia warunków uzyskania maksymalnego plonu różnych odmian upraw rolniczych.

Podczas konfigurowania eksperymentu muszą być spełnione następujące warunki:

    Każdy wariant eksperymentu musi być przeprowadzony na kilku jednostkach obserwacji ( grupy zwierząt, sekcje polowe itp.)

    Rozkład jednostek obserwacji pomiędzy wariantami eksperymentu powinien być przypadkowy, a nie celowy.

Analiza zastosowań wariancji F-kryterium(test R.A.Fisher'a), reprezentujący stosunek dwóch wariancji:

gdzie d jest faktem, d reszta to odpowiednio wariancje czynnikowe (międzygrupowe) i rezydualne (wewnątrzgrupowe) na stopień swobody.

Wariancje czynnikowe i resztowe są to oszacowania wariancji populacji, obliczone na podstawie danych próbki, z uwzględnieniem liczby stopni swobody zmienności.

Wariancja czynnikowa (międzygrupowa) wyjaśnia zmienność efektywnej cechy pod wpływem badanego czynnika.

Wariancja rezydualna (wewnątrzgrupowa) wyjaśnia zmienność efektywnej cechy pod wpływem innych czynników (z wyjątkiem wpływu badanego czynnika).

W sumie wariancja czynnikowa i resztowa dają wariancję całkowitą, która wyraża wpływ wszystkich cech czynnikowych na efektywną.

Analiza wariancji:

1. Dane eksperymentalne wpisuje się do tabeli obliczeniowej i wyznacza sumy i wartości średnie w każdej grupie badanej populacji, a także sumę i wartość średnią dla całej populacji (tab. 1).

Tabela 1

Wartość efektywnego wskaźnika dla i-tej jednostki

w j-tej grupie x ij

Liczba obserwacji, f j

Średnia (grupowa i ogólna), x j

x 11, x 12, ..., x 1 n

x 21, x 22, ..., x 2 n

x m 1, x m 2, ..., x mn

Całkowita liczba obserwacji n obliczana jako suma liczby obserwacji F J w każdej grupie:

Jeżeli we wszystkich grupach liczba elementów jest taka sama, to łączna średnia znajduje się ze średnich grupowych jako prosta średnia arytmetyczna:

Jeżeli liczba elementów w grupach jest różna, to łączna średnia obliczone według wzoru na arytmetyczną średnią ważoną:

2. Określana jest całkowita wariancja D całkowity jako suma kwadratów odchyleń poszczególnych wartości efektywnej cechy całkowitej średniej :

3. Oblicza się wariancję czynnikową (międzygrupową) D fakt jako suma kwadratów odchyleń średnich grupowych całkowitej średniej razy liczba obserwacji:

4. Określana jest wartość wariancji rezydualnej (wewnątrzgrupowej) D ost jako różnica między sumą D całkowity i silnia D fakt odchylenia:

5. Liczba stopni swobody silni
wariancja jako różnica między liczbą grup m i jednostka:

6. Określ liczbę stopni swobody dla dyspersji resztkowej
jako różnica między liczbą indywidualnych wartości charakterystycznych n i liczba grup m:

7. Oblicza się wartość wariancji czynnikowej na jeden stopień swobody D fakt jako stosunek wariancji czynnika D fakt do liczby stopni swobody wariancji czynnikowej
:

8. Wyznaczana jest wartość wariancji resztowej na jeden stopień swobody D ost jako stosunek wariancji resztowej D ost do liczby stopni swobody dyspersji resztkowej
:

9. Obliczona wartość kryterium F jest wyznaczana F-obliczenie jako stosunek wariancji czynnika na stopień swobody D fakt do wariancji rezydualnej na stopień swobody D ost :

10. Zgodnie z tabelą kryterium F-Fishera, biorąc pod uwagę przyjęty w badaniu poziom istotności, a także uwzględniając stopnie swobody dla wariancji czynnikowej i resztowej, znajdź wartość teoretyczną F patka .

Poziom istotności 5% odpowiada poziomowi prawdopodobieństwa 95%, a poziom istotności 1% odpowiada poziomowi prawdopodobieństwa 99%. W większości przypadków stosuje się 5% poziom istotności.

Wartość teoretyczna F patka przy danym poziomie istotności wyznaczana jest z tabel na przecięciu wiersza i kolumny, odpowiadających dwóm stopniom swobody wariancji:

według linii - resztkowe;

według kolumny - silnia.

11. Wyniki obliczeń przedstawiono w tabeli (tabela 2).

ANOVA - Jest to metoda statystyczna przeznaczona do oceny wpływu różnych czynników na wynik eksperymentu, a także do późniejszego planowania podobnego eksperymentu. Metoda ta pozwala na porównanie kilku (więcej niż dwóch) próbek zgodnie z cechą mierzoną w skali metrycznej. Powszechny skrót oznaczający analizę wariancji ANOVA (z angielskiego ANalysis Of VAriance).

Założycielem analizy wariancji jest wybitny angielski badacz Ronald Fisher, który położył podwaliny współczesnej statystyki.

Głównym celem tej metody jest zbadanie znaczenia różnicy między średnimi. Może wydawać się dziwne, że procedura porównywania średnich nazywa się analizą wariancji. W rzeczywistości wynika to z faktu, że podczas badania znaczenie statystyczne różnice między średnimi dwóch (lub więcej) grup, w rzeczywistości porównujemy (tj. analizujemy) wariancje próbki. Być może bardziej naturalnym terminem byłaby analiza sumy kwadratów lub analiza zmienności, ale tradycyjnie używa się terminu ANOVA.

Zmienne, których wartości są określane przez pomiary podczas eksperymentu (na przykład wynik uzyskany podczas testowania) nazywa się zależny zmienne. Zmienne, które można kontrolować w eksperymencie (na przykład metody nauczania lub inne kryteria, które pozwalają podzielić obserwacje na grupy lub klasyfikować) są nazywane czynniki lub niezależne zmienne.

W zależności od liczby czynników, których wpływ jest badany, można wyróżnić jednowymiarową i wielowymiarową analizę wariancji. Rozważymy jednowymiarową analizę wariancji.

Podstawowe założenia analizy wariancji:

  • 1) rozkład zmiennej zależnej dla każdej grupy czynnika odpowiada prawu normalnemu (naruszenie tego założenia, jak pokazują liczne badania, nie wpływa istotnie na wyniki analizy wariancji);
  • 2) wariancje próbek odpowiadające różnym gradacjom czynnika są sobie równe (założenie to jest istotne dla wyników analizy wariancji, jeżeli porównywane próbki różnią się wielkością);
  • 3) próbki odpowiadające gradacji czynnika muszą być niezależne (spełnienie tego założenia jest w każdym przypadku obowiązkowe). Próby, w których obiekty badania zostały zrekrutowane niezależnie od siebie, nazywamy niezależnymi, to znaczy prawdopodobieństwo wybrania dowolnego podmiotu z jednej próby nie zależy od doboru któregokolwiek z badanych z innej próby. Wręcz przeciwnie, próby zależne charakteryzują się tym, że każdemu osobnikowi z jednej próbki przypisuje się według określonego kryterium osobnika z innej próbki (typowym przykładem prób zależnych jest pomiar właściwości na tej samej próbce przed i po W tym przypadku próby są zależne, ponieważ składają się z tych samych podmiotów (inny przykład prób zależnych: mężowie - jedna próba, ich żony - inna próba).

Algorytm wykonywania analizy wariancji:

  • 1. Stawiamy hipotezę H 0- nie ma wpływu współczynnika grupowania na wynik.
  • 2. Znajdź wariancję międzygrupową (czynnikową) i wewnątrzgrupową (resztową) (th ftt oraz D ocm).
  • 3. Oblicz obserwowaną wartość kryterium Fishera - Snedecora:

4. Zgodnie z tabelą punktów krytycznych rozkładu Fishera – Snedekora lub za pomocą standardowej funkcji MS Excel „ERASPOBR” znajdujemy

gdzie: a- dany poziom istotności, do X oraz do 2- liczba stopni swobody odpowiednio wariancji czynnikowej i rezydualnej.

5. Jeśli F Ha6ji> F Kp, to hipoteza R 0 jest odrzucana. Oznacza to wpływ czynnika grupującego na wynik.

Gdyby F Ha6jlF Kp, to hipoteza nr 0 jest akceptowana. Oznacza to brak wpływu czynnika grupującego na wynik.

Zatem analiza wariancji ma na celu ustalenie, czy dany czynnik ma znaczący wpływ F, który ma r poziomy: F x, F 2 ,..., Fp przez badaną wartość.

  • Gmurman V.E. Teoria prawdopodobieństwa i statystyka matematyczna. s. 467.

W praktycznych działaniach lekarzy w prowadzeniu badań biomedycznych, socjologicznych i eksperymentalnych konieczne staje się ustalenie wpływu czynników na wyniki badania stanu zdrowia populacji, w ocenie aktywności zawodowej, skuteczności innowacji.

Istnieje szereg metod statystycznych pozwalających na określenie siły, kierunku, wzorców wpływu czynników na wynik w populacji ogólnej lub próbnej (obliczanie kryterium I, analiza korelacji, regresja, Χ 2 - (kryterium zgodności Pearsona i wsp.). Analiza wariancji została opracowana i zaproponowana przez angielskiego naukowca, matematyka i genetyka Ronalda Fishera w latach dwudziestych XX wieku.

Analiza wariancji jest coraz częściej wykorzystywana w badaniach naukowych i praktycznych dotyczących zdrowia publicznego i opieki zdrowotnej w celu zbadania wpływu jednego lub więcej czynników na efektywną cechę. Opiera się na zasadzie „odzwierciedlania różnorodności wartości czynnika(ów) na zróżnicowanie wartości efektywnego atrybutu” i ustala siłę oddziaływania czynnika(ów) na populacje próbne.

Istotą metody analizy wariancji jest pomiar poszczególnych wariancji (całkowitej, czynnikowej, resztkowej) oraz dalsze określenie siły (udziału) wpływu badanych czynników (ocena roli każdego z czynników lub ich łączna wpływ) na skuteczny znak (e) (e).

ANOVA to statystyczna metoda oceny relacji między wskaźnikami czynnikowymi i efektywnymi w różnych grupach, dobierana losowo, na podstawie określenia różnic (różnorodności) w wartościach cech. Analiza wariancji opiera się na analizie odchyleń wszystkich jednostek badanej populacji od średniej arytmetycznej. Jako miarę odchyleń przyjmuje się wariancję (B) - średni kwadrat odchyleń. Odchylenia spowodowane wpływem atrybutu (czynnika) czynnika są porównywane z wielkością odchyleń spowodowanych okolicznościami losowymi. Jeżeli odchylenia spowodowane przez cechę czynnika są bardziej znaczące niż odchylenia losowe, to uważa się, że czynnik ma istotny wpływ na efektywną cechę.

W celu obliczenia wariancji wartości odchyleń każdej opcji (każdej zarejestrowanej wartości liczbowej cechy) od średniej arytmetycznej są one podnoszone do kwadratu. W ten sposób pozbywają się negatywnych znaków. Następnie te odchylenia (różnice) sumuje się i dzieli przez liczbę obserwacji, tj. odchylenia są uśredniane. W ten sposób uzyskuje się wartości wariancji.

Ważną wartością metodologiczną dla wykorzystania analizy wariancji jest prawidłowe pobieranie próbek. W zależności od celu i zadań, grupy próbek mogą być losowo tworzone niezależnie od siebie (grupy kontrolne i eksperymentalne do badania określonego wskaźnika, na przykład wpływu wysokiego ciśnienia krwi na rozwój udaru). Takie próbki nazywane są niezależnymi.

Często wyniki ekspozycji na czynniki są badane w tej samej grupie próbek (na przykład u tych samych pacjentów) przed i po ekspozycji (leczenie, profilaktyka, środki rehabilitacyjne), takie próbki nazywane są zależnymi.

Analiza wariancji, w której sprawdzany jest wpływ jednego czynnika, nazywana jest jednowymiarową (analizą jednowymiarową). Podczas badania wpływu więcej niż jednego czynnika stosuje się wielowymiarową analizę wariancji (analizę wielowymiarową).

Znaki czynnikowe to te znaki, które wpływają na badane zjawisko.
Znaki efektywne to te znaki, które zmieniają się pod wpływem znaków czynnikowych.

Do analizy wariancji można wykorzystać zarówno cechy jakościowe (płeć, zawód), jak i ilościowe (liczba iniekcji, pacjenci na oddziale, liczba łóżeczek).

Analiza metod wariancji:

  1. metoda Fishera – kryterium F (wartości F patrz załącznik nr 1);
    Metodę stosuje się w jednowymiarowej analizie wariancji, gdy skumulowaną wariancję wszystkich obserwowanych wartości rozkłada się na wariancję w obrębie poszczególnych grup i wariancję między grupami.
  2. Ogólna metoda modelu liniowego.
    Opiera się na korelacji lub Analiza regresji wykorzystywane w analizie wielowymiarowej.

Zwykle w badaniach biomedycznych stosuje się tylko jednoczynnikowe, maksymalnie dwuczynnikowe kompleksy dyspersyjne. Kompleksy wieloczynnikowe można badać, analizując sekwencyjnie jedno- lub dwuczynnikowe kompleksy izolowane z całej obserwowanej populacji.

Warunki korzystania z analizy wariancji:

  1. Celem badania jest określenie siły wpływu jednego (do 3) czynników na wynik lub określenie siły wspólnego wpływu różnych czynników (płeć i wiek, aktywność fizyczna i odżywianie itp.).
  2. Badane czynniki powinny być między sobą niezależne (niezwiązane). Na przykład nie można badać łącznego wpływu doświadczenia zawodowego i wieku, wzrostu i wagi dzieci itp. na zachorowalność w populacji.
  3. Dobór grup do badania odbywa się losowo (wybór losowy). Organizacja kompleksu dyspersyjnego z zachowaniem zasady losowego wyboru opcji nazywana jest randomizacją (tłumaczenie z angielskiego - random), tj. wybrany losowo.
  4. Można stosować zarówno cechy ilościowe, jak i jakościowe (atrybucyjne).

Przy przeprowadzaniu jednowymiarowej analizy wariancji zaleca się ( warunek konieczny Aplikacje):

  1. Normalność rozkładu analizowanych grup lub zgodność grup próbek populacje z rozkładem normalnym.
  2. Niezależność (niezwiązek) rozkładu obserwacji w grupach.
  3. Obecność częstotliwości (powtórzenia) obserwacji.

Normalność rozkładu wyznacza krzywa Gaussa (De Mavour), którą można opisać funkcją y = f (x), gdyż jest to jedno z praw rozkładów używanych do przybliżonego opisu zjawisk losowych, probabilistycznych w naturze. Przedmiotem badań biomedycznych są zjawiska probabilistyczne, rozkład normalny w takich badaniach jest bardzo powszechny.

Zasada stosowania metody analizy wariancji

Najpierw formułuje się hipotezę zerową, to znaczy zakłada się, że badane czynniki nie mają żadnego wpływu na wartości wskaźnika efektywnego, a uzyskane różnice są losowe.

Następnie określamy, jakie jest prawdopodobieństwo uzyskania zaobserwowanych (lub silniejszych) różnic, pod warunkiem, że hipoteza zerowa jest słuszna.

Jeśli to prawdopodobieństwo jest małe *, to odrzucamy hipotezę zerową i wnioskujemy, że wyniki badania są istotne statystycznie. Nie oznacza to, że wpływ badanych czynników został udowodniony (jest to przede wszystkim kwestia planowania badania), ale nadal jest mało prawdopodobne, aby wynik był przypadkowy.
__________________________________
* Maksymalne dopuszczalne prawdopodobieństwo odrzucenia poprawnej hipotezy zerowej nazywane jest poziomem istotności i oznaczane przez α = 0,05.

Gdy wszystkie warunki zastosowania analizy wariancji są spełnione, rozkład całkowitej wariancji jest matematycznie następujący:

D generał = D fakt + D reszta. ,

D generał - całkowita wariancja obserwowanych wartości (wariant), charakteryzująca się zmiennością wariantu od średniej całkowitej. Mierzy zmienność cechy w agregacie pod wpływem wszystkich czynników, które spowodowały tę zmienność. Na ogólną różnorodność składają się grupy międzygrupowe i wewnątrzgrupowe;

D fakt - wariancja czynnikowa (międzygrupowa), charakteryzująca się różnicą średnich w każdej grupie i zależy od wpływu badanego czynnika, którym różni się każda grupa. Na przykład w grupach różnych czynników etiologicznych przebiegu klinicznego zapalenia płuc średni poziom spędzonej doby nie jest taki sam - występuje zróżnicowanie międzygrupowe.

D odpoczynek. - wariancję rezydualną (wewnątrzgrupową), która charakteryzuje rozproszenie wariantu w obrębie grup. Odzwierciedla losową zmienność, tj. część zmienności, która występuje pod wpływem nieokreślonych czynników i nie zależy od atrybutu – czynnika będącego podstawą grupowania. Zmienność badanej cechy zależy od siły oddziaływania niektórych niewyjaśnionych czynników losowych, zarówno zorganizowanych (podany przez badacza), jak i losowych (nieznanych).

Dlatego na całkowitą zmienność (wariancję) składa się zmienność spowodowana zorganizowanymi (danymi) czynnikami, zwanymi zmiennością czynnikową i czynnikami niezorganizowanymi, tj. zmienność rezydualna (losowa, nieznana).

Klasyczna analiza wariancji przeprowadzana jest w następujących etapach:

  1. Budowa kompleksu dyspersyjnego.
  2. Obliczanie odchyleń średniokwadratowych.
  3. Obliczanie wariancji.
  4. Porównanie wariancji czynnikowych i resztowych.
  5. Ocena wyników z wykorzystaniem teoretycznych wartości rozkładu Fischera-Snedecora (Załącznik N 1).

ALGORYTM DO PROWADZENIA ANALIZY WERSJI UPROSZCZONEJ

Analiza algorytmu wariancji metodą uproszczoną pozwala na uzyskanie tych samych wyników, ale obliczenia są znacznie prostsze:

Etap I. Budowa kompleksu dyspersyjnego

Budowa kompleksu dyspersyjnego oznacza budowę tabeli, w której wyraźnie określone byłyby czynniki, efektywny znak i dobór obserwacji (pacjentów) w każdej grupie.

Kompleks jednoczynnikowy składa się z kilku gradacji jednego czynnika (A). Oceny są próbkami z różnych populacji ogólnych (A1, A2, AZ).

Kompleks dwuczynnikowy - składa się z kilku gradacji dwóch czynników w połączeniu ze sobą. Czynniki etiologiczne występowania zapalenia płuc są takie same (A1, A2, AZ) w połączeniu z różnymi postaciami przebiegu klinicznego zapalenia płuc (H1 - ostre, H2 - przewlekłe).

Skuteczny znak (średnia liczba przenocowanych dni) Czynniki etiologiczne w rozwoju zapalenia płuc
A1 A2 A3
H1 H2 H1 H2 H1 H2
M = 14 dni

Etap II. Obliczanie całkowitej średniej (M obsh)

Obliczenie sumy wariantu dla każdej gradacji czynników: Σ Vj = V 1 + V 2 + V 3

Obliczenie opcji sumy całkowitej (Σ V total) dla wszystkich gradacji atrybutu czynnika: Σ V total = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Obliczanie średniej grupy (M gr.) Znak czynnika: M gr. = Σ Vj / N,
gdzie N jest sumą liczby obserwacji dla wszystkich gradacji atrybutu czynnika I (Σn według grup).

Etap III. Obliczanie wariancji:

Jeżeli spełnione są wszystkie warunki zastosowania analizy wariancji, wzór matematyczny wygląda następująco:

D generał = D fakt + D reszta.

D generał - całkowita wariancja, charakteryzująca się rozrzutem wariantu (wartości obserwowanych) od średniej całkowitej;
D fakt. - wariancja czynnikowa (międzygrupowa), charakteryzuje rozrzut średnich grupowych od średniej całkowitej;
D odpoczynek. - wariancja rezydualna (wewnątrzgrupowa), charakteryzuje rozproszenie wariantu w obrębie grup.

  1. Obliczanie wariancji czynnikowej (D fakt.): D fakt. = Σ h - H
  2. Obliczenie h odbywa się według wzoru: h = (Σ Vj) / N
  3. Obliczenie H odbywa się według wzoru: H = (Σ V) 2 / N
  4. Obliczanie wariancji resztowej: D odpoczynek. = (Σ V) 2 - Σ h
  5. Obliczanie całkowitej wariancji: D generał = (Σ V) 2 - Σ H

Etap IV. Obliczenie głównego wskaźnika siły wpływu badanego czynnika Wskaźnik siły wpływu (η 2) atrybutu czynnika na wynik jest określony przez udział wariancji czynnikowej (D fakt.) W wariancji całkowitej (D total), η 2 (eta) - pokazuje, jaki udział Wpływ badanego czynnika obejmuje wszystkie inne czynniki i jest określony wzorem:

Etap V. Określenie rzetelności wyników badań metodą Fishera odbywa się według wzoru:


F - kryterium Fishera;
F ul. - wartość tabelaryczna (patrz załącznik 1).
σ 2 fakt, σ 2 reszta. - odchylenia czynnikowe i resztkowe (od łac. de - od, via - road) - odchylenie od linii środkowej, określone wzorami:


r to liczba gradacji atrybutu czynnika.

Porównanie kryterium Fishera (F) ze standardowym (tabelarycznym) F odbywa się według kolumn tabeli z uwzględnieniem stopni swobody:

v 1 = n - 1
v 2 = N - 1

Poziomo wyznacz v 1 pionowo - v 2, na ich przecięciu określ wartość tabelaryczną F, gdzie górna wartość tabelaryczna p ≥ 0,05, a dolna odpowiada p> 0,01 i porównaj z obliczonym kryterium F. Jeżeli wartość obliczona kryterium F jest równe lub większe niż tabelaryczne, wtedy wyniki są wiarygodne i H 0 nie jest odrzucane.

Zadanie:

W przedsiębiorstwie N. poziom urazów wzrósł, dlatego lekarz przeprowadził badanie poszczególnych czynników, wśród których badano staż pracy pracowników w sklepach. Próbki zostały wykonane w przedsiębiorstwie N. z 4 warsztatów o podobnych warunkach i charakterze pracy. Wskaźniki obrażeń są obliczane na 100 pracowników w ostatnim roku.

Podczas badania czynnika doświadczenia zawodowego uzyskano następujące dane:

Na podstawie danych z badania postawiono hipotezę zerową (H 0) o wpływie doświadczenia zawodowego na poziom obrażeń wśród pracowników przedsiębiorstwa A.

Ćwiczenie
Potwierdź lub odrzuć hipotezę zerową za pomocą jednokierunkowej analizy ANOVA:

  1. określić siłę wpływu;
  2. ocenić wiarygodność współczynnika wpływu.

Kroki aplikacji do analizy wariancji
określenie wpływu czynnika (stażu pracy) na wynik (poziom urazu)

Wyjście. W zbiorze próby ujawniono, że siła wpływu doświadczenia zawodowego na poziom obrażeń wynosi 80% w ogólnej liczbie innych czynników. Dla wszystkich warsztatów zakładu można argumentować z prawdopodobieństwem 99,7% (13,3>8,7), że staż pracy wpływa na poziom obrażeń.

Tym samym hipoteza zerowa (H 0) nie jest odrzucana, a wpływ stażu pracy na poziom obrażeń w sklepach zakładu A uznaje się za udowodniony.

Wartość F (test Fishera) standard przy p ≥ 0,05 (wartość górna) przy p ≥ 0,01 (wartość dolna)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Własow W.W. Epidemiologia. - M.: GEOTAR-MED, 2004,464 s.
  2. Arkhipova GL., Lavrova I.G., Troshina I.M. Trochę nowoczesne metody analiza statystyczna w medycynie. - M .: Metrosnab, 1971. - 75 s.
  3. Zaitsev V.M., Liflyandsky V.G., Marinkin V.I. Stosowane statystyki medyczne. - SPb.: LLC „Wydawnictwo FOLIANT”, 2003. - 432 s.
  4. Płatonow A.E. Analiza statystyczna w medycynie i biologii: zadania, terminologia, logika, metody komputerowe. - M .: Wydawnictwo Rosyjskiej Akademii Nauk Medycznych, 2000. - 52 s.
  5. Płochiński N.A. Biometria. - Wydawnictwo syberyjskiego oddziału Akademii Nauk ZSRR Nowosybirsk. - 1961 .-- 364 s.

5.1. Co to jest ANOVA?

Analiza wariancji została opracowana w latach dwudziestych przez angielskiego matematyka i genetyka Ronalda Fishera. Według sondażu wśród naukowców, w którym ustalono, kto najbardziej wpłynął na biologię XX wieku, to sir Fisher zdobył mistrzostwo (za swoje zasługi otrzymał tytuł rycerski – jedno z najwyższych odznaczeń w Wielkiej Brytanii); pod tym względem Fisher jest porównywalny z Karolem Darwinem, który zapewnił największy wpływ o biologii XIX wieku.

Analiza wariancji jest teraz osobną gałęzią statystyki. Opiera się na stwierdzonym przez Fishera fakcie, że miarę zmienności badanej wielkości można rozłożyć na części odpowiadające czynnikom wpływającym na tę wielkość oraz odchylenia losowe.

Aby zrozumieć istotę analizy wariancji, ten sam rodzaj obliczeń wykonamy dwukrotnie: „ręcznie” (za pomocą kalkulatora) oraz za pomocą programu Statistica. Aby uprościć nasze zadanie, nie będziemy pracować z wynikami rzeczywistego opisu różnorodności żab zielonych, ale z fikcyjnym przykładem, który odnosi się do porównania kobiet i mężczyzn u ludzi. Weź pod uwagę zróżnicowanie wzrostu 12 dorosłych: 7 kobiet i 5 mężczyzn.

Tabela 5.1.1. Przykład jednokierunkowej analizy ANOVA: dane dotyczące płci i wzrostu dla 12 osób

Przeprowadźmy jednokierunkową analizę wariancji: porównamy, czy mężczyźni i kobiety w opisywanej grupie różnią się pod względem wzrostu statystycznie istotne czy nie.

5.2. Test normalności

Dalsze rozumowanie opiera się na fakcie, że rozkład w rozważanej próbie jest normalny lub zbliżony do normalnego. Jeśli rozkład jest daleki od normalnego, wariancja (wariancja) nie jest adekwatną miarą jego zmienności. Jednak ANOVA jest stosunkowo odporna na odchylenia rozkładu od normalności.

Test normalności tych danych można przeprowadzić na dwa różne sposoby. Po pierwsze: Statystyki / Statystyki podstawowe / Tabele / Statystyki opisowe / Zakładka Normalność. W zakładce Normalność możesz wybrać testy używane do badania normalności rozkładu. Po kliknięciu przycisku Tabele częstotliwości pojawi się tabela częstotliwości, a przyciski Histogramy - histogram. Tabela i wykres słupkowy pokażą wyniki różnych testów.

Druga metoda wiąże się z wykorzystaniem odpowiedniego możliwego przy konstruowaniu histogramów. W oknie dialogowym tworzenia histogramów (Grafs / Histograms...) wybierz zakładkę Zaawansowane. Na jego dole znajduje się blok Statystyki. Zaznaczmy na nim Shapiro-Wilk T est i test Kołmogorowa-Smirnowa, jak pokazano na rysunku.

Ryż. 5.2.1. Testy statystyczne o normalności rozkładu w oknie dialogowym do konstruowania histogramów

Jak widać z histogramu, rozkład wzrostu w naszej próbce różni się od normalnego (w środku - „niepowodzenie”).


Ryż. 5.2.2. Histogram wykreślony z parametrami określonymi na poprzednim rysunku

Trzecia linia w nagłówku wykresu wskazuje parametry rozkładu normalnego, któremu obserwowany rozkład okazał się najbliższy. Ogólna średnia to 173, ogólna odchylenie standardowe- 10.4. Poniżej na pasku bocznym wykresu pokazane są wyniki testów normalności. D to test Kołmogorowa-Smirnowa, a SW-W to test Shapiro-Vilka. Jak widać, we wszystkich zastosowanych testach różnice między rozkładem wzrostu a rozkładem normalnym okazały się nieistotne statystycznie ( P we wszystkich przypadkach więcej niż 0,05).

Czyli formalnie rzecz biorąc testy na zgodność rozkładu z normalnym nie „zabroniły” nam używania metoda parametryczna w oparciu o założenie rozkładu normalnego. Jak już wspomniano, analiza wariancji jest stosunkowo odporna na odchylenia od normalności, więc nadal będziemy z niej korzystać.

5.3. Jednokierunkowa ANOVA: obliczenia ręczne

Aby scharakteryzować zmienność wzrostu osób w podanym przykładzie, obliczamy sumę kwadratów odchyleń (w języku angielskim jest to oznaczone jako SS , Suma kwadratów lub) poszczególne wartości ze średniej: ... Średnia wysokości w tym przykładzie wynosi 173 centymetry. Oparte na tym,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Otrzymana wartość (1192) jest miarą zmienności całego zestawu danych. Składają się one jednak z dwóch grup, dla których można wyróżnić własną średnią. W powyższych danych średni wzrost kobiet wynosi 168 cm, a mężczyzn 180 cm.

Obliczmy sumę kwadratów odchyleń dla kobiet:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Obliczamy również sumę kwadratów odchyleń dla mężczyzn:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Od czego zależy badana wartość zgodnie z logiką analizy wariancji?

Dwie obliczone wartości, SS f oraz SS m , charakteryzują wariancję wewnątrzgrupową, która w analizie wariancji nazywana jest zwykle „błędem”. Pochodzenie tej nazwy wiąże się z następującą logiką.

Co determinuje rozwój osoby w tym przykładzie? Przede wszystkim od przeciętnego wzrostu ludzi w ogóle, niezależnie od ich płci. Po drugie - z podłogi. Jeśli ludzie jednej płci (mężczyzna) są wyżsi od drugiej (kobieta), można to przedstawić jako dodatek do „zwykłej ludzkiej” średniej pewnej wielkości, efekt płci. Wreszcie osoby tej samej płci różnią się wzrostem ze względu na różnice indywidualne. W modelu, który opisuje wzrost jako sumę średniej ludzkiej i dostosowania płci, różnice indywidualne są niewytłumaczalne i można je uznać za „błąd”.

Tak więc, zgodnie z logiką analizy wariancji, badaną wartość określa się w następujący sposób: , gdzie x ij - i-ta wartość badanego czynnika przy j-tej wartości badanego czynnika; - Średnia ogólna; Fj - wpływ j-tej wartości badanego czynnika; - "błąd", wkład indywidualności przedmiotu, do którego należy ilośćx ij .

Międzygrupowa suma kwadratów

Więc, SS błędy = SS f + SS m = 212 + 560 = 772. Tą wartością opisaliśmy zmienność wewnątrzgrupową (gdy grupy były identyfikowane według płci). Ale jest też druga część zmienności – intergrupa, którą nazwiemyEfekt SS (ponieważ mówimy o efekcie podziału rozważanego zbioru obiektów na kobiety i mężczyzn).

Średnia każdej grupy różni się od średniej ogólnej. Obliczając udział tej różnicy w całkowitej mierze zmienności, musimy pomnożyć różnicę między grupą a całkowitą średnią przez liczbę obiektów w każdej grupie.

Efekt SS = = 7 × (168–173) 2 + 5 × (180–173) 2 = 7 × 52 + 5 × 72 = 7 × 25 + 5 × 49 = 175 + 245 = 420.

Tutaj objawiła się zasada stałości sumy kwadratów, odkryta przez Fischera: SS = efekt SS + błąd SS , tj. w tym przykładzie 1192 = 440 + 722.

środkowe kwadraty

Porównując w naszym przykładzie międzygrupowe i wewnątrzgrupowe sumy kwadratów, widzimy, że pierwsza wiąże się ze zmiennością dwóch grup, a druga – 12 wartości w 2 grupach. Liczba stopni swobody ( df ) dla pewnego parametru można zdefiniować jako różnicę między liczbą obiektów w grupie a liczbą zależności (równań) łączących te wartości.

W naszym przykładzie efekt df = 2–1 = 1, a błędy df = 12–2 = 10.

Sumy kwadratów możemy podzielić przez liczbę ich stopni swobody, otrzymując średnie kwadraty ( SM , środki kwadratowe). Po wykonaniu tej czynności możemy to ustalić SM - nic innego jak wariancja („wariancja”, wynik dzielenia sumy kwadratów przez liczbę stopni swobody). Po tym odkryciu możemy zrozumieć strukturę tabeli ANOVA. W naszym przykładzie będzie to wyglądać tak.

efekt

Błąd

Efekt stwardnienia rozsianego oraz Błędy MS są oszacowaniami wariancji międzygrupowej i wewnątrzgrupowej, a zatem mogą być porównywane według kryteriumF (kryterium Snedecora, nazwane na cześć Fishera), przeznaczone do porównywania wariancji. To kryterium jest po prostu ilorazem dzielenia większej wariancji przez mniejszą. W naszym przypadku jest to 420 / 77,2 = 5,440.

Wyznaczanie istotności statystycznej testu Fishera za pomocą tabel

Gdybyśmy mieli określić istotność statystyczną efektu ręcznie, korzystając z tabel, musielibyśmy porównać uzyskaną wartość kryterium F z krytycznym, odpowiadającym pewnemu poziomowi istotności statystycznej dla danych stopni swobody.


Ryż. 5.3.1. Fragment tabeli z krytycznymi wartościami kryterium F

Jak widać, dla poziomu istotności statystycznej p = 0,05 wartość krytyczna kryteriumF wynosi 4,96. Oznacza to, że w naszym przykładzie działanie badanej płci zostało zarejestrowane na poziomie istotności statystycznej 0,05.

Wynik można zinterpretować w następujący sposób. Prawdopodobieństwo hipotezy zerowej, zgodnie z którą średni wzrost kobiet i mężczyzn jest taki sam, a odnotowana różnica ich wzrostu związana jest z losowością w tworzeniu prób, jest mniejsze niż 5%. Oznacza to, że musimy wybrać alternatywną hipotezę, że średni wzrost kobiet i mężczyzn jest inny.

5.4. Jednokierunkowa analiza wariancji ( ANOVA) w pakiecie Statistica

W przypadkach, gdy obliczenia nie są wykonywane ręcznie, ale za pomocą odpowiednich programów (np. pakiet Statistica), wartość P jest określana automatycznie. Możesz upewnić się, że jest nieco wyższa niż wartość krytyczna.

Aby przeanalizować omawiany przykład za pomocą najprostszego wariantu analizy wariancji, należy uruchomić procedurę Statystyka / ANOVA dla pliku z odpowiednimi danymi i wybrać opcję Jednokierunkowa ANOVA w oknie Typ analizy oraz w oknie dialogowym Szybka specyfikacja opcja w oknie Metoda specyfikacji...


Ryż. 5.4.1. Ogólne dialogi ANOVA / MANOVA

W otwartym oknie podręcznego okna dialogowego, w polu Zmienne należy określić te kolumny, które zawierają dane, których zmienność badamy (lista zmiennych zależnych; w naszym przypadku kolumna Wzrost), a także kolumnę zawierającą wartości, które dzielą badaną wartość na grupy (predyktor jakościowy ( czynnik); w naszym przypadku kolumna Płeć). W tej wersji analizy, w przeciwieństwie do analiza wielowymiarowa, można wziąć pod uwagę tylko jeden czynnik.


Ryż. 5.4.2. Jednokierunkowy dialog ANOVA

W oknie Kody współczynników wskaż wartości rozważanego współczynnika, które należy przetworzyć podczas tej analizy. Wszystkie dostępne wartości można wyświetlić za pomocą przycisku Zoom; jeśli, jak w naszym przykładzie, musisz wziąć pod uwagę wszystkie wartości czynnika (a dla płci w naszym przykładzie są tylko dwie), możesz kliknąć przycisk Wszystkie. Po zdefiniowaniu kolumn do przetworzenia i kodów czynników można kliknąć przycisk OK i przejść do szybkiej analizy wyników: Wyniki ANOVA 1, na zakładkę Szybkie.

Ryż. 5.4.3. Zakładka Szybkie w oknie wyników ANOVA

Przycisk Wszystkie efekty / Wykresy pozwala zobaczyć porównanie średnich z dwóch grup. Nad wykresem wskazana jest liczba stopni swobody, a także wartości F i p dla rozważanego czynnika.


Ryż. 5.4.4. Graficzne wyświetlanie wyników ANOVA

Przycisk Wszystkie efekty pozwala uzyskać tabelę analizy wariancji podobną do opisanej powyżej (z pewnymi istotnymi różnicami).


Ryż. 5.4.5. Stół ANOVA (porównaj z podobnym stołem uzyskanym ręcznie)

Dolny wiersz tabeli pokazuje sumę kwadratów, liczbę stopni swobody oraz średnie kwadraty błędu (zmienność wewnątrzgrupowa). Jedna linijka powyżej – podobne wskaźniki dla badanego czynnika (w tym przypadku znaku Płeć) oraz kryterium F (stosunek średnich kwadratów efektu do średnich kwadratów błędu) oraz poziom jego istotności statystycznej. O tym, że wpływ omawianego czynnika okazał się istotny statystycznie świadczy podświetlenie na czerwono.

Pierwsza linia zawiera dane dotyczące wskaźnika „Przechwytywanie”. Ten wiersz w tabeli przedstawia zagadkę dla nowych użytkowników Statistica w jej 6. lub nowszej wersji. Wartość przecięcia jest prawdopodobnie związana z rozkładem sumy kwadratów wszystkich wartości danych (tj. 1862 + 1692 ... = 360340). Wskazaną dla niego wartość kryterium F uzyskuje się dzieląc Przechwycenie MS / Błąd MS = 353220 / 77,2 = 4575.389 i naturalnie daje bardzo niską wartość P ... Co ciekawe, w Statistica-5 wartość ta w ogóle nie została obliczona, a instrukcje obsługi późniejszych wersji pakietu w żaden sposób nie komentują jej wprowadzenia. Prawdopodobnie najlepszą rzeczą, jaką może zrobić biolog pracujący z Statistica-6 i późniejszymi, jest po prostu zignorowanie wiersza Przecięcie w tabeli ANOVA.

5.5. ANOVA i testy Studenta i Fishera: co jest lepsze?

Jak mogłeś zauważyć, dane, które porównaliśmy za pomocą jednokierunkowej analizy wariancji, moglibyśmy również zbadać za pomocą testów Studenta i Fishera. Porównajmy te dwie metody. Aby to zrobić, oblicz różnicę wzrostu między mężczyznami i kobietami, korzystając z tych kryteriów. Aby to zrobić, będziemy musieli przejść ścieżką Statistics / Basic Statistics / t-test, niezależnie, według grup. Oczywiście zmienna zależna to zmienna Wzrost, a zmienna grupująca to zmienna Płeć.


Ryż. 5.5.1. Porównanie danych przetworzonych metodą ANOVA zgodnie z testami Studenta i Fishera

Jak widać, wynik jest taki sam jak w przypadku ANOVA. P = 0,041874 w obu przypadkach, jak pokazano na ryc. 5 i pokazano na ryc. 5.5.2 (przekonaj się sam!).


Ryż. 5.5.2. Wyniki analizy (szczegółowe wyjaśnienie tabeli wyników - w akapicie dotyczącym kryterium Studenta)

Należy podkreślić, że choć kryterium F z matematycznego punktu widzenia w rozpatrywanej analizie według kryteriów Studenta i Fishera jest takie samo jak w ANOVA (i wyraża współczynnik wariancji), to jego znaczenie w wynikach analizy przedstawionych w stół finałowy jest zupełnie inny. Przy porównywaniu według kryterium Studenta i Fishera porównanie wartości średnich próbek odbywa się według kryterium Studenta, a porównanie ich zmienności według kryterium Fishera. W wynikach analizy wyświetlana jest nie sama wariancja, ale jej Pierwiastek kwadratowy- odchylenie standardowe.

Natomiast w ANOVA test Fishera służy do porównywania średnich różnych próbek (jak omówiliśmy, odbywa się to poprzez podzielenie sumy kwadratów na części i porównanie średniej sumy kwadratów odpowiadającej zmienności między- i wewnątrzgrupowej) .

Powyższa różnica dotyczy jednak prezentacji wyników badania statystycznego, a nie jego istoty. Jak wskazuje np. Glantz (1999, s. 99), porównanie grup testem Studenta można uznać za szczególny przypadek analizy wariancji dla dwóch prób.

Zatem porównywanie próbek według testów Studenta i Fishera ma jedną istotną przewagę nad analizą wariancji: może porównywać próbki pod względem ich zmienności. Jednak korzyści płynące z analizy wariancji są jeszcze bardziej znaczące. Należą do nich np. możliwość porównywania wielu próbek jednocześnie.

Wyniki eksperymentów i testów mogą zależeć od niektórych czynników, które wpływają na zmienność średnich wartości zmiennej losowej. Wartości czynników nazywane są poziomami czynników, a wielkość nazywa się efektywnym wskaźnikiem. Na przykład ilość pracy wykonywanej na budowie może zależeć od zespołu przy pracy. W tym przypadku liczebność brygady jest poziomem czynnika, a ilość pracy na zmianę jest efektywnym wskaźnikiem.

Analiza wariancji, lub ANOVA(Analiza wariancji - analiza wariancji), służy do badania istotności statystycznej różnicy między średnimi dla trzech lub więcej próbek (poziomy czynników). Aby porównać średnie w dwóch próbach, użyj T-kryterium.

Procedura porównywania średnich nazywana jest analizą wariancji, ponieważ w badaniu istotności statystycznej różnicy między średnimi kilku grup obserwacji przeprowadza się analizę wariancji próby. Fundamentalną koncepcję analizy wariancji zaproponował Fisher.

Istota metody polega na podzieleniu całkowitej wariancji na dwie części, z których jedna wynika z błędu losowego (czyli zmienności wewnątrzgrupowej), a druga jest związana z różnicą wartości średnich. Ostatni składnik wariancji jest następnie wykorzystywany do analizy statystycznej istotności różnicy między średnimi. Jeżeli różnica ta jest znacząca, odrzuca się hipotezę zerową i przyjmuje się hipotezę alternatywną o istnieniu różnicy między średnimi.

Zmienne, których wartości określane są pomiarami w trakcie eksperymentu (np. efektywność ekonomiczna, plon, wynik testu) nazywane są zmiennymi zależnymi lub cechami. Zmienne, które można kontrolować w eksperymencie (np. poziom kontroli, rodzaj gleby, metody treningowe) nazywane są czynnikami lub zmiennymi niezależnymi.

W klasycznej analizie wariancji przyjmuje się, że badane wartości mają rozkład normalny o stałej wariancji oraz wartości średnie, które mogą się różnić dla różnych zbiorów prób. Stosunek wariancji średnich grupowych i wariancji resztowej służy jako kryterium testowania hipotez zerowych. Wykazano jednak, że analiza wariancji jest trafna także dla niegaussowskich zmiennych losowych, a dla liczebności próby dla każdego poziomu czynnika n>4 błąd nie jest wysoki. Jeśli wymagana jest wysoka dokładność wnioskowania, a rozkład jest nieznany, należy zastosować kryteria nieparametryczne, na przykład należy zastosować analizę wariancji rang.

Jednokierunkowa ANOVA

Niech się to stanie m grupy pomiarów wartości zmiennej losowej Y na różnych poziomach wartości określonego czynnika oraz 1, 2, m- matematyczne oczekiwanie efektywnego wskaźnika na poziomach czynnika A (1) , A (2) , A(m) ( i=1, 2, m).


Założenie o niezależności efektywnej cechy od czynnika sprowadza się do testowania hipotezy zerowej o równości grupy matematyczne oczekiwania

H 0: a 1 = a 2 = a m (6.12)

Testowanie hipotez jest możliwe, jeśli dla każdego poziomu czynnika spełnione są następujące wymagania:

1) obserwacje są niezależne i prowadzone w tych samych warunkach;

2) mierzalne wartość losowa ma rozkład normalny ze stałą ogólną wariancją dla różnych poziomów czynnika σ 2. Oznacza to, że hipoteza jest prawidłowa

H 0: σ 1 2 = σ 2 2 = σ m 2.

Aby przetestować hipotezę o równości wariancji trzech lub więcej rozkłady normalne stosowane jest kryterium Bartletta.

Jeśli hipoteza… H 0: σ 1 2 = σ 2 2 = σ m 2 zostaje potwierdzona, a następnie zaczynają testować hipotezę o równości grupowych oczekiwań matematycznych H 0: a 1 = a 2 = a m, czyli właściwie do analizy wariancji. Analiza wariancji opiera się na stanowisku, że zmienność efektywnej cechy jest spowodowana zarówno zmianą poziomów czynnika A, jak i zmiennością wartości czynników losowych niekontrolowanych. Czynniki losowe nazywane są resztowymi.

Można wykazać, że całkowitą wariancję próby można przedstawić jako sumę wariancji średnich grupowych i średniej wariancji grupowych

, gdzie

Całkowita wariancja próbki;

Dyspersja średnich grupowych () obliczonych dla każdego poziomu czynnika;

Średnia dla wariancji grupowych (), obliczona dla każdego poziomu czynnika. związane z wpływem na Y czynniki szczątkowe (losowe).

Przechodząc od rozwinięcia dla ogólnej wariancji do wartości próbki otrzymujemy

, (6.13)

Jest to ważona suma kwadratów odchyleń średnich próbek dla każdego poziomu A(i) całkowitej średniej próbki,

Średnia kwadratów odchyleń w ramach poziomów.

Zmienne losowe mają odpowiednio następujące wartości stopni swobody: n - 1, m - 1, n - m... Tutaj n- łączna liczba próbkowanych wartości, m- liczba poziomów czynników.

W statystyce matematycznej udowodniono, że jeśli hipoteza zerowa równości średnich (10,8) jest prawdziwa, to ilość

To ma F-rozkład z liczbą stopni swobody k = m- 1 i ja = n- m, to jest

(6.14)

Gdy hipoteza zerowa jest spełniona, wariancja wewnątrzgrupowa praktycznie pokrywa się z całkowita wariancja, obliczone bez uwzględnienia przynależności do grupy. W ANOVA z reguły licznik jest większy niż mianownik. W przeciwnym razie uważa się, że obserwacje nie potwierdzają wpływu czynnika na wynikowy znak i nie przeprowadza się dalszej analizy. Otrzymane wariancje wewnątrzgrupowe można porównać z F-kryterium sprawdzające, czy stosunek wariancji jest rzeczywiście znacząco większy niż 1.

W związku z tym, aby przetestować hipotezę (6.12) za pomocą F-kryterium analizowany jest prawostronny obszar krytyczny .

Jeśli obliczona wartość F mieści się w określonym przedziale, to hipoteza zerowa jest odrzucana, a wpływ czynnika A na skutecznej cesze Y.

Oto przykład obliczania sumy kwadratów i wariancji próbki. Rozważ zestaw danych przedstawiony w tabeli 6.2. W tym przykładzie chcesz określić, czy istnieje znacząca różnica w produktywności zespołu.

Tabela 6.2. Przykład obliczenia sumy kwadratów



błąd: Treść jest chroniona !!