Vyberte možnost Stránka

Faktorová a disperzní analýza v Excelu s automatizací výpočtů. Jednosměrná analýza rozptylu

Analýza rozptylu

1. Pojem analýzy rozptylu

Analýza rozptylu- jedná se o analýzu variability znaku pod vlivem jakýchkoli řízených proměnných faktorů. V zahraniční literatuře analýza rozptylučasto označovaná jako ANOVA, což se překládá jako analýza rozptylu (Analysis of Variance).

Úkol analýzy rozptylu spočívá v izolaci variability jiného druhu od obecné variability znaku:

a) variabilita v důsledku působení každé ze studovaných nezávislých proměnných;

b) variabilita způsobená interakcí studovaných nezávislých proměnných;

c) náhodné variace způsobené všemi ostatními neznámými proměnnými.

Variabilita v důsledku působení studovaných proměnných a jejich interakce koreluje s náhodnou variabilitou. Indikátorem tohoto poměru je Fisherův F test.

Vzorec pro výpočet kritéria F zahrnuje odhady rozptylů, tj. distribuční parametry prvku, proto je kritérium F parametrické kritérium.

Čím více je variabilita znaku způsobena studovanými proměnnými (faktory) nebo jejich interakcí, tím vyšší empirické hodnoty kritéria.

Nula hypotéza v analýze rozptylu bude říkat, že průměrné hodnoty studovaného efektivního znaku ve všech gradacích jsou stejné.

Alternativní hypotéza bude konstatovat, že průměrné hodnoty efektivního atributu v různých gradacích studovaného faktoru jsou různé.

Analýza rozptylu nám umožňuje konstatovat změnu ve znaku, ale neindikuje směr tyto změny.

Začněme analýzu rozptylu nejjednodušším případem, kdy studujeme působení pouze jeden proměnná (jednofaktorová).

2. Jednosměrná analýza rozptylu pro nepříbuzné vzorky

2.1. Účel metody

Metoda jednorozměrné analýzy rozptylu se používá v případech, kdy jsou studovány změny efektivního atributu pod vlivem měnících se podmínek nebo gradací jakéhokoli faktoru. V této verzi metody je vliv každé z gradací faktoru odlišný vzorek testovaných osob. Musí existovat alespoň tři gradace faktoru. (Mohou existovat dvě gradace, ale v tomto případě nebudeme schopni vytvořit nelineární závislosti a zdá se rozumnější použít jednodušší).

Neparametrickou variantou tohoto typu analýzy je Kruskal-Wallisův H test.

Hypotézy

H 0: Rozdíly mezi stupni faktorů (různé podmínky) nejsou výraznější než náhodné rozdíly v každé skupině.

H 1: Rozdíly mezi gradacemi faktorů (různé podmínky) jsou výraznější než náhodné rozdíly v rámci každé skupiny.

2.2. Omezení jednorozměrné analýzy rozptylu pro nepříbuzné vzorky

1. Jednorozměrná analýza rozptylu vyžaduje alespoň tři gradace faktoru a alespoň dva subjekty v každé gradaci.

2. Výsledný znak musí být ve zkoumaném vzorku normálně distribuován.

Pravda, většinou není uvedeno, zda mluvíme o rozložení znaku v celém zkoumaném vzorku nebo v jeho části, která tvoří disperzní komplex.

3. Příklad řešení úlohy metodou jednofaktorové analýzy rozptylu pro nepříbuzné vzorky na příkladu:

Tři různé skupiny po šesti předmětech dostaly seznamy po deseti slovech. První skupině byla slova předkládána nízkou rychlostí 1 slovo za 5 sekund, druhé skupině průměrnou rychlostí 1 slovo za 2 sekundy a třetí skupině vysokou rychlostí 1 slovo za sekundu. Předpokládalo se, že výkon reprodukce bude záviset na rychlosti prezentace slov. Výsledky jsou uvedeny v tabulce. 1.

Počet reprodukovaných slov stůl 1

číslo předmětu

nízká rychlost

průměrná rychlost

vysoká rychlost

Celková částka

H 0: Rozdíly v objemu slov mezi skupiny nejsou výraznější než náhodné rozdíly uvnitř každá skupina.

H1: Rozdíly v objemu slov mezi skupiny jsou výraznější než náhodné rozdíly uvnitř každá skupina. Pomocí experimentálních hodnot uvedených v tabulce. 1, stanovíme některé hodnoty, které budou potřeba pro výpočet kritéria F.

Výpočet hlavních veličin pro jednosměrnou analýzu rozptylu je uveden v tabulce:

tabulka 2

Tabulka 3

Sekvence operací v jednosměrné ANOVA pro odpojené vzorky

Často používané v této a následujících tabulkách je označení SS zkratkou pro "součet čtverců". Tato zkratka se nejčastěji používá v přeložených pramenech.

SS skutečnost znamená variabilitu znaku, v důsledku působení studovaného faktoru;

SS běžný- obecná variabilita znaku;

S CA- variabilita způsobená nezohledněnými faktory, "náhodná" nebo "zbytková" variabilita.

SLEČNA- "střední čtverec", nebo matematické očekávání součtu čtverců, průměrná hodnota odpovídající SS.

df - počet stupňů volnosti, který jsme při uvažování neparametrických kritérií označili řeckým písmenem proti.

Závěr: H 0 se zamítá. H 1 je akceptován. Rozdíly v objemu reprodukce slov mezi skupinami jsou výraznější než náhodné rozdíly v rámci každé skupiny (α=0,05). Rychlost prezentace slov tedy ovlivňuje objem jejich reprodukce.

Níže je uveden příklad řešení problému v aplikaci Excel:

Počáteční údaje:

Pomocí příkazu: Nástroje->Analýza dat->Jednosměrná analýza rozptylu získáme následující výsledky:

V tomto tématu bude uvažována pouze jednosměrná analýza rozptylu použitá pro nepříbuzné vzorky. Z hlediska základního konceptu rozptylu je tato analýza založena na výpočtu rozptylů tří typů:

Celkový rozptyl vypočtený pro celý soubor experimentálních dat;

Vnitroskupinový rozptyl charakterizující variabilitu znaku v každém vzorku;

Meziskupinová disperze charakterizující variabilitu skupinových průměrů.

Hlavní ustanovení analýzy rozptylu zní: celkový rozptyl rovna součtu vnitroskupinových a meziskupinových disperzí.

Tuto pozici lze zapsat jako rovnici:

kde x ij- hodnoty všech proměnných získané v experimentu; zatímco index j se liší od 1 před R, kde R- počet porovnávaných vzorků, mohou být tři nebo více; index i odpovídá počtu prvků ve vzorku (mohou být dva nebo více);

Celkový průměr celého analyzovaného souboru dat;

Střední j Vzorky;

N-celkový počet všechny prvky v analyzovaném souboru experimentálních dat;

R- počet experimentálních vzorků.

Pojďme analyzovat tuto rovnici podrobněji.

Nechte nás R skupiny (vzorky). V ANOVA je každý vzorek reprezentován jako jeden sloupec (nebo řádek) čísel. Poté, aby bylo možné ukázat na konkrétní skupinu (vzorek), je zaveden index j, který se odpovídajícím způsobem mění z j= 1 až j= r. Máme-li například 5 skupin (vzorků), pak p=5 a index j se odpovídajícím způsobem mění od j= 1 až j= 5.

Postavme se před úkol specifikovat konkrétní prvek (hodnotu měření) vzorku. K tomu musíme znát číslo tohoto vzorku, například 4, a umístění prvku (naměřená hodnota) v tomto vzorku. Tento prvek může být umístěn ve výběru od první hodnoty (první řádek) po poslední (poslední řádek). Nechť je náš požadovaný prvek umístěn na pátém řádku. Jeho zápis pak bude: x 54. To znamená, že je vybrán pátý prvek v řadě ze čtvrtého vzorku.

NA obecný případ v každé skupině (vzorku) může být počet jejích prvků různý - proto označujeme počet prvků v j skupina (ukázka) přes nj. Hodnoty funkce získané v experimentu v j skupina označená xij, kde i= 1, 2, ... n je pořadové číslo pozorování v j skupina.

Je vhodné provést další uvažování na základě tabulky 35. Upozorňujeme však, že pro usnadnění dalšího uvažování nejsou vzorky v této tabulce uvedeny jako sloupce, ale jako řádky (což však není důležité).

V posledním, posledním řádku tabulky je uveden celkový objem celého vzorku - N, součet všech získaných hodnot G a celkový průměr celého vzorku. Tento celkový průměr se získá jako součet všech prvků analyzovaného souboru experimentálních dat, výše označený jako G, dělený počtem všech prvků N.


V pravém sloupci tabulky jsou uvedeny průměrné hodnoty pro všechny vzorky. Například v j vzorek (řádek tabulky označený symbolem j) je hodnota průměru (za celý vzorek j) následující:

Analýza rozptylu vám umožňuje prozkoumat rozdíl mezi skupinami dat a určit, zda jsou tyto nesrovnalosti náhodné nebo způsobené specifickými okolnostmi. Pokud se například tržby společnosti v jednom z regionů snížily, pak pomocí analýzy rozptylu můžete zjistit, zda je pokles obratu v tomto regionu ve srovnání se zbytkem náhodný, a v případě potřeby provést organizační změny. Při provádění experimentu v různé podmínky analýza rozptylu pomůže určit, jak moc vnější faktory ovlivňují měření, nebo jsou odchylky náhodné. Pokud se ve výrobě za účelem zlepšení kvality produktů změní způsob procesů, pak analýza rozptylu umožňuje vyhodnotit výsledky dopadu tohoto faktoru.

Na toto příklad ukazujeme, jak provést ANOVA na experimentálních datech.

Cvičení 1. Existují čtyři šarže surovin pro textilní průmysl. Z každé šarže bylo vybráno pět vzorků a byly provedeny testy ke stanovení velikosti mezního zatížení. Výsledky testu jsou uvedeny v tabulce.

71" height="29" bgcolor="white" style="border:.75pt plná černá; vertical-align:top;background:white">

Obr. 1


> Otevřete tabulku Microsoft Excel. Klepnutím na štítek List2 přepnete na jiný list.

> Zadejte údaje ANOVA zobrazené na obrázku 1.

> Převést data do číselného formátu. Chcete-li to provést, vyberte příkaz nabídky Formát buňky. Na obrazovce se objeví okno formátu buňky (obr. 2). Vyberte Číselný formát a zadaná data budou převedena do podoby zobrazené na obr. 3

> Vyberte příkaz nabídky Analýza dat služeb (Nástroje * Analýza dat). Na obrazovce se objeví okno Analýza dat (Data Analysis) (obr. 4).

> Klikněte na řádek Jednofaktorová analýza rozptylu (Anova: Single Factor) v seznamu Analysis Tools (Anova: Single Factor).

> Klepnutím na OK zavřete okno Analýza dat (Analýza dat). Na obrazovce pro provedení disperzní analýzy dat se objeví okno Jednosměrná analýza rozptylu (obr. 5).

https://pandia.ru/text/78/446/images/image006_46.jpg" width="311" height="214 src=">

Obr.5

> Je-li ve skupině ovládacích prvků Vstupní data(Vstup) není nastaven přepínač po řádcích, pak jej nastavte tak, aby program Excel akceptoval datové skupiny po řádcích - dávky.

> Instalovat Značky zaškrtávacího políčka v prvním řádku (Labels in Firts Rom) ve skupině Vstupní ovládací prvky, pokud první sloupec vybraného rozsahu dat obsahuje názvy řádků.

> Ve vstupním poli Alfa Vstup kontrolní skupiny (A1pha) má výchozí hodnotu 0,05, což souvisí s pravděpodobností chyby při analýze rozptylu.

> Pokud přepínač Nev Worksheet Ply není nastaven ve skupině ovládacích prvků Input options, nastavte jej tak, aby byly výsledky analýzy rozptylu umístěny na novém listu.

> Klepnutím na OK zavřete okno Anova: Single Factor. Výsledky analýzy rozptylu se objeví na novém pracovním listu (obr. 6).

Oblast buněk A4:E6 obsahuje výsledky popisné statistiky. Řádek 4 obsahuje názvy parametrů, řádky obsahují statistické hodnoty vypočítané po dávkách.

Ve sloupci Šek(Count) jsou počty měření, ve sloupci Sum - součet hodnot, ve sloupci Average (Avegage) - hodnoty aritmetického průměru, ve sloupci Variance (Varianse) - rozptyl.

Získané výsledky ukazují, že nejvyšší průměrné lomové zatížení v šarži č. 3, a největší rozptyl lámací zátěž - v partě č.1.

V řadě buněk A11:G16 zobrazuje informace týkající se významnosti nesrovnalostí mezi skupinami dat. Řádek 12 obsahuje názvy analýzy parametrů rozptylu, řádek 13 - výsledky meziskupinového zpracování, řádek 14 - výsledky vnitroskupinového zpracování a řádek 16 - součet hodnot dvou zmíněných řádků.

Ve sloupci SS (Qi) jsou umístěny variační hodnoty, tj. součty čtverců přes všechny odchylky. Variace, stejně jako rozptyl, charakterizují šíření dat. Z tabulky je vidět, že meziskupinové rozložení zátěže při přetržení je výrazně vyšší než variace v rámci skupiny.

Ve sloupci df (k) jsou nalezeny hodnoty počtu stupňů volnosti. Tato čísla udávají počet nezávislých odchylek, přes které bude rozptyl vypočítán. Například meziskupinový počet stupňů volnosti se rovná rozdílu mezi počtem skupin dat a jednou. Čím větší je počet stupňů volnosti, tím vyšší je spolehlivost parametrů rozptylu. Údaje o stupních volnosti v tabulce ukazují, že výsledky v rámci skupiny jsou spolehlivější než parametry mezi skupinami.

Ve sloupci SLEČNA (S2 ) jsou umístěny hodnoty rozptylu, které jsou určeny poměrem variace a počtem stupňů volnosti. Rozptyl charakterizuje míru rozptylu dat, ale na rozdíl od velikosti variace nemá přímou tendenci narůstat s nárůstem počtu stupňů volnosti. Z tabulky je to vidět meziskupinový rozptyl mnohem větší než vnitroskupinový rozptyl.

Ve sloupci F umístěná, hodnota F- statistika, vypočítané poměrem meziskupinových a vnitroskupinových rozptylů.

Ve sloupci Fkritický(F crit) nachází se F-kritická hodnota, vypočtená z počtu stupňů volnosti a hodnoty Alfa (A1pha). Kritérium použití F-statistiky a F-kritické hodnoty Rybář-Snedekora.

Pokud je F-statistika větší než F-kritická hodnota, pak lze tvrdit, že rozdíly mezi skupinami dat nejsou náhodné. tedy na hladině významnosti α = 0,05 (se spolehlivostí 0,95) je nulová hypotéza zamítnuta a je přijata alternativa: rozdíl mezi šaržemi surovin má významný vliv na velikost lomového zatížení.

Sloupec P-value obsahuje hodnotu pravděpodobnosti, že rozdíl mezi skupinami je náhodný. Protože tato pravděpodobnost je v tabulce velmi malá, není odchylka mezi skupinami náhodná.

2. Řešení problémů obousměrné analýzy rozptylu bez opakování

Microsoft Excel má funkci Anova: (Two-Factor Without Replication), která slouží k identifikaci faktu vlivu řízených faktorů. A a NA na efektivním atributu založeném na vzorových datech a každé úrovni faktorů A a NA odpovídá pouze jeden vzorek. Chcete-li tuto funkci vyvolat, vyberte příkaz na panelu nabídek Služba – Analýza dat. Na obrazovce se otevře okno. Analýza dat, ve kterém byste měli vybrat hodnotu Obousměrná analýza rozptylu bez opakování a klepněte na tlačítko OK. V důsledku toho se na obrazovce otevře dialogové okno zobrazené na obrázku 1.

78" height="42" bgcolor="white" style="border:.75pt plná černá; vertical-align:top;background:white">

2. Zaškrtávací políčko Popisky je nastaveno, pokud první řádek ve vstupním rozsahu obsahuje záhlaví sloupců. Pokud nejsou žádná záhlaví, zaškrtávací políčko by mělo být zrušeno. V tomto případě se pro data výstupního rozsahu automaticky vygenerují standardní názvy.

3. V poli Alfa se zadá přijatá hladina významnosti. α , což odpovídá pravděpodobnosti chyby prvního druhu.

4. Přepínač ve skupině Možnosti výstupu lze nastavit do jedné ze tří poloh: Rozsah výstupu, Nová vrstva listu nebo Nový sešit.

Příklad.

Obousměrná analýza rozptylu bez opakování(Anova: Two-Factor Without Replication) v následujícím příkladu.

Na obrázku. Obrázek 2 ukazuje výnos (c/ha) čtyř odrůd pšenice (čtyři úrovně faktoru A) dosažený s pěti typy hnojiv (pět úrovní faktoru B). Data byla získána z 20 ploch stejné velikosti a podobného půdního pokryvu. Potřeba definovat zda odrůda a druh hnojiva ovlivňuje výnos pšenice.

Obousměrná analýza rozptylu bez opakování jsou znázorněny na obrázku 3.

Jak je z výsledků patrné, vypočtená hodnota F-statistické hodnoty pro faktor A (typ hnojiva) FA= l,67 , a kritickou oblast tvoří pravý interval (3,49; +∞). Tak jako FA= l,67 nespadá do kritické oblasti, hypotéza HA: A 1 = A 2 + = ak přijmout, tj. věříme, že v tomto experimentu druh hnojiva neměl na výnos žádný vliv.

Odhadovaná hodnota F-statistiky pro faktor B (odrůda pšenice) FNA =2,03 , a kritickou oblast tvoří pravý interval (3,259;+∞).

Tak jako FNA=2,03 nespadá do kritické oblasti, hypotéza HB: b1 = b2 = ... = bm

také přijmout, t. j. věříme, že v tomto V pokusu odrůda pšenice také neovlivnila výnos.

2. Obousměrná analýza rozptyluCopakování

Microsoft Excel má funkci Anova: Two-Factor With Replication, která se také používá k určení, zda kontrolované faktory A a B ovlivňují výkonnostní rys na základě vzorových dat, každá úroveň jednoho z faktorů A (nebo B) však odpovídá více než jednomu datovému vzorku.

Zvažte použití funkce Obousměrná analýza rozptylu s opakováním na dalším příkladu.

Příklad 2. ve stole. Obrázek 6 ukazuje denní přírůstek hmotnosti (g) 18 selat odebraných pro studii v závislosti na způsobu chovu selat (faktor A) a kvalitě jejich krmení (faktor B).

75" height="33" bgcolor="white" style="border:.75pt plná černá; vertical-align:top;background:white">

Toto dialogové okno nastavuje následující možnosti.

1. Do pole Vstupní rozsah zadejte odkaz na rozsah buněk obsahujících analyzovaná data. Vyberte buňky z G 4 před 13.

2. V poli Řádky na vzorek definujte počet vzorků pro každou úroveň jednoho z faktorů. Každá úroveň faktoru musí obsahovat stejný počet vzorků (řádků tabulky). V našem případě je počet řádků tři.

3. Do pole Alfa zadejte přijatelnou hodnotu hladiny významnosti α , což se rovná pravděpodobnosti chyby I. typu.

4. Přepínač ve skupině Možnosti výstupu lze nastavit do jedné ze tří poloh: Rozsah výstupu (Výstupní interval), Nová vrstva listu (Nový list) nebo Nový sešit (Nový sešit).

Výsledky obousměrné analýzy rozptylu pomocí funkce Obousměrná analýza rozptylu s významnými opakováními. Vzhledem k tomu že interakce těchto faktorů je nevýznamná (na úrovni 5 %).

Domácí práce

1. Během šesti let bylo k pěstování plodin použito pět různých technologií. Experimentální údaje (v c/ha) jsou uvedeny v tabulce:

https://pandia.ru/text/78/446/images/image024_11.jpg" width="642" height="190 src=">

Na hladině významnosti α = 0,05 je potřeba stanovit závislost výroby vysoce kvalitních dlaždic na výrobní lince (faktor A).

3. K dispozici jsou následující údaje o výnosu čtyř odrůd pšenice na přidělených pěti pozemcích (blocích):

https://pandia.ru/text/78/446/images/image026_9.jpg" width="598" height="165 src=">

Pro zjištění vlivu na produktivitu práce technologií (faktor A) a podniků (faktor B) je potřeba na hladině významnosti α = 0,05.

Jednofaktorový disperzní model má formu

kde xjj- hodnota zkoumané proměnné, získaná dne z-úroveň faktor (r = 1, 2,..., t) su-té sériové číslo (j- 1,2,..., P);/y - účinek vlivem i-té úrovně faktoru; e^. - náhodná složka, nebo porucha způsobená vlivem neovlivnitelných faktorů, tzn. variace proměnné v rámci jedné úrovně.

Pod úroveň faktoru rozumí se některá jeho míra nebo stav, například množství aplikovaných hnojiv, druh tavby kovu nebo počet dílů atd.

Základní předpoklady pro analýzu rozptylu.

1. Matematické očekávání poruch ? (/ - je nula pro jakékoli i, těch.

  • 2. Poruchy jsou vzájemně nezávislé.
  • 3. Rozptyl perturbace (nebo proměnné Xu) je konstantní pro jakékoli ij> těch.

4. Porucha e# (nebo proměnná Xu) má normální distribuční zákon N( 0; a 2).

Vliv úrovní faktorů může být jako pevný nebo systematický(model I) a náhodný(model II).

Nechť je např. potřeba zjistit, zda jsou mezi šaržemi výrobků významné rozdíly z hlediska nějakého ukazatele kvality, tzn. zkontrolovat dopad na kvalitu jednoho faktoru – šarže produktů. Pokud jsou do studie zahrnuty všechny šarže surovin, pak je vliv úrovně takového faktoru systematický (model I) a poznatky jsou aplikovatelné pouze na ty jednotlivé šarže, které byly do studie zapojeny; pokud je zahrnuta pouze náhodně vybraná část dávek, pak je vliv faktoru náhodný (model II). V multifaktoriálních komplexech je možný smíšený model III, ve kterém mají některé faktory náhodné úrovně, zatímco jiné jsou pevné.

Zvažme tento problém podrobněji. Nech to být tšarží výrobků. Z každé šarže podle toho vybráno p L, p 2 ,p t produkty (pro zjednodušení předpokládáme, že u = n 2 =... = n t = n). Hodnoty indexu kvality těchto produktů reprezentujeme ve formě matice pozorování


Je třeba prověřit význam vlivu šarží výrobků na jejich kvalitu.

Pokud předpokládáme, že prvky řádků matice pozorování jsou číselné hodnoty (realizace) náhodné proměnné Xt, X 2 ,..., x t, vyjadřující kvalitu výrobků a mající normální distribuční zákon s matematickými očekáváními, resp a v a 2, ..., na a stejné disperze a2, pak daný úkol přichází na řadu testování nulové hypotézy #0: a v = a 2l = ... = A t, provedené v analýze rozptylu.

Zprůměrování přes nějaký index označme hvězdičkou (nebo tečkou) místo indexu, pak průměrný index kvality výrobků i-té šarže, popř. skupinový průměr pro i-tou úroveň faktoru má tvar

A celkový průměr -

Uvažujme součet čtverců odchylek pozorování od celkového průměru xn:

nebo Q= Q+ Q2+ ?>з Poslední termín

protože součet odchylek hodnot proměnné od jejího průměru, tzn. ? 1.g y - x) se rovná nule. ) =x

První termín lze napsat jako

V důsledku toho získáme následující identitu:

t p. _

kde Q=Y X [ x ij _ x ", já 2 - Všeobecné, nebo kompletní, součet čtverců odchylek; 7=1

Q, -n^)



chyba: Obsah je chráněn!!