Odaberite Stranica

Analiza faktora i varijanse u Excelu sa automatizovanim proračunima. Jednosmjerna ANOVA

Analiza varijanse

1. Koncept analize varijanse

Analiza varijanse je analiza varijabilnosti osobine pod uticajem bilo kojeg kontrolisanog varijabilnog faktora. U stranoj literaturi analiza varijansečesto se naziva ANOVA, što u prevodu znači Analiza varijanse.

ANOVA problem sastoji se u izolovanju varijabilnosti različite vrste od opšte varijabilnosti osobine:

a) varijabilnost zbog djelovanja svake od nezavisnih varijabli koje se proučavaju;

b) varijabilnost zbog interakcije nezavisnih varijabli koje se proučavaju;

c) slučajna varijabilnost zbog svih ostalih nepoznatih varijabli.

Varijabilnost zbog djelovanja varijabli koje se proučavaju i njihove interakcije je u korelaciji sa slučajnom varijabilnošću. Pokazatelj ovog odnosa je Fišerov F test.

Formula za izračunavanje F kriterija uključuje procjene varijansi, odnosno parametara distribucije karakteristike, stoga je F kriterij parametarski kriterij.

Što je varijabilnost osobine više uzrokovana varijablama (faktorima) koje se proučavaju ili njihovom interakcijom, to je veća vrijednosti empirijskih kriterija.

Zero hipoteza u analizi varijanse će reći da su prosječne vrijednosti proučavane efektivne karakteristike iste u svim gradacijama.

Alternativa hipoteza će reći da su prosječne vrijednosti rezultirajuće karakteristike u različitim gradacijama faktora koji se proučavaju različite.

Analiza varijanse nam omogućava da navedemo promjenu karakteristike, ali ne ukazuje smjer ove promjene.

Počnimo naše razmatranje analize varijanse s najjednostavnijim slučajem, kada proučavamo samo djelovanje jedan varijabla (jedan faktor).

2. Jednosmjerna analiza varijanse za nepovezane uzorke

2.1. Svrha metode

Metoda jednofaktorske analize varijanse koristi se u slučajevima kada se proučavaju promjene efektivne karakteristike pod utjecajem promjenjivih uslova ili gradacija faktora. U ovoj verziji metode, uticaj svake od gradacija faktora je drugačije uzorci subjekata. Moraju postojati najmanje tri gradacije faktora. (Možda postoje dvije gradacije, ali u ovom slučaju nećemo moći uspostaviti nelinearne zavisnosti i čini se da je razumnije koristiti jednostavnije).

Neparametrijska verzija ove vrste analize je Kruskal-Wallis H test.

Hipoteze

H 0: Razlike između faktorskih ocjena (različiti uvjeti) nisu veće od slučajnih razlika unutar svake grupe.

H 1: Razlike između faktorskih ocjena (različiti uvjeti) veće su od slučajnih razlika unutar svake grupe.

2.2. Ograničenja jednosmjerne analize varijanse za nepovezane uzorke

1. Jednosmjerna analiza varijanse zahtijeva najmanje tri gradacije faktora i najmanje dva predmeta u svakoj gradaciji.

2. Rezultirajuća karakteristika mora biti normalno raspoređena u uzorku koji se proučava.

Istina, obično nije naznačeno da li je riječ o raspodjeli karakteristike u cijelom ispitivanom uzorku ili u onom njegovom dijelu koji čini kompleks disperzije.

3. Primjer rješavanja problema metodom jednosmjerne analize varijanse za nepovezane uzorke na primjeru:

Tri različite grupe od šest ispitanika dobile su liste od deset riječi. Prvoj grupi riječi su predstavljene malom brzinom - 1 riječ u 5 sekundi, drugoj grupi prosječnom brzinom - 1 riječ u 2 sekunde, a trećoj grupi velikom brzinom - 1 riječ u sekundi. Predviđeno je da će performanse reprodukcije zavisiti od brzine prezentacije reči. Rezultati su prikazani u tabeli. 1.

Broj reproduciranih riječi Tabela 1

Predmet br.

mala brzina

prosječna brzina

velike brzine

Ukupan iznos

H 0: Razlike u rasponu proizvodnje riječi između grupe nisu izraženije od slučajnih razlika unutra svaka grupa.

H1: Razlike u obimu proizvodnje riječi između grupe su izraženije od slučajnih razlika unutra svaka grupa. Koristeći eksperimentalne vrijednosti prikazane u tabeli. 1, ustanovit ćemo neke vrijednosti koje će biti potrebne za izračunavanje F kriterija.

Izračun glavnih veličina za jednosmjernu analizu varijanse prikazan je u tabeli:

Tabela 2

Tabela 3

Redoslijed operacija u jednosmjernoj analizi varijanse za nepovezane uzorke

Često se nalazi u ovoj i kasnijim tabelama, oznaka SS je skraćenica za "zbir kvadrata". Ova skraćenica se najčešće koristi u prevedenim izvorima.

SS činjenica označava varijabilnost karakteristike zbog djelovanja faktora koji se proučava;

SS općenito- opšta varijabilnost osobine;

S C.A.-varijabilnost zbog neuračunatih faktora, “slučajne” ili “rezidualne” varijabilnosti.

MS- “srednji kvadrat” ili matematičko očekivanje zbira kvadrata, prosječne vrijednosti odgovarajućeg SS.

df - broj stepena slobode, koji smo, uzimajući u obzir neparametarske kriterijume, označili grčkim slovom v.

Zaključak: H 0 je odbijen. H 1 je prihvaćen. Razlike u pamćenju riječi između grupa bile su veće od slučajnih razlika unutar svake grupe (α=0,05). Dakle, brzina prezentacije riječi utječe na volumen njihove reprodukcije.

U nastavku je prikazan primjer rješavanja problema u Excelu:

Početni podaci:

Koristeći naredbu: Alati->Analiza podataka->Jednosmjerna ANOVA, dobijamo sljedeće rezultate:

Ova tema će pokriti samo jednosmjernu analizu varijanse koja se koristi za nepovezane uzorke. Radeći kao osnovni koncept varijanse, ova analiza se zasniva na izračunavanju varijansi tri tipa:

Ukupna varijansa izračunata iz cjelokupnog skupa eksperimentalnih podataka;

Intragrupna varijansa, koja karakteriše varijabilnost osobine u svakom uzorku;

Međugrupna varijansa koja karakteriše varijabilnost grupnih srednjih vrednosti.

Glavna tačka analize varijanse je: totalna varijansa jednak zbroju varijansi unutar grupe i između grupa.

Ova pozicija se može napisati kao jednačina:

Gdje x ij- vrijednosti svih varijabli dobijenih u eksperimentu; dok je indeks j varira od 1 to r, Gdje r- broj uzoraka koji se porede, može biti tri ili više; index i odgovara broju elemenata u uzorku (mogu biti dva ili više);

Ukupan prosjek cjelokupnog analiziranog skupa podataka;

Prosjek j uzorci;

N-ukupan broj svi elementi u analiziranom skupu eksperimentalnih podataka;

r- broj eksperimentalnih uzoraka.

Analizirajmo ovu jednačinu detaljnije.

Pusti nas r grupe (uzorci). U analizi varijanse, svaki uzorak je predstavljen kao jedna kolona (ili red) brojeva. Zatim, da bi se moglo ukazivati ​​na određenu grupu (uzorak), uvodi se indeks j, što se shodno tome razlikuje od j= 1 do j= r. Na primjer, ako imamo 5 grupa (uzoraka), onda je p=5 i indeks j u skladu s tim varira od j= 1 to j= 5.

Suočimo se sa zadatkom da naznačimo određeni element (mjernu vrijednost) uzorka. Da bismo to učinili, moramo znati broj ovog uzorka, na primjer 4, i lokaciju elementa (mjerene vrijednosti) u ovom uzorku. Ovaj element se može nalaziti u selekciji počevši od prve vrijednosti (prvi red) do posljednje (zadnji red). Neka se naš željeni element nalazi u petoj liniji. Tada će njegovo značenje biti: x 54. To znači da je odabran peti element u redu iz četvrtog izbora.

IN opšti slučaj u svakoj grupi (uzorku) broj njenih sastavnih elemenata može biti različit - stoga označavamo broj elemenata u j grupa (uzorak) preko n j. Vrijednosti karakteristike dobijene u eksperimentu u j označite grupu sa xij, Gdje i= 1, 2, ... n - redni broj zapažanja u j grupa.

Preporučljivo je provesti dalje rezonovanje na osnovu tabele 35. Imajte na umu, međutim, da su zbog pogodnosti daljeg zaključivanja uzorci u ovoj tabeli predstavljeni ne kao kolone, već kao redovi (što, međutim, nije važno).

Posljednji, posljednji red tabele daje: ukupni volumen cijelog uzorka - N, zbir svih dobijenih vrijednosti G i ukupni prosjek cijelog uzorka. Ovaj ukupni prosjek se dobija kao zbir svih elemenata analiziranog skupa eksperimentalnih podataka, koji su gore označeni kao G, podijeljen sa brojem svih elemenata N.


Krajnja desna kolona tabele prikazuje prosječne vrijednosti za sve uzorke. Na primjer, u j uzorak (linija tabele označena simbolom j), prosječna vrijednost (preko cijelog j uzorka) je sljedeća:

Analiza varijanse vam omogućava da ispitate razlike između grupa podataka, utvrđujući da li su te razlike slučajne ili uzrokovane specifičnim okolnostima. Na primjer, ako je prodaja kompanije u jednoj od regija smanjena, onda pomoću analize varijanse možete saznati da li je smanjenje prometa u ovoj regiji nasumično u odnosu na ostale i, ako je potrebno, napraviti organizacione promene. Prilikom izvođenja eksperimenta u različitim uslovima analiza varijanse će pomoći da se utvrdi koliko vanjski faktori utiču na mjerenja, ili da li su odstupanja slučajna. Ako se u proizvodnji mijenja režim procesa kako bi se poboljšao kvalitet proizvoda, onda nam analiza varijanse omogućava procjenu rezultata utjecaja ovog faktora.

Na ovome primjer pokazaćemo kako se izvodi ANOVA na eksperimentalnim podacima.

Zadatak 1. Postoje četiri serije sirovina za tekstilnu industriju. Odabrano je pet uzoraka iz svake serije i testirano kako bi se odredilo opterećenje lomljenja. Rezultati ispitivanja su prikazani u tabeli.

71" height="29" bgcolor="white" style="border:.75pt puna crna; vertical-align:top;background:white">

Fig.1


> Otvorite Microsoft Excel tabelu. Kliknite na prečicu Sheet2 da biste prešli na drugi radni list.

> Unesite ANOVA podatke prikazane na slici 1.

> Pretvorite podatke u brojeve. Da biste to učinili, odaberite naredbu menija Format Cell. Na ekranu će se pojaviti prozor formata ćelije (slika 2). Odaberite Format broja i uneseni podaci će biti konvertovani u obrazac prikazan na sl. 3

> Odaberite naredbu menija Alati Analiza podataka (Alati * Analiza podataka). Na ekranu će se pojaviti prozor Analiza podataka (Analiza podataka) (slika 4).

> Kliknite na liniju Jednosmjerna analiza varijanse (Anova: Single Factor) na listi Analysis Tools (Anova: Single Factor).

> Kliknite OK da zatvorite prozor Analiza podataka (Analiza podataka). Jednosmjerna ANOVA prozor će se pojaviti na ekranu kako bi se izvršila analiza varijanse podataka (slika 5).

https://pandia.ru/text/78/446/images/image006_46.jpg" width="311" height="214 src=">

Fig.5

> Ako je u grupi kontrola Ulazni podaci(Input) Prekidač po redovima nije podešen, a zatim ga postavite tako da Excel program percipira grupe podataka po redovima - paketima.

> Instaliraj Oznake potvrdni okvir u prvom redu (Oznake u Prvom Rom-u) u kontrolnoj grupi Unos ako prva kolona odabranog raspona podataka sadrži nazive redova.

>U polju za unos Alpha(A1rha) grupa kontrola Ulazni podaci podrazumevano prikazuju vrednost od 0,05, koja je povezana sa verovatnoćom greške u analizi varijanse.

> Ako prekidač Nev Worksheet Ply nije odabran u grupi kontrola ulaznih opcija, odaberite ga da postavite rezultate ANOVA na novi radni list

> Kliknite OK da zatvorite prozor Analiza varijanse jednog faktora (Anova: Single Factor). Rezultati analize varijanse će se pojaviti na novom radnom listu (slika 6).

Opseg ćelija A4:E6 sadrži rezultate deskriptivne statistike. Red 4 sadrži nazive parametara, a redovi sadrže statističke vrijednosti izračunate po paketu.

U koloni Provjeri(Broj) nalazi se broj mjerenja, u koloni Zbir - zbir vrijednosti, u koloni Prosjek (Prosjek) - srednje aritmetičke vrijednosti, u koloni Varijanca - disperzije.

Dobiveni rezultati pokazuju da je najveće prosječno prekidno opterećenje u šarži br. 3, i najveća varijansa prekidno opterećenje – u seriji br.

U nizu ćelija A11:G16 prikazuju se informacije o značaju neslaganja između grupa podataka. U redu 12 nalaze se nazivi analize parametara varijanse, u redu 13 nalaze se rezultati međugrupne obrade, u redu 14 nalaze se rezultati unutargrupne obrade, a u redu 16 su zbroji vrijednosti navedena dva reda.

U koloni SS (Qi) Locirane su vrijednosti varijacije, odnosno zbir kvadrata svih odstupanja. Varijacija, poput disperzije, karakterizira širenje podataka. Iz tabele se može vidjeti da je međugrupna varijacija u prekidnom opterećenju znatno veća od unutargrupne varijacije.

U koloni df (k) nalaze se vrijednosti brojeva stupnjeva slobode. Ovi brojevi označavaju broj nezavisnih odstupanja od kojih će se izračunati varijansa. Na primjer, međugrupni broj stupnjeva slobode jednak je razlici između broja grupa podataka i jedan. Što je veći broj stupnjeva slobode, veća je pouzdanost parametara disperzije. Podaci o stupnjevima slobode u tabeli pokazuju da je pouzdanost veća za parametre unutar grupe nego za parametre između grupa.

U koloni MS (S2 ) nalaze se vrijednosti disperzije koje su određene omjerom varijacije i brojem stupnjeva slobode. Disperzija karakteriše stepen rasipanja podataka, ali za razliku od veličine varijacije, ona nema direktnu tendenciju povećanja sa povećanjem broja stepeni slobode. Iz tabele je to jasno varijansa između grupa značajno veća varijansa unutar grupe.

U koloni F lociran, značenje F-statistika, izračunato omjerom varijansi između grupe i unutar grupe.

U koloni Fkritičan(F crit) nalazi se F-kritična vrijednost, izračunata iz broja stupnjeva slobode i vrijednosti Alpha (A1rha). F-statistika i F-kritična vrijednost koriste test Fisher-Snedecora.

Ako je F-statistika veća od F-kritične vrijednosti, onda se može tvrditi da razlike između grupa podataka nisu slučajne. odnosno na nivou značaja α = 0,05 (sa pouzdanošću od 0,95) nulta hipoteza se odbacuje i alternativa se prihvata: razlika između serija sirovina ima značajan uticaj na veličinu prelomnog opterećenja.

Kolona P-vrijednosti sadrži vjerovatnoću da je neslaganje između grupa posljedica slučajnosti. Budući da je ova vjerovatnoća u tabeli vrlo mala, odstupanje između grupa nije slučajno.

2. Rješavanje problema dvofaktorske analize varijanse bez ponavljanja

Microsoft Excel ima funkciju Anova: (dva faktora bez replikacije), koja se koristi za identifikaciju utjecaja kontroliranih faktora A I IN na efektivnoj karakteristici zasnovanoj na podacima uzorka, i za svaki nivo faktora A I IN samo jedan uzorak odgovara. Da biste pozvali ovu funkciju, izaberite komandu na traci menija Usluga – Analiza podataka. Na ekranu će se otvoriti prozor Analiza podataka, u kojem biste trebali odabrati vrijednost Dvosmjerna ANOVA bez ponavljanja i kliknite na dugme OK. Kao rezultat, na ekranu će se otvoriti dijaloški okvir prikazan na slici 1.

78" height="42" bgcolor="white" style="border:.75pt puna crna; vertical-align:top;background:white">

2. Polje za potvrdu opcije Oznake je odabrano ako prvi red u rasponu unosa sadrži naslove kolona. Ako nema zaglavlja, potvrdni okvir treba poništiti. U ovom slučaju, standardni nazivi će se automatski kreirati za podatke o opsegu izlaza.

3. Unesite prihvaćeni nivo značaja u Alfa polje α , što odgovara vjerovatnoći pojave greške tipa I.

4. Prekidač u grupi Output options može biti postavljen na jednu od tri pozicije: Output Range, New Worksheet Ply, ili New Workbook.

Primjer.

Dvosmjerna ANOVA bez ponavljanja(Anova: Dvofaktor bez replikacije) koristeći sljedeći primjer.

Na slici. U tabeli 2 prikazani su podaci o prinosu (centner/ha) četiri sorte pšenice (četiri nivoa faktora A), ostvarenom upotrebom pet vrsta đubriva (pet nivoa faktora B). Podaci su dobijeni sa 20 parcela iste veličine i sličnog zemljišnog pokrivača. Treba utvrditi da li sorta i vrsta đubriva utiču na prinos pšenice.

Dvosmjerna ANOVA bez ponavljanja prikazani su na slici 3.

Kao što se može vidjeti iz rezultata, izračunata vrijednost F-statistike za faktor A (vrsta gnojiva) FA= l,67 , a kritično područje formira desni interval (3.49; +∞). Jer FA= l,67 ne spada u kritično područje, hipoteza HA: a 1 = a 2 + = ak prihvatamo, tj. vjerujemo da u ovom eksperimentu vrsta đubriva nije uticala na prinos.

Izračunata vrijednost F-statistike za faktor B (sorta pšenice) FIN =2,03 , a kritično područje formira desni interval (3,259;+∞).

Jer FIN=2,03 ne spada u kritično područje, hipoteza NV: b1 = b2 = ... = bm

takođe prihvatamo, odnosno verujemo da u ovo U ogledu ni sorta pšenice nije imala uticaj na prinos.

2. Dvofaktorska analiza varijansecponavljanja

Microsoft Excel ima funkciju Anova: Two-Factor With Replication, koja se takođe koristi za identifikaciju uticaja kontrolisanih faktora A i B na rezultujuću karakteristiku na osnovu podataka uzorka, međutim, svaki nivo jednog od faktora A (ili B) odgovara više od jednog uzorka podataka.

Razmislite o korištenju funkcije Dvosmjerna ANOVA sa ponavljanjima koristeći sljedeći primjer.

Primjer 2. U tabeli. U tabeli 6 prikazan je dnevni prirast (g) 18 prasadi prikupljenih za ispitivanje, u zavisnosti od načina držanja prasadi (faktor A) i kvaliteta njihove ishrane (faktor B).

75" height="33" bgcolor="white" style="border:.75pt puna crna; vertical-align:top;background:white">

Ovaj dijaloški okvir vam omogućava da postavite sljedeće opcije.

1. U polje Opseg unosa unesite vezu do raspona ćelija koje sadrže podatke koji se analiziraju. Morate odabrati ćelije iz G 4 to I 13.

2. U polju Redovi po uzorku određuje se broj uzoraka koji pada na svaki nivo jednog od faktora. Svaki nivo faktora mora sadržavati isti broj uzoraka (redova tabele). U našem slučaju, broj redova je tri.

3. U polje Alfa unesite prihvaćenu vrijednost nivoa značajnosti α , što je jednako vjerovatnoći pojave greške tipa I.

4. Prekidač u grupi Output options može biti postavljen na jednu od tri pozicije: Output Range, New Worksheet Ply, ili New Workbook.

Rezultati dvosmjerne ANOVA pomoću funkcije Dvofaktorska analiza varijanse sa značajnim ponavljanjima. Zbog činjenice da interakcija ovih faktora je neznatna (na nivou od 5%).

Domaći zadatak

1. Tokom šest godina korišteno je pet različitih tehnologija uzgoja usjeva. Podaci o ogledu (u c/ha) dati su u tabeli:

https://pandia.ru/text/78/446/images/image024_11.jpg" width="642" height="190 src=">

Potrebno je utvrditi, na nivou značajnosti α = 0,05, ovisnost proizvodnje visokokvalitetnih pločica od proizvodne linije (faktor A).

3. Dostupni su sljedeći podaci o prinosu četiri sorte pšenice na dodijeljenih pet parcela (blokova):

https://pandia.ru/text/78/446/images/image026_9.jpg" width="598" height="165 src=">

Potrebno je utvrditi uticaj tehnologija (faktor A) i preduzeća (faktor B) na produktivnost rada na nivou značajnosti α = 0,05.

Jednofaktorski model varijance izgleda kao

Gdje Xjj- vrijednost varijable koja se proučava dobijena na g-nivo faktor (r = 1, 2,..., T) su-ti serijski broj (j- 1,2,..., p);/y - efekat usled uticaja i-tog nivoa faktora; e^. - slučajna komponenta, odnosno poremećaj uzrokovan uticajem nekontrolisanih faktora, tj. varijacija varijable unutar individualnog nivoa.

Ispod nivo faktora odnosi se na neku njegovu meru ili stanje, na primer, količinu primenjenog đubriva, vrstu topljenja metala ili serijski broj delova, itd.

Osnovne premise analize varijanse.

1. Matematičko očekivanje poremećaja ? (/ - jednaka je nuli za bilo koje i, one.

  • 2. Poremećaji su međusobno nezavisni.
  • 3. Disperzija smetnje (ili varijable Xy) je konstantna za bilo koji ij> one.

4. Poremećaj e# (ili varijabla Xy) ima normalan zakon raspodjele N( 0; a 2).

Uticaj nivoa faktora može biti sličan fiksno, ili sistematski(model I), i nasumično(model II).

Neka, na primjer, treba utvrditi da li postoje značajne razlike između serija proizvoda prema nekom pokazatelju kvaliteta, tj. provjeriti utjecaj na kvalitetu jednog faktora - serije proizvoda. Ako u studiju uključimo sve serije sirovina, onda je uticaj nivoa takvog faktora sistematičan (model I), a dobijeni zaključci su primenljivi samo na one pojedinačne serije koje su bile uključene u istraživanje; ako uključimo samo slučajno odabrani dio stranaka, onda je utjecaj faktora slučajan (model II). U multifaktorskim kompleksima moguć je mješoviti model III, u kojem neki faktori imaju nasumične nivoe, dok drugi imaju fiksne nivoe.

Razmotrimo ovaj zadatak detaljnije. Neka bude T serije proizvoda. Odabrano iz svake serije u skladu s tim p L, p 2 ,p t proizvoda (radi jednostavnosti pretpostavljamo da u = n 2 =... = p t = p). Vrijednosti pokazatelja kvalitete ovih proizvoda prikazujemo u obliku matrice promatranja


Potrebno je provjeriti značaj uticaja serija proizvoda na njihov kvalitet.

Ako pretpostavimo da su elementi redova matrice posmatranja numeričke vrijednosti (realizacije) slučajne varijable X t , X 2 ,..., X t, izražavaju kvalitet proizvoda i imaju normalan zakon distribucije sa matematičkim očekivanjima, respektivno a v a 2, ..., a t i identične varijanse a 2, onda ovaj zadatak svodi se na testiranje nulte hipoteze #0: a v = a 2l = ... = A t, provedeno u analizi varijanse.

Označimo prosjek bilo kojim indeksom sa zvjezdicom (ili tačkom) umjesto indeksa, zatim prosječnim pokazateljem kvaliteta proizvoda i-te serije, ili prosek grupe za i-ti nivo faktora, poprima oblik

A ukupan prosek -

Razmotrimo zbir kvadrata odstupanja opažanja od ukupnog prosjeka x„:

ili Q= Q, + P 2+ ?>z Poslednji mandat

budući da je zbir odstupanja vrijednosti varijable od njenog prosjeka, tj. ? 1.g y - x) jednako je nuli. ) =x

Prvi pojam se može napisati u obliku

Kao rezultat, dobijamo sljedeći identitet:

itd. _

Gdje Q = Y, X [ x ij _ x„, I 2 - general, ili puna, zbir kvadrata odstupanja; 7=1

Q, -n^)



greška: Sadržaj zaštićen!!