Odaberite Stranica

Analiza disperzije. Jednosmjerna analiza varijanse

Svi ljudi prirodno traže znanje. (Aristotel. Metafizika)

Analiza varijanse

Uvodni pregled

U ovom dijelu ćemo pregledati osnovne metode, pretpostavke i terminologiju ANOVA-e.

Imajte na umu da u engleskoj literaturi analiza varijanse obično se naziva analiza varijacija. Stoga, radi sažetosti, u nastavku ćemo ponekad koristiti termin ANOVA (An alysis o f va rijacija) za konvencionalnu ANOVA-u i termin MANOVA za multivarijantnu analizu varijanse. U ovom dijelu ćemo uzastopno razmotriti glavne ideje analize varijanse ( ANOVA), analiza kovarijanse ( ANCOVA), multivarijantna analiza varijanse ( MANOVA) i multivarijantna kovarijantna analiza ( MANCOVA). Nakon kratke rasprave o prednostima kontrastne analize i post hoc testova, pogledajmo pretpostavke na kojima su zasnovane ANOVA metode. Na kraju ovog odjeljka objašnjene su prednosti multivarijantnog pristupa za analizu ponovljenih mjera u odnosu na tradicionalni jednodimenzionalni pristup.

Ključne ideje

Svrha analize varijanse. Glavna svrha analize varijanse je proučavanje značajnosti razlike između srednjih vrijednosti. Poglavlje (Poglavlje 8) daje kratak uvod u studiju statistički značaj. Ako samo uspoređujete srednje vrijednosti dva uzorka, analiza varijanse će dati isti rezultat kao i normalna analiza. t- kriterijum za nezavisne uzorke (ako se porede dve nezavisne grupe objekata ili posmatranja), ili t- kriterijum za zavisne uzorke (ako se dve varijable porede na istom skupu objekata ili posmatranja). Ukoliko niste upoznati s ovim kriterijima, preporučujemo da pogledate uvodni pregled poglavlja (poglavlje 9).

Odakle je došlo ime Analiza varijanse? Može izgledati čudno da se postupak za poređenje srednjih vrijednosti naziva analiza varijanse. U stvari, to je zbog činjenice da kada ispitujemo statističku značajnost razlike između srednjih vrijednosti, mi zapravo analiziramo varijanse.

Dijeljenje zbira kvadrata

Za veličinu uzorka od n, varijansa uzorka se izračunava kao zbir kvadrata odstupanja od srednje vrijednosti uzorka podijeljen sa n-1 (veličina uzorka minus jedan). Dakle, za fiksnu veličinu uzorka n, varijansa je funkcija zbira kvadrata (odstupanja), označena, radi kratkoće, SS(od engleskog Sum of Squares - Sum of Squares). Analiza varijanse se zasniva na podjeli (ili dijeljenju) varijanse na dijelove. Uzmite u obzir sljedeći skup podataka:

Srednja vrijednost dvije grupe značajno se razlikuje (2 i 6, respektivno). Zbir kvadrata odstupanja unutra svake grupe je 2. Ako ih saberemo, dobijamo 4. Ako sada ponovimo ove proračune isključujućičlanstvo u grupi, odnosno ako računamo SS na osnovu kombinovane srednje vrednosti dva uzorka, dobijamo 28. Drugim rečima, varijansa (zbir kvadrata) zasnovana na varijabilnosti unutar grupe rezultira mnogo manjim vrednostima nego kada se izračunava na osnovu ukupne varijabilnosti (u odnosu na ukupnu varijabilnost znači). Razlog tome je očito značajna razlika između srednjih vrijednosti, a ta razlika između srednjih vrijednosti objašnjava postojeću razliku između zbira kvadrata. Zaista, ako koristimo modul Analiza varijanse, dobiće se sljedeći rezultati:

Kao što se može vidjeti iz tabele, ukupan zbir kvadrata SS=28 podijeljeno na zbir kvadrata zbog unutargrupa varijabilnost ( 2+2=4 ; vidi drugi red tabele) i zbir kvadrata zbog razlike u srednjim vrednostima. (28-(2+2)=24; vidi prvi red tabele).

SS greške iSS efekat. Unutargrupna varijabilnost ( SS) se obično naziva varijansom greške. To znači da se obično ne može predvidjeti ili objasniti kada se eksperiment provodi. Na drugoj strani, SS efekat(ili međugrupna varijabilnost) može se objasniti razlikom između srednjih vrijednosti u ispitivanim grupama. Drugim riječima, pripadnost određenoj grupi objašnjava međugrupna varijabilnost, jer znamo da ove grupe imaju različita sredstva.

Provjera značaja. Glavne ideje testiranja statističke značajnosti razmatrane su u ovom poglavlju Elementarni koncepti statistike(poglavlje 8). Isto poglavlje objašnjava razloge zašto mnogi testovi koriste omjer objašnjene i neobjašnjive varijanse. Primjer ove upotrebe je sama analiza varijanse. Testiranje značajnosti u ANOVA bazira se na poređenju varijanse zbog varijacije između grupa (tzv. efekat srednjeg kvadrata ili GOSPOĐAEfekat) i disperzija zbog širenja unutar grupe (tzv srednja kvadratna greška ili GOSPOĐAgreška). Ako je nulta hipoteza tačna (jednakost srednjih vrijednosti u dvije populacije), onda možemo očekivati ​​relativno malu razliku u srednjim vrijednostima uzorka zbog slučajne varijabilnosti. Prema tome, pod nultom hipotezom, varijansa unutar grupe će se praktično podudarati sa ukupnom varijansom izračunatom bez uzimanja u obzir pripadnosti grupi. Rezultirajuće varijanse unutar grupe mogu se uporediti pomoću F- test koji provjerava da li je omjer varijansi značajno veći od 1. U gornjem primjeru, F- Test pokazuje da je razlika između srednjih vrijednosti statistički značajna.

Osnovna logika ANOVA. Sumirajući, možemo reći da je svrha analize varijanse testiranje statističke značajnosti razlike između srednjih vrijednosti (za grupe ili varijable). Ova provjera se provodi analizom varijanse, tj. dijeljenjem ukupne varijanse (varijacije) na dijelove, od kojih je jedan rezultat slučajne greške (tj. unutargrupna varijabilnost), a drugi je povezan s razlikom srednjih vrijednosti. Posljednja komponenta varijanse se tada koristi za analizu statističke značajnosti razlike između srednjih vrijednosti. Ako je ova razlika značajna, nulta hipoteza se odbacuje i prihvaća alternativna hipoteza da postoji razlika između srednjih vrijednosti.

Zavisne i nezavisne varijable. Varijable čije su vrijednosti određene mjerenjima tokom eksperimenta (na primjer, rezultat postignut na testu) nazivaju se zavisan varijable. Varijablama kojima se može manipulirati u eksperimentu (na primjer, metode obuke ili drugi kriteriji koji vam omogućavaju da zapažanja podijelite u grupe) nazivaju se faktori ili nezavisni varijable. Ovi koncepti su detaljnije opisani u poglavlju Elementarni koncepti statistike(poglavlje 8).

Multivarijantna analiza varijanse

U jednostavnom primjeru iznad, možete odmah izračunati t-test nezavisnog uzorka koristeći odgovarajuću opciju modula Osnovne statistike i tabele. Dobijeni rezultati se, naravno, poklapaju sa rezultatima analize varijanse. Međutim, analiza varijanse sadrži fleksibilnost i moć tehnička sredstva, koji se može koristiti za mnogo složenije studije.

Mnogo faktora. Svijet je inherentno složen i višedimenzionalan. Situacije u kojima se neka pojava u potpunosti opisuje jednom varijablom su izuzetno rijetke. Na primjer, ako pokušavamo naučiti kako uzgajati velike rajčice, trebamo uzeti u obzir faktore koji se odnose na genetsku strukturu biljaka, tip tla, svjetlost, temperaturu itd. Stoga, kada provodite tipičan eksperiment, morate se suočiti s velikim brojem faktora. Glavni razlog zašto je korištenje ANOVA poželjnije od ponovnog poređenja dva uzorka na različitim nivoima korištenja faktora t- Kriterijum je da je analiza varijanse više efektivno i, za male uzorke, informativniji.

Faktorsko upravljanje. Pretpostavimo da u primeru analize dva uzorka o kojoj smo gore govorili, dodamo još jedan faktor, na primjer, Kat- Rod. Neka se svaka grupa sastoji od 3 muškarca i 3 žene. Dizajn ovog eksperimenta može se predstaviti u obliku tabele 2x2:

Eksperimentiraj. Grupa 1 Eksperimentiraj. Grupa 2
Muškarci2 6
3 7
1 5
Prosjek2 6
Žene4 8
5 9
3 7
Prosjek4 8

Prije nego što izvršite izračune, možete vidjeti da u ovom primjeru ukupna varijansa ima najmanje tri izvora:

(1) slučajna greška (unutar grupne varijanse),

(2) varijabilnost povezana sa članstvom u eksperimentalnoj grupi, i

(3) varijabilnost u zavisnosti od pola posmatranih objekata.

(Imajte na umu da postoji još jedan mogući izvor varijabilnosti - interakcija faktora, o čemu ćemo kasnije raspravljati). Šta se dešava ako ne uključimo spratspol kao faktor u analizi i izračunajte uobičajeno t-kriterijum? Ako izračunamo sume kvadrata, zanemarimo sprat -spol(tj. kombinovanje objekata različitog pola u jednu grupu prilikom izračunavanja varijanse unutar grupe, uz dobijanje sume kvadrata za svaku grupu jednaku SS=10, i ukupan zbir kvadrata SS= 10+10 = 20), tada dobijamo veću vrijednost unutargrupne disperzije nego u preciznijoj analizi sa dodatnom podjelom na podgrupe prema polu- spol(u ovom slučaju, unutargrupna sredina će biti jednaka 2, a ukupni zbir kvadrata unutar grupe će biti jednak SS = 2+2+2+2 = 8). Ova razlika je zbog činjenice da je srednja vrijednost za muškarci - mužjaci manje od prosjeka za žene -žensko, a ova razlika u srednjim vrijednostima povećava ukupnu varijabilnost unutar grupe ako se spol ne uzme u obzir. Kontrola varijanse greške povećava osjetljivost (snagu) testa.

Ovaj primjer pokazuje još jednu prednost analize varijanse u odnosu na konvencionalnu analizu. t-kriterijum za dva uzorka. Analiza varijanse vam omogućava da proučavate svaki faktor kontrolirajući vrijednosti drugih faktora. To je, zapravo, glavni razlog njegove veće statističke moći (za dobijanje smislenih rezultata potrebne su manje veličine uzorka). Iz tog razloga analiza varijanse, čak i na malim uzorcima, daje statistički značajnije rezultate od jednostavne. t- kriterijum.

Efekti interakcije

Postoji još jedna prednost upotrebe ANOVA u odnosu na konvencionalnu analizu. t- kriterij: analiza varijanse vam omogućava da otkrijete interakcija između faktora i stoga omogućava proučavanje složenijih modela. Za ilustraciju, razmotrite još jedan primjer.

Glavni efekti, parne (dvofaktorske) interakcije. Pretpostavimo da postoje dvije grupe učenika, a psihološki su učenici prve grupe prilagođeni ispunjavanju postavljenih zadataka i svrsishodniji su od učenika druge grupe koju čine lijeniji učenici. Podijelimo svaku grupu nasumično na pola i ponudimo jednoj polovini svake grupe težak zadatak, a drugoj lakši zadatak. Nakon toga mjerimo koliko učenici marljivo rade na ovim zadacima. Prosjeci za ovu (fiktivnu) studiju prikazani su u tabeli:

Kakav zaključak se može izvući iz ovih rezultata? Da li je moguće zaključiti da: (1) učenici više rade na teškom zadatku; (2) da li motivirani učenici rade više od lijenih? Nijedna od ovih tvrdnji ne odražava suštinu sistematske prirode prosjeka datih u tabeli. Analizirajući rezultate, ispravnije bi bilo reći da samo motivirani učenici više rade na složenim zadacima, dok samo lijeni učenici više rade na lakim zadacima. Drugim riječima, priroda učenika i složenost zadatka interakciju jedni druge utiču na količinu potrebnog napora. Ovo je primjer interakcija u paru između prirode učenika i složenosti zadatka. Imajte na umu da izjave 1 i 2 opisuju glavni efekti.

Interakcije viših redova. Dok je interakcije u paru relativno lako objasniti, interakcije višeg reda je mnogo teže objasniti. Zamislimo da je u prethodno razmatranom primjeru uveden još jedan faktor sprat -Rod i dobili smo sljedeću tabelu prosjeka:

Koji se zaključci sada mogu izvući iz dobijenih rezultata? Prosječni zapleti olakšavaju tumačenje složenih efekata. Modul analize varijanse vam omogućava da napravite ove grafikone gotovo jednim klikom.

Slika na grafikonima ispod predstavlja trosmjernu interakciju koja se proučava.

Gledajući grafikone, možemo zaključiti da postoji interakcija između prirode i težine testa za žene: motivirane žene više rade na teškom zadatku nego na lakom. Kod muškaraca je ista interakcija obrnuta. Može se vidjeti da opis interakcije između faktora postaje sve zbunjujući.

Opšti način opisi interakcija. AT opšti slučaj interakcija između faktora se opisuje kao promjena jednog efekta pod utjecajem drugog. U primjeru o kojem se gore govori, dvofaktorska interakcija se može opisati kao promjena glavnog efekta faktora koji karakteriše složenost zadatka, pod uticajem faktora koji opisuje karakter učenika. Za interakciju tri faktora iz prethodnog stava možemo reći da se interakcija dva faktora (složenost zadatka i karakter učenika) mijenja pod uticajem spolRod. Ako se proučava interakcija četiri faktora, možemo reći da se interakcija tri faktora mijenja pod uticajem četvrtog faktora, tj. postoje različite vrste interakcija na različitim nivoima četvrtog faktora. Pokazalo se da u mnogim oblastima interakcija pet ili čak više faktora nije neobična.

Složeni planovi

Međugrupni i unutargrupni planovi (planovi ponovnih mjerenja)

Kada se uspoređuju dvije različite grupe, obično se koristi jedna t- kriterijum za nezavisne uzorke (iz modula Osnovne statistike i tabele). Kada se dvije varijable uspoređuju na istom skupu objekata (zapažanja), koristi se t-kriterijum za zavisne uzorke. Za analizu varijanse, takođe je važno da li su uzorci zavisni ili ne. Ako postoje ponovljena mjerenja istih varijabli (na različitim uslovima ili u drugačije vrijeme) za iste objekte, zatim kažu o prisustvu faktor ponovljenih mjerenja(takođe se zove unutargrupni faktor budući da se unutar grupe zbir kvadrata izračunava da bi se procijenila njegova važnost). Ako se uporede različite grupe predmeta (npr. muškarci i žene, tri soja bakterija, itd.), onda se opisuje razlika između grupa međugrupni faktor. Metode za izračunavanje kriterijuma značajnosti za dva opisana tipa faktora su različite, ali su njihova opšta logika i tumačenje isti.

Među- i unutar-grupni planovi. U mnogim slučajevima, eksperiment zahtijeva uključivanje faktora između grupa i faktora ponovljenih mjerenja u dizajn. Na primjer, mjere se matematičke vještine učenika i učenika (gdje sprat -Rod-međugrupni faktor) na početku i na kraju semestra. Dvije dimenzije vještina svakog učenika čine faktor unutar grupe (faktor ponovljenih mjerenja). Tumačenje glavnih efekata i interakcija za faktore između grupa i faktora ponovljenih mjerenja je isto, a obje vrste faktora očigledno mogu međusobno djelovati (na primjer, žene stječu vještine tokom semestra, a muškarci ih gube).

Nepotpuni (ugniježđeni) planovi

U mnogim slučajevima, efekat interakcije se može zanemariti. To se dešava ili kada se zna da nema efekta interakcije u populaciji, ili kada je implementacija u potpunosti faktorijel plan je nemoguć. Na primjer, proučava se učinak četiri aditiva za gorivo na potrošnju goriva. Odabrana su četiri automobila i četiri vozača. Pun faktorijel eksperiment zahtijeva da se svaka kombinacija: dodatak, vozač, auto pojavi barem jednom. Ovo zahtijeva najmanje 4 x 4 x 4 = 64 test grupe, što oduzima previše vremena. Osim toga, gotovo da nema interakcije između vozača i aditiva za gorivo. Imajući to na umu, možete koristiti plan latinski kvadrati, koji sadrži samo 16 grupa testova (četiri aditiva su označena slovima A, B, C i D):

Latinski kvadrati su opisani u većini knjiga o eksperimentalnom dizajnu (npr. Hays, 1988; Lindman, 1974; Milliken i Johnson, 1984; Winer, 1962) i ovdje se neće detaljno raspravljati. Imajte na umu da su latinični kvadrati nenpun planovi koji ne uključuju sve kombinacije nivoa faktora. Na primjer, vozač 1 vozi auto 1 samo sa dodatkom A, vozač 3 vozi auto 1 samo sa dodatkom C. Nivoi faktora aditivi ( A, B, C i D) ugniježđene u ćelije tabele automobil x vozač - kao jaja u gnezdu. Ovo mnemoničko pravilo je korisno za razumijevanje prirode ugniježđen ili ugniježđen planove. Modul Analiza varijanse pruža jednostavne načine analiza planova ove vrste.

Kovarijansna analiza

Glavna ideja

U poglavlju Ključne ideje održana je kratka rasprava o ideji kontrolnih faktora i kako uključivanje aditivnih faktora može smanjiti zbir grešaka na kvadrat i povećati statističku moć dizajna. Sve se to može proširiti na varijable s kontinuiranim skupom vrijednosti. Kada su takve kontinuirane varijable uključene kao faktori u dizajnu, one se nazivaju kovarijati.

Fiksne kovarijate

Pretpostavimo da upoređujemo matematičke vještine dvije grupe učenika koji su podučavani iz dva različita udžbenika. Pretpostavimo i da imamo podatke o kvocijentu inteligencije (IQ) za svakog učenika. Možemo pretpostaviti da je IQ povezan s matematičkim vještinama i koristiti ove informacije. Za svaku od dvije grupe učenika može se izračunati koeficijent korelacije između IQ-a i matematičkih vještina. Koristeći ovaj koeficijent korelacije, moguće je razlikovati udio varijanse u grupama objašnjen utjecajem IQ-a i neobjašnjivog udjela varijanse (vidi također Elementarni koncepti statistike(poglavlje 8) i Osnovne statistike i tabele(poglavlje 9)). Preostali dio varijanse se koristi u analizi kao varijansa greške. Ako postoji korelacija između IQ-a i matematičkih vještina, onda se varijacije greške mogu značajno smanjiti. SS/(n-1) .

Utjecaj kovarijati naF- kriterijum. F- kriterij procjenjuje statističku značajnost razlike između srednjih vrijednosti u grupama, dok se izračunava omjer međugrupne varijanse ( GOSPOĐAefekat) na varijansu greške ( GOSPOĐAgreška) . Ako GOSPOĐAgreška smanjuje se, na primjer, kada se uzme u obzir IQ faktor, vrijednost F povećava.

Mnogo kovarijacija. Gore korišćeno rezonovanje za jednu kovarijatu (IQ) lako se proširuje na više kovarijata. Na primjer, pored IQ-a, možete uključiti mjerenje motivacije, prostornog razmišljanja itd. Umjesto uobičajenog koeficijenta korelacije, koristi se više faktora korelacije.

Kada vrijednostF - kriteriji se smanjuju. Ponekad uvođenje kovarijati u dizajn eksperimenta smanjuje vrijednost F- kriterijumi . Ovo obično ukazuje na to da kovarijate nisu samo u korelaciji sa zavisnom varijablom (kao što su matematičke vještine) već i sa faktorima (kao što su različiti udžbenici). Pretpostavimo da se IQ mjeri na kraju semestra, nakon što su dvije grupe studenata provele skoro godinu dana proučavajući dva različita udžbenika. Iako su učenici bili nasumično podijeljeni u grupe, može se ispostaviti da je razlika u udžbenicima tolika da je i IQ i matematičke vještine u različite grupeće se jako razlikovati. U ovom slučaju, kovarijate ne samo da smanjuju varijansu greške, već i varijansu između grupa. Drugim riječima, nakon kontrole razlike u IQ-u između grupa, razlika u matematičkim vještinama više neće biti značajna. Može se reći drugačije. Nakon „eliminisanja“ uticaja IQ-a, nehotice se isključuje uticaj udžbenika na razvoj matematičkih sposobnosti.

Prilagođeni prosjeci. Kada kovarijanta utiče na faktor između grupa, treba izračunati prilagođeni prosjeci, tj. takva sredstva, koja se dobijaju nakon uklanjanja svih procjena kovarijata.

Interakcija između kovarijati i faktora. Baš kao što se istražuju interakcije između faktora, mogu se istražiti interakcije između kovarijata i između grupa faktora. Pretpostavimo da je jedan od udžbenika posebno pogodan za pametne učenike. Drugi udžbenik je dosadan za pametne učenike, a isti udžbenik je težak za manje pametne učenike. Kao rezultat, postoji pozitivna korelacija između IQ-a i ishoda učenja u prvoj grupi (pametniji učenici, bolji rezultati) i nula ili mala negativna korelacija u drugoj grupi (što je učenik pametniji, manja je vjerovatnoća da će steći matematičke vještine iz drugog udžbenika). U nekim studijama ova situacija se razmatra kao primjer kršenja pretpostavki analize kovarijanse. Međutim, budući da modul Analiza varijanse koristi najčešće metode analize kovarijanse, moguće je, posebno, procijeniti statističku značajnost interakcije između faktora i kovarijanti.

Varijabilne kovarijacije

Dok se o fiksnim kovarijatama dosta često govori u udžbenicima, varijabilne kovarijate se mnogo rjeđe spominju. Obično, kada provodimo eksperimente s ponovljenim mjerenjima, zanimaju nas razlike u mjerenjima istih veličina u različitim vremenskim trenucima. Naime, zanima nas značaj ovih razlika. Ako se kovarijantno mjerenje provodi istovremeno s mjerenjem zavisne varijable, može se izračunati korelacija između kovarijate i zavisne varijable.

Na primjer, možete proučavati zanimanje za matematiku i matematičke vještine na početku i na kraju semestra. Bilo bi zanimljivo provjeriti da li su promjene interesovanja za matematiku u korelaciji sa promjenama u matematičkim vještinama.

Modul Analiza varijanse in STATISTIKA automatski procjenjuje statističku značajnost promjena kovarijata u tim planovima, gdje je to moguće.

Multivarijantni dizajn: multivarijantna ANOVA i analiza kovarijanse

Međugrupni planovi

Svi prethodno razmatrani primjeri uključivali su samo jednu zavisnu varijablu. Kada postoji više zavisnih varijabli istovremeno, samo se povećava složenost proračuna, a sadržaj i osnovni principi se ne mijenjaju.

Na primjer, radi se istraživanje na dva različita udžbenika. Istovremeno se proučava uspjeh studenata u izučavanju fizike i matematike. U ovom slučaju postoje dvije zavisne varijable i morate otkriti kako dva različita udžbenika utječu na njih istovremeno. Da biste to učinili, možete koristiti multivarijantnu analizu varijanse (MANOVA). Umjesto jednodimenzionalnog F kriterijum, višedimenzionalan F test (Wilks l-test) zasnovan na poređenju matrice kovarijanse greške i matrice kovarijanse među grupama.

Ako su zavisne varijable međusobno povezane, onda ovu korelaciju treba uzeti u obzir prilikom izračunavanja testa značajnosti. Očigledno, ako se isto mjerenje ponovi dva puta, onda se u ovom slučaju ne može dobiti ništa novo. Ako se dimenzija koja je u korelaciji s njom doda postojećoj dimenziji, onda neka nove informacije, ali nova varijabla sadrži suvišne informacije, što se ogleda u kovarijansi između varijabli.

Interpretacija rezultata. Ako je ukupni multivarijantni kriterijum značajan, možemo zaključiti da je odgovarajući efekat (npr. tip udžbenika) značajan. Međutim, postavljaju se sljedeća pitanja. Da li vrsta udžbenika utiče na poboljšanje samo matematičkih vještina, samo fizičkih vještina, ili oboje. U stvari, nakon dobijanja smislenog multivarijantnog kriterijuma, za jedan glavni efekat ili interakciju, jednodimenzionalni F kriterijum. Drugim riječima, zavisne varijable koje doprinose značajnosti multivarijatnog testa se ispituju zasebno.

Planovi sa ponovljenim mjerenjima

Ako se matematičke i fizičke sposobnosti studenata mjere na početku i na kraju semestra, onda su to ponovljena mjerenja. Proučavanje kriterijuma značaja u takvim planovima je logičan razvoj jednodimenzionalnog slučaja. Imajte na umu da se multivarijantne ANOVA metode također obično koriste za istraživanje značaja faktora univarijantnih ponovljenih mjera koji imaju više od dva nivoa. Odgovarajuće aplikacije će biti razmatrane kasnije u ovom dijelu.

Sumiranje vrijednosti varijabli i multivarijantna analiza varijanse

Čak se i iskusni korisnici univarijantne i multivarijantne ANOVA često zbune kada dobiju različite rezultate kada primjenjuju multivarijantnu ANOVA na, recimo, tri varijable, i kada primjenjuju univarijantnu ANOVA na zbir tri varijable kao jednu varijablu.

Ideja sumiranje varijabli je da svaka varijabla sadrži neku istinitu varijablu, koja se istražuje, kao i slučajnu grešku mjerenja. Stoga, kada se usrednjavaju vrijednosti varijabli, greška mjerenja će biti bliža 0 za sva mjerenja i prosječne vrijednosti će biti pouzdanije. Zapravo, u ovom slučaju, primjena ANOVA na zbir varijabli je razumna i moćna tehnika. Međutim, ako su zavisne varijable multivarijantne prirode, zbrajanje vrijednosti varijabli je neprikladno.

Na primjer, neka se zavisne varijable sastoje od četiri mjere uspjeh u društvu. Svaki pokazatelj karakterizira potpuno nezavisnu stranu ljudske aktivnosti (na primjer, profesionalni uspjeh, poslovni uspjeh, porodično blagostanje, itd.). Zbrajanje ovih varijabli je kao dodavanje jabuke i narandže. Zbir ovih varijabli ne bi bio prikladna univarijantna mjera. Stoga se takvi podaci moraju tretirati kao višedimenzionalni indikatori u multivarijantna analiza varijanse.

Kontrastna analiza i post hoc testovi

Zašto se upoređuju pojedinačni skupovi sredstava?

Obično se hipoteze o eksperimentalnim podacima formulišu ne samo u smislu glavnih efekata ili interakcija. Primjer je sljedeća hipoteza: određeni udžbenik poboljšava matematičke vještine samo kod učenika, dok je drugi udžbenik približno podjednako efikasan za oba spola, ali još manje efikasan za muškarce. Može se predvidjeti da je učinak udžbenika u interakciji sa polom učenika. Međutim, ovo predviđanje takođe važi priroda interakcije. Za učenike u jednoj knjizi očekuje se značajna razlika između polova, au drugoj praktično rodno nezavisni rezultati za učenike. Ova vrsta hipoteze se obično istražuje pomoću kontrastne analize.

Analiza kontrasta

Ukratko, kontrastna analiza nam omogućava da procenimo statističku značajnost nekih linearnih kombinacija složenih efekata. Kontrastna analiza je glavni i nezamjenjiv element svakog kompleksnog ANOVA plana. Modul Analiza varijanse ima dosta različitih mogućnosti analize kontrasta koje vam omogućavaju da odaberete i analizirate bilo koju vrstu poređenja prosjeka.

a posteriori poređenja

Ponekad se, kao rezultat obrade eksperimenta, otkrije neočekivani efekat. Iako će u većini slučajeva kreativni istraživač biti u stanju da objasni bilo koji rezultat, to ne pruža mogućnosti za dalje analize i procjene za prognozu. Ovaj problem je jedan od onih zbog kojih post hoc kriterijuma, odnosno kriterijumi koji se ne koriste a priori hipoteze. Za ilustraciju, razmotrite sljedeći eksperiment. Pretpostavimo da 100 kartica sadrži brojeve od 1 do 10. Spustivši sve ove kartice u zaglavlje, nasumično biramo 20 puta 5 kartica i izračunavamo prosječnu vrijednost za svaki uzorak (prosjek brojeva napisanih na karticama). Možemo li očekivati ​​da postoje dva uzorka čija se sredina značajno razlikuju? Ovo je vrlo uvjerljivo! Odabirom dva uzorka s maksimalnom i minimalnom srednjom vrijednosti, može se dobiti razlika u srednjim vrijednostima koja se jako razlikuje od razlike srednjih vrijednosti, na primjer, prva dva uzorka. Ova razlika se može istražiti, na primjer, upotrebom kontrastne analize. Ne ulazeći u detalje, postoji nekoliko tzv a posteriori kriterijumi koji se zasnivaju upravo na prvom scenariju (uzimanje ekstremnih proseka od 20 uzoraka), odnosno ovi kriterijumi se zasnivaju na odabiru najrazličitijih sredstava za poređenje svih sredstava u dizajnu. Ovi kriterijumi se primenjuju kako se ne bi došlo do veštačkog efekta čisto slučajno, na primer, da bi se pronašla značajna razlika između sredstava kada ih nema. Modul Analiza varijanse ponude širok izbor takvim kriterijumima. Kada se u eksperimentu koji uključuje više grupa naiđu na neočekivane rezultate, a posteriori procedure za ispitivanje statističke značajnosti dobijenih rezultata.

Zbir kvadrata tipa I, II, III i IV

Multivarijantna regresija i analiza varijanse

Postoji bliska veza između metode multivarijantne regresije i analize varijanse (analize varijacija). U obje metode proučava se linearni model. Ukratko, gotovo svi eksperimentalni dizajni mogu se istražiti korištenjem multivarijantne regresije. Razmislite o sljedećem jednostavnom unakrsnom planu 2 x 2.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Kolone A i B sadrže kodove koji karakterišu nivoe faktora A i B, kolona AxB sadrži proizvod dva stupca A i B. Ove podatke možemo analizirati koristeći multivarijantnu regresiju. Varijabilna DV definirana kao zavisna varijabla, varijable iz A prije AxB kao nezavisne varijable. Proučavanje značaja za koeficijente regresije će se poklopiti sa proračunima u analizi varijanse značajnosti glavnih efekata faktora A i B i efekat interakcije AxB.

Neuravnoteženi i izbalansirani planovi

Prilikom izračunavanja matrice korelacije za sve varijable, na primjer, za podatke prikazane iznad, može se vidjeti da su glavni efekti faktora A i B i efekat interakcije AxB nekorelirano. Ovo svojstvo efekata naziva se i ortogonalnost. Kažu da su efekti A i B - ortogonalno ili nezavisni jedno od drugog. Ako su svi efekti u planu ortogonalni jedan prema drugom, kao u gornjem primjeru, tada se kaže da je plan uravnotežen.

Izbalansirani planovi imaju “dobro svojstvo”. Proračuni u analizi ovakvih planova su vrlo jednostavni. Svi proračuni se svode na izračunavanje korelacije između efekata i zavisnih varijabli. Pošto su efekti ortogonalni, parcijalne korelacije (kao i potpune multidimenzionalni regresije) se ne računaju. Međutim, u pravi zivot planovi nisu uvek izbalansirani.

Razmotrite stvarne podatke sa nejednakim brojem zapažanja u ćelijama.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Ako ove podatke kodiramo kao gore i izračunamo matricu korelacije za sve varijable, onda se ispostavi da su faktori dizajna međusobno povezani. Faktori u planu sada nisu ortogonalni i takvi planovi se nazivaju neuravnotežen. Imajte na umu da je u ovom primjeru korelacija između faktora u potpunosti povezana s razlikom u frekvencijama 1 i -1 u stupcima matrice podataka. Drugim riječima, eksperimentalni dizajni s nejednakim volumenima ćelija (tačnije, nesrazmjernim volumenima) će biti neuravnoteženi, što znači da će se glavni efekti i interakcije miješati. U ovom slučaju, da biste izračunali statističku značajnost efekata, morate u potpunosti izračunati multivarijantnu regresiju. Ovdje postoji nekoliko strategija.

Zbir kvadrata tipa I, II, III i IV

Zbroj kvadrata tipaIiIII. Da bi se proučio značaj svakog faktora u multivarijantnom modelu, može se izračunati parcijalna korelacija svakog faktora, pod uslovom da su svi ostali faktori već uzeti u obzir u modelu. Također možete unijeti faktore u model na način korak po korak, fiksirajući sve faktore koji su već uneseni u model i zanemarujući sve ostale faktore. Općenito, ovo je razlika između tip III i tipI sume kvadrata (ova terminologija je uvedena u SAS, vidi na primjer SAS, 1982; detaljna rasprava se također može naći u Searle, 1987, str. 461; Woodward, Bonett i Brecht, 1990, str. 216; ili Milliken i Johnson, 1984, str. 138).

Zbroj kvadrata tipaII. Sledeća „srednja“ strategija formiranja modela je: da se kontrolišu svi glavni efekti u proučavanju značaja jednog glavnog efekta; u kontroli svih glavnih efekata i svih parnih interakcija, kada se ispituje značaj jedne interakcije u paru; u kontroli svih glavnih efekata svih interakcija u paru i svih interakcija tri faktora; u proučavanju odvojene interakcije tri faktora, itd. Zove se zbroji kvadrata za efekte izračunate na ovaj način tipII sume kvadrata. dakle, tipII sumi kvadrata kontroliše sve efekte istog reda i ispod, zanemarujući sve efekte višeg reda.

Zbroj kvadrata tipaIV. Konačno, za neke posebne planove u kojima nedostaju ćelije (nepotpuni planovi) moguće je izračunati tzv. tip IV sume kvadrata. O ovoj metodi će biti reči kasnije u vezi sa nekompletnim planovima (planovima sa ćelijama koje nedostaju).

Tumačenje pretpostavke o zbroju kvadrata tipova I, II i III

zbir kvadrata tipIII najlakše protumačiti. Podsjetimo da su zbroji kvadrata tipIII ispitati efekte nakon kontrole svih ostalih efekata. Na primjer, nakon pronalaska statistički značajnog tipIII efekat za faktor A u modulu Analiza varijanse, možemo reći da postoji samo jedan značajan efekat faktora A, nakon što uvedemo sve ostale efekte (faktore) i shodno tome protumačimo ovaj efekat. Vjerovatno u 99% svih primjena analize varijanse ova vrsta kriterija je od interesa za istraživača. Ova vrsta zbira kvadrata se obično izračunava u modulu Analiza varijanse podrazumevano, bez obzira da li je opcija izabrana Regresijski pristup ili ne (standardni pristupi usvojeni u modulu Analiza varijanse diskutovano u nastavku).

Značajni efekti dobiveni korištenjem zbira kvadrata tip ili tipII sume kvadrata nije tako lako protumačiti. Oni se najbolje tumače u kontekstu postupne multivarijantne regresije. Ako koristite zbir kvadrata tipI Utvrđeno je da je glavni efekat faktora B značajan (nakon uključivanja faktora A u model, ali pre dodavanja interakcije između A i B), može se zaključiti da postoji značajan glavni efekat faktora B, pod uslovom da postoji nema interakcije između faktora A i B. (Ako se koristi kriterijum tipIII, faktor B se takođe pokazao značajnim, onda možemo zaključiti da postoji značajan glavni efekat faktora B, nakon uvođenja svih ostalih faktora i njihovih interakcija u model).

U smislu graničnih sredstava hipoteze tipI i tipII obično nemaju jednostavnu interpretaciju. U ovim slučajevima se kaže da se značaj efekata ne može tumačiti uzimajući u obzir samo granična sredstva. radije predstavljeno str srednje vrijednosti su povezane sa složenom hipotezom koja kombinira srednje vrijednosti i veličinu uzorka. Na primjer, tipII hipoteze za faktor A u jednostavnom primjeru dizajna 2 x 2 o kojem smo ranije govorili bi bile (vidi Woodward, Bonett i Brecht, 1990, str. 219):

nij- broj zapažanja u ćeliji

uij- prosječna vrijednost u ćeliji

n. j- granični prosjek

Ne ulazeći u detalje (za više detalja vidi Milliken i Johnson, 1984, poglavlje 10), jasno je da ovo nisu jednostavne hipoteze i da u većini slučajeva nijedna od njih nije od posebnog interesa za istraživača. Međutim, postoje slučajevi kada hipoteze tipI može biti od interesa.

Zadani računski pristup u modulu Analiza varijanse

Podrazumevano ako opcija nije označena Regresijski pristup, modul Analiza varijanse koristi prosječni model ćelije. Za ovaj model je karakteristično da se sumi kvadrata za različite efekte izračunavaju za linearne kombinacije srednjih vrijednosti ćelija. U punom faktorijalnom eksperimentu, ovo rezultira zbirom kvadrata koji je isti kao zbir kvadrata o kojem se ranije raspravljalo kao tip III. Međutim, u opciji Planirana poređenja(u prozoru Analiza rezultata varijanse), korisnik može pretpostaviti o bilo kojoj linearnoj kombinaciji ponderiranih ili neponderiranih srednjih vrijednosti ćelije. Dakle, korisnik može testirati ne samo hipoteze tipIII, ali hipoteze bilo koje vrste (uključujući tipIV). Ovaj opšti pristup je posebno koristan kada se ispituju dizajni sa nedostajućim ćelijama (tzv. nekompletni dizajni).

Za potpune faktorijalne dizajne, ovaj pristup je također koristan kada se želi analizirati ponderisana marginalna sredina. Na primjer, pretpostavimo da u jednostavnom dizajnu 2 x 2 razmatranom ranije, želimo uporediti ponderisane (u smislu nivoa faktora) B) marginalni proseci za faktor A. Ovo je korisno kada distribuciju zapažanja po ćelijama nije pripremio eksperimentator, već je napravljen nasumično, a ova nasumična se ogleda u distribuciji broja posmatranja po nivoima faktora B u agregatu .

Na primjer, postoji faktor - starost udovice. Mogući uzorak ispitanika podijeljen je u dvije grupe: mlađi od 40 i stariji od 40 godina (faktor B). Drugi faktor (faktor A) u planu je da li su udovice dobile socijalnu podršku od neke agencije (dok su neke udovice odabrane nasumično, druge su služile kao kontrola). U ovom slučaju, starosna distribucija udovica u uzorku odražava stvarnu dobnu distribuciju udovica u populaciji. Procjena djelotvornosti grupe za socijalnu podršku za udovice svih uzrastaće odgovarati ponderisanom prosjeku ova dva starosne grupe(sa ponderima koji odgovaraju broju zapažanja u grupi).

Planirana poređenja

Imajte na umu da zbir unesenih omjera kontrasta nije nužno jednak 0 (nula). Umjesto toga, program će automatski izvršiti prilagođavanja tako da se odgovarajuće hipoteze ne miješaju sa ukupnim prosjekom.

Da bismo to ilustrirali, vratimo se jednostavnom planu 2 x 2 o kojem smo ranije govorili. Podsjetimo da je broj ćelija ovog neuravnoteženog dizajna -1, 2, 3 i 1. Recimo da želimo da uporedimo ponderisane marginalne proseke za faktor A (ponderisane učestalošću nivoa faktora B). Možete unijeti omjere kontrasta:

Imajte na umu da se ovi koeficijenti ne zbrajaju do 0. Program će postaviti koeficijente tako da oni sabiraju do 0, uz zadržavanje njihovih relativnih vrijednosti, tj.

1/3 2/3 -3/4 -1/4

Ovi kontrasti će uporediti ponderisane proseke za faktor A.

Hipoteze o glavnoj sredini. Hipoteza da je neponderisana glavna srednja vrednost 0 može se istražiti korišćenjem koeficijenata:

Hipoteza da je ponderisana glavna sredina 0 testirana je sa:

Program ni u kom slučaju ne ispravlja omjere kontrasta.

Analiza planova sa nedostajućim ćelijama (nepotpuni planovi)

Faktorski dizajni koji sadrže prazne ćelije (obrada kombinacija ćelija u kojima nema zapažanja) nazivaju se nepotpunim. U takvim projektima neki faktori obično nisu ortogonalni i neke interakcije se ne mogu izračunati. Uopšte ne postoji najbolja metoda analiza takvih planova.

Regresijski pristup

U nekim starijim programima koji se zasnivaju na analizi ANOVA dizajna koristeći multivarijantnu regresiju, faktori u nekompletnom dizajnu se postavljaju po defaultu na uobičajen način (kao da je plan potpun). Zatim multivarijantna regresiona analiza za ove fiktivno kodirane faktore. Nažalost, ova metoda dovodi do rezultata koje je vrlo teško, ako ne i nemoguće, protumačiti jer nije jasno kako svaki efekat doprinosi linearnoj kombinaciji sredstava. Razmotrite sljedeći jednostavan primjer.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Promašen

Ako je multivarijantna regresija oblika Zavisna varijabla = konstanta + faktor A + faktor B, tada hipoteza o značaju faktora A i B u smislu linearnih kombinacija srednjih izgleda ovako:

Faktor A: Ćelija A1,B1 = Ćelija A2,B1

Faktor B: Ćelija A1,B1 = Ćelija A1,B2

Ovaj slučaj je jednostavan. U složenijim planovima nemoguće je tačno odrediti šta će se tačno ispitivati.

Srednje ćelije, pristup analizi varijanse , hipoteze tipa IV

Pristup koji se preporučuje u literaturi i čini se poželjnijim je proučavanje smislenih (u smislu istraživačkih zadataka) a priori hipoteze o uočenim sredstvima u ćelijama plana. Detaljna rasprava o ovom pristupu može se naći u Dodge (1985), Heiberger (1989), Milliken i Johnson (1984), Searle (1987) ili Woodward, Bonett i Brecht (1990). Zbroji kvadrata povezani s hipotezama o linearnoj kombinaciji srednjih vrijednosti u nekompletnim projektima, istražujući procjene dijela efekata, također se nazivaju sumi kvadrata. IV.

Automatsko generiranje hipoteza tipaIV. Kada multivarijantni dizajn ima složeni uzorak ćelija koji nedostaje, poželjno je definisati ortogonalne (nezavisne) hipoteze čije je istraživanje ekvivalentno istraživanju glavnih efekata ili interakcija. Algoritamske (računarske) strategije (bazirane na pseudo-inverznoj matrici dizajna) su razvijene za generisanje odgovarajućih težina za takva poređenja. Nažalost, konačne hipoteze nisu jednoznačno određene. Naravno, zavise od redosleda definisanja efekata i retko ih je lako protumačiti. Stoga se preporučuje pažljivo proučavanje prirode ćelija koje nedostaju, a zatim formuliranje hipoteza tipIV, koji su najrelevantniji za ciljeve studije. Zatim istražite ove hipoteze koristeći opciju Planirana poređenja u prozoru rezultate. Većina lak način specificirati poređenja u ovom slučaju - zahtijevati uvođenje vektora kontrasta za sve faktore zajedno u prozoru Planirana poređenja. Nakon poziva dijaloškog okvira Planirana poređenja sve grupe trenutnog plana će biti prikazane, a one koje su izostavljene će biti označene.

Provjera preskočenih ćelija i specifičnih efekata

Postoji nekoliko tipova planova u kojima lokacija ćelija koje nedostaju nije nasumična, već pažljivo planirana, što omogućava jednostavnu analizu glavnih efekata bez uticaja na druge efekte. Na primjer, kada potreban broj ćelija u planu nije dostupan, planovi se često koriste. latinski kvadrati procijeniti glavne efekte nekoliko faktora sa velikim brojem nivoa. Na primjer, faktorski dizajn 4 x 4 x 4 x 4 zahtijeva 256 ćelija. Istovremeno, možete koristiti Grčko-latinski trg za procjenu glavnih efekata, imajući samo 16 ćelija u planu (pogl. Planiranje eksperimenta, tom IV, sadrži Detaljan opis takvi planovi). Nepotpuni dizajni u kojima se glavni efekti (i neke interakcije) mogu procijeniti korištenjem jednostavnih linearnih kombinacija sredstava nazivaju se izbalansirani nedovršeni planovi.

U balansiranim dizajnima, standardna (podrazumevana) metoda generisanja kontrasta (težina) za glavne efekte i interakcije će zatim proizvesti analizu tabele varijanse u kojoj se zbroji kvadrata za odgovarajuće efekte ne mešaju jedan sa drugim. Opcija Specifični efekti prozor rezultateće generirati kontraste koji nedostaju upisivanjem nule u ćelije plana koje nedostaju. Odmah nakon traženja opcije Specifični efekti za korisnika koji proučava neku hipotezu, pojavljuje se tabela rezultata sa stvarnim težinama. Imajte na umu da se u balansiranom dizajnu zbroji kvadrata odgovarajućih efekata izračunavaju samo ako su ti efekti ortogonalni (nezavisni) u odnosu na sve druge glavne efekte i interakcije. U suprotnom, koristite opciju Planirana poređenja istražiti smislena poređenja između sredstava.

Nedostajuće ćelije i kombinovani efekti greške/članovi

Ako opcija Regresijski pristup u lansirnoj ploči modula Analiza varijanse nije odabran, model prosječnih vrijednosti ćelija će se koristiti prilikom izračunavanja zbira kvadrata za efekte (podrazumevana postavka). Ako dizajn nije uravnotežen, onda kada se kombiniraju neortogonalni efekti (vidi gornju raspravu o opciji Nedostajuće ćelije i specifičan efekat) može se dobiti zbir kvadrata koji se sastoji od neortogonalnih (ili preklapajućih) komponenti. Rezultati dobijeni na ovaj način obično se ne mogu interpretirati. Stoga treba biti vrlo oprezan pri odabiru i implementaciji složenih nekompletnih eksperimentalnih dizajna.

Postoji mnogo knjiga sa detaljnim raspravama o različitim vrstama planova. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken i Johnson, 1984; Searle, 1987; Woodward i Bonett, 1990), ali ova vrsta informacija je izvan okvira ovog udžbenika. Međutim, analiza različitih tipova planova će biti prikazana kasnije u ovom odeljku.

Pretpostavke i efekti kršenja pretpostavke

Odstupanje od pretpostavke normalnih distribucija

Pretpostavimo da se zavisna varijabla mjeri na numeričkoj skali. Pretpostavimo i da zavisna varijabla ima normalnu distribuciju unutar svake grupe. Analiza varijanse sadrži širok spektar grafikona i statističkih podataka koji potkrepljuju ovu pretpostavku.

Efekti kršenja. Generalno F kriterij je vrlo otporan na odstupanje od normalnosti (vidi Lindman, 1974 za detaljne rezultate). Ako je eksces veći od 0, tada je vrijednost statistike F može postati vrlo mala. Nulta hipoteza je prihvaćena, iako možda nije tačna. Situacija je obrnuta kada je kurtozis manji od 0. Iskrivljenost distribucije obično ima mali uticaj na F statistika. Ako je broj opažanja u ćeliji dovoljno velik, onda odstupanje od normalnosti nije bitno zbog centralna granična teorema, prema kojem je distribucija srednje vrijednosti blizu normalne, bez obzira na početnu raspodjelu. Detaljna diskusija o održivosti F statistike se mogu naći u Box i Anderson (1955) ili Lindman (1974).

Homogenost disperzije

Pretpostavke. Pretpostavlja se da su varijanse različitih grupa plana iste. Ova pretpostavka se zove pretpostavka homogenost disperzije. Podsjetimo da smo na početku ovog odjeljka, kada smo opisivali izračunavanje zbira kvadrata grešaka, vršili sumiranje unutar svake grupe. Ako se varijanse u dvije grupe razlikuju jedna od druge, tada njihovo zbrajanje nije baš prirodno i ne daje procjenu ukupne varijanse unutar grupe (pošto u ovom slučaju uopće ne postoji opća varijansa). Modul Analiza disperzije -ANOVA/MANOVA sadrži veliki skup statističkih kriterijuma za otkrivanje odstupanja od pretpostavki homogenosti varijanse.

Efekti kršenja. Lindman (1974, str. 33) to pokazuje F kriterijum je prilično stabilan u pogledu narušavanja pretpostavki homogenosti varijanse ( heterogenost disperzija, vidi i Box, 1954a, 1954b; Hsu, 1938).

Poseban slučaj: korelacija srednjih vrijednosti i varijansi. Ima trenutaka kada F statistika može obmanuti. To se događa kada su srednje vrijednosti u ćelijama dizajna u korelaciji s varijansom. Modul Analiza varijanse omogućava vam da nacrtate dijagrame varijanse ili standardne devijacije u odnosu na sredstva za otkrivanje takve korelacije. Razlog zašto je takva korelacija opasna je sljedeći. Zamislimo da je na planu 8 ćelija, od kojih 7 ima skoro isti prosjek, a u jednoj ćeliji je prosjek mnogo veći od ostalih. Onda F test može otkriti statistički značajan efekat. Ali pretpostavimo da je u ćeliji sa velikom srednjom vrijednošću i varijansa mnogo veća od ostalih, tj. srednja vrijednost i varijansa u ćelijama su zavisne (što je srednja vrijednost veća, veća je varijansa). U ovom slučaju, velika srednja vrijednost je nepouzdana, jer može biti uzrokovana velikom varijansom u podacima. kako god F statistike zasnovane na ujedinjeni varijansa unutar ćelija će obuhvatiti veliku srednju vrijednost, iako kriteriji zasnovani na varijansi u svakoj ćeliji neće smatrati da su sve razlike u srednjim vrijednostima značajne.

Ova priroda podataka (velika srednja vrijednost i velika varijansa) se često susreće kada postoje izvanredne opservacije. Jedno ili dva vanjska opažanja snažno pomjeraju srednju vrijednost i uvelike povećavaju varijansu.

Homogenost varijanse i kovarijanse

Pretpostavke. U multivarijantnim projektima, sa multivarijantnim zavisnim mjerama, također se primjenjuju ranije opisane pretpostavke homogenosti varijanse. Međutim, pošto postoje multivarijantne zavisne varijable, potrebno je i da njihove međukorelacije (kovarijance) budu uniformne u svim ćelijama plana. Modul Analiza varijanse nudi različite načine testiranja ovih pretpostavki.

Efekti kršenja. Multidimenzionalni analog F- kriterijum - λ-test Wilksa. Ne zna se mnogo o stabilnosti (robustnosti) Wilksovog λ-testa s obzirom na kršenje gornjih pretpostavki. Međutim, budući da interpretacija rezultata modula Analiza varijanse se obično zasniva na značaju jednodimenzionalnih efekata (nakon utvrđivanja značaja opšti kriterijum), rasprava o robusnosti se uglavnom odnosi na jednodimenzionalnu analizu varijanse. Stoga, značaj jednodimenzionalnih efekata treba pažljivo ispitati.

Poseban slučaj: analiza kovarijanse. Naročito teška kršenja homogenosti varijanse/kovarijance mogu nastati kada su kovarijacije uključene u dizajn. Konkretno, ako je korelacija između kovarijati i zavisnih mjera različita u različitim ćelijama dizajna, može uslijediti pogrešna interpretacija rezultata. Treba imati na umu da se u analizi kovarijanse, u suštini, radi regresiona analiza unutar svake ćelije kako bi se izolovao onaj dio varijanse koji odgovara kovarijanti. Pretpostavka homogenosti varijanse/kovarijance pretpostavlja da se ova regresiona analiza izvodi pod sljedećim ograničenjem: sve regresione jednadžbe (nagibi) za sve ćelije su iste. Ako to nije predviđeno, može doći do velikih grešaka. Modul Analiza varijanse ima nekoliko posebnih kriterijuma za testiranje ove pretpostavke. Možda bi bilo preporučljivo koristiti ove kriterije kako bi se osiguralo da su jednadžbe regresije za različite ćelije približno iste.

Sferičnost i kompleksna simetrija: razlozi za korištenje multivarijantnog pristupa ponovljenih mjera u analizi varijanse

U projektima koji sadrže faktore ponovljenih mjera s više od dva nivoa, primjena univarijantne analize varijanse zahtijeva dodatne pretpostavke: pretpostavke složene simetrije i pretpostavke sferičnosti. Ove pretpostavke se rijetko ispunjavaju (vidi dolje). Stoga, u poslednjih godina multivarijantna analiza varijanse je stekla popularnost u takvim planovima (oba pristupa su kombinovana u modulu Analiza varijanse).

Pretpostavka kompleksne simetrije Pretpostavka kompleksne simetrije je da su varijanse (ukupno unutar grupe) i kovarijanse (po grupi) za različite ponovljene mjere ujednačene (iste). Ovo je dovoljan uslov da univarijantni F test za ponovljene mere bude validan (tj. prijavljene F-vrednosti su, u proseku, u skladu sa F-distribucijom). Međutim, u ovom slučaju ovaj uslov nije neophodan.

Pretpostavka sferičnosti. Pretpostavka sferičnosti je neophodan i dovoljan uslov da bi F-kriterijum bio opravdan. Sastoji se u tome da su unutar grupa sva zapažanja nezavisna i ravnomjerno raspoređena. Priroda ovih pretpostavki, kao i uticaj njihovog kršenja, obično nisu dobro opisani u knjigama o analizi varijanse – ova će biti opisana u narednim paragrafima. Takođe će pokazati da se rezultati univarijatnog pristupa mogu razlikovati od rezultata multivarijatnog pristupa i objasniti šta to znači.

Potreba za nezavisnošću hipoteza. Opšti način analize podataka u analizi varijanse je model fit. Ako, s obzirom na model koji odgovara podacima, postoje neki a priori hipoteze, onda se varijansa dijeli kako bi se testirale ove hipoteze (kriterijumi za glavne efekte, interakcije). Sa računske tačke gledišta, ovaj pristup generiše neki skup kontrasta (skup poređenja sredstava u dizajnu). Međutim, ako kontrasti nisu nezavisni jedan od drugog, podjela varijansi postaje besmislena. Na primjer, ako su dva kontrasta A i B su identični i odgovarajući dio se bira iz varijanse, zatim se isti dio bira dva puta. Na primjer, glupo je i besmisleno izdvajati dvije hipoteze: “srednja vrijednost u ćeliji 1 je veća od prosjeka u ćeliji 2” i “srednja vrijednost u ćeliji 1 je veća od prosjeka u ćeliji 2”. Dakle, hipoteze moraju biti nezavisne ili ortogonalne.

Nezavisne hipoteze u ponovljenim mjerenjima. Opšti algoritam implementiran u modulu Analiza varijanse, pokušat će generirati nezavisne (ortogonalne) kontraste za svaki efekat. Što se tiče faktora ponovljenih mjera, ovi kontrasti dovode do mnogih hipoteza o razlike između nivoa razmatranog faktora. Međutim, ako su ove razlike u korelaciji unutar grupa, onda nastali kontrasti više nisu nezavisni. Na primjer, u obuci gdje se učenici mjere tri puta u jednom semestru, može se dogoditi da promjene između 1. i 2. dimenzije budu u negativnoj korelaciji sa promjenom između 2. i 3. dimenzije predmeta. Oni koji su savladali većinu gradiva između 1. i 2. dimenzije, savladavaju manji dio tokom vremena koje je prošlo između 2. i 3. dimenzije. U stvari, za većinu slučajeva gdje se analiza varijanse koristi u ponovljenim mjerenjima, može se pretpostaviti da su promjene nivoa u korelaciji među subjektima. Međutim, kada se to dogodi, pretpostavke složene simetrije i sferičnosti nisu ispunjene i nezavisni kontrasti se ne mogu izračunati.

Utjecaj kršenja i načini za njihovo ispravljanje. Kada složene pretpostavke simetrije ili sferičnosti nisu ispunjene, analiza varijanse može dati pogrešne rezultate. Prije nego što su multivarijantne procedure dovoljno razvijene, napravljeno je nekoliko pretpostavki kako bi se nadoknadile povrede ovih pretpostavki. (Vidi, na primjer, Greenhouse & Geisser, 1959. i Huynh & Feldt, 1970.). Ove metode se i danas široko koriste (zbog čega su predstavljene u modulu Analiza varijanse).

Multivarijantna analiza varijansnog pristupa ponovljenim mjerama. Generalno, problemi kompleksne simetrije i sferičnosti odnose se na činjenicu da skupovi kontrasta uključeni u proučavanje efekata faktora ponovljenih mjerenja (sa više od 2 nivoa) nisu nezavisni jedan od drugog. Međutim, oni ne moraju biti nezavisni ako se koriste. multidimenzionalni kriterijum za istovremeno testiranje statističke značajnosti dve ili više ponovljenih merenja faktora kontrasta. To je razlog zašto se multivarijantna analiza metoda varijanse sve više koristi za testiranje značaja faktora univarijantnih ponovljenih mjera sa više od 2 nivoa. Ovaj pristup se široko koristi jer općenito ne zahtijeva pretpostavku kompleksne simetrije i pretpostavku sferičnosti.

Slučajevi u kojima se ne može koristiti multivarijantna analiza varijansnog pristupa. Postoje primjeri (planovi) kada se multivarijantna analiza varijansnog pristupa ne može primijeniti. Obično su to slučajevi u kojima nema veliki broj subjekata u planu i mnogo nivoa u faktoru ponovljenih mjera. Tada može biti premalo zapažanja da bi se izvršila multivarijantna analiza. Na primjer, ako postoji 12 entiteta, str = 4 faktor ponovljenih mjerenja, a svaki faktor ima k = 3 nivoa. Tada će se interakcija 4 faktora “potrošiti” (k-1)P = 2 4 = 16 stepena slobode. Međutim, postoji samo 12 subjekata, pa se multivarijantni test ne može izvesti u ovom primjeru. Modul Analiza varijanseće nezavisno otkriti ova zapažanja i izračunati samo jednodimenzionalne kriterijume.

Razlike u univarijantnim i multivarijantnim rezultatima. Ako studija uključuje veliki broj ponovljenih mjera, mogu postojati slučajevi u kojima pristup univarijantnih ponovljenih mjera ANOVA daje rezultate koji se vrlo razlikuju od onih dobivenih multivarijantnim pristupom. To znači da su razlike između nivoa odgovarajućih ponovljenih mjerenja u korelaciji među subjektima. Ponekad je ova činjenica od nekog nezavisnog interesa.

Multivarijantna analiza varijanse i strukturno modeliranje jednačina

Posljednjih godina, modeliranje strukturnih jednačina postalo je popularno kao alternativa multivarijantnoj disperzijskoj analizi (vidi, na primjer, Bagozzi i Yi, 1989; Bagozzi, Yi i Singh, 1991; Cole, Maxwell, Arvey i Salas, 1993). Ovaj pristup vam omogućava da testirate hipoteze ne samo o srednjim vrednostima u različitim grupama, već i o matricama korelacije zavisnih varijabli. Na primjer, možete ublažiti pretpostavke o homogenosti varijanse i kovarijanse i eksplicitno uključiti greške u model za svaku grupu varijanse i kovarijanse. Modul STATISTIKAModeliranje strukturne jednačine (SEPATH) (vidi Tom III) dozvoljava takvu analizu.

Nastavni rad iz matematike

Uvod

Koncept analize varijanse

Jednosmjerna analiza varijanse (praktična implementacija u IBM SPSS Statistics 20)

Jednosmjerna analiza varijanse (praktična implementacija u Microsoft Office 2013)

Zaključak

Spisak korištenih izvora

Uvod

Relevantnost teme. Razvoj matematičke statistike počinje radom poznatog njemačkog matematičara Carla Friedricha Gaussa 1795. godine i još uvijek se razvija. U statističkoj analizi postoji parametarska metoda"Jednosmjerna analiza varijanse". Trenutno se koristi u ekonomiji kada se provodi istraživanje tržišta radi uporedivosti rezultata (na primjer, kada se provode ankete o potrošnji proizvoda u različitim regijama zemlje, potrebno je izvući zaključke o tome koliko se podaci istraživanja razlikuju ili razlikuju ne razlikuju jedni od drugih; u psihologiji, pri provođenju različitih vrsta istraživanja), pri sastavljanju naučnih uporednih testova ili istraživanju bilo kojeg društvene grupe, te za rješavanje problema u statistici.

Cilj. Upoznajte se sa takvom statističkom metodom kao što je jednosmerna analiza varijanse, kao i sa njenom implementacijom na računaru u različitim programima i uporedite ove programe.

Proučiti teoriju jednosmjerne analize varijanse.

Proučavati programe za rješavanje problema za jednofaktorsku analizu.

Potrošiti komparativna analiza ove programe.

Dostignuća rada: Praktični dio rada autor je u potpunosti uradio: izbor programa, izbor zadataka, njihovo rješavanje na PC-u, nakon čega je izvršena komparativna analiza. U teorijskom dijelu izvršena je klasifikacija ANOVA grupa. Ovaj rad je testiran kao izvještaj na studentskoj naučnoj sesiji "Odabrana pitanja više matematike i metode nastave matematike"

Struktura i obim posla. Rad se sastoji od uvoda, zaključka, sadržaja i bibliografije, uključujući 4 naslova. Ukupan obim rada je 25 štampanih stranica. Rad sadrži 1 primjer riješen sa 2 programa.

Koncept analize varijanse

Često postoji potreba da se istraži uticaj jedne ili više nezavisnih varijabli (faktora) na jednu ili više zavisnih varijabli (rezultantnih karakteristika), a takvi problemi se mogu rešiti metodama analize varijanse, čiji je autor R. Fisher.

ANOVA analiza varijanse je skup statističkih metoda obrade podataka koji vam omogućavaju da analizirate varijabilnost jedne ili više efektivnih karakteristika pod uticajem kontrolisanih faktora (nezavisnih varijabli). Ovdje se pod faktorom podrazumijeva određena vrijednost koja određuje svojstva objekta ili sistema koji se proučava, tj. razlog za krajnji rezultat. Prilikom provođenja analize varijanse važno je odabrati pravi izvor i objekt utjecaja, tj. identificirati zavisne i nezavisne varijable.

U zavisnosti od znakova klasifikacije, razlikuje se nekoliko klasifikacionih grupa analize varijanse (tabela 1).

Po broju faktora koji se uzimaju u obzir: Univarijantna analiza - proučava se uticaj jednog faktora Multivarijantna analiza - proučava se istovremeni uticaj dva ili više faktora Po prisutnosti veze između uzoraka vrednosti: Analiza nepovezanih (različitih faktora). ) uzorci - provodi se kada postoji više grupa istraživačkih objekata koji se nalaze u različitim uslovima. (Provjerava se nulta hipoteza H0: srednja vrijednost zavisne varijable je ista u različitim uvjetima mjerenja, tj. ne zavisi od faktora koji se proučava.); Analiza srodnih (istih) uzoraka - vrši se za dva ili više mjerenja na istoj istoj grupi proučavanih objekata pod različitim uslovima. Ovde je moguć uticaj neuračunatog faktora koji se može pogrešno pripisati promeni uslova.Po broju zavisnih varijabli na koje faktori utiču Univarijantna analiza (ANOVA ili AMCOVA - kovarijantna analiza) - na jednu zavisnu varijablu utiču faktori ; Multivarijantna analiza (MANOVA - multivarijantna analiza varijanse ili MANSOVA - multivarijantna kovarijantna analiza) - na nekoliko zavisnih varijabli utiču faktori. Prema svrsi studije. Deterministička - nivoi svih faktora su unapred fiksirani i njihov je uticaj koji se proverava (proverava se hipoteza H0 o odsustvu razlika između prosečnih nivoa); Slučajni - nivoi svakog faktora se dobijaju kao slučajni uzorak iz opšte populacije nivoa faktora (proverava se hipoteza H0 da je disperzija prosječne vrijednosti odgovora izračunate za različite nivoe faktora nisu nula);

U jednosmjernoj analizi varijanse za to se provjerava statistička značajnost razlika u uzorku srednjih vrijednosti dvije ili više populacija, preliminarno se formiraju hipoteze.

Nul hipoteza H0: prosječne vrijednosti efektivne karakteristike u svim uvjetima djelovanja faktora (ili gradacije faktora) su iste

Alternativna hipoteza H1: prosječne vrijednosti efektivne karakteristike u svim uslovima faktora su različite.

ANOVA metode se mogu primijeniti na normalno raspoređene populacije (multivarijantni analozi parametarskih testova) i na populacije koje nemaju definitivne distribucije (multivarijantni analozi neparametarskih testova). U prvom slučaju potrebno je prvo utvrditi da je distribucija rezultirajuće karakteristike normalna. Da biste provjerili normalnost distribucije neke karakteristike, možete koristiti indikatore asimetrije A = , , i eksces E = , , gdje , . - vrijednost efektivnog svojstva i njegova prosječna vrijednost; - standardna devijacija rezultujuće karakteristike; .

Broj zapažanja;

Greške reprezentativnosti za indikatore A i E

Ako indikatori nagnutosti i kurtozisa ne premašuju svoje greške reprezentativnosti za više od 3 puta, tj. I<3тА и Е <3тЕ, то распределение можно считать нормальным. Для нормальных распределений показатели А и Е равны нулю.

Podaci koji se odnose na jedno stanje faktora (na jednu gradaciju) nazivaju se disperzijskim kompleksom. Prilikom provođenja analize varijanse treba voditi računa o jednakosti disperzija između kompleksa. U ovom slučaju, odabir elemenata treba izvršiti nasumično.

U drugom slučaju, kada populacije uzoraka imaju proizvoljne distribucije, koriste se neparametarski (rang) analozi jednosmjerne analize varijanse (Kruskal-Wallisov kriterij, Friedman).

Razmotrimo grafičku ilustraciju zavisnosti stope prinosa na akcije od stanja u privredi zemlje (slika 1, a). Ovdje je faktor koji se proučava nivo stanja privrede (tačnije tri nivoa njenog stanja), a efektivna karakteristika je stopa prinosa. Navedena raspodjela pokazuje da ovaj faktor ima značajan uticaj na profitabilnost, tj. Kako se ekonomija poboljšava, tako raste i prinos na dionice, što nije u suprotnosti sa zdravim razumom.

Imajte na umu da odabrani faktor ima gradacije, tj. njegova vrijednost se mijenjala tokom prelaska sa jedne gradacije na drugu (iz jednog stanja ekonomije u drugo).

Rice. 1. Odnos uticaja faktora i unutargrupnog širenja: a - značajan uticaj faktora; b - neznatan uticaj faktora

Grupa gradacija faktora je samo poseban slučaj, osim toga, faktor može imati gradacije predstavljene čak i u nominalnoj skali. Stoga se češće ne govori o gradacijama faktora, već o različitim uvjetima njegovog djelovanja.

Razmotrimo sada ideju analize varijanse, koja se zasniva na pravilu sabiranja varijansi: ukupna varijansa je jednaka zbroju međugrupnih i prosjeka varijansi unutar grupe:

Ukupna varijansa koja proizlazi iz uticaja svih faktora

Međugrupna disperzija zbog uticaja svih ostalih faktora;

Prosječna varijansa unutar grupe uzrokovana utjecajem atributa grupisanja.

Uticaj grupisanog svojstva jasno je vidljiv na slici 1a, budući da je uticaj faktora značajan u poređenju sa unutargrupnim rasipanjem, stoga će međugrupna varijansa biti veća od unutargrupne ( > ), i na sl. 1, b, uočava se suprotna slika: ovdje prevladava unutargrupno širenje i utjecaj faktora praktično izostaje.

Analiza varijanse je izgrađena na istom principu, samo što ne koristi varijanse, već prosjek kvadrata odstupanja ( , , ), koje su nepristrasne procjene odgovarajućih varijansi. Dobivaju se dijeljenjem zbira kvadrata odstupanja sa odgovarajućim brojem stupnjeva slobode

Agregati kao cjelina;

Unutargrupni prosjeci;

Međugrupni prosjek;

Ukupni prosjek za sva mjerenja (za sve grupe);

Grupni prosjek za j-tu gradaciju faktora.

Matematička očekivanja za unutargrupni i međugrupni zbir kvadrata odstupanja, respektivno, izračunavaju se po formulama: (model sa fiksnim faktorom),

.

E ( ) = E ( ) = , tada je potvrđena nulta hipoteza H0 o odsustvu razlika između srednjih vrednosti, pa faktor koji se proučava nema značajan efekat (vidi sliku 1, b). Ako je stvarna vrijednost Fišerovog F-testa F= E ( ) /E ( ) će biti veći od kritičnog zatim nulta hipoteza H0 na nivou značajnosti , alternativna hipoteza H1 se odbacuje i prihvata - o značajnom uticaju faktora sl. 1, a. .

Jednosmjerna analiza varijanse

Analiza varijanse koja razmatra samo jednu varijablu naziva se jednosmjerna ANOVA.

Postoji grupa od n objekata posmatranja sa izmerenim vrednostima neke varijable koja se proučava . po varijabli je pod uticajem nekog faktora kvaliteta Sa nekoliko nivoi (gradacije) uticaja. Izmjerene vrijednosti varijabli na različitim nivoima faktora date su u tabeli 2 (mogu se prikazati iu matričnom obliku).

Tabela 2.

Tabelarni oblik postavljanja početnih podataka za univarijantna analiza

Broj objekta posmatranja ()Varijabilne vrijednosti na nivou (gradacije) faktora (najniže) (kratko)… (najviše)1 2 … n .Ovdje svaki nivo može sadržavati različit broj odgovora mjerenih na jednom nivou faktora, tada će svaka kolona imati svoju vrijednost . Potrebno je procijeniti značajnost utjecaja ovog faktora na varijablu koja se proučava. Za rješavanje ovog problema može se koristiti jednofaktorski model analize varijanse. Jednofaktorski model disperzije.

Vrijednost proučavane varijable za -ti objekt posmatranja na -th nivo faktora;

Grupni prosjek za -th nivo faktora;

Efekat usled uticaja -tog nivoa faktora;

Slučajna komponenta ili perturbacija uzrokovana uticajem nekontrolisanih faktora. Dakle, hajde da istaknemo glavna ograničenja upotrebe ANOVA:

Jednakost nule matematičkog očekivanja slučajne komponente: = 0.

Slučajna komponenta , a samim tim i imaju normalnu distribuciju.

Broj gradacija faktora mora biti najmanje tri.

Ovaj model, u zavisnosti od nivoa faktora, korišćenjem Fisher F-testa, omogućava testiranje jedne od nultih hipoteza.

Prilikom analize varijanse za srodne uzorke moguće je testirati još jednu nultu hipotezu H0(u) - individualne razlike između objekata posmatranja nisu izražene više nego razlike iz slučajnih razloga.

Jednosmjerna analiza varijanse

(Praktična implementacija u IBM SPSS Statistics 20)

Istraživača zanima pitanje kako se određeni atribut mijenja pod različitim uvjetima djelovanja varijable (faktora). Proučava se učinak samo jedne varijable (faktora) na osobinu koja se proučava. Već smo razmatrali primjer iz ekonomije, sada ćemo dati primjer iz psihologije, na primjer, kako se vrijeme rješavanja problema mijenja pod različitim uvjetima motivacije ispitanika (niska, srednja, visoka motivacija) ili različitim načinima rješavanja problema. izlaganje zadatka (usmeno, pismeno ili u formi teksta sa grafikonima i ilustracijama), u različitim uslovima rada sa zadatkom (sam, u sobi sa nastavnikom, u učionici). U prvom slučaju faktor je motivacija, u drugom - stepen vidljivosti, u trećem - faktor publiciteta.

U ovoj verziji metode, različiti uzorci ispitanika su izloženi uticaju svake od gradacija. Moraju postojati najmanje tri gradacije faktora.

Primjer 1. Tri različite grupe od šest ispitanika dobile su liste od deset riječi. Prvoj grupi riječi su predstavljene malom brzinom od 1 riječ u 5 sekundi, drugoj grupi prosječnom brzinom od 1 riječi u 2 sekunde, a trećoj grupi velikom brzinom od 1 riječi u sekundi. Predviđeno je da će učinak reprodukcije zavisiti od brzine prezentacije reči (tabela 3).

Tabela 3

Broj reproduciranih riječi

Predmetna grupa 1 mala brzinaGrupa 2 srednja brzinaGrupa 3 velika brzina

Formuliramo hipoteze: razlike u obujmu reprodukcije riječi između grupa nisu izraženije od slučajnih razlika unutar svake grupe: Razlike u reprodukciji riječi između grupa su izraženije od nasumičnih razlika unutar svake grupe.

Rješenje ćemo izvesti u SPSS okruženju prema sljedećem algoritmu

Pokrenimo SPSS program

Unesite numeričke vrijednosti u prozor podaci

Rice. 1. Unos vrijednosti u SPSS

U prozoru Varijable opisujemo sve početne podatke, prema uslovu

Zadaci

Slika 2 Prozor varijable

Radi jasnoće, u koloni oznake opisujemo nazive tabela

U grafikonu Vrijednosti opišite broj svake grupe

Slika 3 Oznake vrijednosti

Sve ovo je urađeno radi jasnoće, tj. ove postavke se mogu zanemariti.

U grafikonu skala , u drugu kolonu treba staviti vrijednost nominala

U prozoru podaci naručite jednosmjernu analizu varijanse koristeći meni "Analiza". Prosečno poređenje

Jednosmjerna analiza varijanse…

Slika 4 Jednosmjerna ANOVA funkcija

U otvorenom dijaloškom okviru Jednosmjerna analiza varijanse odaberite zavisnu varijablu i dodajte je spisak izdržavanih lica , i promjenjivi faktor u faktoru prozora

Slika 5 naglašava listu zavisnih osoba i faktor

Postavite neke parametre za visokokvalitetan izlaz podataka

Slika 6 Parametri za kvalitativno zaključivanje podataka

Proračuni za odabrani jednosmjerni ANOVA algoritam počinju nakon klika uredu

Na kraju proračuna, rezultati proračuna se prikazuju u prozoru za pregled.

Descriptive StatisticsGroup NAverage Std. Deviation Std. Interval pouzdanosti greške 95% za srednju vrijednost Minimum Maksimum Tabela 2. Deskriptivna statistika

Tabela Deskriptivna statistika prikazuje glavne pokazatelje za brzine u grupama i njihove ukupne vrijednosti.

Broj zapažanja u svakoj grupi i ukupan broj

Srednja vrijednost - aritmetička sredina zapažanja u svakoj grupi i za sve grupe zajedno

Std. Devijacija, Std. Greška - standardna devijacija i standardna devijacija

% intervala pouzdanosti za srednju vrijednost - ovi intervali su tačniji za svaku grupu i za sve grupe zajedno, umjesto da uzimaju intervale ispod ili iznad ovih granica.

Minimum, Maksimum - minimalne i maksimalne vrijednosti za svaku grupu koju su ispitanici čuli

jednofaktorska varijansa slučajna

Kriterijum za homogenost grupe varijansi Statistika Livinast.st.1st.st.

Livinov test homogenosti se koristi za ispitivanje homogenosti (homogenosti) disperzija. U ovom slučaju to potvrđuje beznačajnost razlika između varijansi, jer je vrijednost = 0,915, odnosno jasno veća od 0,05. Stoga se rezultati dobijeni analizom varijanse priznaju kao tačni.

Tabela 1-smjerne analize varijanse prikazuje rezultate jednosmjernog DA

Zbir kvadrata "između grupa" je zbir kvadrata razlika između ukupne srednje vrijednosti i srednjih vrijednosti u svakoj grupi, ponderiran brojem objekata u grupi

"Unutar grupa" je zbir kvadrata razlika između srednje vrijednosti svake grupe i svake vrijednosti te grupe

Kolona "Sv. St." sadrži broj stupnjeva slobode V:

Međugrupa (v=broj grupa - 1);

Unutar grupe (v=broj objekata - broj grupa - 1);

"srednji kvadrat" sadrži omjer zbira kvadrata i broja stupnjeva slobode.

Kolona "F" pokazuje omjer srednjeg kvadrata između grupa i srednjeg kvadrata unutar grupa.

Kolona "vrijednost" sadrži vrijednost vjerovatnoće da su uočene razlike slučajne.

Tabela 4 Formule

Grafikoni prosjeka

Grafikon pokazuje da se smanjuje. Takođe je moguće iz tabele Fk k1=2, k2=15 odrediti tabelarna vrijednost statistike 3,68. Po pravilu, ako , tada se prihvata nulta hipoteza, u suprotnom prihvata se alternativna hipoteza. Za naš primjer (7.45>3.68), stoga je alternativna hipoteza prihvaćena. Dakle, vraćajući se na stanje problema, možemo zaključiti nultu hipotezu odbijena i alternativa prihvaćena. : razlike u volumenu riječi između grupa su izraženije od nasumičnih razlika unutar svake grupe ). To. brzina prezentacije riječi utiče na obim njihove reprodukcije.

Jednosmjerna analiza varijanse

(Praktična implementacija u Microsoft Office 2013)

U istom primjeru, razmotrite jednosmjernu analizu varijanse u Microsoft Office 2013

Rješavanje problema u Microsoft Excel-u

Otvorimo Microsoft Excel.


Slika 1. Upisivanje podataka u Excel

Pretvorimo podatke u numerički format. Da biste to učinili, na glavnoj kartici nalazi se stavka Format i ima podparagraf Format ćelije . Na ekranu se pojavljuje prozor Format Cells. Rice. 2 Odaberite Format broja i uneseni podaci će biti konvertovani. Kao što je prikazano na sl.3

Slika 2 Pretvori u numerički format

Slika 3 Rezultat nakon konverzije

Na kartici podataka nalazi se stavka Analiza podataka kliknimo na njega.

Odaberimo jednosmjernu analizu varijanse

Slika 6 Analiza podataka

Na ekranu će se pojaviti prozor Jednosmjerna analiza varijanse za provođenje analize disperzije podataka (slika 7). Konfigurirajmo parametre

Rice. 7 Postavljanje parametara za univarijantnu analizu

Kliknite mišem u polje Interval unosa. Odaberite raspon ćelija B2::F9, podatke u kojima želite analizirati. U polju Ulazni razmak kontrolne grupe Unosi pojavljuje se navedeni raspon.

Ako prekidač red po red nije postavljen u kontrolnoj grupi za unos podataka, odaberite ga tako da Excel program prihvati grupe podataka po redu.

Opciono Označite polje za potvrdu Oznake u prvom redu u grupi Kontrole ulaza ako prva kolona odabranog raspona podataka sadrži nazive redova.

U polju za unos Alfa kontrolne grupe Ulazni podaci, podrazumevano se prikazuje vrednost 0,05, koja je povezana sa verovatnoćom greške u analizi varijanse.

Ako prekidač izlaznog intervala nije postavljen u grupi kontrola izlaznih parametara, onda ga postavite ili odaberite prekidač novog radnog lista tako da se podaci prenesu na novi list.

Kliknite na dugme OK da zatvorite prozor jednosmerne ANOVA. Pojavit će se rezultati analize varijanse (slika 8).

Slika 8 Izlaz podataka

Opseg ćelija A4:E7 sadrži rezultate deskriptivne statistike. Red 4 sadrži nazive parametara, redovi 5 - 7 - statističke vrijednosti izračunate po serijama. Kolona "Score" sadrži broj mjerenja, kolona "Sum" sadrži sume vrijednosti, kolona "Prosjek" sadrži srednje aritmetičke vrijednosti, a kolona "Disperzija" sadrži disperzije.

Dobiveni rezultati pokazuju da je najveće prosječno prekidno opterećenje u šarži br. 1, i najveća varijansa prekidno opterećenje - u serijama br. 2, br.

Opseg ćelija A10:G15 prikazuje informacije o značaju neslaganja između grupa podataka. Red 11 sadrži nazive analize parametara varijanse, red 12 - rezultati međugrupne obrade, red 13 - rezultati unutargrupne obrade, a red 15 - zbir vrijednosti ova dva reda.

SS kolona sadrži vrijednosti varijacije, tj. sume kvadrata nad svim devijacijama. Varijacija, poput disperzije, karakterizira širenje podataka.

Kolona df sadrži vrijednosti brojeva stupnjeva slobode. Ovi brojevi označavaju broj nezavisnih odstupanja preko kojih će se izračunati varijansa. Na primjer, međugrupni broj stupnjeva slobode jednak je razlici između broja grupa podataka i jedan. Što je veći broj stupnjeva slobode, veća je pouzdanost parametara disperzije. Podaci o stupnjevima slobode u tabeli pokazuju da su rezultati unutar grupe pouzdaniji od parametara između grupa.

MS kolona sadrži vrijednosti disperzije, koje su određene omjerom varijacije i brojem stupnjeva slobode. Disperzija karakteriše stepen rasipanja podataka, ali za razliku od veličine varijacije, ona nema direktnu tendenciju povećanja sa povećanjem broja stepeni slobode. Tabela pokazuje da je međugrupna varijansa mnogo veća od unutargrupne varijanse.

Kolona F sadrži vrijednost F-statistike, izračunatu omjerom međugrupnih i unutargrupnih varijansi.

F-kritična kolona sadrži F-kritičnu vrijednost izračunatu iz broja stupnjeva slobode i vrijednosti Alfa. F-statistika i F-kritična vrijednost koriste Fisher-Snedekorov test.

Ako je F-statistika veća od F-kritične vrijednosti, onda se može tvrditi da razlike između grupa podataka nisu slučajne. one. na nivou značaja α = 0 .05 (sa pouzdanošću od 0,95), nulta hipoteza se odbacuje i prihvata alternativa: da brzina prezentacije reči utiče na obim njihove reprodukcije. Kolona P-vrijednosti sadrži vjerovatnoću da je razlika između grupa nasumična. Kako je ova vjerovatnoća u tabeli vrlo mala, odstupanje između grupa nije slučajno.

Poređenje IBM SPSS Statistics 20 i Microsoft Office 2013

jednofaktorski varijansni slučajni program

Pogledajmo izlaze programa, za ovo ćemo ponovo pogledati snimke ekrana.

Jednosmjerna analiza grupe varijanse Zbroj kvadrata St.Lm Srednji kvadrat FZn Između grupa31.444215.7227.447.006 Unutar grupa31.667152.111Ukupno63.11117

Dakle, program IBM SPSS Statistics 20 daje bolji rezultat, može zaokružiti brojeve, izgraditi vizuelni graf (pogledajte kompletno rješenje) pomoću kojeg možete odrediti odgovor, detaljnije opisuje kako uvjete problema tako i njihovo rješenje. Microsoft Office 2013 ima svoje prednosti, prvo, naravno, svoju rasprostranjenost, budući da je Microsoft Office 2013 instaliran na skoro svakom računaru, prikazuje Fcritical, što nije predviđeno u SPSS Statistics, a takođe je jednostavno i zgodno za izračunavanje. Ipak, oba ova programa su vrlo pogodna za rješavanje problema za jednosmjernu ANOVA-u, svaki od njih ima svoje prednosti i nedostatke, ali ako uzmete u obzir velike probleme sa velikim uslovima, preporučio bih SPSS Statistics.

Zaključak

Analiza varijanse se primjenjuje u svim oblastima naučno istraživanje, gdje je potrebno analizirati uticaj razni faktori na varijablu koja se proučava. AT savremeni svet Postoji mnogo zadataka za jednofaktorsku analizu varijanse u ekonomiji, psihologiji i biologiji. Kao rezultat proučavanja teorijskog materijala, utvrđeno je da je osnova analize varijanse teorema o dodavanju varijansi, iz brojnih softverskih paketa u kojima je implementiran aparat za analizu varijanse odabrani su najbolji i uključeni u posao. Zahvaljujući dolasku novih tehnologija, svako od nas može provoditi istraživanja (odluke), trošeći manje vremena i truda na proračune, koristeći kompjutere. U procesu rada postavljeni su ciljevi, zadaci koji su ostvareni.

spisak literature

Sidorenko, E.V. Metode matematičke obrade u psihologiji [Tekst] / St. Petersburg. 2011. - 256 str.

Matematička statistika za psihologe Ermolaev O.Yu [Tekst] / Moskva_2009 -336s

Predavanje 7. Analitička statistika [Elektronski izvor]. , Datum pristupa: 14.05.14

Teorija vjerojatnosti i matematička statistika [Tekst] / Gmurman V.E. 2010 -479s

U ovoj temi će se razmatrati samo jednosmjerna analiza varijanse koja se koristi za nepovezane uzorke. U smislu osnovnog koncepta varijanse, ova analiza se zasniva na izračunavanju varijansi tri tipa:

Ukupna varijansa izračunata za cijeli skup eksperimentalnih podataka;

Intragrupna varijansa koja karakteriše varijabilnost osobine u svakom uzorku;

Međugrupna disperzija koja karakteriše varijabilnost grupnih srednjih vrednosti.

Glavni stav analize varijanse glasi: ukupna varijansa jednaka je zbiru unutargrupnih i međugrupnih varijansi.

Ova pozicija se može napisati kao jednačina:

gdje x ij- vrijednosti svih varijabli dobijenih u eksperimentu; dok je indeks j varira od 1 prije R, gdje R- broj upoređenih uzoraka, može biti tri ili više; index i odgovara broju elemenata u uzorku (mogu biti dva ili više);

Ukupan prosjek cjelokupnog analiziranog skupa podataka;

Srednje j uzorci;

N- ukupan broj svih elemenata u analiziranom skupu eksperimentalnih podataka;

R- broj eksperimentalnih uzoraka.

Analizirajmo ovu jednačinu detaljnije.

Pustite nas R grupe (uzorci). U ANOVA, svaki uzorak je predstavljen kao jedna kolona (ili red) brojeva. Zatim, da bi se moglo ukazati na određenu grupu (uzorak), uvodi se indeks j, što se shodno tome mijenja od j= 1 do j= r. Na primjer, ako imamo 5 grupa (uzoraka), onda je p=5 i indeks j u skladu s tim se mijenja od j= 1 to j= 5.

Suočimo se sa zadatkom specificiranja specifičnog elementa (mjerne vrijednosti) uzorka. Da bismo to učinili, moramo znati broj ovog uzorka, na primjer 4, i lokaciju elementa (izmjerene vrijednosti) u ovom uzorku. Ovaj element se može nalaziti u selekciji od prve vrijednosti (prvi red) do posljednje (zadnji red). Neka se naš traženi element nalazi u petom redu. Tada će njegova notacija biti: x 54 . To znači da je odabran peti element u redu iz četvrtog uzorka.

U opštem slučaju, u svakoj grupi (uzorku) broj njenih sastavnih elemenata može biti različit - stoga označavamo broj elemenata u j grupa (uzorak) kroz nj. Vrijednosti karakteristike dobivene u eksperimentu u j grupa označena sa xij, gdje i= 1, 2, ... n je redni broj zapažanja u j grupa.

Preporučljivo je provesti dalje rezonovanje na osnovu tabele 35. Imajte na umu, međutim, da su zbog pogodnosti daljeg zaključivanja uzorci u ovoj tabeli predstavljeni ne kao kolone, već kao redovi (što, međutim, nije važno).

U poslednjem, poslednjem redu tabele, dat je ukupan volumen celog uzorka - N, zbir svih dobijenih vrednosti G i ukupni prosek celog uzorka. Ovaj ukupni prosjek se dobija kao zbir svih elemenata analiziranog skupa eksperimentalnih podataka, koji su gore označeni kao G, podijeljen sa brojem svih elemenata N.


Krajnja desna kolona tabele prikazuje srednje vrijednosti za sve uzorke. Na primjer, u j uzorak (red tabele označen simbolom j) vrijednost prosjeka (za cijeli j uzorak) je sljedeća:

Analiza varijanse je statistička metoda za procjenu odnosa između faktora i karakteristika učinka u razne grupe, odabran nasumično, na osnovu utvrđivanja razlika (raznolikosti) vrijednosti karakteristika. Analiza varijanse zasniva se na analizi odstupanja svih jedinica proučavane populacije od aritmetičke sredine. Kao mjera odstupanja uzima se disperzija (B) - prosječni kvadrat odstupanja. Odstupanja uzrokovana utjecajem faktorskog atributa (faktora) upoređuju se sa veličinom odstupanja uzrokovanih slučajnim okolnostima. Ako su odstupanja uzrokovana atributom faktora značajnija od slučajnih odstupanja, onda se smatra da faktor ima značajan utjecaj na rezultirajući atribut.

Da bi se izračunala varijansa vrijednosti odstupanja svake opcije (svake registrovane numeričke vrijednosti atributa) od aritmetičke sredine na kvadrat. Time ćete se riješiti negativnih znakova. Zatim se ta odstupanja (razlike) sabiraju i dijele sa brojem zapažanja, tj. prosječna odstupanja. Tako se dobijaju vrednosti disperzije.

Važna metodološka vrijednost za primjenu analize varijanse je pravilno formiranje uzorka. U zavisnosti od cilja i zadataka, selektivne grupe mogu se nasumično formirati nezavisno jedna od druge (kontrolne i eksperimentalne grupe za proučavanje nekog indikatora, na primer, uticaj visokog krvnog pritiska na nastanak moždanog udara). Takvi uzorci se nazivaju nezavisnim.

Često se rezultati izloženosti faktorima proučavaju u istoj grupi uzoraka (na primjer, kod istih pacijenata) prije i nakon izlaganja (liječenje, prevencija, mjere rehabilitacije), takvi uzorci se nazivaju zavisni.

Analiza varijanse, u kojoj se provjerava uticaj jednog faktora, naziva se jednofaktorska analiza (univarijantna analiza). Pri proučavanju uticaja više faktora koristi se multivarijantna analiza varijanse (multivarijantna analiza).

Znakovi faktora su oni znakovi koji utiču na fenomen koji se proučava.

Efektivni znakovi su oni znakovi koji se mijenjaju pod uticajem faktorskih znakova.

Uslovi za korištenje analize varijanse:

Zadatak studije je da se utvrdi jačina uticaja jednog (do 3) faktora na rezultat ili da se utvrdi jačina kombinovanog uticaja različitih faktora (pol i starost, fizička aktivnost i ishrana, itd.).

Proučavani faktori trebaju biti nezavisni (nepovezani) jedan s drugim. Na primjer, ne može se proučavati kombinovani efekat radnog iskustva i starosti, visine i težine djece itd. na pojavu populacije.

Odabir grupa za istraživanje vrši se nasumično (slučajni odabir). Organizacija disperzijskog kompleksa uz implementaciju principa slučajnog odabira opcija naziva se randomizacija (u prijevodu s engleskog - slučajna), tj. nasumično odabrano.

Mogu se koristiti i kvantitativne i kvalitativne (atributivne) karakteristike.

Prilikom provođenja jednosmjerne analize varijanse, preporučuje se ( neophodno stanje aplikacije):

1. Normalnost distribucije analiziranih grupa ili korespondencija grupa uzoraka sa opštom populacijom sa normalnom distribucijom.

2. Nezavisnost (nepovezanost) distribucije zapažanja po grupama.

3. Prisutnost učestalosti (ponavljanja) zapažanja.

Prvo se formulira nulta hipoteza, odnosno pretpostavlja se da faktori koji se proučavaju nemaju nikakav utjecaj na vrijednosti rezultirajućeg atributa i da su nastale razlike slučajne.

Zatim utvrđujemo kolika je vjerovatnoća dobijanja uočenih (ili jačih) razlika, pod uslovom da je tačna nulta hipoteza.

Ako je ova vjerovatnoća mala, onda odbacujemo nultu hipotezu i zaključujemo da su rezultati studije statistički značajni. To još ne znači da je učinak proučavanih faktora dokazan (ovo je prije svega stvar planiranja istraživanja), ali je još uvijek malo vjerovatno da je rezultat slučajan.

Kada su ispunjeni svi uslovi za primenu analize varijanse, dekompozicija ukupne varijanse matematički izgleda ovako:

Dotot. = Dfact + D rest.,

Dotot. - ukupna varijansa posmatranih vrijednosti (varijanta), koju karakterizira širenje varijante od ukupnog prosjeka. Mjeri varijaciju osobine u cijeloj populaciji pod utjecajem svih faktora koji su uzrokovali ovu varijaciju. Ukupnu raznolikost čine međugrupni i unutargrupni;

Dfact - faktorska (međugrupna) disperzija, koju karakteriše razlika u prosecima u svakoj grupi i zavisi od uticaja proučavanog faktora, prema kojem se svaka grupa diferencira. Na primjer, u grupama različitih etioloških faktora kliničkog toka pneumonije, prosječni nivo provedenog dana u krevetu nije isti - uočava se međugrupna raznolikost.

D odmor. - rezidualna (unutargrupna) varijansa, koja karakteriše disperziju varijante unutar grupa. Odražava nasumične varijacije, tj. dio varijacije koji se javlja pod utjecajem nespecificiranih faktora i ne ovisi o osobini – faktoru koji leži u osnovi grupisanja. Varijacija ispitivane osobine zavisi od jačine uticaja nekih neobračunatih slučajnih faktora, kako na organizovane (daje istraživač) tako i na slučajne (nepoznate) faktore.

Dakle, ukupna varijacija (disperzija) se sastoji od varijacije uzrokovane organizovanim (datim) faktorima, nazvanih faktorska varijacija i neorganizovanim faktorima, tj. rezidualna varijacija (slučajna, nepoznata).

Za veličinu uzorka od n, varijansa uzorka se izračunava kao zbir kvadrata odstupanja od srednje vrijednosti uzorka podijeljen sa n-1 (veličina uzorka minus jedan). Dakle, sa fiksnom veličinom uzorka n, varijansa je funkcija zbira kvadrata (odstupanja), označena, radi kratkoće, SS (od engleskog Sum of Squares - Sum of Squares). U nastavku često izostavljamo riječ "selektivno", znajući dobro da razmatramo varijansu uzorka ili procjenu varijanse. Analiza varijanse zasniva se na podjeli varijanse na dijelove ili komponente. Uzmite u obzir sljedeći skup podataka:

Srednja vrijednost dvije grupe značajno se razlikuje (2 i 6, respektivno). Zbir kvadrata odstupanja unutar svake grupe je 2. Sabirajući ih, dobijamo 4. Ako sada ponovimo ove proračune bez uzimanja u obzir pripadnosti grupi, odnosno ako izračunamo SS na osnovu ukupnog prosjeka ova dva uzorka, dobijamo vrijednost od 28. Drugim riječima, varijansa (kvadrati zbira) zasnovana na varijabilnosti unutar grupe rezultira mnogo nižim vrijednostima od onih izračunatih na osnovu ukupne varijabilnosti (u odnosu na ukupnu srednju vrijednost). Razlog tome je očito značajna razlika između srednjih vrijednosti, a ta razlika između srednjih vrijednosti objašnjava postojeću razliku između zbira kvadrata.

SS St. St. GOSPOĐA F str
Efekat 24.0 24.0 24.0 .008
Greška 4.0 1.0

Kao što se može vidjeti iz tabele, ukupan zbir kvadrata SS = 28 podijeljen je na komponente: zbir kvadrata zbog varijabilnosti unutar grupe (2+2=4; vidi drugi red tabele) i zbir kvadrata kvadrata zbog razlike u srednjim vrednostima između grupa (28-(2+ 2)=24; vidi prvi red tabele). Imajte na umu da je MS u ovoj tabeli srednji kvadrat jednak SS podijeljen sa brojem stupnjeva slobode (stdf).

U jednostavnom primjeru iznad, možete odmah izračunati t-test za nezavisne uzorke. Dobijeni rezultati se, naravno, poklapaju sa rezultatima analize varijanse.

Međutim, situacije u kojima se neka pojava u potpunosti opisuje jednom varijablom su izuzetno rijetke. Na primjer, ako pokušavamo naučiti kako uzgajati velike rajčice, trebamo uzeti u obzir faktore koji se odnose na genetsku strukturu biljaka, tip tla, svjetlost, temperaturu itd. Stoga, kada provodite tipičan eksperiment, morate se suočiti s velikim brojem faktora. Glavni razlog zašto je korištenje ANOVA poželjnije od ponovnog poređenja dva uzorka na različitim nivoima faktora korištenjem serije t-testa je taj što je ANOVA značajno efikasnija i, za male uzorke, informativnija.

Pretpostavimo da u primeru analize dva uzorka o kojem smo gore govorili, dodamo još jedan faktor, kao što je Pol. Neka se sada svaka grupa sastoji od 3 muškarca i 3 žene. Plan ovog eksperimenta može se predstaviti u obliku tabele:

Prije nego što izvršite izračune, možete vidjeti da u ovom primjeru ukupna varijansa ima najmanje tri izvora:

1) slučajna greška (unutargrupna varijansa),

2) varijabilnost vezana za pripadnost eksperimentalnoj grupi

3) varijabilnost zbog pola objekata posmatranja.

Imajte na umu da postoji još jedan mogući izvor varijabilnosti - interakcija faktora, o čemu ćemo kasnije raspravljati). Šta se dešava ako ne uključimo rod kao faktor u našu analizu i izračunamo uobičajeni t-test? Ako izračunamo sume kvadrata zanemarujući pol (tj. kombinujući predmete različitog spola u jednu grupu prilikom izračunavanja varijanse unutar grupe i tako dobijemo zbir kvadrata za svaku grupu jednak SS = 10 i ukupan zbir kvadrata SS = 10+10 = 20) , tada dobijamo veću vrijednost unutargrupna varijansa nego u preciznijoj analizi sa dodatnim podgrupiranjem po spolu (sa unutargrupnim srednjim vrijednostima jednakim 2, a ukupna unutargrupna suma kvadrata jednaka je SS = 2+2+2+2 = 8).

Dakle, uvođenjem dodatnog faktora: spola, rezidualna varijansa se smanjila. To je zato što je srednja vrijednost muškaraca manja od srednje vrijednosti žena, a ova razlika u srednjim vrijednostima povećava ukupnu varijabilnost unutar grupe ako se spol ne uzme u obzir. Kontrola varijanse greške povećava osjetljivost (snagu) testa.

Ovaj primjer pokazuje još jednu prednost analize varijanse u odnosu na uobičajeni t-test sa dva uzorka. Analiza varijanse vam omogućava da proučavate svaki faktor kontrolirajući vrijednosti drugih faktora. To je, zapravo, glavni razlog njegove veće statističke moći (za dobijanje smislenih rezultata potrebne su manje veličine uzorka). Iz tog razloga, analiza varijanse, čak i na malim uzorcima, daje statistički značajnije rezultate od jednostavnog t-testa.

Analiza varijanse je skup statističkih metoda dizajniranih da testiraju hipoteze o odnosu između određenih karakteristika i proučavanih faktora koji nemaju kvantitativni opis, kao i da utvrde stepen uticaja faktora i njihove interakcije. U stručnoj literaturi se često naziva ANOVA (od engleskog naziva Analiza varijacija). Ovu metodu je prvi razvio R. Fischer 1925. godine.

Vrste i kriterijumi za analizu varijanse

Ova metoda se koristi za istraživanje odnosa između kvalitativnih (nominalnih) karakteristika i kvantitativne (kontinuirane) varijable. Zapravo, testira hipotezu o jednakosti aritmetičkih sredina nekoliko uzoraka. Stoga se može smatrati parametarskim kriterijem za poređenje centara nekoliko uzoraka odjednom. Ako koristite ovu metodu za dva uzorka, tada će rezultati analize varijanse biti identični rezultatima Studentovog t-testa. Međutim, za razliku od drugih kriterija, ova studija vam omogućava da detaljnije proučite problem.

Analiza varijanse u statistici zasniva se na zakonu: zbir kvadrata odstupanja kombinovanog uzorka jednak je zbiru kvadrata unutargrupnih devijacija i zbiru kvadrata međugrupnih devijacija. Za studiju se koristi Fisherov test za utvrđivanje značajnosti razlike međugrupne varijanse iz grupe. Međutim, za to su neophodni preduvjeti normalnost distribucije i homoskedastičnost (jednakost varijansi) uzoraka. Razlikovati jednodimenzionalnu (jednofaktorsku) analizu varijanse i multivarijantnu (multifaktorsku). Prvi razmatra ovisnost vrijednosti koja se proučava o jednom atributu, drugi - o mnogim odjednom, a također vam omogućava da identificirate odnos između njih.

Faktori

Faktori se nazivaju kontrolisane okolnosti koje utiču na konačni rezultat. Njegov nivo ili način obrade naziva se vrijednost koja karakterizira specifičnu manifestaciju ovog stanja. Ove brojke se obično daju u nominalnoj ili ordinalnoj skali mjerenja. Često se izlazne vrijednosti mjere na kvantitativnim ili ordinalnim skalama. Zatim postoji problem grupisanja izlaznih podataka u niz opservacija koje odgovaraju približno istim numeričkim vrijednostima. Ako je broj grupa prevelik, onda broj opservacija u njima može biti nedovoljan za dobijanje pouzdanih rezultata. Ako se broj uzme premali, to može dovesti do gubitka bitnih karakteristika uticaja na sistem. Specifična metoda grupisanja podataka ovisi o obimu i prirodi varijacije vrijednosti. Broj i veličina intervala u univarijantnoj analizi najčešće se određuju po principu jednakih intervala ili po principu jednakih frekvencija.

Zadaci analize disperzije

Dakle, postoje slučajevi kada trebate uporediti dva ili više uzoraka. Tada je preporučljivo koristiti analizu varijanse. Naziv metode ukazuje da se zaključci donose na osnovu proučavanja komponenti varijanse. Suština studije je da se ukupna promjena indikatora podijeli na komponente koje odgovaraju djelovanju svakog pojedinačnog faktora. Razmotrite niz problema koje rješava tipična analiza varijanse.

Primjer 1

Radionica raspolaže brojnim alatnim mašinama – automatskim mašinama koje proizvode određeni deo. Veličina svakog dijela je nasumična vrijednost, koja ovisi o postavkama svake mašine i slučajnim odstupanjima koja se javljaju tokom procesa proizvodnje dijelova. Iz mjerenja dimenzija dijelova potrebno je utvrditi da li su mašine postavljene na isti način.

Primjer 2

Prilikom izrade električnih aparata koriste se različite vrste izolacionog papira: kondenzatorski, električni itd. Aparat se može impregnirati raznim supstancama: epoksidna smola, lak, ML-2 smola itd. Curenja se mogu eliminisati pod vakuumom na visok krvni pritisak, kada se zagreje. Može se impregnirati uranjanjem u lak, pod neprekidnim mlazom laka, itd. Električni aparat u cjelini se sipa određenim spojem, za koji postoji nekoliko opcija. Pokazatelji kvalitete su dielektrična čvrstoća izolacije, temperatura pregrijavanja namota u radnom režimu i niz drugih. Tokom razvoja tehnološkog procesa izrade uređaja potrebno je utvrditi kako svaki od navedenih faktora utiče na performanse uređaja.

Primjer 3

Trolejbuski depo opslužuje nekoliko trolejbuskih linija. Oni upravljaju trolejbusima raznih tipova, a 125 inspektora naplaćuje karte. Upravu depoa zanima pitanje: kako uporediti ekonomski učinak svakog kontrolora (prihod) s obzirom na različite rute, različite tipove trolejbusa? Kako odrediti ekonomsku isplativost puštanja trolejbusa određenog tipa na određenu rutu? Kako uspostaviti razumne zahtjeve za iznos prihoda koji kondukter donosi na svakoj trasi u različitim tipovima trolejbusa?

Zadatak odabira metode je kako dobiti maksimalnu informaciju o utjecaju na konačni rezultat svakog faktora, odrediti numeričke karakteristike takvog utjecaja, njihovu pouzdanost uz minimalne troškove i u najkraćem mogućem vremenu. Metode analize disperzije omogućavaju rješavanje takvih problema.

Univarijantna analiza

Studija ima za cilj da proceni veličinu uticaja određenog slučaja na pregled koji se analizira. Drugi zadatak univarijantne analize može biti da uporedi dvije ili više okolnosti jedna s drugom kako bi se utvrdila razlika u njihovom utjecaju na opoziv. Ako se nulta hipoteza odbije, sljedeći korak je kvantifikacija i izgradnja intervali poverenja za dobijene karakteristike. U slučaju kada se nulta hipoteza ne može odbaciti, obično se prihvata i donosi zaključak o prirodi uticaja.

Jednosmjerna analiza varijanse može postati neparametarski analog metod rangiranja Kruskal-Wallis. Razvili su ga američki matematičar William Kruskal i ekonomista Wilson Wallis 1952. godine. Ovaj test je namijenjen testiranju nulte hipoteze da su efekti utjecaja na proučavane uzorke jednaki sa nepoznatim, ali jednakim srednjim vrijednostima. U ovom slučaju, broj uzoraka mora biti veći od dva.

Jonkhier (Jonkhier-Terpstra) kriterijum su nezavisno predložili holandski matematičar T. J. Terpstrom 1952. i britanski psiholog E. R. Jonkhier 1954. Koristi se kada se unapred zna da su dostupne grupe rezultata poredane povećanjem uticaj faktora koji se proučava, a koji se meri na ordinalnoj skali.

M - Bartletov kriterijum, koji je predložio britanski statističar Maurice Stevenson Bartlett 1937. godine, koristi se za testiranje nulte hipoteze o jednakosti varijansi nekoliko normalnih populacije, iz koje se uzimaju proučavani uzorci, u opštem slučaju, različite zapremine (broj svakog uzorka mora biti najmanje četiri).

G je Cochranov test, koji je otkrio Amerikanac William Gemmel Cochran 1941. godine. Koristi se za testiranje nulte hipoteze o jednakosti varijansi normalnih populacija za nezavisne uzorke jednake veličine.

Neparametarski Levenov test, koji je predložio američki matematičar Howard Levene 1960. godine, alternativa je Bartlettovom testu u uslovima u kojima nema sigurnosti da li se proučavani uzorci povinuju normalna distribucija.

Godine 1974. američki statističari Morton B. Brown i Alan B. Forsythe predložili su test (Braun-Forsytov test), koji se donekle razlikuje od Levenovog testa.

Dvosmjerna analiza

Dvosmjerna analiza varijanse se koristi za povezane normalno raspoređene uzorke. U praksi se često koriste složene tablice ove metode, posebno one u kojima svaka ćelija sadrži skup podataka (ponovljena mjerenja) koji odgovaraju fiksnim vrijednostima nivoa. Ako pretpostavke potrebne za primjenu dvosmjerne analize varijanse nisu ispunjene, onda se koristi neparametarski Friedmanov rang test (Friedman, Kendall i Smith), koji je razvio američki ekonomista Milton Friedman krajem 1930. godine. kriterijum ne zavisi od vrste distribucije.

Pretpostavlja se samo da je raspodjela veličina ista i kontinuirana, te da su one same jedna od druge nezavisne. Prilikom testiranja nulte hipoteze, izlazni podaci se prikazuju u obliku pravokutne matrice, u kojoj redovi odgovaraju nivoima faktora B, a stupci nivoima A. Svaka ćelija tabele (bloka) može biti rezultat mjerenja parametara na jednom objektu ili na grupi objekata sa konstantnim vrijednostima nivoa oba faktora. U ovom slučaju, odgovarajući podaci se prikazuju kao prosječne vrijednosti određenog parametra za sva mjerenja ili objekte uzorka koji se proučava. Da bi se primenio izlazni kriterijum, potrebno je preći sa direktnih rezultata merenja na njihov rang. Rangiranje se vrši za svaki red posebno, odnosno vrijednosti se poređaju za svaku fiksnu vrijednost.

Page test (L-test), koji je predložio američki statističar E. B. Page 1963. godine, dizajniran je za testiranje nulte hipoteze. Za velike uzorke koristi se Page aproksimacija. Oni, podložni realnosti odgovarajućih nultih hipoteza, poštuju standardnu ​​normalnu distribuciju. U slučaju kada redovi izvorne tabele imaju iste vrijednosti, potrebno je koristiti prosječne rangove. U ovom slučaju, tačnost zaključaka će biti to gora, što je veći broj takvih podudarnosti.

Q - Cochranov kriterijum, koji je predložio V. Cochran 1937. godine. Koristi se u slučajevima kada su grupe homogenih subjekata izložene više od dva uticaja i za koje su moguće dvije opcije odgovora - uslovno negativan (0) i uslovno pozitivan (1) . Nulta hipoteza se sastoji od jednakosti efekata uticaja. Dvosmjerna analiza varijanse omogućava utvrđivanje postojanja efekata obrade, ali ne omogućava utvrđivanje za koje stupce taj efekat postoji. Za rješavanje ovog problema, metod više jednačina Scheffe za povezane uzorke.

Multivarijantna analiza

Problem multivarijantne analize varijanse nastaje kada je potrebno utvrditi uticaj dva ili više uslova na određenu slučajnu varijablu. Studija predviđa prisustvo jednog izdržavanog lica slučajna varijabla, mjereno u skali razlike ili omjera, i nekoliko nezavisnih vrijednosti, od kojih je svaka izražena u skali imena ili u rangu. Analiza disperzije podataka je prilično razvijena grana matematičke statistike, koja ima mnogo opcija. Koncept studije je zajednički i za univarijantne i za multivarijantne studije. Njegova suština je u tome totalna varijansa podijeljen na komponente, što odgovara određenoj grupi podataka. Svaka grupa podataka ima svoj model. Ovdje ćemo razmotriti samo glavne odredbe neophodne za razumijevanje i praktična upotreba najčešće korištene opcije.

Faktorska analiza varijanse zahtijeva pažljivu pažnju na prikupljanje i prezentaciju ulaznih podataka, a posebno na interpretaciju rezultata. Za razliku od jednofaktora, čiji se rezultati mogu uslovno smestiti u određeni niz, rezultati dvofaktora zahtevaju složeniji prikaz. Još teža situacija nastaje kada postoje tri, četiri ili više okolnosti. Zbog toga model rijetko uključuje više od tri (četiri) uslova. Primjer bi bila pojava rezonancije pri određenoj vrijednosti kapacitivnosti i induktivnosti električnog kruga; manifestacija hemijska reakcija sa određenim skupom elemenata od kojih je sistem izgrađen; pojava anomalnih efekata u složenim sistemima pod određenom podudarnošću okolnosti. Prisustvo interakcije može radikalno promijeniti model sistema i ponekad dovesti do preispitivanja prirode fenomena s kojima se eksperimentator bavi.

Multivarijantna analiza varijanse s ponovljenim eksperimentima

Podaci mjerenja se često mogu grupirati ne po dva, već prema više faktora. Dakle, ako uzmemo u obzir disperzijsku analizu vijeka trajanja guma za trolejbuske kotače, uzimajući u obzir okolnosti (proizvođača i rutu na kojoj se gume koriste), onda kao poseban uslov možemo izdvojiti sezonu tokom koje se gume koriste. koriste (i to: zimski i ljetni rad). Kao rezultat toga, imaćemo problem trofaktorske metode.

U prisustvu više uslova, pristup je isti kao kod dvosmjerne analize. U svim slučajevima, model pokušava da se pojednostavi. Fenomen interakcije dva faktora ne javlja se tako često, a trostruka interakcija se javlja samo u izuzetnim slučajevima. Uključite one interakcije za koje postoje prethodne informacije i dobri razlozi da ih uzmete u obzir u modelu. Proces izdvajanja pojedinačnih faktora i njihovog uzimanja u obzir je relativno jednostavan. Stoga često postoji želja da se istakne više okolnosti. Ne biste se trebali zanositi ovim. Kako više uslova, što model postaje manje pouzdan i veća je vjerovatnoća greške. Sam model, koji uključuje veliki broj nezavisnih varijabli, postaje prilično težak za interpretaciju i neprikladan za praktičnu upotrebu.

Opća ideja analize varijanse

Analiza varijanse u statistici je metoda dobijanja rezultata posmatranja koji zavise od različitih istovremenih okolnosti i procene njihovog uticaja. Kontrolisana varijabla koja odgovara načinu uticaja na predmet proučavanja i dobija određenu vrijednost u određenom vremenskom periodu naziva se faktor. One mogu biti kvalitativne i kvantitativne. Nivoi kvantitativnih uslova dobijaju određenu vrijednost na brojčanoj skali. Primjeri su temperatura, pritisak pritiska, količina tvari. Kvalitativni faktori su različite supstance, različite tehnološke metode, aparati, punila. Njihovi nivoi odgovaraju skali imena.

Kvalitet uključuje i vrstu ambalažnog materijala, uslove skladištenja doznog oblika. Također je racionalno uključiti stepen mljevenja sirovina, frakcijski sastav granula, koji imaju kvantitativnu vrijednost, ali ih je teško regulisati ako se koristi kvantitativna skala. Broj faktora kvaliteta zavisi od vrste doznog oblika, kao i fizičkih i tehnoloških svojstava lekovitih supstanci. Na primjer, tablete se mogu dobiti od kristalnih supstanci direktnim kompresijom. U ovom slučaju dovoljno je izvršiti odabir sredstava za klizanje i podmazivanje.

Primjeri faktora kvaliteta za različite vrste doznih oblika

  • Tinkture. Sastav ekstraktora, tip ekstraktora, način pripreme sirovine, način proizvodnje, način filtracije.
  • Ekstrakti (tečni, gusti, suvi). Sastav ekstratanta, način ekstrakcije, vrsta instalacije, način uklanjanja ekstraktanta i balastnih tvari.
  • Tablete. Sastav ekscipijenata, punila, dezintegranata, veziva, maziva i maziva. Način dobijanja tableta, vrsta tehnološke opreme. Vrsta ljuske i njene komponente, formirači filma, pigmenti, boje, plastifikatori, rastvarači.
  • rastvori za injekcije. Vrsta rastvarača, način filtracije, priroda stabilizatora i konzervansa, uslovi sterilizacije, način punjenja ampula.
  • Supozitorije. Sastav baze supozitorija, način dobijanja supozitorija, punila, pakovanja.
  • Masti. Sastav baze, strukturne komponente, način pripreme masti, vrsta opreme, ambalaža.
  • Kapsule. Vrsta materijala ljuske, način dobijanja kapsula, vrsta plastifikatora, konzervans, boja.
  • Linimenti. Način proizvodnje, sastav, vrsta opreme, vrsta emulgatora.
  • Suspenzije. Vrsta rastvarača, vrsta stabilizatora, metoda disperzije.

Primjeri faktora kvaliteta i njihovi nivoi proučavani u procesu proizvodnje tableta

  • Brašno. Krompirov skrob, bijela glina, mješavina natrijum bikarbonata sa limunskom kiselinom, bazični magnezijum karbonat.
  • vezivno rešenje. Voda, škrobna pasta, šećerni sirup, rastvor metilceluloze, rastvor hidroksipropil metilceluloze, rastvor polivinilpirolidona, rastvor polivinil alkohola.
  • klizna supstanca. Aerosil, skrob, talk.
  • Filler.Šećer, glukoza, laktoza, natrijum hlorid, kalcijum fosfat.
  • Lubricant. Stearinska kiselina, polietilen glikol, parafin.

Modeli analize disperzije u proučavanju nivoa konkurentnosti države

Jedan od najvažnijih kriterijuma za ocjenu stanja države, koji se koristi za procjenu stepena njenog blagostanja i društveno-ekonomskog razvoja, jeste konkurentnost, odnosno skup svojstava svojstvenih nacionalne ekonomije, koji određuju sposobnost države da se takmiči sa drugim zemljama. Odredivši mjesto i ulogu države na svjetskom tržištu, moguće je uspostaviti jasnu strategiju za osiguranje ekonomske sigurnosti na međunarodnom planu, jer je ona ključna za pozitivne odnose između Rusije i svih igrača na svjetskom tržištu: investitora. , kreditori, državne vlade.

Da bi se uporedio nivo konkurentnosti država, zemlje se rangiraju pomoću kompleksnih indeksa, koji uključuju različite ponderisane indikatore. Ovi indeksi su zasnovani na ključni faktori koji utiču na ekonomsku, političku itd. situaciju. Kompleks modela za proučavanje konkurentnosti države predviđa korištenje metoda multivarijantne statističke analize (posebno, ovo je analiza varijanse (statistika), ekonometrijsko modeliranje, donošenje odluka) i uključuje sljedeće glavne faze:

  1. Formiranje sistema indikatora-indikatora.
  2. Vrednovanje i predviđanje indikatora konkurentnosti države.
  3. Poređenje indikatora-indikatora konkurentnosti država.

A sada razmotrimo sadržaj modela svake od faza ovog kompleksa.

U prvoj fazi uz pomoć stručnih metoda proučavanja formira se razuman skup ekonomskih indikatora-indikatora za procjenu konkurentnosti države, uzimajući u obzir specifičnosti njenog razvoja na osnovu međunarodnih ocjena i podataka statističkih odjela, koji odražavaju stanje sistem u cjelini i njegovi procesi. Izbor ovih pokazatelja opravdan je potrebom da se izaberu oni koji najpotpunije, sa stanovišta prakse, omogućavaju da se utvrdi nivo države, njena investiciona atraktivnost i mogućnost relativne lokalizacije postojećih potencijalnih i stvarnih pretnji.

Glavni indikatori-indikatori međunarodnih rejting sistema su indeksi:

  1. Globalna konkurentnost (GCC).
  2. Ekonomska sloboda (IES).
  3. Humani razvoj (HDI).
  4. Percepcija korupcije (CPI).
  5. Unutrašnje i eksterne prijetnje (IVZZ).
  6. Potencijal međunarodnog uticaja (IPIP).

Druga faza predviđa procjenu i predviđanje indikatora konkurentnosti države prema međunarodnim ocjenama za proučavanih 139 država svijeta.

Treća faza omogućava poređenje uslova za konkurentnost država korišćenjem metoda korelacione i regresione analize.

Koristeći rezultate studije, moguće je utvrditi prirodu procesa općenito i za pojedine komponente konkurentnosti države; testirati hipotezu o uticaju faktora i njihovom odnosu na odgovarajućem nivou značajnosti.

Implementacija predloženog skupa modela omogućit će ne samo procjenu trenutnog stanja nivoa konkurentnosti i investiciona atraktivnost države, ali i analizirati nedostatke upravljanja, spriječiti greške pogrešnih odluka, spriječiti razvoj krize u državi.



greška: Sadržaj je zaštićen!!