Analiza factorială și de dispersie în Excel cu automatizare de calcul. Analiza unidirecțională a varianței

Analiza variatiei

1. Conceptul de analiză a varianței

Analiza variatiei- aceasta este o analiză a variabilității unei trăsături sub influența oricăror factori variabili controlați. În literatura străină analiza variatiei adesea denumită ANOVA, care se traduce ca analiză a varianței (Analysis of Variance).

Sarcina analizei varianței constă în izolarea variabilității de alt fel de variabilitatea generală a trăsăturii:

a) variabilitatea datorată acţiunii fiecăreia dintre variabilele independente studiate;

b) variabilitate datorată interacţiunii variabilelor independente studiate;

c) variație aleatoare datorată tuturor celorlalte variabile necunoscute.

Variabilitatea datorată acțiunii variabilelor studiate și interacțiunea acestora se corelează cu variabilitatea aleatorie. Un indicator al acestui raport este testul F Fisher.

Formula de calcul a criteriului F include estimări ale variațiilor, adică parametrii de distribuție ai unei caracteristici, prin urmare criteriul F este un criteriu parametric.

Cu cât variabilitatea trăsăturii se datorează mai mult variabilelor (factorilor) studiate sau interacțiunii acestora, cu atât mai mare valorile empirice ale criteriului.

Zero ipoteza în analiza varianței va spune că valorile medii ale caracteristicii efective studiate în toate gradațiile sunt aceleași.

Alternativă ipoteza va afirma că valorile medii ale atributului efectiv în diferite gradații ale factorului studiat sunt diferite.

Analiza varianței ne permite să afirmăm o modificare a unei trăsături, dar nu indică direcţie aceste schimbari.

Să începem analiza varianței cu cel mai simplu caz, când studiem acțiunea numai unu variabilă (un singur factor).

2. Analiza unidirecțională a varianței pentru eșantioane neînrudite

2.1. Scopul metodei

Metoda analizei univariate a varianței este utilizată în cazurile în care modificările atributului efectiv sunt studiate sub influența condițiilor în schimbare sau gradațiile oricărui factor. În această versiune a metodei, influența fiecăreia dintre gradațiile factorului este diferit eșantion de subiecți de testare. Trebuie să existe cel puțin trei gradații ale factorului. (Pot fi două gradații, dar în acest caz nu vom putea stabili dependențe neliniare și pare mai rezonabil să folosim altele mai simple).

O variantă neparametrică a acestui tip de analiză este testul Kruskal-Wallis H.

Ipoteze

H 0: Diferențele dintre gradele factorilor (condiții diferite) nu sunt mai pronunțate decât diferențele aleatorii în cadrul fiecărui grup.

H 1: Diferențele dintre gradațiile factorilor (condiții diferite) sunt mai pronunțate decât diferențele aleatorii în cadrul fiecărui grup.

2.2. Limitări ale analizei univariate a varianței pentru eșantioane neînrudite

1. Analiza univariată a varianței necesită cel puțin trei gradații ale factorului și cel puțin două subiecți în fiecare gradație.

2. Trăsătura rezultată trebuie să fie distribuită în mod normal în eșantionul de studiu.

Adevărat, de obicei nu este indicat dacă vorbim despre distribuția unei trăsături în întregul eșantion chestionat sau în acea parte a acestuia care alcătuiește complexul de dispersie.

3. Un exemplu de rezolvare a problemei prin metoda analizei cu un singur factor a varianței pentru eșantioane neînrudite folosind exemplul:

Trei grupuri diferite de șase subiecți au primit liste de zece cuvinte. Cuvintele au fost prezentate primului grup cu o rată scăzută de 1 cuvânt pe 5 secunde, celui de-al doilea grup cu o rată medie de 1 cuvânt pe 2 secunde și celui de-al treilea grup cu o rată mare de 1 cuvânt pe secundă. Performanța de reproducere a fost estimată să depindă de viteza de prezentare a cuvintelor. Rezultatele sunt prezentate în tabel. 1.

Numărul de cuvinte reproduse tabelul 1

numărul subiectului

viteza mica

viteza medie

de mare viteză

valoare totală

H 0: Diferențe în volumul cuvintelor între grupurile nu sunt mai pronunțate decât diferențele aleatorii interior fiecare grup.

H1: Diferențele în volumul cuvintelor între grupurile sunt mai pronunțate decât diferențele aleatorii interior fiecare grup. Folosind valorile experimentale prezentate în tabel. 1, vom stabili câteva valori care vor fi necesare pentru a calcula criteriul F.

Calculul cantităților principale pentru analiza unidirecțională a varianței este prezentat în tabel:

masa 2

Tabelul 3

Secvență de operații în ANOVA unidirecțional pentru probe deconectate

Folosită frecvent în acest tabel și în tabelele ulterioare, denumirea SS este o abreviere pentru „sumă de pătrate”. Această abreviere este cel mai des folosită în sursele traduse.

SS faptînseamnă variabilitatea trăsăturii, datorită acțiunii factorului studiat;

SS uzual- variabilitatea generală a trăsăturii;

S CA- variabilitate datorată unor factori necontabilizați, variabilitate „aleatorie” sau „reziduală”.

DOMNIȘOARĂ- „pătrat mediu”, sau așteptarea matematică a sumei pătratelor, valoarea medie a SS corespunzătoare.

df - numărul de grade de libertate, pe care, luând în considerare criteriile neparametrice, le-am notat cu litera greacă v.

Concluzie: H 0 este respins. H 1 este acceptat. Diferențele în volumul reproducerii cuvintelor între grupuri sunt mai pronunțate decât diferențele aleatorii în cadrul fiecărui grup (α=0,05). Deci, viteza de prezentare a cuvintelor afectează volumul reproducerii lor.

Un exemplu de rezolvare a problemei în Excel este prezentat mai jos:

Date inițiale:

Folosind comanda: Instrumente->Analiza datelor->Analiza unidirecțională a varianței, obținem următoarele rezultate:

În acest subiect, va fi luată în considerare doar analiza unidirecțională a varianței, utilizată pentru eșantioane neînrudite. În ceea ce privește conceptul de bază al varianței, această analiză se bazează pe calcularea variațiilor de trei tipuri:

Varianta totală calculată pentru întregul set de date experimentale;

Varianta intragrup care caracterizează variabilitatea unei trăsături în fiecare probă;

Dispersia intergrupurilor care caracterizează variabilitatea mediilor de grup.

Principala prevedere a analizei varianței este: varianta totala egală cu suma dispersiilor intragrup și intergrup.

Această poziție poate fi scrisă ca o ecuație:

Unde x ij- valorile tuturor variabilelor obținute în experiment; în timp ce indicele j variază de la 1 inainte de R, Unde R- numărul de probe comparate, pot fi trei sau mai multe; index i corespunde numărului de elemente din eșantion (pot fi două sau mai multe);

Media generală a întregului set de date analizat;

Mediu j mostre;

N-numărul total toate elementele din setul analizat de date experimentale;

R- numărul de probe experimentale.

Să analizăm această ecuație mai detaliat.

Să avem R grupuri (eșantioane). În ANOVA, fiecare probă este reprezentată ca o singură coloană (sau rând) de numere. Apoi, pentru a putea indica un anumit grup (eșantion), este introdus un index j, care se modifică în mod corespunzător de la j= 1 la j= r. De exemplu, dacă avem 5 grupuri (eșantioane), atunci p=5 și indicele j se modifică în consecinţă de la j= 1 la j= 5.

Să ne confruntăm cu sarcina de a specifica un element specific (valoarea de măsurare) al unui eșantion. Pentru a face acest lucru, trebuie să cunoaștem numărul acestui eșantion, de exemplu 4, și locația elementului (valoarea măsurată) în această probă. Acest element poate fi localizat în selecția de la prima valoare (primul rând) până la ultima (ultimul rând). Lăsați elementul nostru necesar să fie situat pe a cincea linie. Atunci notația sa va fi: x 54 . Aceasta înseamnă că al cincilea element din rândul din al patrulea eșantion este selectat.

LA caz generalîn fiecare grup (eșantion), numărul elementelor sale constitutive poate fi diferit - prin urmare, notăm numărul de elemente din j grup (probă) prin nj. Valorile caracteristicii obținute în experimentul în j grup notat cu xij, Unde i= 1, 2, ... n este numărul de serie al observației în j grup.

Este recomandabil să efectuați un raționament suplimentar bazat pe tabelul 35. Rețineți, totuși, că, pentru comoditatea unui raționament suplimentar, eșantioanele din acest tabel sunt prezentate nu ca coloane, ci ca rânduri (ceea ce, totuși, nu este important).

În ultimul rând al tabelului, este dat volumul total al întregului eșantion - N, suma tuturor valorilor obținute ale lui G și media totală a întregului eșantion. Această medie generală este obținută ca suma tuturor elementelor setului analizat de date experimentale, notate mai sus cu G, împărțită la numărul tuturor elementelor N.


Coloana din dreapta tabelului arată valorile medii pentru toate probele. De exemplu, în j eșantion (linia tabelului notat cu simbolul j) valoarea mediei (pentru întregul eșantion j) este după cum urmează:

Analiza varianței vă permite să explorați diferența dintre grupurile de date, pentru a determina dacă aceste discrepanțe sunt aleatorii sau cauzate de circumstanțe specifice. De exemplu, dacă vânzările unei companii într-una dintre regiuni au scăzut, atunci folosind analiza varianței, puteți afla dacă scăderea cifrei de afaceri în această regiune este accidentală în comparație cu restul și, dacă este necesar, efectuați schimbări organizatorice. La efectuarea unui experiment în conditii diferite analiza varianței va ajuta la determinarea cât de mult influențează factorii externi măsurătorile sau abaterile sunt aleatorii. Dacă în producție, pentru a îmbunătăți calitatea produselor, modul de procesare este schimbat, atunci analiza varianței ne permite să evaluăm rezultatele impactului acestui factor.

Pe aceasta exemplu arătăm cum se efectuează ANOVA pe date experimentale.

Exercitiul 1. Există patru loturi de materii prime pentru industria textilă. Din fiecare lot au fost selectate cinci probe și au fost efectuate teste pentru a determina magnitudinea sarcinii de rupere. Rezultatele testului sunt prezentate în tabel.

71" height="29" bgcolor="white" style="border:.75pt negru solid; vertical-align:top;background:white">

Fig.1


> Deschideți o foaie de calcul Microsoft Excel. Faceți clic pe eticheta Sheet2 pentru a comuta la o altă foaie de lucru.

> Introduceți datele ANOVA prezentate în Figura 1.

> Convertiți datele în format numeric. Pentru a face acest lucru, selectați comanda de meniu Format Cell. Pe ecran va apărea fereastra cu formatul celulei (Fig. 2). Selectați Format numeric și datele introduse vor fi convertite în forma prezentată în fig. 3

> Selectați comanda de meniu Service Data Analysis (Instrumente * Data Analysis). Fereastra Data Analysis (Data Analysis) va apărea pe ecran (Fig. 4).

> Faceți clic pe linia Analiză unică a varianței (Anova: Single Factor) din lista Instrumente de analiză (Anova: Single Factor).

> Faceți clic pe OK pentru a închide fereastra Data Analysis (Data Analysis). Fereastra de analiză unidirecțională a varianței va apărea pe ecran pentru efectuarea analizei de dispersie a datelor (Fig. 5).

https://pandia.ru/text/78/446/images/image006_46.jpg" width="311" height="214 src=">

Fig.5

> Dacă într-un grup de controale Date de intrare(Intrare) comutarea pe linii nu este setată, apoi setați-o astfel încât programul Excel să accepte grupuri de date pe linii - loturi.

> Instalați Etichete casete de selectareîn primul rând (Etichete în Firts Rom) din grupul de controale de intrare, dacă prima coloană a intervalului de date selectat conține nume de rând.

> În câmpul de introducere Alfa Intrarea grupului de control (A1pha) este implicit la o valoare de 0,05, care este legată de probabilitatea de eroare în analiza varianței.

> Dacă comutatorul Nev Worksheet Ply nu este setat în grupul de controale Opțiuni de intrare, atunci setați-l astfel încât rezultatele analizei varianței să fie plasate pe o nouă foaie de lucru

> Faceți clic pe OK pentru a închide fereastra Anova: Single Factor. Rezultatele analizei varianței vor apărea pe o nouă foaie de lucru (Fig. 6).

Gama de celule A4:E6 conține rezultatele statisticilor descriptive. Linia 4 conține numele parametrilor, liniile conțin valorile statistice calculate pe loturi.

În coloană Verifica(Numărătoare) sunt numărul de măsurători, în coloana Sum - suma valorilor, în coloana Media (Media) - valorile medii aritmetice, în coloana Varianță (Varianse) - dispersie.

Rezultatele obţinute arată că cea mai mare sarcină medie de rupere din lotul nr. 3, şi cea mai mare variație sarcină de rupere - în grupul nr. 1.

Într-o serie de celule A11:G16 afișează informații cu privire la semnificația discrepanțelor dintre grupurile de date. Rândul 12 conține numele parametrilor de analiză a varianței, rândul 13 - rezultatele prelucrării intergrup, linia 14 - rezultatele prelucrării intragrup și linia 16 - suma valorilor celor două linii menționate.

În coloană SS (qi) sunt situate valorile variației, adică sumele pătratelor peste toate abaterile. Variația, ca și dispersia, caracterizează răspândirea datelor. Din tabel se poate observa că răspândirea intergrup a sarcinii de rupere este semnificativ mai mare decât variația intragrup.

În coloană df (k) se găsesc valorile numerelor de grade de libertate. Aceste numere indică numărul de abateri independente peste care va fi calculată varianța. De exemplu, numărul de grade de libertate intergrup este egal cu diferența dintre numărul de grupuri de date și unul. Cu cât este mai mare numărul de grade de libertate, cu atât este mai mare fiabilitatea parametrilor de dispersie. Datele privind gradele de libertate din tabel arată că rezultatele în cadrul grupului sunt mai fiabile decât parametrii dintre grupuri.

În coloană DOMNIȘOARĂ (S2 ) sunt localizate valorile de dispersie, care sunt determinate de raportul de variație și numărul de grade de libertate. Dispersia caracterizează gradul de împrăștiere a datelor, dar, spre deosebire de mărimea variației, nu are o tendință directă de creștere odată cu creșterea numărului de grade de libertate. Din tabel se vede că varianta intergrup mult mai mare decât varianța intragrup.

În coloană F localizat, valoare F- statistici, calculat prin raportul dintre variațiile intergrup și intragrup.

În coloană Fcritic(F crit) se localizează valoarea F-critică, calculată din numărul de grade de libertate și valoarea lui Alpha (A1pha). Criteriul de utilizare a valorii F-statistică și F-critică Pescar-Snedekora.

Dacă statistica F este mai mare decât valoarea critică F, atunci se poate argumenta că diferențele dintre grupurile de date nu sunt aleatorii. adică la nivelul semnificaţiei α = 0,05 (cu o fiabilitate de 0,95) se respinge ipoteza nulă și se acceptă alternativa: diferența dintre loturile de materii prime are un impact semnificativ asupra mărimii sarcinii de rupere.

Coloana P-valoare conține valoarea probabilității ca discrepanța dintre grupuri să fie aleatorie. Deoarece această probabilitate este foarte mică în tabel, abaterea dintre grupuri nu este aleatorie.

2. Rezolvarea problemelor de analiză bidirecțională a varianței fără repetări

Microsoft Excel are funcția Anova: (Two-Factor Without Replication), care este utilizată pentru a identifica faptul că influența factorilor controlați ȘI și LA pe un atribut eficient bazat pe date eșantion și fiecare nivel de factori ȘI și LA doar un eșantion se potrivește. Pentru a apela această funcție, selectați comanda din bara de meniu Serviciu – Analiza datelor. Se va deschide o fereastră pe ecran. Analiza datelor, în care ar trebui să selectați o valoare Analiza bidirecțională a varianței fără repetăriși faceți clic pe butonul OK. Ca rezultat, pe ecran se va deschide caseta de dialog prezentată în Figura 1.

78" height="42" bgcolor="white" style="border:.75pt negru solid; vertical-align:top;background:white">

2. Caseta de validare Etichete este setată dacă primul rând din intervalul de intrare conține titluri de coloană. Dacă nu există antete, caseta de selectare ar trebui să fie debifată. În acest caz, numele standard vor fi generate automat pentru datele intervalului de ieșire.

3. În câmpul Alpha, este introdus nivelul de semnificație acceptat. α , care corespunde probabilității unei erori de primul fel.

4. Comutatorul din grupul Opțiuni de ieșire poate fi setat pe una dintre cele trei poziții: Interval de ieșire, Strat de foaie de lucru nouă sau Registr de lucru nou.

Exemplu.

Analiza bidirecțională a varianței fără repetări(Anova: Two-Factor Without Replication) în exemplul următor.

Pe imagine. Figura 2 prezintă randamentul (c/ha) a patru soiuri de grâu (patru niveluri de factor A) realizat cu cinci tipuri de îngrășăminte (cinci niveluri de factor B). Datele au fost obținute din 20 de parcele de aceeași dimensiune și acoperire de sol similară. Trebuie definit dacă varietatea și tipul de îngrășământ afectează randamentul grâului.

Analiza bidirecțională a varianței fără repetări sunt prezentate în figura 3.

După cum se poate observa din rezultate, valoarea calculată a valorii statistice F pentru factorul A (tipul de îngrășământ) FȘI= l,67 , iar regiunea critică este formată din intervalul din dreapta (3.49; +∞). La fel de FȘI= l,67 nu se încadrează în regiunea critică, ipoteza HA: A 1 = A 2 + = ak Accept, adică credem că în acest experiment tipul de îngrășământ nu a avut nici un efect asupra randamentului.

Valoarea estimată a statisticii F pentru factorul B (soi de grâu) FLA =2,03 , iar regiunea critică este formată din intervalul din dreapta (3,259;+∞).

La fel de FLA=2,03 nu se încadrează în regiunea critică, ipoteza HB: b1 = b2 = ... = bm

de asemenea, acceptăm, adică credem că în asta În experiment, soiul de grâu nu a afectat nici randamentul.

2. Analiza bidirecțională a varianțeicrepetari

Microsoft Excel are funcția Anova: Two-Factor With Replication, care este, de asemenea, utilizată pentru a determina dacă factorii controlați A și B influențează o trăsătură de performanță pe baza datelor eșantionului, cu toate acestea, fiecare nivel al unuia dintre factorii A (sau B) corespunde mai multor eșantion de date.

Luați în considerare utilizarea funcției Analiza bidirecțională a varianței cu repetări pe exemplul următor.

Exemplul 2. in masa. Figura 6 prezintă creșterea zilnică în greutate (g) a 18 purcei colectați pentru studiu, în funcție de metoda de păstrare a purceilor (factorul A) și de calitatea hrănirii acestora (factorul B).

75" height="33" bgcolor="white" style="border:.75pt negru solid; vertical-align:top;background:white">

Această casetă de dialog setează următoarele opțiuni.

1. În câmpul Interval de intrare, introduceți o referință la intervalul de celule care conține datele analizate. Selectați celule din G 4 inainte de eu 13.

2. În câmpul Rânduri per eșantion, definiți numărul de eșantioane pentru fiecare nivel al unuia dintre factori. Fiecare nivel de factor trebuie să conțină același număr de eșantioane (rânduri de tabel). În cazul nostru, numărul de linii este de trei.

3. În câmpul Alpha, introduceți valoarea acceptată a nivelului de semnificație α , care este egal cu probabilitatea unei erori de tip I.

4. Comutatorul din grupul Opțiuni de ieșire poate fi setat pe una dintre cele trei poziții: Interval de ieșire (Interval de ieșire), Nouă foaie de lucru (Foaie de lucru nouă) sau Nou registru de lucru (Nou registru de lucru).

Rezultatele analizei bidirecționale a varianței folosind funcția Analiza bidirecțională a varianței cu repetări semnificative. Datorită faptului că interacţiunea acestor factori este nesemnificativă (la nivel de 5%).

Teme pentru acasă

1. Pe parcursul a șase ani, cinci tehnologii diferite au fost folosite pentru cultivarea culturilor. Datele experimentale (în c/ha) sunt date în tabel:

https://pandia.ru/text/78/446/images/image024_11.jpg" width="642" height="190 src=">

Se cere la nivelul de semnificație α = 0,05 să se stabilească dependența producției de plăci de înaltă calitate de linia de producție (factorul A).

3. Următoarele date sunt disponibile cu privire la randamentul a patru soiuri de grâu pe cele cinci loturi (blocuri) alocate:

https://pandia.ru/text/78/446/images/image026_9.jpg" width="598" height="165 src=">

Se cere la nivelul de semnificație α = 0,05 pentru a stabili impactul asupra productivității muncii al tehnologiilor (factorul A) și al întreprinderilor (factorul B).

Model de dispersie cu un singur factor are forma

Unde Xjj- valoarea variabilei studiate, obținută pe nivelul z factor (r = 1, 2,..., t) su-al-lea număr de serie (j- 1,2,..., P);/y - efect datorat influenței nivelului i al factorului; e^. - o componentă aleatorie, sau o perturbare cauzată de influența unor factori necontrolați, i.e. variația unei variabile într-un singur nivel.

Sub nivel de factor se înțelege o parte din măsura sau starea acestuia, de exemplu, cantitatea de îngrășăminte aplicată, tipul de topire a metalului sau numărul de lot de piese etc.

Condiții preliminare de bază pentru analiza varianței.

1. Aşteptarea matematică a perturbării ? (/ - este zero pentru orice i, acestea.

  • 2. Perturbațiile sunt reciproc independente.
  • 3. Dispersia perturbației (sau variabila Xu) este constantă pentru orice ij> acestea.

4. Perturbația e# (sau variabila Xu) are o lege de distribuție normală N( 0; a 2).

Influenţa nivelurilor factorilor poate fi ca fix, sau sistematic(modelul I) și Aleatoriu(modelul II).

Să fie, de exemplu, necesar să aflăm dacă există diferențe semnificative între loturile de produse în ceea ce privește un anumit indicator de calitate, adică. verificați impactul asupra calității unui factor - un lot de produse. Dacă toate loturile de materii prime sunt incluse în studiu, atunci influența nivelului unui astfel de factor este sistematică (modelul I), iar constatările sunt aplicabile numai acelor loturi individuale care au fost implicate în studiu; dacă este inclusă doar o parte aleatoare a loturilor, atunci influența factorului este aleatorie (modelul II). În complexele multifactoriale este posibil un model mixt III, în care unii factori au niveluri aleatorii, în timp ce alții sunt fixați.

Să luăm în considerare această problemă mai detaliat. Să fie t loturi de produse. Din fiecare lot selectat corespunzător p L, p 2 ,p t produse (pentru simplitate, presupunem că u = n 2 =... = n t = n). Reprezentăm valorile indicelui de calitate al acestor produse sub forma unei matrice de observații


Este necesar să se verifice semnificația influenței loturilor de produse asupra calității acestora.

Dacă presupunem că elementele rândurilor matricei de observație sunt valori numerice (realizări) variabile aleatoare Xt, X 2 ,..., x t, exprimând calitatea produselor și, respectiv, având o lege de distribuție normală cu așteptări matematice a v a 2 , ..., un tși dispersii egale a 2 , atunci sarcina dată se reduce la testarea ipotezei nule #0: a v = a 2l = ... = A t, efectuată în analiza varianței.

Să notăm media pentru un anumit indice cu un asterisc (sau un punct) în loc de un indice, apoi indicele de calitate medie al produselor din lotul i sau media grupului pentru nivelul i-lea al factorului, ia forma

A medie generală -

Luați în considerare suma abaterilor pătrate ale observațiilor de la media totală xn:

sau Q= Q+ Q2+ ?>з Ultimul termen

deoarece suma abaterilor valorilor variabilei de la media acesteia, i.e. ? 1.g y - x) este egal cu zero. ) = x

Primul termen poate fi scris ca

Ca rezultat, obținem următoarea identitate:

t p. _

Unde Q=Y X [ x ij _ x ", I 2 - general, sau complet, suma abaterilor pătrate; 7=1

Q, -n^)



eroare: Conținutul este protejat!!