Calculul regresiei liniare. Analiza de regresie

Coeficient de corelație multiplă caracterizează strânsoarea relației liniare dintre o variabilă și setul de alte variabile luate în considerare.
De o importanță deosebită este calculul coeficientului de corelație multiplă caracteristica rezultată y cu factorul x 1 , x 2 ,…, x m , formula pentru a determina care in caz general are forma

unde ∆ r este determinantul matricei de corelație; ∆ 11 este complementul algebric al elementului r yy al matricei de corelație.
Dacă sunt luate în considerare doar două semne de factori, atunci următoarea formulă poate fi utilizată pentru a calcula coeficientul de corelație multiplă:

Construirea unui coeficient de corelație multiplă este recomandabilă numai în cazul în care coeficienții de corelație parțială s-au dovedit a fi semnificativi, iar relația dintre caracteristica rezultată și factorii incluși în model există cu adevărat.

Coeficient de determinare

Formula generală: R 2 = RSS/TSS=1-ESS/TSS
unde RSS - suma explicată a abaterilor pătrate, ESS - suma inexplicabilă (reziduală) a abaterilor pătrate, TSS - suma totală a abaterilor pătrate (TSS=RSS+ESS)

,
unde r ij - coeficienți de corelație între regresorii x i și x j , a r i 0 - coeficienți de corelație între regresorii x i și y ;
- coeficient de determinare corectat (normalizat).

Pătratul coeficientului de corelație multiplă numit coeficient multiplu de determinare; arată ce proporție din varianța atributului rezultat y se explică prin influența semnelor factorilor x 1 , x 2 , …, x m . Rețineți că formula pentru calcularea coeficientului de determinare prin raportul dintre variația reziduală și totală a atributului rezultat va da același rezultat.
Coeficientul de corelație multiplă și coeficientul de determinare variază de la 0 la 1. Cu cât este mai aproape de 1, cu atât relația este mai puternică și, în consecință, cu atât ecuația de regresie construită mai jos va descrie dependența. y de la x 1 , x 2 , …,x m . Dacă valoarea coeficientului de corelație multiplă este mică (mai mică de 0,3), aceasta înseamnă că setul selectat de caracteristici ale factorilor nu descrie în mod adecvat variația caracteristicii rezultate sau relația dintre variabilele factor și rezultat este neliniară.

Calculat factor multiplu corelații cu un calculator. Semnificația coeficientului de corelație multiplă și a coeficientului de determinare verificat folosind testul lui Fisher.

Care dintre următoarele numere poate fi valoarea coeficientului de determinare multiplă:
a) 0,4;
b) -1;
c) -2,7;
d) 2.7.

Multiplu coeficient liniar corelația este 0,75. Ce procent din variația variabilei dependente y este luat în considerare în model și se datorează influenței factorilor x 1 și x 2.
a) 56,2 (R2 = 0,752 = 0,5625);

Esența metodelor de prognoză cauzală este stabilirea unei relații matematice între variabilele rezultate și factori.

O condiție necesară pentru aplicarea metodelor de prognoză cauzală este disponibilitatea unei cantități mari de date. Dacă relațiile dintre variabile pot fi descrise corect matematic, atunci acuratețea prognozei cauzale va fi destul de mare.
Metodele de prognoză cauzală includ:


  • modele de regresie multivariate,

  • modelare prin simulare.
Cele mai comune metode de prognoză cauzală sunt modelele de regresie multivariată. .

1.4.1 Modele de regresie multivariată

Un model de regresie multivariat este o ecuație cu mai multe variabile independente.

Pentru a construi un model de regresie multivariat, pot fi utilizate diverse funcții, cele mai comune sunt dependențele liniare și de putere:

În modelul liniar, parametrii(b 1 , b 2 , … b n) sunt interpretate ca efectul fiecăreia dintre variabilele independente asupra valorii prezise dacă toate celelalte variabile independente sunt egale cu zero.

ÎN model de putere parametrii sunt coeficienți de elasticitate. Ele arată câte procente se va schimba în medie rezultatul (y) cu o modificare a factorului corespunzător cu 1%, în timp ce acțiunea altor factori rămâne neschimbată. Pentru a calcula parametrii ecuațiilor regresie multiplă folosit de asemenea metodă cele mai mici pătrate.

La construirea modelelor de regresie, calitatea datelor joacă un rol decisiv. Colectarea datelor creează baza pentru previziuni, așa că există o serie de cerințe și reguli care trebuie respectate la colectarea datelor.


  1. In primul rand, datele trebuie să fie observabil, adică primit ca rezultat al măsurării, nu al calculului.

  1. În al doilea rând, din matricea de date este necesar excludeți datele duplicat și puternic diferite. Cu cât sunt mai multe date care nu se repetă și cu cât populația este mai omogenă, cu atât ecuația va fi mai bună. Valorile puternic diferite sunt înțelese ca observații care nu se încadrează în seria generală. De exemplu, datele privind salariile pentru lucrători sunt în patru și cinci cifre (7.000, 10.000, 15.000), dar se găsește un număr de șase cifre (250.000). Evident, aceasta este o greșeală.

  1. A treia regulă (cerință) este o cantitate destul de mare de date. Statisticienii nu sunt de acord cu privire la câte date sunt necesare pentru a construi o ecuație bună. Potrivit unora, datele sunt necesare De 4-6 ori mai mult număr de factori. Alții susțin că de cel puțin 10 ori mai mult număr de factori, apoi legea numerelor mari, acționând în plină forță, asigură rambursarea efectivă a abaterilor aleatorii de la natura regulată a relației.

Construirea unui model de regresie multivariată înDOMNIȘOARĂexcela
În foile de calcul Excel, este posibil să se construiască numai liniar model de regresie multivariat.
, (1.19)
Pentru a face acest lucru, selectați "Analiza datelor",și apoi în fereastra apărută - instrument "regresie"


Figura 1.45 - Caseta de dialog a instrumentului „Regresie”.
În fereastra care apare, trebuie să completați o serie de câmpuri, inclusiv:


  • interval de intrare Y – un interval de date, dintr-o coloană, care conține valorile variabilei rezultate Y.

  • Intervalul de intrare X este intervalul de date care conține valorile variabilelor factor.

Dacă primul rând sau prima coloană a intervalului de intrare conține titluri, atunci trebuie să bifați caseta "Etichete" .

Se aplică implicit Nivel de fiabilitate de 95%. Dacă doriți să setați un alt nivel, bifați caseta de selectare și introduceți nivelul dorit de fiabilitate în câmpul de lângă acesta.

Caseta de bifat „Zero constant” trebuie verificat numai dacă doriți să obțineți ecuația de regresie fără interceptare A, astfel încât dreapta de regresie să treacă prin origini.
Rezultatele calculului pot fi organizate în 3 moduri:


  • V intervalul de celule al acestei foi de lucru (pentru asta în domeniu „Interval de ieșire” definiți celula din stânga sus a intervalului în care vor fi afișate rezultatele calculului);

  • pe noua fișă de lucru (puteți introduce numele dorit al acestei foi în câmpul de lângă ea);

  • V nou registru de lucru .

Casete de selectare „Rămâne”Și „Rămășițe standardizate” ordonă să fie incluse în intervalul de ieșire.
Pentru a reprezenta grafic reziduurile pentru fiecare variabilă independentă, bifați caseta Graficul rezidual.Rămășițe cunoscute altfel sub numele de erori de predicție. Ele sunt definite ca diferența dintre valorile Y reale și cele prezise.
Interpretarea parcelelor reziduale
Nu ar trebui să existe niciun model în diagramele cu reziduuri. Dacă se urmărește un model, atunci aceasta înseamnă că modelul nu include un factor necunoscut pentru noi, ci un factor care acționează în mod natural, despre care nu există date.

Când bifați caseta „Selectare program” vor fi afișate o serie de grafice care arată cât de bine se potrivește linia de regresie teoretică cu cele observate, adică. date reale.

Interpretarea graficelor de alegere
În Excel, pe diagramele de selecție, punctele roșii indică valori teoretice Y, puncte albastre - date inițiale. Dacă punctele roșii se suprapun bine puncte albastre, atunci aceasta indică vizual o ecuație de regresie reușită.
Un pas necesar în prognoza bazată pe modele de regresie multivariată este evaluarea semnificației statistice a ecuației de regresie, i.e. adecvarea ecuației de regresie construită pentru utilizarea în prognoză. Pentru a rezolva această problemă, MS Excel calculează un număr de coeficienți. Și anume:


  1. Coeficient de corelație multiplă

Ea caracterizează etanșeitatea și direcția relației dintre rezultatul și mai multe variabile factori. Cu o dependență de doi factori, coeficientul de corelație multiplă este calculat prin formula:
, (1.20)


  1. Coeficient multiplu de determinare ( R 2 ).

R 2 este proporția variației valorii teoretice în raport cu valorile reale ale lui y, explicată de factorii incluși în model. Restul valorilor teoretice depind de alți factori care nu sunt implicați în model. R 2 poate lua valori de la 0 la 1. Dacă , atunci calitatea modelului este ridicată. Acest indicator este util în special pentru a compara mai multe modele și pentru a-l alege pe cel mai bun.


  1. Coeficient normalizat de determinare R 2

Indicatorul R2 are un dezavantaj, constând în faptul că se pot obține valori mari ale coeficientului de determinare datorită numărului mic de observații. Normalizat oferă informații despre ce valoare ați putea obține într-un alt set de date care este mult mai mare decât în ​​acest caz.

Normalizat se calculează cu formula:

, (1.21)

unde este coeficientul multiplu normalizat de determinare,

coeficient multiplu de determinare,

Volumul populației,

Numărul de variabile factori.


  1. eroare standard de regresie indică valoarea aproximativă a erorii de predicție. Este utilizată ca mărime principală pentru măsurarea calității modelului estimat. Se calculează după formula:
, (1.22)

unde este suma pătratelor reziduurilor,

Numărul de grade de libertate ale reziduurilor.
Adică, eroarea standard a regresiei arată valoarea pătratului erorii pe un grad de libertate.


REZULTATE

Statistici de regresie

Multiplu R

0.973101

R-pătrat

0.946926

R-pătrat normalizat

0.940682

eroare standard

0.59867

Observatii

20

Analiza variatiei

df

SS

DOMNIȘOARĂ

F

Semnificația F

Regresia

2

108.7071

54.35355

151.6535

1.45E-11

Rest

17

6.092905

0.358406

Total

19

114.8

Cote

eroare standard

t-statistică

Valoarea P

jos 95%

Top 95%

De jos 95,0%

Top 95,0%

Intersecția în Y

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Metodă analiza variatiei constă în extinderea sumei totale a abaterilor pătrate ale variabilei la din medie în două părți:


  1. explicat prin regresie (sau factorial),

  2. rezidual.
, (1.2 3)
Adecvarea modelului de regresie pentru predicție depinde de cât de mult din variația totală a trăsăturii yține seama de variația explicată de regresie. Evident, dacă suma abaterilor pătrate explicate prin regresie este mai mare decât reziduul, atunci se face o concluzie despre semnificația statistică a ecuației de regresie. Acest lucru este echivalent cu faptul că coeficientul de determinare se apropie de unitate.
Denumirile din tabelul „Analiza varianței”:
A doua coloană a tabelului se numește și înseamnă numărul de grade de libertate. Pentru varianța totală, numărul de grade de libertate este: , pentru varianța factorilor (sau varianța explicată prin regresie), , pentru varianța reziduală.

unde n este numărul de observații,

m este numărul de variabile factoriale ale modelului.
A treia coloană a tabelului se numește . Reprezintă suma abaterilor pătrate. Suma totală a abaterilor pătrate este determinată de formula:

, (1.24)
Factorizați suma pătratelor:

, (1.26)
A patra coloană se numește - valoarea medie a abaterilor pătrate. Determinat prin formula:

Cu ajutorul criteriului F al lui Fisher, semnificație statistică coeficientul de determinare al ecuaţiei de regresie. Pentru aceasta se propune o ipoteză nulă, care afirmă că între variabilele rezultate și factori nici o conexiune. Acest lucru este posibil numai dacă toți parametrii ecuației multiple regresie liniara iar coeficientul de corelație este zero.

Pentru a testa această ipoteză, este necesar să se calculeze valoarea reală a testului F Fisher și să o compare cu tabelul. Valoarea reală a criteriului F este calculată prin formula:

, (1.28)

Selectat din tabele statistice speciale de către:


  • nivelul de semnificație dat () și

  • numărul de grade de libertate.

În MS Excel, valoarea tabelară a criteriului F poate fi determinată folosind funcția: = FINV(probabilitate; grade de libertate1; grade de libertate2)

De exemplu: =FDISP(0,05;df1;df2)
Nivel de semnificație 1 este selectat pentru aceeași pe care au fost calculați parametrii modelului de regresie. Valoarea implicită este 95%.

Dacă , atunci ipoteza propusă este respinsă și semnificația statistică a ecuației de regresie este recunoscută. În cazul prognozelor deosebit de importante, se recomandă creșterea valorii tabelului a criteriului F de 4 ori, adică se verifică condiția:
=151.65; = 3.59
Valoarea calculată depășește semnificativ valoarea tabelată. Aceasta înseamnă că coeficientul de determinare este semnificativ diferit de zero, deci ipoteza absenței unei dependențe de regresie ar trebui respinsă.
Acum să evaluăm semnificația coeficienților de regresie pe baza t- Criteriul elevului. Vă permite să determinați care dintre variabilele factor (x) au cea mai mare influență la variabila rezultată (y).

Erorile standard sunt de obicei notate cu . Indicele indică parametrul ecuației de regresie pentru care se calculează această eroare.

Se calculează după formula:

, (1.29)

unde - RMS pentru variabila rezultată,

RMS pentru caracteristică,

Coeficient de determinare pentru ecuația multiplă

regresie,

Coeficientul de determinare pentru dependența factorului cu

toți ceilalți factori din ecuație.

Numărul de grade de libertate pentru suma reziduală a pătratelor

abaterile.
La MS Standard Excel erorile sunt calculate automat (situate în coloana a 3-a a tabelului 3).
valoarea realăt- Criteriul elevuluiîn MS Excel este situat în a 4-a coloană a tabelului 3 și este numit t-statistică.
(coloana a patra) = (coloana a doua) / (coloana a treia)

t-statistic = Coeficienți/Eroare standard
Valoarea tabeluluit- Criteriul elevului depinde de nivelul de semnificație acceptat (de obicei ; 0,05; 0,01) și de numărul de grade de libertate.

unde n este numărul de unități de populație,

m este numărul de factori din ecuație.
În MS Excel, valoarea tabelară a criteriului Studentului poate fi determinată folosind funcția:

STUDRASP(probabilitate; număr de grade de libertate)
De exemplu: =STUDISP(0,05,7)
Dacă , atunci se concluzionează că coeficientul ecuației de regresie este semnificativ statistic (fiabil) și poate fi inclus în model și utilizat pentru prognoză.

1.4.2 Metoda de simulare Monte Carlo

Metoda de simulare și-a primit numele în onoarea orașului Monte Carlo, situat în Principatul Monaco, una dintre cele mai mici țări din lume, situată pe coastă. Marea Mediterana, lângă granița dintre Franța și Italia.

Metoda de simulare Monte Carlo presupune generarea valori aleatorii conform restricţiilor date. Începând modelarea prin simulare, în primul rând, este necesar să se elaboreze un model economic și matematic (EMM) al indicatorului prezis, care să reflecte relația dintre variabilele factorilor, precum și gradul și natura influenței acestora asupra rezultatului. Întrucât, în condițiile condițiilor moderne de piață, subiectul relațiilor economice este afectat simultan de mulți factori de natură și direcție diferită, iar gradul de influență a acestora nu este determinist, pare necesară împărțirea variabilelor EMM în două grupe: stocastice. și determinist;

În continuare, ar trebui să determinați tipurile de distribuții de probabilitate pentru fiecare variabilă stocastică și parametrii de intrare corespunzători, să simulați valorile variabilelor stocastice folosind generatorul de numere aleatoare MS Excel sau alte instrumente software.

Instrumentul „generare numere aleatoare” este disponibil pentru utilizatorii MS Excel 2007 după activarea programului de completare Pachet de analize. Ordinea de activare a add-on-ului este descrisă mai sus (vezi pagina 10, fig. 1.5-1.8). Pentru a rula simularea în meniu DATE elementul trebuie selectat "Analiza datelor", în caseta de dialog care apare, selectați un instrument din listă „Generarea numerelor aleatorii”și faceți clic pe OK.

Figura 1.46 - Interfața meniului de analiză a datelor
În caseta de dialog care apare, trebuie să selectați tipul de distribuție de probabilitate pentru fiecare variabilă stocastică și să setați parametrii de intrare corespunzători.

Figura 1.47 - Caseta de dialog Generator de numere aleatorii
Această etapă este una dintre cele mai dificile, prin urmare, atunci când o efectuați, este necesar să folosiți cunoștințele și experiența experților. Selectarea tipului de distribuție a probabilității poate fi efectuată și pe baza informațiilor statistice disponibile. În practică, se folosesc cel mai adesea tipuri de distribuții de probabilitate precum normală, triunghiulară și uniformă.

Distribuție normală (sau legea Moivre-Gauss-Laplace) presupune că variantele parametrului prezis gravitează spre valoarea medie. Valorile variabile care sunt semnificativ diferite de medie, adică situate în „cozile” distribuției, au o probabilitate scăzută.

distribuție triunghiulară este o derivată a distribuției normale și presupune o distribuție crescătoare liniar pe măsură ce se apropie de medie.

Distributie uniforma este utilizat în cazul în care toate valorile indicatorului variabil au aceeași probabilitate de realizare.

Cu importanța variabilei și imposibilitatea de a alege legea distribuţiei poate fi privit în termeni de distribuție discretă. Tipurile de distribuții de probabilitate enumerate mai sus necesită definirea parametrilor de intrare prezentați în Tabelul 1.11
Tabelul 1.11 - Parametrii de intrare ai principalelor tipuri de distribuții de probabilitate


Tipul probabilistic

distributie


Parametrii de intrare

1 Distribuție normală

  • valoarea medie;

  • deviație standard;

2 Distribuție triunghiulară

  • valoarea medie;


3 Distribuție uniformă

  • limitele intervalului posibil de valori;

4 Distribuție discretă

  • valori specifice ale variabilei;

  • corespunzătoare probabilităților date.

În urma unei serii de experimente, se va obține distribuția valorilor variabilelor stocastice, pe baza căreia trebuie calculată valoarea indicatorului prezis.

Următorul pas necesar este efectuarea unei analize economice și statistice a rezultatelor simulării, în care se recomandă calcularea următoarelor caracteristici statistice:


  • valoarea medie;

  • deviație standard;

  • dispersie;

  • valoarea minimă și maximă;

  • intervalul de fluctuații;

  • coeficient de asimetrie;

  • exces.
Indicatorii de mai sus pot fi utilizați pentru a testa ipoteza unei distribuții normale. Dacă ipoteza este confirmată, regula „trei sigma” poate fi folosită pentru a face o prognoză pe interval. Regula trei sigma prevede că dacă o variabilă aleatorie X este supus legii distribuției normale cu parametri și, este aproape sigur că valorile sale sunt în interval, adică . Pentru a îmbunătăți claritatea și a simplifica interpretarea, este recomandabil să construiți o histogramă.


Figura 1.48 - Histograma valorilor indicatorului prezis

Implementarea acestor etape va face posibilă obținerea unei estimări probabilistice a valorilor indicatorului prezis (prognoza intervalului).

Coeficientul de corelație multiplă a trei variabile este un indicator al gradului de apropiere a unei relații liniare între una dintre caracteristici (litera index înainte de liniuță) și o combinație a altor două caracteristici (litere index după liniuță):

; (12.7)

(12.8)

Aceste formule facilitează calcularea coeficienților de corelație multipli pentru valorile cunoscute ale coeficienților de corelație perechi r xy , r xz și r yz.

Coeficient R nu este negativă şi este întotdeauna între 0 şi 1. La apropiere R la unitate, gradul de relație liniară a celor trei trăsături crește. Raportul între corelație multiplă, De exemplu R y-xz, și doi coeficienți de corelație perechi r yxȘi r yz există următoarea relaţie: fiecare dintre coeficienţii de pereche nu poate depăşi în valoare absolută R y-xz.

Pătratul coeficientului de corelație multiplă R2 se numește coeficient de determinare multiplă. Se arată proporția de variație a variabilei dependente sub influența factorilor studiați.

Semnificația corelației multiple este estimată prin
F– criteriu:

, (12.9)

n este dimensiunea eșantionului,

k– numărul de semne; în cazul nostru k = 3.

valoare teoretică F– criteriile sunt preluate din tabelul de aplicare pentru ν 1 = k-1 și ν 2 \u003d n–k grade de libertate și nivelul de semnificație acceptat. Ipoteza nulă despre egalitatea coeficientului de corelație multiplă din populație la zero ( H0:R= 0) este acceptat dacă F fapt.< F табл . si respins daca F fapt. ≥ F tabel.

Sfârșitul lucrării -

Acest subiect aparține:

Statistici matematice

Instituţie de învăţământ.. Gomel Universitate de stat.. numit după Francis Skaryna Yu M Zhuchenko ..

Dacă aveți nevoie material suplimentar pe acest subiect, sau nu ați găsit ceea ce căutați, vă recomandăm să utilizați căutarea în baza noastră de date de lucrări:

Ce vom face cu materialul primit:

Dacă acest material s-a dovedit a fi util pentru dvs., îl puteți salva pe pagina dvs. de pe rețelele sociale:

Toate subiectele din această secțiune:

Tutorial
pentru studenții care studiază în specialitatea 1-31 01 01 „Biologie” Gomel 2010

Subiectul și metoda statisticii matematice
Subiectul statisticii matematice este studiul proprietăților fenomenelor de masă în biologie, economie, tehnologie și alte domenii. Aceste fenomene sunt de obicei complexe, datorită diversităţii (variaţiei

Conceptul de eveniment aleatoriu
Inducerea statistică sau inferența statistică ca principală componentă metodele de studiere a fenomenelor de masă au propriile lor trăsături distinctive. Concluziile statistice se fac cu numerice

Probabilitatea unui eveniment aleatoriu
Caracteristica numerică a unui eveniment aleatoriu, care are proprietatea că pentru orice serie suficient de mare de teste, frecvența evenimentului diferă doar puțin de această caracteristică, se numește

Calcularea probabilităților
Adesea este nevoie de a adăuga și înmulți simultan probabilitățile. De exemplu, doriți să determinați probabilitatea de a obține 5 puncte atunci când aruncați 2 zaruri în același timp. Suma necesară este probabilă

Conceptul de variabilă aleatoare
După ce am definit conceptul de probabilitate și după ce i-am clarificat principalele proprietăți, să trecem la luarea în considerare a unuia dintre cele mai importante concepte ale teoriei probabilităților - conceptul de variabilă aleatorie. Să presupunem că, ca rezultat

Variabile aleatoare discrete
O variabilă aleatorie este discretă dacă setul de valori posibile este finit sau cel puțin numărabil. Să presupunem că o variabilă aleatoare X poate lua valorile x1

Variabile aleatoare continue
Spre deosebire de variabilele aleatoare discrete discutate în subsecțiunea anterioară, setul de valori posibile pentru o variabilă aleatoare continuă nu numai că nu este finit, ci și nu este susceptibil de

Așteptări și variații matematice
Adesea este nevoie de a caracteriza distribuția unei variabile aleatoare folosind unul sau doi indicatori numerici care exprimă cele mai semnificative proprietăți ale acestei distribuții. La asa ceva

Momente
De mare importanță în statistica matematică sunt așa-numitele momente ale distribuției unei variabile aleatoare. În așteptările matematice, valorile mari ale unei variabile aleatoare nu sunt luate în considerare suficient.

Distribuția binomială și măsurarea probabilităților
În acest subiect, vom lua în considerare principalele tipuri de distribuție a variabilelor aleatoare discrete. Să presupunem că probabilitatea de apariție a unui eveniment aleatoriu A într-o singură încercare este egală cu

Distribuție dreptunghiulară (uniformă).
O distribuție dreptunghiulară (uniformă) este cel mai simplu tip de distribuții continue. Dacă o variabilă aleatoare X poate lua orice valoare reală în intervalul (a, b), unde a și b sunt reale

Distributie normala
Distribuția normală joacă un rol major în statistica matematică. Acest lucru nu este deloc întâmplător: în realitatea obiectivă, se întâlnesc foarte des diverse semne.

distribuție log-normală
Variabila aleatoare Y are logaritmic distributie normala cu parametrii μ și σ dacă variabila aleatoare X = lnY are o distribuție normală cu aceiași parametri μ și &

Valori medii
Dintre toate proprietățile grupului, nivelul mediu, măsurat prin valoarea medie a trăsăturii, are cea mai mare semnificație teoretică și practică. Valoarea medie a unei caracteristici este un concept foarte profund,

Proprietățile generale ale mediilor
Pentru utilizarea corectă a valorilor medii, este necesar să se cunoască proprietățile acestor indicatori: locația mediană, abstractitatea și unitatea acțiunii totale. Prin valoarea sa numerică

Media aritmetică
Media aritmetică, având proprietățile generale ale mediilor, are propriile sale caracteristici, care pot fi exprimate prin următoarele formule:

Clasament mediu (medie non-parametrică)
Se determină rangul mediu pentru astfel de caracteristici pentru care nu au fost încă găsite metode de măsurare cantitativă. În funcție de gradul de manifestare a unor astfel de trăsături, obiectele pot fi clasificate, adică localizate

Media aritmetică ponderată
De obicei, pentru a calcula media aritmetică, se adună toate valorile unei caracteristici, iar suma rezultată este împărțită la numărul de opțiuni. În acest caz, fiecare valoare, introducând suma, o mărește cu maxim

rădăcină medie pătrată
Rădăcina pătrată medie se calculează cu formula: , (6.5) Este egală cu rădăcina pătrată a sumei

Median
Mediana este o astfel de valoare caracteristică care împarte întregul grup în două părți egale: o parte are o valoare caracteristică mai mică decât mediana, iar cealaltă are o valoare mai mare. De exemplu, dacă am

Medie geometrică
Pentru a obține media geometrică pentru un grup cu n date, trebuie să înmulțiți toate opțiunile și să extrageți din produsul rezultat a n-a rădăcină grade:

Armonică medie
Media armonică se calculează prin formula. (6.14) Pentru cinci opțiuni: 1, 4, 5, 5 mediu

Numărul de grade de libertate
Numărul de grade de libertate este egal cu numărul de elemente de varietate liberă din grup. Este egal cu numărul tuturor itemilor de studiu disponibili fără numărul de constrângeri de diversitate. De exemplu, pentru cercetare

Coeficientul de variație
Abaterea standard este o valoare numită, exprimată în aceleași unități ca media aritmetică. Prin urmare, pentru a compara diferite caracteristici exprimate în diferite unități de la

Limite și domeniul de aplicare
Pentru o evaluare rapidă și aproximativă a gradului de diversitate, se folosesc adesea cei mai simpli indicatori: lim = (min ¸ max) - limite, adică cele mai mici și cea mai mare valoare caracteristică, p =

Abatere normalizată
De obicei, gradul de dezvoltare al unei trăsături se determină prin măsurarea acesteia și se exprimă printr-un anumit număr numit: 3 kg greutate, 15 cm lungime, 20 cârlige pe aripa albinelor, 4% grăsime în lapte, 15 kg de tăiere

Media și sigma grupului rezumat
Uneori este necesar să se determine media și sigma pentru o distribuție sumă formată din mai multe distribuții. În acest caz, nu se cunosc distribuțiile în sine, ci doar mijloacele și sigmale lor.

Deformarea (asimetria) și abruptul (kurtoza) curbei de distribuție
Pentru eșantioane mari (n > 100), se calculează încă două statistici. Asimetria curbei se numește asimetrie:

Seria de variații
Pe măsură ce dimensiunea grupurilor studiate crește, devine din ce în ce mai evidentă regularitatea în diversitate, care în grupuri mici a fost ascunsă de forma aleatorie a manifestării sale.

Histograma și curba de variație
Histograma este serie de variații, prezentat sub forma unei diagrame în care o valoare diferită a frecvenței este reprezentată de diferite înălțimi ale barei. Histograma distribuției datelor este prezentată în p

Semnificația diferențelor de distribuție
O ipoteză statistică este o ipoteză specifică despre distribuția probabilității care stă la baza eșantionului de date observat. Examinare ipoteza statistica este un proces de acceptare

Criterii pentru asimetrie și curtoză
Unele semne ale plantelor, animalelor și microorganismelor, atunci când obiectele sunt combinate în grupuri, dau distribuții care diferă semnificativ de cele normale. În cazurile în care există

Populația generală și eșantionul
Întreaga gamă de indivizi dintr-o anumită categorie se numește populație generală. Volum populatia determinat de obiectivele studiului. Dacă se studiază vreo specie de animale sălbatice

Reprezentativitatea
Un studiu direct al unui grup de obiecte selectate oferă, în primul rând, materialul primar și caracteristicile eșantionului în sine. Toate datele eșantionului și cifrele rezumative sunt relevante ca

Erori de reprezentativitate și alte erori de cercetare
Evaluarea parametrilor generali pe baza unor indicatori selectivi are propriile sale caracteristici. O parte nu poate caracteriza niciodată pe deplin întregul, deci caracteristica populației generale

Granițele de încredere
Este necesar să se determine valoarea erorilor de reprezentativitate pentru a utiliza indicatorii eșantionului și pentru a găsi posibile valori ale parametrilor generali. Acest proces se numește o

Procedura generală de evaluare
Trei valori necesare pentru evaluarea parametrului general - indicator eșantion (), criteriu de fiabilitate

Estimarea mediei aritmetice
Estimarea valorii medii are ca scop stabilirea valorii mediei generale pentru categoria de obiecte studiata. Eroarea de reprezentativitate necesară în acest scop este determinată de formula:

Estimarea diferenței medii
În unele studii, diferența dintre două măsurători este luată ca date primare. Acesta poate fi cazul când fiecare individ al eșantionului este studiat în două stări - sau în diferite vârste, sau p

Estimare nesigură și de încredere a diferenței medii
Astfel de rezultate ale studiilor selective, conform cărora este imposibil să se obțină o estimare precisă a parametrului general (fie este mai mare decât zero, fie mai mic sau egal cu zero), sunt numite nesigure.

Estimarea diferenței de medii generale
În cercetarea biologică, diferența dintre două cantități este de o importanță deosebită. Prin diferență se compară diferite populații, rase, rase, soiuri, linii, familii, grupuri experimentale și de control (metoda gr

Criteriul de fiabilitate a diferenței
În același timp mare importanță, care are pentru cercetători primirea unor diferențe de încredere, este nevoie să stăpânească metode care să permită să se determine dacă rezultatul obținut este fiabil, realist

Reprezentativitatea în studiul caracteristicilor calitative
Trăsăturile calitative, de obicei, nu pot avea gradații de manifestare: ele fie există, fie nu există la fiecare dintre indivizi, de exemplu, sexul, gradația, prezența sau absența oricăror caracteristici, urâțenia.

Fiabilitatea diferenței de acțiuni
Fiabilitatea diferenței cotelor eșantionului este determinată în același mod ca și pentru diferența de medii: (10.34)

Coeficient de corelație
În multe studii, este necesar să se studieze mai multe semne în relația lor reciprocă. Dacă efectuăm un astfel de studiu în legătură cu două trăsături, atunci putem vedea că variabilitatea unei trăsături nu este

Eroarea coeficientului de corelație
Ca orice valoare a eșantionului, coeficientul de corelație are propria eroare de reprezentativitate, calculată pentru eșantioane mari folosind formula:

Încrederea coeficientului de corelație al eșantionului
Criteriul pentru coeficientul de corelație al eșantionului este determinat de formula: (11.9) unde:

Limitele de încredere ale coeficientului de corelație
Se găsesc limitele de încredere ale valorii generale a coeficientului de corelație într-un mod general dupa formula:

Fiabilitatea diferenței dintre doi coeficienți de corelație
Fiabilitatea diferenței de coeficienți de corelație se determină în același mod ca și fiabilitatea diferenței de medii, conform formulei uzuale

Ecuație de regresie în linie dreaptă
Corelația rectilinie este diferită prin aceea că, cu această formă de conexiune, fiecare dintre aceleași modificări ale primului atribut corespunde unei schimbări bine definite și, de asemenea, aceleiași medii în celălalt pr

Erori ale elementelor ecuației de regresie rectilinie
În ecuația regresiei drepte simple: y = a + bx, există trei erori de reprezentativitate. 1 Eroarea coeficientului de regresie:

Coeficient de corelație parțială
Coeficientul de corelație parțială este un indicator care măsoară gradul de conjugare a două semne cu o valoare constantă a celui de-al treilea. Statisticile matematice vă permit să stabiliți o corelație

Ecuație de regresie multiplă liniară
O ecuație matematică pentru o relație dreaptă între trei variabile se numește multiplă ecuație liniară planuri de regresie. Are următoarea formă generală:

relație de corelație
Dacă relația dintre fenomenele studiate se abate semnificativ de la una liniară, care este ușor de stabilit din grafic, atunci coeficientul de corelație este nepotrivit ca măsură a relației. Poate indica absența

Proprietățile relației de corelație
Raportul de corelație măsoară gradul de corelare în oricare dintre formele sale. În plus, raportul de corelație are o serie de alte proprietăți care sunt de mare interes în statistică

Eroarea de reprezentativitate a raportului de corelație
O formulă exactă pentru eroarea reprezentativității raportului de corelație nu a fost încă elaborată. Formula dată de obicei în manuale are dezavantaje care nu pot fi întotdeauna neglijate. Această formulă nu

Criteriul de liniaritate a corelației
Pentru a determina gradul de aproximare a unei dependențe curbilinii față de una rectilinie, se utilizează criteriul F, calculat prin formula:

Complex de dispersie
Complexul de dispersie este un set de gradații cu datele implicate pentru studiu și media datelor pentru fiecare gradație (medii private) și pentru întreg complexul (media generală).

Influențe statistice
Influența statistică este o reflectare în diversitatea trăsăturii rezultate a diversității factorului (gradațiile sale), care este organizată în studiu. Pentru a evalua influența neo

Influența factorială
Influența factorială este o influență statistică simplă sau combinată a factorilor studiați. În complexele cu un singur factor, influența simplă a unui factor este studiată la anumite niveluri organizaționale.

Complex de dispersie cu un singur factor
Analiza varianței a fost dezvoltată și introdusă în practica cercetării agricole și biologice de către omul de știință englez R. A. Fisher, care a descoperit legea de distribuție a raportului pătratelor medii.

Complex de dispersie multifactorială
idee clară de model matematic analiza varianței facilitează înțelegerea operațiilor de calcul necesare, în special atunci când se prelucrează date din experimente multivariate, în care există mai multe

Transformări
Utilizare corectă analiza varianței pentru prelucrarea materialului experimental presupune omogenitatea variațiilor pentru opțiuni (eșantioane), distribuția normală sau apropiată de aceasta în

Indicatori ai puterii influențelor
Determinarea puterii influențelor pe baza rezultatelor lor este necesară în biologie, agricultură, medicină pentru a selecta cel mai mult mijloace eficiente expunere, pentru dozarea agenților fizici și chimici - st

Eroarea de reprezentativitate a principalului indicator al puterii de influență
Formula exactă pentru eroarea indicatorului principal al forței de influență nu a fost încă găsită. În complexele cu un singur factor, atunci când eroarea de reprezentativitate este determinată doar pentru un indicator de factorial

Valorile limită ale indicatorilor puterii de influență
Principalul indicator al puterii de influență este egal cu ponderea unui termen din suma totală a termenilor. În plus, acest indicator este egal cu pătratul raportului de corelație. Din aceste două motive, indicatorul de putere

Fiabilitatea influențelor
Principalul indicator al puterii de influență, obținut într-un studiu selectiv, caracterizează, în primul rând, gradul de influență care s-a manifestat cu adevărat, de fapt, în grupul de obiecte studiate.

Analiza discriminantă
Analiza discriminantă este una dintre metodele analizei statistice multivariate. Scopul analizei discriminante este de a, pe baza măsurării diferitelor caracteristici (trăsături, perechi

Enunțarea problemei, metode de rezolvare, restricții
Să presupunem că există n obiecte cu m caracteristici. Ca rezultat al măsurătorilor, fiecare obiect este caracterizat de vectorul x1 ... xm, m >1. Sarcina este aceea

Ipoteze și restricții
Analiza discriminantă „funcționează” sub o serie de ipoteze. Presupunerea că mărimile observate - caracteristicile măsurate ale obiectului - au o distribuție normală. Acest

Algoritmul de analiză discriminantă
Rezolvarea problemelor de discriminare (analiza discriminantă) constă în împărțirea întregului spațiu eșantion (setul de realizări ale tuturor considerate multidimensionale). variabile aleatoare) pentru un anumit număr

analiza grupului
Analiza cluster combină diverse proceduri utilizate pentru a realiza clasificarea. Ca rezultat al aplicării acestor proceduri, setul inițial de obiecte este împărțit în clustere sau grupuri

Metode de analiză a clusterelor
În practică, metodele de grupare aglomerativă sunt de obicei implementate. De obicei, înainte de începerea clasificării, datele sunt standardizate (se scade media și se împarte rădăcina pătrată).

Algoritm de analiză a clusterelor
Analiza cluster este un set de metode de clasificare a observațiilor multidimensionale sau a obiectelor bazate pe definirea conceptului de distanță dintre obiecte, urmată de selectarea grupurilor dintre acestea, &

Astăzi, toți cei care sunt cel puțin puțin interesați de data mining au auzit probabil despre regresia liniară simplă. S-a scris deja despre Habré, iar Andrew Ng a vorbit și el în detaliu în binecunoscutul său curs de învățare automată. Regresia liniară este una dintre cele de bază și cele mai multe metode simpleÎnvățarea automată, totuși, metodele de evaluare a calității modelului construit sunt menționate foarte rar. În acest articol, voi încerca să corectez puțin această omisiune enervantă folosind exemplul de analiză a rezultatelor funcției summary.lm() în limbajul R. Procedând astfel, voi încerca să ofer formulele necesare, astfel încât toate calculele pot fi programate cu ușurință în orice altă limbă. Acest articol este destinat celor care au auzit că este posibil să se construiască o regresie liniară, dar nu au întâlnit proceduri statistice pentru evaluarea calității acesteia.

Model de regresie liniară

Deci, să fie mai multe variabile aleatoare independente X1, X2, ..., Xn (predictori) și o variabilă Y în funcție de acestea (se presupune că toate transformările de predictor necesare au fost deja făcute). Mai mult, presupunem că dependența este liniară și erorile sunt distribuite în mod normal, i.e.

Unde I este o matrice de identitate pătrată n x n.

Deci, avem date formate din k observații ale valorilor Y și Xi și dorim să estimăm coeficienții. Metoda standard pentru găsirea estimărilor coeficienților este metoda celor mai mici pătrate. ȘI solutie analitica, care poate fi obținut prin aplicarea acestei metode, arată astfel:

Unde b cu capac - estimare vector coeficient, y este un vector de valori ale variabilei dependente, iar X este o matrice de dimensiunea k x n+1 (n este numărul de predictori, k este numărul de observații), în care prima coloană este formată din unii, a doua - valorile primului predictor, al treilea - al doilea și așa mai departe și rândurile în concordanță cu observațiile existente.

Funcția summary.lm() și evaluarea rezultatelor

Acum luați în considerare un exemplu de construire a unui model de regresie liniară în limbajul R:
> bibliotecă(departe) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >summary(lm1) Apel: lm(formula = Specie ~ Arie + Elevație + Nearest + Scruz + Adiacent, date = gala) Reziduuri: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Coeficienți: Estimare Valoarea erorii t Pr(>|t|) (Interceptare) 7,068221 19,154198 0,369 0,715351 Cea mai apropiată 0,009144 1,054136 0,009 0,993151 Scruz -0,2405124 702 -0,2405351 Ad jacent -0,074805 0,017700 -4,226 0,000297 *** --- Signif. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Eroare standard reziduală: 60,98 pe 24 de grade de libertate R-pătrat multiplu: 0,7658, R-pătrat ajustat: 0,7171 F- statistică: 15,7 pe 5 și 24 DF, valoare p: 6,838e-07
Tabelul de gală conține câteva date despre cele 30 de insule Galapagos. Vom lua în considerare un model în care Specia este numărul tipuri diferite plantele de pe insulă este dependentă liniar de alte câteva variabile.

Luați în considerare rezultatul funcției summary.lm().
Mai întâi vine o linie care amintește cum a fost construit modelul.
Apoi vin informații despre distribuția reziduurilor: minim, primul quartila, median, al treilea quartila, maxim. În acest moment, ar fi util nu numai să privim unele cuantile ale reziduurilor, ci și să le verificăm pentru normalitate, de exemplu, folosind testul Shapiro-Wilk.
În continuare - cele mai interesante - informații despre coeficienți. Aici este nevoie de puțină teorie.
Mai întâi scriem următorul rezultat:

unde sigma pătrat cu o limită este un estimator imparțial pentru sigma pătrat real. Aici b este vectorul real al coeficienților, iar epsilonul plafonat este vectorul reziduurilor, dacă luăm ca coeficienți estimările celor mai mici pătrate. Adică, în ipoteza că erorile sunt distribuite normal, vectorul coeficienților va fi, de asemenea, distribuit normal în jurul valorii reale, iar varianța sa poate fi estimată în mod imparțial. Aceasta înseamnă că puteți testa ipoteza pentru egalitatea coeficienților la zero și, prin urmare, puteți verifica semnificația predictorilor, adică dacă valoarea lui Xi afectează într-adevăr puternic calitatea modelului construit.
Pentru a testa această ipoteză, avem nevoie de următoarele statistici, care are o distribuție Student dacă valoarea reală a coeficientului bi este 0:

Unde
este eroarea standard a coeficientului estimat, iar t(k-n-1) este distribuția lui Student cu k-n-1 grade de libertate.

Acum suntem gata să continuăm analizarea rezultatului funcției summary.lm().
Deci, urmează estimările coeficienților obținuți prin metoda celor mai mici pătrate, lor erori standard, valorile t-statistice și valorile p pentru acesta. De obicei, valoarea p este comparată cu un prag preselectat suficient de mic, cum ar fi 0,05 sau 0,01. Și dacă valoarea p-statisticilor este mai mică decât pragul, atunci ipoteza este respinsă, dacă mai mult, nimic concret, din păcate, nu se poate spune. Permiteți-mi să vă reamintesc că în acest caz, deoarece distribuția lui Student este simetrică în jurul valorii de 0, atunci valoarea p va fi egală cu 1-F(|t|)+F(-|t|), unde F este distribuția lui Student. funcţie cu k-n-1 grade de libertate . De asemenea, R marchează cu asteriscuri coeficienții semnificativi pentru care valoarea p este suficient de mică. Adică acei coeficienți care este foarte puțin probabil să fie 0. În linia Signif. codurile conține doar decodificarea asteriscurilor: dacă sunt trei, atunci valoarea p este de la 0 la 0,001, dacă sunt două, atunci este de la 0,001 la 0,01 și așa mai departe. Dacă nu există pictograme, atunci valoarea p este mai mare decât 0,1.

În exemplul nostru, putem spune cu mare certitudine că predictorii de altitudine și adiacenți sunt într-adevăr probabil să afecteze valoarea speciei, dar nimic cert nu se poate spune despre restul predictorilor. De obicei, în astfel de cazuri, predictorii sunt eliminați unul câte unul și vedem cum se modifică alți indicatori de model, de exemplu, BIC sau Adjusted R-squared, care vor fi discutate mai târziu.

Valoarea erorii standard reziduale corespunde unei estimări simple a sigma cu un cap, iar gradele de libertate sunt calculate ca k-n-1.

Și acum cele mai importante statistici, pe care merită să le vedeți în primul rând: R-pătrat și R-pătrat ajustat:

unde Yi sunt valorile reale Y în fiecare observație, Yi cu un capac sunt valorile prezise de model, Y cu o bară este media tuturor valorilor reale Yi.

Să începem cu statistica R-pătrat sau, așa cum se numește uneori, coeficientul de determinare. Acesta arată cum variația condiționată a modelului diferă de varianța valorilor reale ale lui Y. Dacă acest coeficient este aproape de 1, atunci varianța condiționată a modelului este destul de mică și este foarte probabil ca modelul să se potrivească cu date bine. Dacă coeficientul R-pătrat este mult mai mic, de exemplu, mai mic de 0,5, atunci, cu un grad ridicat de încredere, modelul nu reflectă starea reală a lucrurilor.

Cu toate acestea, statistica R-pătrat are un dezavantaj serios: pe măsură ce numărul de predictori crește, această statistică nu poate decât să crească. Prin urmare, poate părea că un model cu mai mulți predictori este mai bun decât un model cu mai puțini, chiar dacă toți predictorii noi nu afectează variabila dependentă. Aici putem aminti principiul briciului lui Occam. Urmându-l, dacă este posibil, merită să scapi de predictorii inutile din model, deoarece devine mai simplu și mai ușor de înțeles. În aceste scopuri, a fost inventată statistica R-pătrat ajustată. Este un R-pătrat obișnuit, dar cu penalizare pt un numar mare de predictori. Idee cheie: Dacă noile variabile independente dau contribuție uriașă ca model, valoarea acestei statistici crește, dacă nu, atunci invers scade.

De exemplu, luați în considerare același model ca înainte, dar acum, în loc de cinci predictori, vom lăsa doi:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >summary(lm2) Apel: lm(formula = Specie ~ Altitudine + Adiacent, date = gala) Reziduuri: Min 1Q Mediană 3Q Max -103,41 -34,33 -11,43 22,57 203,65 Coeficienți: Estimare Std. Valoarea erorii t Pr(>|t|) (Interceptare) 1,43287 15,02469 0,095 0,924727 Altitudine 0,27657 0,03176 8,707 2,53e-09 *** Adiacent -0,06889 0,06889 0,06889 0,06889 0,40472*** semnif. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Eroare standard reziduală: 60,86 pe 27 grade de libertate R-pătrat multiplu: 0,7376, R-pătrat ajustat: 0,7181 F- statistică: 37,94 pe 2 și 27 DF, valoare p: 1,434e-08
După cum puteți vedea, valoarea statisticii R-pătrat a scăzut, dar valoarea R-pătratului ajustat a crescut chiar ușor.

Acum să testăm ipoteza că toți coeficienții predictorilor sunt egali cu zero. Adică, ipoteza dacă valoarea lui Y depinde în general de valorile lui Xi în mod liniar. Pentru a face acest lucru, puteți utiliza următoarele statistici, care, dacă ipoteza că toți coeficienții sunt egali cu zero, este adevărată, are

ÎN statistici de regresie este indicat coeficientul de corelare multiplă (R multiplu) si determinare (R-pătrat)între Y și matricea de caracteristici ale factorilor (care coincide cu valorile obținute mai devreme în analiza corelației)

Partea din mijloc a mesei (ANOVA) este necesar pentru a testa semnificația ecuației de regresie.

Partea de jos a mesei este

Estimează bi ai coeficienților generali de regresie Вi, verificându-le semnificația și estimarea intervalului.

Estimarea vectorului coeficienților b (coloana Cote):

Atunci estimarea ecuației de regresie are forma:

Este necesar să se verifice semnificația ecuației de regresie și a coeficienților de regresie rezultați.

Să verificăm la nivelul b=0,05 semnificația ecuației de regresie, i.e. ipoteza H0: в1=в2=в3=…=вk=0. Pentru a face acest lucru, se calculează valoarea observată a statisticii F:

Excel dă acest lucru în rezultate analiza variatiei:

QR=527,4296; Qres=1109.8673 =>

În coloană F valoarea este indicată Fobs.

Din tabele de distribuție F sau folosind statistica încorporată FDISTRIBUȚIE pentru nivelul de semnificație b=0,05 și numărul de grade de libertate ale numărătorului n1=k=4 și numitorului n2=n-k-1=45, găsim valoarea critică a F-statisticilor egală cu

Fcr = 2,578739184

Deoarece valoarea observată a statisticii F depășește valoarea sa critică 8,1957 > 2,7587, ipoteza despre egalitatea vectorului de coeficienți este respinsă cu o probabilitate de eroare egală cu 0,05. Prin urmare, cel puțin un element al vectorului в=(в1,в2,в3,в4)T este semnificativ diferit de zero.

Să verificăm semnificația coeficienților individuali ai ecuației de regresie, i.e. ipoteză .

Testarea de semnificație a coeficienților de regresie se realizează pe baza statisticii t pentru nivelul de semnificație.

Valorile observate ale statisticilor t sunt indicate în tabelul cu rezultate din coloană t-statistici.

Coeficienți (bi)

t-statistici (tobs)

Intersecția în Y

Variabila X5

Variabila X7

Variabila X10

Variabila X15

Ele trebuie comparate cu valoarea critică tcr găsită pentru nivelul de semnificație b = 0,05 și numărul de grade de libertate n = n - k - 1.

Pentru a face acest lucru, folosim statisticile încorporate Funcția Excel STUDRASPOBR, prin introducerea în meniul propus a probabilității b=0,05 și a numărului de grade de libertate n= n–k-1=50-4-1=45. (Puteți găsi valorile tcr din tabelele de statistici matematice.

Obținem tcr = 2,014103359.

Pentru că valoarea observată a statisticilor t este mai mică decât valoarea critică în modulo 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629 |.

În consecință, ipoteza că acești coeficienți sunt egali cu zero nu este respinsă cu o probabilitate de eroare egală cu 0,05, i.e. coeficienţii corespunzători sunt nesemnificativi.

Pentru că valoarea observată a statisticii t este mai mare decât valoarea critică modulo |3.7658|>2.0141, prin urmare, ipoteza H0 este respinsă, i.e. - semnificativă.

Semnificația coeficienților de regresie este verificată și de următoarele coloane din tabelul rezultat:

Coloană p-sens arată semnificația parametrilor modelului prin nivelul limită 5%, i.e. dacă p≤0,05, atunci coeficientul corespunzător este considerat semnificativ, dacă p>0,05, atunci nesemnificativ.

Și ultimele coloane - jos 95%Și top 95%Și jos 98%Și top 98% - acestea sunt estimări pe intervale ale coeficienților de regresie cu niveluri date de fiabilitate pentru r=0,95 (eliberat întotdeauna) și r=0,98 (emis atunci când este setată fiabilitatea suplimentară corespunzătoare).

Dacă limitele inferioare și superioare au același semn (zero nu este inclus în interval de încredere), atunci coeficientul de regresie corespunzător este considerat semnificativ, în caz contrar - nesemnificativ

După cum se poate observa din tabel, pentru coeficientul în 3 p-valoarea p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Conform algoritmului de analiză a regresiei în etape cu excluderea regresorilor nesemnificativi, în etapa următoare este necesar să se excludă din considerare o variabilă care are un coeficient de regresie nesemnificativ.

În cazul în care în timpul evaluării regresiei au fost identificați mai mulți coeficienți nesemnificativi, regresorul pentru care statistica t () este minimă în valoare absolută este exclus mai întâi din ecuația de regresie. Conform acestui principiu, în etapa următoare, este necesar să se excludă variabila X5, care are un coeficient de regresie nesemnificativ de 2

ETAPA A II-A ANALIZA REGRESIEI.

Modelul include semne de factor X7, X10, X15, X5 este exclus.

REZULTATE

Statistici de regresie

Multiplu R

R-pătrat

R-pătrat normalizat

eroare standard

Observatii

Analiza variatiei

(numar de grade de libertate n)

(suma abaterilor pătrate Q)

(medie pătratică MS=SS/n)

(Fobs= MSR/MSres)

Semnificația F

Regresia

Coeficienți

eroare standard

t-statistici

Valoarea P

Top 95% (bimax)

Mai mic cu 98% (wimin)

Intersecția în Y

Variabila X7

Variabila X10

Variabila X15



eroare: Conținutul este protejat!!