Evaluarea semnificației statistice a ecuației de regresie și a parametrilor acesteia. Evaluarea semnificației ecuației de regresie și a coeficienților acesteia

După evaluarea semnificației statistice individuale a fiecărui coeficient de regresie, se analizează de obicei semnificația agregată a coeficienților, i.e. întreaga ecuație în ansamblu. Această analiză este efectuată pe baza testării ipotezei despre semnificația generală a ipotezei despre egalitatea simultană la zero a tuturor coeficienților de regresie pentru variabilele explicative:

H 0: b 1 = b 2 = ... = b m = 0.

Dacă această ipoteză nu este respinsă, atunci se ajunge la concluzia că influența cumulativă a tuturor m variabilelor explicative X 1, X 2, ..., X m ale modelului asupra variabilei dependente Y poate fi considerată nesemnificativă statistic, iar calitatea generală. a ecuației de regresie poate fi considerată scăzută.

Această ipoteză este testată pe baza analiza varianței compararea varianței explicate și reziduale.

H 0: (varianta explicata) = (varianta reziduala),

H 1: (varianta explicata) > (varianta reziduala).

F-statisticile sunt construite:

Unde – varianța explicată prin regresie;

– dispersia reziduală (suma abaterilor pătrate împărțită la numărul de grade de libertate n-m-1). Când sunt îndeplinite ipotezele MCO, statistica F construită are o distribuție Fisher cu grade de libertate n1 = m, n2 = n–m–1. Prin urmare, dacă la nivelul necesar de semnificație a F observat > Fa ; m; n - m -1 = Fa (unde Fa ; m ; n - m -1 este punctul critic al distribuției Fisher), atunci H 0 este respins în favoarea lui H 1 . Aceasta înseamnă că varianța explicată prin regresie este semnificativ mai mare decât varianța reziduală și, prin urmare, ecuația de regresie reflectă destul de calitativ dinamica modificării variabilei dependente Y. Dacă F observat< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

Cu toate acestea, în practică, în locul acestei ipoteze, se testează mai des o ipoteză strâns legată despre semnificația statistică a coeficientului de determinare R2:



H0: R2 > 0.

Pentru a testa această ipoteză, se utilizează următoarea statistică F:

. (8.20)

Valoarea lui F, dacă ipotezele MCO sunt îndeplinite și dacă H 0 este adevărată, are o distribuție Fisher similară cu distribuția statisticii F (8.19). Într-adevăr, împărțirea numărătorului și numitorului fracției din (8.19) la suma totală a abaterilor pătrate și știind că se descompune în suma abaterilor pătrate explicate prin regresie și suma reziduală a abaterilor pătrate (aceasta este o consecință, așa cum se va arăta mai târziu, a sistemului de ecuații normale)

,

obținem formula (8.20):

Din (8.20) este evident că exponenții F și R 2 sunt egali sau nu egali cu zero în același timp. Dacă F = 0, atunci R 2 = 0, iar dreapta de regresie Y = este cea mai bună conform celor mai mici pătrate și, prin urmare, valoarea lui Y nu depinde liniar de X 1, X 2, ..., X m . Pentru a testa ipoteza nulă H 0: F = 0 la un nivel de semnificație dat a, valoarea critică F cr = F a se găsește din tabelele punctelor critice ale distribuției Fisher; m; n-m-1. Ipoteza nulă este respinsă dacă F > F cr. Acest lucru este echivalent cu faptul că R2 > 0, adică. R2 este semnificativ statistic.

Analiza statisticii F ne permite să concluzionam că pentru a accepta ipoteza că toți coeficienții sunt simultan egali cu zero regresie liniară coeficientul de determinare R2 nu trebuie să difere semnificativ de zero. Valoarea sa critică scade pe măsură ce numărul de observații crește și poate deveni arbitrar mic.

Fie, de exemplu, la estimarea unei regresii cu două variabile explicative X 1 i, X 2 i pentru 30 de observații, R 2 = 0,65. Apoi

Fob = =25,07.

Folosind tabelele punctelor critice ale distribuției Fisher, găsim F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Întrucât F observat = 25,07 > F cr atât la nivelul de semnificație de 5%, cât și la nivelul de 1%, ipoteza nulă este respinsă în ambele cazuri.

Dacă în aceeași situație R 2 = 0,4, atunci

F obs = = 9.

Presupunerea că relația este nesemnificativă este respinsă și aici.

Rețineți că, în cazul regresiei pe perechi, testarea ipotezei nule pentru statistica F este echivalentă cu testarea ipotezei nule pentru statistica t

coeficient de corelație. În acest caz, statistica F este egală cu statistica t pătrat. Coeficientul R2 capătă o semnificație independentă în cazul regresiei liniare multiple.

8.6. Analiza varianței pentru a descompune suma totală a abaterilor pătrate. Grade de libertate pentru sumele corespunzătoare ale abaterilor pătrate

Să aplicăm teoria prezentată mai sus pentru regresia liniară pe perechi.

După ce a fost găsită ecuația de regresie liniară, se evaluează semnificația atât a ecuației în ansamblu, cât și a parametrilor ei individuali.

Semnificația ecuației de regresie în ansamblu este evaluată folosind testul Fisher F. În acest caz, se propune ipoteza nulă că coeficientul de regresie este egal cu zero, i.e. b = 0 și, prin urmare, factorul x nu are niciun efect asupra rezultatului y.

Calculul direct al testului F este precedat de analiza varianței. Locul central în acesta este ocupat de descompunerea sumei totale a abaterilor pătrate ale variabilei y de la valoarea medie în două părți - „explicat” și „neexplicat”:

Ecuația (8.21) este o consecință a sistemului de ecuații normale derivate într-unul din subiectele anterioare.

Dovada expresiei (8.21).

Rămâne de demonstrat că ultimul termen este egal cu zero.

Dacă adăugați toate ecuațiile de la 1 la n

y i = a+b×x i +e i , (8.22)

atunci obținem åy i = a×å1+b×åx i +åe i . Deoarece åe i =0 și å1 =n, obținem

Apoi .

Dacă scădem ecuația (8.23) din expresia (8.22), obținem

Ca rezultat obținem

Ultimele sume sunt egale cu zero datorită sistemului a două ecuații normale.

Suma totală a abaterilor pătrate ale valorilor individuale ale caracteristicii efective y față de valoarea medie este cauzată de influența mai multor motive. Să împărțim condiționat întregul set de motive în două grupe: factorul x studiat și alți factori. Dacă factorul nu are nicio influență asupra rezultatului, atunci linia de regresie este paralelă cu OX și cu axa. Atunci întreaga varianță a caracteristicii rezultate se datorează influenței altor factori și suma totală a abaterilor pătrate va coincide cu reziduul. Dacă alți factori nu influențează rezultatul, atunci y este legat funcțional de x și suma reziduală a pătratelor este zero. În acest caz, suma abaterilor pătrate explicate prin regresie coincide cu suma totală a pătratelor.

Deoarece nu toate punctele câmpului de corelație se află pe linia de regresie, împrăștierea lor are loc întotdeauna ca fiind cauzată de influența factorului x, adică. regresia lui y pe x și cauzată de alte cauze (variație inexplicabilă). Adecvarea unei linii de regresie pentru predicție depinde de cât de mult din variația totală a trăsăturii y este explicată de variația explicată. Evident, dacă suma abaterilor pătrate datorate regresiei este mai mare decât suma reziduală a pătratelor, atunci ecuația de regresie este semnificativă statistic, iar factorul x are un impact semnificativ asupra caracteristicii y. Acest lucru este echivalent cu faptul că coeficientul de determinare se va apropia de unitate.

Orice sumă de pătrate este asociată cu numărul de grade de libertate (df – grade de libertate), cu numărul de libertate de variație independentă a unei caracteristici. Numărul de grade de libertate este legat de numărul de unități ale populației n și de numărul de constante determinate din aceasta. În raport cu problema studiată, numărul de grade de libertate ar trebui să arate câte abateri independente din n posibile sunt necesare pentru a forma o sumă dată de pătrate. Astfel, pentru suma totală de pătrate sunt necesare (n-1) abateri independente, deoarece într-o mulțime de n unități, după calcularea mediei, doar (n-1) numărul de abateri variază liber. De exemplu, avem o serie de valori y: 1,2,3,4,5. Media acestora este 3, iar apoi n abateri de la medie vor fi: -2, -1, 0, 1, 2. Deoarece , atunci numai patru abateri variază liber, iar a cincea abatere poate fi determinată dacă cele patru anterioare sunt cunoscut.

La calcularea sumei pătratelor explicate sau factoriale se folosesc valori teoretice (calculate) ale caracteristicii rezultate

Apoi, suma abaterilor pătrate datorate regresiei liniare este egală cu

Întrucât, pentru un volum dat de observații în x și y, suma factorului de pătrate în regresie liniară depinde doar de constanta de regresie b, atunci această sumă de pătrate are doar un grad de libertate.

Există egalitate între numărul de grade de libertate a totalului, factorilor și sumei reziduale a abaterilor pătrate. Numărul de grade de libertate al sumei reziduale de pătrate în regresie liniară este n-2. Numărul de grade de libertate al sumei totale de pătrate este determinat de numărul de unități de caracteristici variabile și, deoarece folosim media calculată din datele eșantionului, pierdem un grad de libertate, adică. df total = n–1.

Deci, avem două egalități:

Împărțind fiecare sumă de pătrate la numărul corespunzător de grade de libertate, obținem pătratul mediu al abaterilor sau, care este același, dispersia pe un grad de libertate D.

;

;

.

Definirea varianței pe grad de libertate aduce variațiile la o formă comparabilă. Comparând factorul și variațiile reziduale pe grad de libertate, obținem valoarea testului Fisher F

unde F-criteriul pentru testarea ipotezei nule H 0: D fapt = D rest.

Dacă ipoteza nulă este adevărată, atunci factorul și variațiile reziduale nu diferă unele de altele. Pentru H 0, este necesară o respingere astfel încât dispersia factorului să depășească dispersia reziduală de câteva ori. Statisticianul englez Snedecor a dezvoltat tabele cu valorile critice ale raporturilor F la diferite niveluri de semnificație ale ipotezei nule și diferite numere de grade de libertate. Valoarea tabelată a testului F este valoarea maximă a raportului de variații care poate apărea dacă acestea diverge aleatoriu pentru acest nivel probabilitatea de a avea o ipoteză nulă. Valoarea calculată a raportului F este considerată fiabilă dacă este mai mare decât valoarea tabelată. Dacă F fapt > F tabel, atunci ipoteza nulă H 0: D fapt = D rest despre absența unei legături între caracteristici este respinsă și se trage o concluzie despre semnificația acestei conexiuni.

Dacă F este un fapt< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать concluzie greșită despre existența unei legături. În acest caz, ecuația de regresie este considerată nesemnificativă statistic. Ipoteza H 0 nu este respinsă.

În acest exemplu din capitolul 3:

= 131200 -7*144002 = 30400 – suma totală a pătratelor;

1057,878*(135,43-7*(3,92571) 2) = 28979,8 – factorul suma pătratelor;

=30400-28979,8 = 1420,197 – suma reziduală a pătratelor;

Fapt D = 28979,8;

D repaus = 1420,197/(n-2) = 284,0394;

Fapt F =28979,8/284,0394 = 102,0274;

Fa = 0,05; 2; 5 = 6,61; Fa = 0,01; 2; 5 = 16,26.

Deoarece F fact > F tabel la ambele niveluri de semnificație de 1% și 5%, putem concluziona că ecuația de regresie este semnificativă (relația a fost dovedită).

Valoarea testului F este legată de coeficientul de determinare. Suma factorilor abaterilor pătrate poate fi reprezentată ca

,

iar suma reziduală a pătratelor ca

.

Atunci valoarea testului F poate fi exprimată ca

.

Evaluarea semnificației regresiei este de obicei dată sub forma unui tabel de analiză a varianței

, valoarea sa este comparată cu valoarea tabelului la un anumit nivel de semnificație α și cu numărul de grade de libertate (n-2).
Surse de variație Numărul de grade de libertate Suma abaterilor pătrate Dispersia pe grad de libertate Raportul F
real Tabelar la a=0,05
General
explicat 28979,8 28979,8 102,0274 6,61
Rezidual 1420,197 284,0394

Teste finale în econometrie

1. Semnificația parametrilor ecuației de regresie se evaluează pe baza:

A) t - Testul elevului;

b) Testul Fisher–Snedecor F;

c) eroare pătratică medie;

G) eroare medie aproximări.

2. Coeficientul de regresie din ecuația care caracterizează relația dintre volumul produselor vândute (milioane de ruble) și profitul întreprinderilor din industria auto pentru anul (milioane de ruble) înseamnă că, odată cu creșterea volumului de produse vândute de către 1 milioane de ruble profitul crește cu:

d) 0,5 milioane. freca.;

c) 500 mii. freca.;

D) 1,5 milioane de ruble.

3. Raportul de corelație (indicele de corelație) măsoară gradul de apropiere a conexiunii dintre X șiY:

a) numai cu o formă neliniară de dependenţă;

B) pentru orice formă de dependență;

c) numai când dependență liniară.

4. După direcția de comunicare există:

a) moderată;

B) drept;

c) drept.

5. Pe baza a 17 observații, a fost construită o ecuație de regresie:
.
Pentru a verifica semnificația ecuației, am calculatvaloare observatăt- statistici: 3,9. Concluzie:

A) Ecuația este semnificativă la a = 0,05;

b) Ecuația este nesemnificativă la a = 0,01;

c) Ecuația este nesemnificativă la a = 0,05.

6. Care sunt consecințele încălcării ipotezei MCO „ așteptarea matematică a reziduurilor de regresie este zero”?

A) Estimări părtinitoare ale coeficienților de regresie;

b) Estimări eficiente, dar inconsecvente ale coeficienților de regresie;

c) Estimări ineficiente ale coeficienților de regresie;

d) Estimări inconsistente ale coeficienților de regresie.

7. Care dintre următoarele afirmații este adevărată dacă reziduurile sunt heteroscedastice?

A) Concluziile bazate pe statisticile t și F sunt nesigure;

d) Estimările parametrilor ecuației de regresie sunt părtinitoare.

8. Pe ce se bazează testul? corelație de rang Spearman?

A) Utilizarea t – statistici;

c) În uz ;

9. Pe ce se bazează testul White?

b) Utilizarea statisticilor F;

B) În uz ;

d) Despre analiza grafică a reziduurilor.

10. Ce metodă poate fi folosită pentru a elimina autocorelația?

11. Cum se numește încălcarea ipotezei variației constante a reziduurilor?

a) Multicoliniaritate;

b) Autocorelare;

B) Heteroscedasticitate;

d) Homoscedasticitatea.

12. Variabilele fictive sunt introduse în:

a) numai în modele liniare;

b) numai în regresie multiplă neliniară;

c) numai în modele neliniare;

D) atât modele liniare cât și neliniare reduse la formă liniară.

13. Dacă în matricea coeficienţilor de corelaţie perechi există
, atunci aceasta indică:

A) Despre prezența multicolinearității;

b) Despre absenţa multicoliniarităţii;

c) Despre prezența autocorelației;

d) Despre absenţa heteroschedasticităţii.

14. Ce măsură nu poate fi folosită pentru a scăpa de multicoliniaritate?

a) Creșterea dimensiunii eșantionului;

D) Transformarea componentei aleatoare.

15. Dacă
iar rangul matricei A este mai mic decât (K-1), atunci ecuația este:

a) supraidentificat;

B) neidentificat;

c) identificate cu precizie.

16. Ecuația de regresie are forma:

O)
;

b)
;

V)
.

17.Care este problema identificării modelului?

A) obținerea parametrilor definiți unic ai modelului specificati printr-un sistem de ecuații simultane;

b) selectarea și implementarea metodelor de estimare statistică a parametrilor modelului necunoscuți folosind date statistice inițiale;

c) verificarea adecvării modelului.

18. Ce metodă este folosită pentru a estima parametrii unei ecuații supraidentificate?

B) DMNK, CMNK;

19. Dacă o variabilă calitativă arekvalori alternative, atunci următoarele sunt utilizate în modelare:

A) (k-1) variabilă inactivă;

b) variabile kdummy;

c) (k+1) variabilă dummy.

20. Analiza apropierii și direcției legăturilor dintre două caracteristici se realizează pe baza:

A) coeficient de corelație de pereche;

b) coeficientul de determinare;

c) coeficient de corelaţie multiplă.

21. Într-o ecuație liniară x = O 0 +a 1 coeficientul de regresie x arată:

a) apropierea de comunicare;

b) proporția de varianță „Y” dependentă de „X”;

C) cât de mult se va schimba în medie „Y” atunci când „X” se schimbă cu o unitate;

d) eroarea coeficientului de corelare.

22. Ce indicator este utilizat pentru a determina partea de variație datorată modificărilor valorii factorului studiat?

a) coeficientul de variație;

b) coeficientul de corelare;

B) coeficient de determinare;

d) coeficientul de elasticitate.

23. Coeficientul de elasticitate arată:

A) cu câte% se va schimba valoarea lui y când x se va modifica cu 1%;

b) cu câte unități de măsură ale sale se va modifica valoarea lui y atunci când x se modifică cu 1%;

c) cu ce % se va schimba valoarea lui y atunci când x se schimbă la unitate. dimensiunea acestuia.

24. Ce metode pot fi folosite pentru a detecta heteroschedasticitatea?

A) Testul Golfeld-Quandt;

B) Testul de corelare a rangului lui Spearman;

c) Testul Durbin-Watson.

25. Pe ce se bazează testul Holfeld-Quandt?

a) Utilizarea t-statisticilor;

B) Utilizarea F – statistici;

c) În uz ;

d) Despre analiza grafică a reziduurilor.

26. Ce metode nu pot fi folosite pentru a elimina autocorelarea reziduurilor?

a) Metoda generalizată cele mai mici pătrate;

B) Metoda celor mai mici pătrate ponderate;

C) Metoda maximei probabilități;

D) Metoda celor mai mici pătrate în două etape.

27. Cum se numește încălcarea ipotezei de independență a reziduurilor?

a) Multicoliniaritate;

B) Autocorelație;

c) Heteroscedasticitate;

d) Homoscedasticitatea.

28. Ce metodă poate fi folosită pentru a elimina heteroscedasticitatea?

A) Metoda celor mai mici pătrate generalizate;

b) Metoda celor mai mici pătrate ponderate;

c) Metoda maximei probabilități;

d) Metoda celor mai mici pătrate în două etape.

30. Dacă conformt-criteriu, majoritatea coeficienților de regresie sunt semnificativi statistic, iar modelul în ansambluF- criteriul este nesemnificativ, aceasta poate indica:

a) Multicoliniaritate;

B) Despre autocorelarea reziduurilor;

c) Despre heteroschedasticitatea reziduurilor;

d) Această opțiune este imposibilă.

31. Este posibil să scapi de multicolinearitate folosind transformarea variabilă?

a) Această măsură este eficientă numai dacă dimensiunea eșantionului este mărită;

32. Utilizând ce metodă se pot găsi estimări ale parametrului unei ecuații de regresie liniară:

A) metoda celor mai mici pătrate;

b) analiza de corelaţie şi regresie;

c) analiza varianţei.

33. A fost construită o ecuație de regresie liniară multiplă cu variabile fictive. Pentru a verifica semnificația coeficienților individuali, utilizați distributie:

a) Normal;

b) Testul elevului;

c) Pearson;

d) Fischer-Snedecor.

34. Dacă
iar rangul matricei A este mai mare decât (K-1), atunci ecuația este:

A) supraidentificat;

b) neidentificate;

c) identificate cu precizie.

35. Pentru a estima parametrii unui sistem de ecuații precis identificat, se utilizează următoarele:

a) DMNK, CMNK;

b) DMNK, MNK, CMNK;

36. Criteriul Chow se bazează pe aplicarea:

A) F - statistici;

b) t - statistici;

c) Criteriile Durbin-Watson.

37. Variabilele fictive pot lua următoarele valori:

d) orice valori.

39. Pe baza a 20 de observații, a fost construită o ecuație de regresie:
.
Pentru a verifica semnificația ecuației, s-a calculat valoarea statisticii:4.2. Concluzii:

a) Ecuația este semnificativă la a=0,05;

b) Ecuația este nesemnificativă la a=0,05;

c) Ecuația este nesemnificativă la a=0,01.

40. Care dintre următoarele afirmații nu este adevărată când reziduurile sunt heteroscedastice?

a) Concluziile bazate pe statisticile t și F sunt nesigure;

b) Heteroscedasticitatea se manifestă printr-o valoare scăzută a statisticii Durbin-Watson;

c) Cu heteroscedasticitate, estimările rămân eficiente;

d) Estimările sunt părtinitoare.

41. Testul Chow se bazează pe comparație:

A) variații;

b) coeficienţii de determinare;

c) așteptări matematice;

d) medie.

42. Dacă la testul Chow
atunci se consideră:

A) că împărțirea în subintervale este recomandabilă din punctul de vedere al îmbunătățirii calității modelului;

b) modelul este nesemnificativ statistic;

c) modelul este semnificativ statistic;

d) că nu are rost să împărțim proba în părți.

43. Variabilele fictive sunt variabile:

a) calitate înaltă;

b) aleatoriu;

B) cantitativ;

d) logic.

44. Care dintre următoarele metode nu poate fi utilizată pentru a detecta autocorelarea?

a) metoda seriei;

b) testul Durbin-Watson;

c) Testul de corelare a rangului lui Spearman;

D) Testul lui White.

45. Cea mai simplă formă structurală a modelului este:

O)

b)

V)

G)
.

46. ​​​​Ce măsuri pot fi folosite pentru a scăpa de multicoliniaritate?

a) Creșterea dimensiunii eșantionului;

b) Excluderea variabilelor foarte corelate cu altele;

c) modificarea specificației modelului;

d) Transformarea componentei aleatoare.

47. Dacă
iar rangul matricei A este egal cu (K-1), atunci ecuația este:

a) supraidentificat;

b) neidentificate;

B) identificat cu precizie;

48. Modelul este considerat identificat dacă:

a) între ecuaţiile modelului există cel puţin una normală;

B) fiecare ecuație a sistemului este identificabilă;

c) printre ecuaţiile model există cel puţin una neidentificată;

d) printre ecuaţiile model există cel puţin una supraidentificată.

49. Ce metodă este folosită pentru a estima parametrii unei ecuații neidentificate?

a) DMNK, CMNK;

b) DMNK, MNK;

C) parametrii unei astfel de ecuații nu pot fi estimați.

50. La intersecția dintre care domenii de cunoaștere a apărut econometria:

A) teoria economică; statistici economice si matematice;

b) teoria economică, statistica matematică și teoria probabilității;

c) statistică economică şi matematică, teoria probabilităţilor.

51. Într-o ecuație de regresie liniară multiplă, intervalele de încredere pentru coeficienții de regresie sunt construite folosind distribuția:

a) Normal;

B) Student;

c) Pearson;

d) Fischer-Snedecor.

52. Pe baza a 16 observații, a fost construită o ecuație de regresie liniară pereche. Pentrutestarea semnificaţiei coeficientului de regresie calculatt pentru 6l =2.5.

a) Coeficientul este nesemnificativ la a=0,05;

b) Coeficientul este semnificativ la a=0,05;

c) Coeficientul este semnificativ la a=0,01.

53. Se ştie că între cantităţiXŞiYexistăconexiune pozitivă. În ce măsurăeste găsit coeficientul de corelație perechi?

a) de la -1 la 0;

b) de la 0 la 1;

B) de la –1 la 1.

54. Coeficientul de corelație multiplă este 0,9. Ce procentvarianţa trăsăturii rezultate se explică prin influenţa tuturorsemne factoriale?

55. Care dintre următoarele metode nu poate fi utilizată pentru a detecta heteroscedasticitatea?

A) Testul Golfeld-Quandt;

b) Testul de corelare a rangului lui Spearman;

c) metoda seriei.

56. Forma redusă a modelului este:

a) un sistem de funcţii neliniare ale variabilelor exogene din cele endogene;

B) un sistem de funcţii liniare ale variabilelor endogene din cele exogene;

c) un sistem de funcţii liniare ale variabilelor exogene din cele endogene;

d) un sistem de ecuații normale.

57. În ce limite se modifică coeficientul de corelație parțială calculat folosind formule recursive?

a) de la - la + ;

b) de la 0 la 1;

c) de la 0 la + ;

D) de la –1 la +1.

58. În ce limite se modifică coeficientul de corelație parțială calculat prin coeficientul de determinare?

a) de la - la + ;

B) de la 0 la 1;

c) de la 0 la + ;

d) de la –1 la +1.

59. Variabile exogene:

a) variabile dependente;

B) variabile independente;

61. La adăugarea unui alt factor explicativ la ecuația de regresie, coeficientul de corelație multiplă este:

a) va scadea;

b) va crește;

c) își va păstra sensul.

62. A fost construită o ecuație de regresie hiperbolică:Y= o+ b/ X. PentruPentru a verifica semnificația ecuației, se utilizează distribuția:

a) Normal;

B) Student;

c) Pearson;

d) Fischer-Snedecor.

63. Pentru ce tipuri de sisteme se pot găsi parametrii ecuațiilor econometrice individuale folosind metoda tradițională a celor mai mici pătrate?

a) un sistem de ecuații normale;

B) un sistem de ecuații independente;

C) un sistem de ecuaţii recursive;

D) un sistem de ecuații interdependente.

64. Variabile endogene:

A) variabile dependente;

b) variabile independente;

c) datate în momente anterioare.

65. În ce limite se modifică coeficientul de determinare?

a) de la 0 la + ;

b) de la - la + ;

B) de la 0 la +1;

d) de la -l la +1.

66. A fost construită o ecuație de regresie liniară multiplă. Pentru a verifica semnificația coeficienților individuali, utilizați distributie:

a) Normal;

b) Testul elevului;

c) Pearson;

D) Fischer-Snedecor.

67. La adăugarea unui alt factor explicativ la ecuația de regresie, coeficientul de determinare:

a) va scadea;

B) va crește;

c) își va păstra sensul;

d) nu va scadea.

68. Esența metodei celor mai mici pătrate este aceea că:

A) estimarea se determină din condiția minimizării sumei abaterilor pătrate a datelor eșantionului de la estimarea determinată;

b) estimarea se determină din condiția minimizării sumei abaterilor datelor eșantionului de la estimarea determinată;

c) estimarea se determină din condiția minimizării sumei abaterilor pătrate ale mediei eșantionului de la varianța eșantionului.

69. Cărei clase de regresii neliniare aparține parabola:

73. Cărei clase de regresii neliniare îi aparține curba exponențială:

74. Cărei clase de regresii neliniare îi aparține o funcție de forma ŷ?
:

A) regresii care sunt neliniare în raport cu variabilele incluse în analiză, dar liniare în raport cu parametrii estimați;

b) regresii neliniare asupra parametrilor estimaţi.

78. Cărei clase de regresii neliniare îi aparține o funcție de forma ŷ?
:

a) regresii care sunt neliniare în raport cu variabilele incluse în analiză, dar liniare în raport cu parametrii estimați;

B) regresii neliniare asupra parametrilor estimaţi.

79. În ecuația de regresie sub forma unei hiperbole ŷ
dacă valoarea
b >0 , că:

A) cu o creștere a caracteristicii factorului X valorile caracteristicii rezultate la scade incet, si cu x→∞ valoare medie la va fi egal O;

b) apoi valoarea semnului rezultant la crește odată cu creșterea lentă pe măsură ce trăsătura factorului crește X, și la x→∞

81. Coeficientul de elasticitate este determinat de formula

A) Funcția liniară;

b) Parabole;

c) Hiperbole;

d) Curba exponenţială;

e) Puterea.

82. Coeficientul de elasticitate este determinat de formula
pentru un model de regresie sub forma:

a) Funcția liniară;

B) Parabole;

c) Hiperbole;

d) Curba exponenţială;

e) Puterea.

86. Ecuația
numit:

A) tendință liniară;

b) tendinta parabolica;

c) tendinta hiperbolica;

d) tendinţă exponenţială.

89. Ecuația
numit:

a) tendință liniară;

b) tendinta parabolica;

c) tendinta hiperbolica;

D) tendință exponențială.

90. Tipuri de sistem numit:

A) un sistem de ecuații independente;

b) un sistem de ecuaţii recursive;

c) un sistem de ecuații interdependente (articulate, simultane).

93. Econometria poate fi definită ca:

A) este o disciplină științifică independentă care combină un set de rezultate teoretice, tehnici, metode și modele concepute pentru, pe baza teoriei economice, a statisticii economice și a instrumentelor matematice și statistice, să dea o expresie cantitativă specifică tiparelor generale (calitative) determinat de teoria economică;

B) știința măsurătorilor economice;

B) analiza statistică a datelor economice.

94. Sarcinile econometriei includ:

A) prognoza indicatorilor economici și socio-economici care caracterizează starea și dezvoltarea sistemului analizat;

B) simularea scenariilor posibile de dezvoltare socio-economică a sistemului pentru a identifica modul în care modificările planificate ale anumitor parametri controlabili vor afecta caracteristicile de ieşire;

c) testarea ipotezelor folosind date statistice.

95. Relațiile se disting prin natura lor:

A) funcționale și corelaționale;

b) funcţional, curbiliniu şi rectiliniu;

c) corelaţie şi inversă;

d) statistice şi directe.

96. În legătură directă cu o creștere a caracteristicii unui factor:

a) semnul efectiv scade;

b) semnul rezultat nu se modifică;

C) semnul efectiv crește.

97. Ce metode sunt folosite pentru a identifica prezența, natura și direcția relațiilor în statistică?

a) valori medii;

B) compararea serii paralele;

C) metoda grupării analitice;

d) valori relative;

D) metoda grafica.

98. Ce metodă este folosită pentru a identifica forma de influență a unui factor asupra altuia?

a) analiza corelației;

B) analiza regresiei;

c) analiza indicilor;

d) analiza varianţei.

99. Ce metodă este folosită pentru a cuantifica puterea influenței unui factor asupra altuia:

A) analiza corelației;

b) analiza de regresie;

c) metoda mediilor;

d) analiza varianţei.

100. Ce indicatori există în ceea ce privește valoarea lor variind de la minus la plus unu:

a) coeficientul de determinare;

b) relaţia de corelaţie;

ÎN) coeficient liniar corelații.

101. Coeficientul de regresie pentru un model cu un singur factor arată:

A) cu câte unități se schimbă funcția când argumentul se schimbă cu o unitate;

b) cu ce procent se modifică funcția pe unitate de modificare a argumentului.

102. Coeficientul de elasticitate arată:

a) cu ce procent se modifică funcția cu o modificare a argumentului cu o unitate de măsură a acesteia;

B) cu ce procent se modifică funcția cu o modificare a argumentului cu 1%;

c) cu câte unități de măsură se modifică funcția cu o modificare a argumentului cu 1%.

105. Valoarea indicelui de corelare egală cu 0,087 indică:

A) despre dependența lor slabă;

b) despre o relație puternică;

c) despre erorile de calcul.

107. Valoarea coeficientului de corelație de pereche egală cu 1,12 indică:

a) despre dependența lor slabă;

b) despre o relație puternică;

C) despre erorile de calcul.

109. Care dintre următoarele numere pot fi valorile coeficientului de corelație de pereche:

111. Care dintre următoarele numere pot fi valorile coeficientului de corelație multiplă:

115. Marcați forma corectă ecuație liniară regresii:

a) ŷ
;

b) ŷ
;

c) ŷ
;

D) ŷ
.

Evaluarea semnificației unei ecuații regresie multiplă

Construcția unei ecuații de regresie empirică este stadiu inițial analiza econometrică. Prima ecuație de regresie construită dintr-un eșantion este foarte rar satisfăcătoare în ceea ce privește anumite caracteristici. Prin urmare, următoarea sarcină cea mai importantă a analizei econometrice este verificarea calității ecuației de regresie. În econometrie, a fost adoptată o schemă bine stabilită pentru o astfel de verificare.

Deci, verificarea calității statistice a ecuației de regresie estimată se efectuează în următoarele domenii:

· verificarea semnificaţiei ecuaţiei de regresie;

· verificarea semnificaţiei statistice a coeficienţilor ecuaţiei de regresie;

· verificarea proprietăților datelor, a căror fezabilitate a fost presupusă la estimarea ecuației (verificarea fezabilității premiselor OLS).

Testarea semnificației ecuației de regresie multiplă, precum și a regresiei perechi, se realizează folosind criteriul Fisher. În acest caz (spre deosebire de regresia pereche), este prezentată o ipoteză nulă H 0 că toți coeficienții de regresie sunt egali cu zero ( b 1=0, b 2=0, … , b m=0). Criteriul Fisher este determinat de următoarea formulă:

Unde D fapt - varianța factorilor explicată prin regresie, pe un grad de libertate; D ost - dispersia reziduală pe grad de libertate; R 2- coeficient de determinare multiplă; T Xîn ecuația de regresie (în regresie liniară pereche T= 1); p - numărul de observații.

Valoarea rezultată a testului F este comparată cu valoarea tabelului la un anumit nivel de semnificație. Dacă valoarea sa reală este mai mare decât valoarea tabelului, atunci ipoteza Dar se respinge nesemnificația ecuației de regresie și se acceptă ipoteza alternativă despre semnificația ei statistică.

Folosind criteriul Fisher, puteți evalua semnificația nu numai a ecuației de regresie în ansamblu, ci și importanța includerii suplimentare a fiecărui factor în model. O astfel de evaluare este necesară pentru a nu încărca modelul cu factori care nu au un impact semnificativ asupra rezultatului. În plus, întrucât modelul constă din mai mulți factori, aceștia pot fi introduși în el în secvențe diferite și, deoarece există o corelație între factori, semnificația includerii aceluiași factor în model poate varia în funcție de secvența în care sunt introduși în ea factori.

Pentru a evalua importanța includerii unui factor suplimentar în model, se calculează criteriul parțial Fisher Fxi. Se bazează pe compararea creșterii varianței factorilor datorată includerii unui factor suplimentar în model cu variația reziduală pe un grad de libertate pentru regresia în ansamblu. Prin urmare, formula de calcul test F privat deoarece factorul va avea următoarea formă:

Unde R 2 yx 1 x 2… xi… xp - coeficient de determinare multiplă pentru un model complet n factori ; R 2 yx 1 x 2… x i -1 x i +1… xp- coeficient de determinare multiplă pentru un model care nu include un factor x i;n- numărul de observații; T- numărul de parametri pentru factori xîn ecuația de regresie.

Valoarea reală a testului parțial al lui Fisher este comparată cu cea tabelată la un nivel de semnificație de 0,05 sau 0,1 și cu numerele corespunzătoare de grade de libertate. Dacă valoarea reală F xi depaseste Tabelul F, apoi includerea suplimentară a factorului x iîn model este justificată statistic, iar coeficientul de regresie „pur”. b i la factor x i semnificativ statistic. Dacă F xi Mai puțin Tabelul F, apoi includerea suplimentară a factorului în model nu crește semnificativ ponderea variației explicate în rezultat y,și, prin urmare, includerea sa în model nu are sens coeficientul de regresie pentru acest factor în acest caz este nesemnificativ statistic.

Folosind testul parțial al lui Fisher, puteți testa semnificația tuturor coeficienților de regresie în ipoteza că fiecare factor corespunzător x i este introdus ultimul în ecuația de regresie multiplă și toți ceilalți factori au fost deja incluși în model anterior.

Evaluarea semnificației coeficienților de regresie „puri”. b i De Testul t al elevului poate fi efectuată fără a calcula privat F-criterii. În acest caz, ca și în cazul regresiei perechi, formula este aplicată pentru fiecare factor

t bi = b i / m bi ,

Unde b i- coeficient de regresie „pură” cu factorul x i ; m bi- eroarea standard a coeficientului de regresie b i .

Puteți verifica semnificația parametrilor ecuației de regresie folosind t-statistici.

Exercita:
Pentru un grup de întreprinderi care produc același tip de produs, se iau în considerare funcțiile de cost:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
unde y este costurile de producție, mii de unități.
x – producție, mii de unități.

Necesar:
1. Construiți ecuații de regresie în perechi y din x:

  • liniar;
  • putere;
  • demonstrativ;
  • hiperbola echilaterală.
2. Calculați coeficientul liniar de corelație de pereche și coeficientul de determinare. Trageți concluzii.
3. Evaluați semnificația statistică a ecuației de regresie în ansamblu.
4. Evaluați semnificația statistică a parametrilor de regresie și corelație.
5. Efectuați o prognoză a costurilor de producție cu o producție estimată de 195% din nivelul mediu.
6. Evaluați acuratețea prognozei, calculați eroarea de prognoză și ea interval de încredere.
7. Evaluați modelul prin eroarea medie de aproximare.

Soluţie:

1. Ecuația este y = α + βx
1. Parametrii ecuației de regresie.
Valori medii

Dispersia

Abaterea standard

Coeficientul de corelare

Relația dintre trăsătura Y și factorul X este puternică și directă
Ecuația de regresie

Coeficient de determinare
R2 = 0,942 = 0,89, adică. în 88,9774% din cazuri, modificările în x duc la modificări în y. Cu alte cuvinte, acuratețea selectării ecuației de regresie este mare

x y x 2 y 2 x∙y y(x) (a-y cp) 2 (y-y(x)) 2 (x-x p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Notă: valorile lui y(x) se găsesc din ecuația de regresie rezultată:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

2. Estimarea parametrilor ecuației de regresie
Semnificația coeficientului de corelație

Folosind tabelul Student, găsim Ttable
Tabelul T (n-m-1;α/2) = (11;0,05/2) = 1,796
Deoarece Tob > Ttabl, respingem ipoteza că coeficientul de corelație este egal cu 0. Cu alte cuvinte, coeficientul de corelație este semnificativ statistic.

Analiza acurateței determinării estimărilor coeficienților de regresie





Sa = 0,1712
Intervale de încredere pentru variabila dependentă

Să calculăm limitele intervalului în care 95% din valorile posibile ale lui Y vor fi concentrate cu un număr nelimitat de observații și X = 1
(-20.41;56.24)
Testarea ipotezelor privind coeficienții unei ecuații de regresie liniară
1) t-statistici


Se confirmă semnificația statistică a coeficientului de regresie a

Semnificația statistică a coeficientului de regresie b nu este confirmată
Interval de încredere pentru coeficienții ecuației de regresie
Să determinăm intervalele de încredere ale coeficienților de regresie, care cu o fiabilitate de 95% vor fi după cum urmează:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
unde t = 1,796
2) F-statistici


Fkp = 4,84
Deoarece F > Fkp, coeficientul de determinare este semnificativ statistic

TEMA 4. METODE STATISTICE DE STUDIAREA RELATIILOR

Ecuația de regresie - Aceasta este o reprezentare analitică a dependenței de corelație. Ecuația de regresie descrie relația funcțională ipotetică dintre valoarea medie condiționată a atributului rezultat și valoarea atributului - factor (factori), i.e. tendința principală a dependenței.

O dependență de corelație de pereche este descrisă de o ecuație de regresie pereche, iar o dependență de corelație multiplă este descrisă de o ecuație de regresie multiplă.

Atributul rezultat din ecuația de regresie este variabila dependentă (răspuns, variabilă explicată), iar atributul factor este variabila independentă (argument, variabilă explicativă).

Cel mai simplu tip de ecuație de regresie este ecuația dependenței liniare a perechii:

unde y este variabila dependentă (atribut-rezultat); x – variabilă independentă (factor de trăsătură); și – parametrii ecuației de regresie; - eroare de estimare.

Diferite funcții matematice pot fi utilizate ca ecuație de regresie. Ecuațiile de dependență liniară, parabolă, hiperbolă, funcție de stepă etc. sunt adesea folosite în practică.

De regulă, analiza începe cu o evaluare a relației liniare, deoarece rezultatele sunt ușor de interpretat în mod semnificativ. Alegerea tipului de ecuație de cuplare este o etapă destul de importantă a analizei. În era „pre-computer”, această procedură era asociată cu anumite dificultăți și solicita analistului să cunoască proprietățile funcțiilor matematice. În prezent, pe baza unor programe de specialitate, este posibil să construiți rapid multe ecuații de comunicare și, pe baza unor criterii formale, să faceți o alegere cel mai bun model(cu toate acestea, alfabetizarea matematică a analistului nu și-a pierdut relevanța).

O ipoteză despre tipul de dependență de corelație poate fi prezentată pe baza rezultatelor construcției câmpului de corelație (vezi prelegerea 6). Pe baza naturii locației punctelor pe grafic (coordonatele punctelor corespund valorilor variabilelor dependente și independente), se dezvăluie o tendință pentru relația dintre caracteristici (indicatori). Dacă linia de regresie trece prin toate punctele câmpului de corelare, atunci aceasta indică o conexiune funcțională. În practica cercetării socio-economice, o astfel de imagine nu poate fi observată, deoarece există o dependență statistică (corelație). În condiții de dependență de corelare, la trasarea unei linii de regresie pe o diagramă de împrăștiere, se observă o abatere a punctelor câmpului de corelație de la linia de regresie, care demonstrează așa-numitele erori reziduale sau de estimare (vezi Figura 7.1).

Prezența unei erori în ecuație se datorează faptului că:

§ nu toti factorii care influenteaza rezultatul sunt luati in considerare in ecuatia de regresie;

§ forma de conectare poate fi aleasă incorect - ecuaţia de regresie;

§ Nu toți factorii sunt incluși în ecuație.

A construi o ecuație de regresie înseamnă a calcula valorile parametrilor ei. Ecuația de regresie este construită pe baza valorilor reale ale caracteristicilor analizate. Calculul parametrilor se realizează de obicei folosind metoda celor mai mici pătrate (LSM).

Esența MNC este că este posibil să se obțină astfel de valori ale parametrilor ecuației care minimizează suma abaterilor pătrate ale valorilor teoretice ale atributului rezultat (calculate pe baza ecuației de regresie) din valorile sale reale:

,

unde este valoarea reală a caracteristicii rezultatului i-a unitate agregate; - valoarea caracteristicii rezultatului pentru unitatea i-a a populaţiei, obţinută din ecuaţia de regresie ().

Astfel, problema extremumului este în curs de rezolvare, adică este necesar să găsim la ce valori ale parametrilor funcția S atinge un minim.

Efectuarea diferențierii, echivalarea derivatelor parțiale cu zero:



, (7.3)

, (7.4)

unde este produsul mediu al valorilor factorului și rezultatului; - valoarea medie a atributului - factor; - valoarea medie a caracteristicii rezultatului; - varianţa trăsăturii factorului.

Parametrul din ecuația de regresie caracterizează panta dreptei de regresie pe grafic. Acest parametru este numit coeficient de regresie iar valoarea sa caracterizează câte unități de măsură se va schimba atributul rezultat atunci când atributul factorului se modifică cu o unitate de măsură. Semnul coeficientului de regresie reflectă direcția dependenței (directă sau inversă) și coincide cu semnul coeficientului de corelație (în condițiile dependenței perechi).

În contextul exemplului luat în considerare, programul STATISTICA a calculat parametrii ecuației de regresie care descriu relația dintre nivelul venitului monetar pe cap de locuitor al populației și valoarea produsului regional brut pe cap de locuitor în regiunile Rusiei, vezi Tabelul 7.1.

Tabelul 7.1 - Calculul și evaluarea parametrilor ecuației care descriu relația dintre nivelul venitului monetar mediu pe cap de locuitor al populației și valoarea produsului regional brut pe cap de locuitor în regiunile Rusiei, 2013

Coloana „B” a tabelului conține valorile parametrilor ecuației de regresie pereche, prin urmare, putem scrie: = 13406,89 + 22,82 x. Această ecuație descrie tendinţa relaţiei dintre caracteristicile analizate. Parametrul este coeficientul de regresie. În acest caz, este egal cu 22,82 și caracterizează următoarele: cu o creștere a GRP pe cap de locuitor cu 1 mie de ruble, venitul mediu pe cap de locuitor în numerar crește în medie (după cum este indicat de semnul „+”) cu 22,28 ruble.

Parametrul ecuației de regresie în studiile socio-economice, de regulă, nu este interpretat în mod semnificativ. În mod formal, reflectă valoarea atributului - rezultatul, cu condiția ca atributul - factorul să fie egal cu zero. Parametrul caracterizează locația dreptei de regresie pe grafic, vezi Figura 7.1.

Figura 7.1 - Câmp de corelație și linie de regresie care reflectă dependența nivelului venitului monetar pe cap de locuitor al populației din regiunile Rusiei și valoarea GRP pe cap de locuitor

Valoarea parametrului corespunde punctului de intersecție a dreptei de regresie cu axa Y, la X=0.

Construcția unei ecuații de regresie este însoțită de o evaluare a semnificației statistice a ecuației în ansamblu și a parametrilor acesteia. Necesitatea unor astfel de proceduri este asociată cu o cantitate limitată de date, care poate împiedica funcționarea legii numerelor mari și, în consecință, identificarea unei adevărate tendințe în relația indicatorilor analizați. În plus, orice populație studiată poate fi considerată ca un eșantion din populația generală, iar caracteristicile obținute în timpul analizei ca o evaluare a parametrilor generali.

Aprecierea semnificației statistice a parametrilor și a ecuației în ansamblu reprezintă o fundamentare a posibilității utilizării modelului de comunicare construit pentru luarea deciziilor de management și prognoză (modelare).

Semnificația statistică a ecuației de regresie evaluat în general folosind Testul F al lui Fisher, care este raportul dintre factorii și variațiile reziduale calculate pe grad de libertate:

Unde - dispersia factorială a atributului - rezultat; k – numărul de grade de libertate de dispersie a factorilor (numărul de factori din ecuația de regresie); - valoarea medie a variabilei dependente; - valoarea teoretică (obținută din ecuația de regresie) a variabilei dependente pentru unitatea i – a populației; - varianţa reziduală a atributului - rezultat; n este volumul populației; n-k-1 – numărul de grade de libertate de dispersie reziduală.

Valoarea testului F Fisher, conform formulei, caracterizează relația dintre factor și variațiile reziduale ale variabilei dependente, demonstrând, în esență, de câte ori valoarea părții explicate a variației depășește partea neexplicată.

Testul F al lui Fisher este tabelat; intrarea în tabel este numărul de grade de libertate ale factorului și variațiile reziduale. Compararea valorii calculate a criteriului cu cea tabulată (critică) ne permite să răspundem la întrebarea: este acea parte din variația atributului rezultat care poate fi explicată prin factorii incluși în ecuația de acest tip semnificativă statistic? Dacă , atunci ecuația de regresie este considerată semnificativă statistic și, în consecință, coeficientul de determinare este semnificativ statistic. În caz contrar ( ), ecuația este nesemnificativă statistic, adică. variația factorilor luați în considerare în ecuație nu explică o parte semnificativă statistic a variației atributului rezultat, sau ecuația relației nu a fost aleasă corect.

Estimarea semnificației statistice a parametrilor ecuației efectuate pe baza t-statistici, care se calculează ca raport dintre modulul parametrilor ecuației de regresie și erorile standard ale acestora ( ):

, Unde ; (7.6)

, Unde ; (7.7)

Unde - abateri standard semn - factor și semn - rezultat; - coeficientul de determinare.

În programele de statistică specializate, calcularea parametrilor este întotdeauna însoțită de calcularea valorilor erorilor standard (pătrat mediu) și a statisticilor t (a se vedea tabelul 7.1). Valoarea t-statistică calculată este comparată cu tabelul 1 dacă volumul populației studiate este mai mic de 30 de unități (cu siguranță un eșantion mic), ar trebui să consultați tabelul de distribuție t Student dacă volumul populației este mare; , ar trebui să utilizați tabelul distribuției normale (integrala de probabilitate Laplace). Un parametru de ecuație este considerat semnificativ statistic dacă.

Estimarea parametrilor pe baza statisticilor t este în esență un test al ipotezei nule că parametrii generali sunt egali cu zero (H 0: =0; H 0: =0;), adică că parametrii ecuației de regresie sunt nesemnificativ statistic. Nivelul de semnificație al ipotezei este de obicei acceptat: = 0,05. Dacă nivelul de semnificație calculat este mai mic de 0,05, atunci ipoteza nulă este respinsă și este acceptată alternativa - despre semnificația statistică a parametrului.

Să continuăm cu exemplul. În tabelul 7.1, coloana „B” arată valorile parametrilor, iar coloana Std.Err.ofB arată valorile erorilor standard ale parametrilor ( ), în coloana t(77 – număr de grade de libertate) valorile t - statistici sunt calculate ținând cont de numărul de grade de libertate. Pentru a evalua semnificația statistică a parametrilor, valorile calculate ale statisticilor t trebuie comparate cu valoarea tabelului. Nivelul de semnificație specificat (0,05) în tabelul de distribuție normală corespunde cu t = 1,96. Din 18.02, 10.84, i.e. , semnificația statistică a valorilor parametrilor obținute ar trebui recunoscută, i.e. aceste valori se formează sub influența unor factori non-aleatori și reflectă tendința relației dintre indicatorii analizați.

Pentru a evalua semnificația statistică a ecuației în ansamblu, să ne întoarcem la valoarea testului F Fisher (vezi Tabelul 7.1). Valoarea calculată a criteriului F = 117,51, valoarea tabelată a criteriului, pe baza numărului corespunzător de grade de libertate (pentru dispersia factorului d.f. =1, pentru dispersia reziduală d.f. =77), este egală cu 4,00 (vezi anexa). .... .). Astfel, , prin urmare, ecuația de regresie în ansamblu este semnificativă statistic. Într-o astfel de situație, putem vorbi despre semnificația statistică a valorii coeficientului de determinare, i.e. 60 la sută din variația venitului pe cap de locuitor al populației din regiunile Rusiei poate fi explicată prin variația volumului produsului regional brut pe cap de locuitor.

Evaluând semnificația statistică a ecuației de regresie și a parametrilor acesteia, putem obține combinație diferită rezultate.

· Ecuația conform testului F este semnificativă statistic și toți parametrii ecuației conform testului t sunt, de asemenea, semnificativi statistic. Această ecuație poate fi folosită atât pentru luarea deciziilor de management (care factori ar trebui influențați pentru a obține rezultatul dorit), cât și pentru prezicerea comportamentului trăsăturii rezultat la anumite valori ale factorilor.

· Conform testului F, ecuația este semnificativă statistic, dar parametrii (parametrul) ecuației sunt nesemnificativi. Ecuația poate fi utilizată pentru a lua decizii de management (referitor la acei factori pentru care s-a obținut confirmarea semnificației statistice a influenței lor), dar ecuația nu poate fi utilizată pentru prognoză.

· Ecuația testului F este nesemnificativă statistic. Ecuația nu poate fi folosită. Ar trebui să continuați să căutați semne-factori semnificativi sau o formă analitică de legătură între argument și răspuns.

Dacă semnificația statistică a ecuației și a parametrilor ei este confirmată, atunci se poate realiza așa-numita prognoză punctuală, adică. S-a obținut o estimare a valorii caracteristicii rezultatului (y) pentru anumite valori ale factorului (x).

Este destul de evident că valoarea prezisă a variabilei dependente, calculată pe baza ecuației relației, nu va coincide cu valoarea reală a acesteia ( ) Grafic, această situație este confirmată de faptul că nu toate punctele câmpului de corelație se află pe dreapta de regresie numai cu o conexiune funcțională va trece prin toate punctele diagramei de împrăștiere; Prezența discrepanțelor între valorile reale și teoretice ale variabilei dependente este asociată, în primul rând, cu însăși esența dependenței de corelare: în același timp, rezultatul este influențat de mulți factori, dintre care doar o parte pot fi luate în considerare într-o anumită ecuaţie de comunicare. În plus, forma de conexiune dintre rezultat și factor (tip de ecuație de regresie) poate fi aleasă incorect. În acest sens, se pune întrebarea cât de informativă este ecuația de cuplare construită. Doi indicatori răspund la această întrebare: coeficientul de determinare (deja discutat mai sus) și eroarea standard de estimare.

Se numește diferența dintre valorile reale și teoretice ale variabilei dependente abateri sau erori sau reziduuri. Pe baza acestor valori se calculează varianța reziduală. Rădăcină pătrată din varianța reziduală și este eroare de estimare rădăcină pătratică medie (standard):

= (7.8)

Eroarea standard a ecuației este măsurată în aceleași unități ca și valoarea prezisă. Dacă erorile din ecuație urmează o distribuție normală (pentru cantități mari de date), atunci 95 la sută din valori ar trebui să fie în 2S de linia de regresie (pe baza proprietății distribuției normale - regula trei sigma) . Magnitudinea eroare standard estimarea este utilizată în calcularea intervalelor de încredere la prezicerea valorii unei caracteristici - rezultatul pentru o anumită unitate a populației.

În cercetarea practică, este adesea nevoie de a prezice valoarea medie a unei caracteristici - rezultatul pentru o anumită valoare a caracteristicii - factor. În acest caz, la calcularea intervalului de încredere pentru valoarea medie a variabilei dependente()

se ia în considerare valoarea erorii medii:

(7.9)

Utilizarea diferitelor valori de eroare se explică prin faptul că variabilitatea nivelurilor indicatorului în anumite unități ale populației este mult mai mare decât variabilitatea valorii medii, prin urmare, eroarea în prezicerea valorii medii este mai mică.

Interval de încredere pentru prognoza valorii medii a variabilei dependente:

, (7.10)

Unde - eroare maximă de estimare (vezi teoria eșantionării); t – coeficient de încredere, a cărui valoare se află în tabelul corespunzător, pe baza nivelului de probabilitate (număr de grade de libertate) acceptat de cercetător (vezi teoria eșantionării).

Intervalul de încredere pentru valoarea prezisă a caracteristicii rezultat poate fi, de asemenea, calculat ținând cont de corecția pentru distorsiunea (deplasarea) dreptei de regresie. Se determină valoarea factorului de corecție:

(7.11)

unde este valoarea caracteristicii factorului, pe baza căreia este prezisă valoarea caracteristicii rezultatului.

Rezultă că, cu cât valoarea diferă mai mult de valoarea medie a caracteristicii factorului, cu atât valoarea coeficientului de corecție este mai mare, cu atât eroarea de prognoză este mai mare. Ținând cont de acest coeficient, se va calcula intervalul de încredere al prognozei:

Precizia predicției bazate pe ecuația de regresie poate fi afectată de diverse motive. În primul rând, trebuie luat în considerare faptul că evaluarea calității ecuației și a parametrilor acesteia se realizează pe baza ipotezei că distributie normala resturi aleatorii. Încălcarea acestei ipoteze se poate datora prezenței unor valori puternic diferite în date, variației neuniforme sau prezenței unei relații neliniare. În acest caz, calitatea prognozei scade. Al doilea punct de reținut este că valorile factorilor luați în considerare la prezicerea rezultatului nu trebuie să depășească intervalul de variație a datelor pe care se bazează ecuația.

©2015-2019 site
Toate drepturile aparțin autorilor lor. Acest site nu pretinde autor, dar oferă o utilizare gratuită.
Data creării paginii: 2018-01-08





eroare: Continut protejat!!