Formula ecuației de regresie liniară. Găsiți parametrii ecuației de regresie liniară și oferiți o interpretare economică a coeficientului de regresie

Atribuirea serviciului. Cu ajutorul serviciului online puteți găsi:
  • parametrii ecuației regresie liniara y=a+bx , coeficient liniar corelații cu un test al semnificației sale;
  • etanșeitatea conexiunii folosind indicatori de corelare și determinare, estimarea MCO, fiabilitatea statică a modelării regresiei folosind testul F Fisher și testul t Student, interval de încredere prognoza pentru nivelul de semnificație α

Ecuația de regresie perechi se referă la ecuația de regresie de ordinul întâi. Dacă un model econometric conține o singură variabilă explicativă, atunci se numește regresie pe perechi. Ecuație de regresie de ordinul doiȘi ecuația de regresie de ordinul trei se referă la ecuații de regresie neliniară.

Exemplu. Selectați variabila dependentă (explicată) și explicativă pentru a construi un model de regresie pereche. da . Determinați ecuația de regresie teoretică a perechii. Evaluați caracterul adecvat al modelului construit (interpretați R-pătrat, t-statistici, F-statistici).
Soluţie se va baza pe proces de modelare econometrică.
Etapa 1 (stadializare) – determinarea obiectivelor finale ale modelării, a unui set de factori și indicatori care participă la model și a rolului acestora.
Specificarea modelului - definirea scopului studiului și alegerea variabilelor economice ale modelului.
Sarcină situațională (practică). Pentru 10 întreprinderi din regiune, studiem dependența producției pe lucrător y (mii de ruble) de ponderea lucrătorilor cu înaltă calificare în numărul total de lucrători x (în %).
Etapa 2 (a priori) - analiza pre-model esenta economica a fenomenului studiat, formarea și formalizarea informațiilor a priori și a ipotezelor inițiale, în special, legate de natura și geneza datelor statistice inițiale și a componentelor reziduale aleatorii sub forma unui număr de ipoteze.
Deja în această etapă, putem vorbi despre o dependență clară a nivelului de calificare al lucrătorului și a producției sale, deoarece cu cât lucrătorul este mai experimentat, cu atât este mai mare productivitatea acestuia. Dar cum să evaluăm această dependență?
Regresia perechilor este o regresie între două variabile - y și x, adică un model de forma:

Unde y este variabila dependentă (semnul rezultat); x este o variabilă independentă sau explicativă (factor-semn). Semnul „^” înseamnă că nu există o dependență funcțională strictă între variabilele x și y, prin urmare, în aproape fiecare caz individual, valoarea lui y constă din doi termeni:

Unde y este valoarea reală a caracteristicii efective; y x este valoarea teoretică a caracteristicii efective, găsită pe baza ecuației de regresie; ε este o variabilă aleatoare care caracterizează abaterile valorii reale a caracteristicii rezultate de la valoarea teoretică găsită de ecuația de regresie.
Vom arăta grafic dependența de regresie dintre producția pe lucrător și proporția lucrătorilor cu înaltă calificare.


Etapa a 3-a (parametrizare) - modelarea propriu-zisă, i.e. alegere vedere generala model, inclusiv compoziția și forma relațiilor dintre variabilele incluse în acesta. Alegerea tipului de dependență funcțională în ecuația de regresie se numește parametrizare model. Alege ecuația de regresie pereche, adică doar un factor va afecta rezultatul final y.
Etapa a 4-a (informațională) - colectarea informațiilor statistice necesare, i.e. înregistrarea valorilor factorilor și indicatorilor care participă la model. Eșantionul este format din 10 întreprinderi din industrie.
Etapa 5 (identificarea modelului) – estimarea parametrilor necunoscuți ai modelului folosind datele statistice disponibile.
Pentru a determina parametrii modelului, folosim MNC - metoda cele mai mici pătrate . Sistemul de ecuații normale va arăta astfel:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pentru a calcula parametrii de regresie, vom construi un tabel de calcul (Tabelul 1).
Xyx2y2X y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

Luăm datele din tabelul 1 (ultimul rând), ca rezultat avem:
10a + 171b = 77
171 a + 3045 b = 1356
Acest SLAE este rezolvat prin metoda Cramer sau metoda matricei inverse.
Obținem coeficienți de regresie empiric: b = 0,3251, a = 2,1414
Ecuația de regresie empirică are forma:
y = 0,3251 x + 2,1414
Etapa 6 (verificarea modelului) - compararea datelor reale și a modelului, verificarea adecvării modelului, evaluarea acurateței datelor modelului.
Analiza se realizează folosind

Regresia liniară pereche

ATELIER

Regresia liniară pereche: atelier. -

Studiul econometriei presupune ca elevii să acumuleze experiență în construirea modelelor econometrice, luarea deciziilor privind specificarea și identificarea unui model, alegerea unei metode de estimare a parametrilor modelului, evaluarea calității acestuia, interpretarea rezultatelor, obținerea estimărilor predictive etc. Atelierul va ajuta studenții dobândiți abilități practice în aceste probleme.

Aprobat de consiliul editorial și al editurii

Alcătuit de: M.B. Perova, doctor în economie, profesor

Dispoziții generale

Cercetarea econometrică începe cu o teorie care stabilește relații între fenomene. Din întreaga gamă de factori care influențează caracteristica efectivă, se disting cei mai semnificativi factori. După ce a fost identificată prezența unei relații între caracteristicile studiate, se determină forma exactă a acestei relații folosind analiza regresiei.

Analiza de regresie constă în definirea unei expresii analitice (în definirea unei funcţii), în care modificarea unei valori (atributul rezultat) se datorează influenţei unei valori independente (atributul factorial). Această relație poate fi cuantificată prin construirea unei ecuații de regresie sau a unei funcții de regresie.

Modelul de regresie de bază este un model de regresie pereche (cu un singur factor). Regresia perechilor– ecuația de conectare a două variabile laȘi X:

Unde - variabila dependenta (semnul rezultat);

– variabilă independentă, explicativă (atribut factorial).

În funcție de natura schimbării la cu schimbare X distinge între regresiile liniare și neliniare.

Regresie liniara

Această funcție de regresie se numește polinom de gradul întâi și este folosită pentru a descrie procese care se dezvoltă uniform în timp.

Având un membru aleatoriu (erori de regresie) este asociată cu impactul asupra variabilei dependente a altor factori neluați în considerare în ecuație, cu posibila neliniaritate a modelului, erori de măsurare, prin urmare, aspectul ecuația de eroare aleatorie regresia se poate datora următorului obiectiv motive:

1) nereprezentativitatea probei. Modelul de regresie pereche include un factor care nu este capabil să explice pe deplin variația variabilei rezultat, care poate fi influențat de mulți alți factori (variabile lipsă) într-o măsură mult mai mare. Angajarea, salariile pot depinde, pe lângă calificări, de nivelul de studii, experiența în muncă, sexul etc.;

2) există posibilitatea ca variabilele implicate în model să fie măsurate în eroare. De exemplu, datele privind cheltuielile cu hrana familiei sunt compilate din evidențele participanților la sondaj, care se așteaptă să-și înregistreze cu atenție cheltuielile zilnice. Desigur, acest lucru poate duce la erori.

Pe baza observației eșantionului, se estimează ecuația de regresie a eșantionului ( linie de regresie):

,

Unde
– estimări ale parametrilor ecuației de regresie (
).

Forma analitică a dependențeiîntre perechea de caracteristici studiate (funcția de regresie) se determină folosind următoarele metode:

    Pe baza analizei teoretice si logice natura fenomenelor studiate, esenţa lor socio-economică. De exemplu, dacă se studiază relația dintre venitul populației și mărimea depozitelor populației în bănci, atunci este evident că relația este directă.

    Metoda grafică când natura relaţiei este evaluată vizual.

Această dependență poate fi văzută clar dacă construiți un grafic prin reprezentarea valorii atributului pe axa x X, iar pe axa y - valorile caracteristicii la. Punerea pe grafic a punctelor corespunzatoare valorilor XȘi la, primim câmpul de corelare:

a) dacă punctele sunt împrăștiate aleatoriu pe întreg câmpul, aceasta indică absența unei relații între aceste caracteristici;

b) dacă punctele sunt concentrate în jurul unei axe care se extinde din colțul din stânga jos spre dreapta sus, atunci există o relație directă între semne;

c) dacă punctele sunt concentrate în jurul unei axe care merge din colțul din stânga sus spre dreapta jos, atunci relația dintre trăsături este inversă.

Dacă conectăm punctele din câmpul de corelație cu segmente de linie dreaptă, atunci obținem o linie întreruptă cu o anumită tendință ascendentă. Aceasta va fi o legătură empirică sau linie de regresie empirică. După aspectul său, se poate judeca nu numai prezența, ci și forma relației dintre trăsăturile studiate.

Construirea unei ecuații de regresie în pereche

Construcția ecuației de regresie se reduce la estimarea parametrilor acesteia. Aceste estimări ale parametrilor pot fi găsite în diferite moduri. Una dintre ele este metoda celor mai mici pătrate (LSM). Esența metodei este următoarea. Fiecare valoare corespunde valorii empirice (observate). . Construind o ecuație de regresie, de exemplu, o ecuație în linie dreaptă, fiecare valoare va corespunde valorii teoretice (calculate). . Valori observate nu se află exact pe linia de regresie, adică nu se potrivesc cu . Se numește diferența dintre valorile reale și cele calculate ale variabilei dependente rest:

LSM vă permite să obțineți astfel de estimări ale parametrilor, în care suma abaterilor pătrate ale valorilor reale ale caracteristicii efective la din teoretic , adică suma pătratelor reziduurilor, minim:

Pentru ecuațiile liniare și ecuațiile neliniare reductibile la liniare, următorul sistem este rezolvat în raport cu AȘi b:

Unde n- marime de mostra.

Rezolvând sistemul de ecuații, obținem valorile AȘi b, care ne permite să scriem ecuația de regresie(ecuația de regresie):

Unde este variabila explicativă (independentă);

–variabila explicata (dependenta);

Linia de regresie trece prin punctul ( ,) și egalitățile sunt îndeplinite:

Puteți folosi formule gata făcute care decurg din acest sistem de ecuații:

Unde - valoarea medie a caracteristicii dependente;

este valoarea medie a unei caracteristici independente;

este media aritmetică a produsului caracteristicilor dependente și independente;

este varianța unei caracteristici independente;

este covarianța dintre caracteristicile dependente și independente.

Covarianța eșantionului două variabile X, la se numeşte valoarea medie a produsului abaterilor acestor variabile de la mediile lor

Parametru b la X are o mare importanță practică și se numește coeficient de regresie. Coeficientul de regresie arată câte unități se modifică valoarea în medie la X 1 unitate de măsură a acestuia.

Semnul parametrului bîn ecuația de regresie pereche indică direcția relației:

Dacă
, atunci relația dintre indicatorii studiați este directă, adică. cu o creştere a trăsăturii factorului X semnul rezultat crește la, si invers;

Dacă
, atunci relația dintre indicatorii studiați este inversă, adică. cu o creştere a trăsăturii factorului X semn eficient la scade si invers.

Valoarea parametrului Aîn ecuația de regresie pereche în unele cazuri poate fi interpretată ca valoarea inițială a caracteristicii efective la. Această interpretare a parametrului A posibil numai dacă valoarea
are sensul.

După construirea ecuației de regresie, valorile observate y poate fi imaginat ca:

Rămășițe , precum și erori , sunt variabile aleatoare, dar ei, spre deosebire de erori , observabil. Restul este acea parte a variabilei dependente y, care nu poate fi explicată prin ecuația de regresie.

Pe baza ecuației de regresie, se poate calcula valori teoretice X pentru orice valoare X.

În analiza economică, conceptul de elasticitate a unei funcții este adesea folosit. Elasticitatea funcției
calculată ca modificare relativă y la schimbarea relativă X. Elasticitatea arată cât de mult se modifică funcția
când variabila independentă se modifică cu 1%.

Deoarece elasticitatea unei funcţii liniare
nu este constantă, dar depinde de X, atunci coeficientul de elasticitate este de obicei calculat ca indice de elasticitate mediu.

Coeficientul de elasticitate arată cu câte procente se va modifica în medie valoarea atributului efectiv în total la la schimbarea semnului factorului X 1% din valoarea sa medie:

Unde
– valori medii ale variabilelor XȘi laîn probă.

Evaluarea calității modelului de regresie construit

Calitatea modelului de regresie– adecvarea modelului construit la datele inițiale (observate).

Pentru a măsura etanșeitatea conexiunii, de ex. pentru a măsura cât de aproape este de funcțional, trebuie să determinați varianța care măsoară abaterile la din la Xşi caracterizarea variaţiei reziduale datorate altor factori. Ele stau la baza indicatorilor care caracterizează calitatea modelului de regresie.

Calitatea regresiei perechi este determinată folosind coeficienți care caracterizează

1) etanșeitatea conexiunii - indicele de corelație, coeficientul de corelație liniară pereche;

2) eroare de aproximare;

3) calitatea ecuației de regresie și a parametrilor ei individuali - erorile pătratice medii ale ecuației de regresie în ansamblu și parametrii ei individuali.

Pentru ecuațiile de regresie de orice fel sunt definite indicele de corelare, care caracterizează doar etanșeitatea dependenței de corelație, i.e. gradul de aproximare a acesteia la o conexiune funcțională:

,

Unde – varianță factorială (teoretică);

este varianța totală.

Indicele de corelație ia valori
, în care,

Dacă

Dacă
este relația dintre caracteristici XȘi la este funcțional, cu atât mai aproape la 1, cu cât relația dintre trăsăturile studiate este mai strânsă. Dacă
, atunci relația poate fi considerată ca fiind apropiată

Se calculează variațiile necesare pentru a calcula indicatorii etanșeității conexiunii:

Varianta totala, care măsoară variația totală datorată acțiunii tuturor factorilor:

Varianta factorială (teoretică), măsurarea variaţiei trăsăturii rezultate la datorita actiunii unui semn factor X:

Dispersia reziduala, care caracterizează variația trăsăturii la datorită tuturor factorilor cu excepția X(adică cu cei excluși X):

Apoi, conform regulii de adunare a variațiilor:

Calitate baie de aburi liniar regresia poate fi definită și folosind coeficient de corelație liniară pereche:

,

Unde
– covarianța variabilelor XȘi la;

– abaterea standard a unei caracteristici independente;

este abaterea standard a caracteristicii dependente.

Coeficientul de corelație liniară caracterizează etanșeitatea și direcția relației dintre trăsăturile studiate. Se măsoară în [-1; +1]:

Dacă
- atunci relația dintre semne este directă;

Dacă
- atunci relația dintre semne este inversă;

Dacă
– atunci nu există nicio legătură între semne;

Dacă
sau
- atunci relația dintre caracteristici este funcțională, adică. caracterizat printr-o potrivire perfectă între XȘi la. Aproape la 1, cu cât relația dintre trăsăturile studiate este mai strânsă.

Dacă indicele de corelație (coeficientul de corelație liniar pereche) este pătrat, atunci obținem coeficientul de determinare.

Coeficient de determinare- reprezintă ponderea variației factorilor în total și arată câte procente este variația atributului rezultat la explicată prin variaţia trăsăturii factorului X:

Nu acoperă toate variațiile. la dintr-o trăsătură factorială X, ci numai acea parte a acesteia care corespunde ecuației de regresie liniară, adică. spectacole gravitație specifică variația trăsăturii rezultate, liniar legată de variația trăsăturii factorului.

Valoare
- proporția de variație a atributului rezultat, pe care modelul de regresie nu a putut lua în considerare.

Dispersarea punctelor din câmpul de corelare poate fi foarte mare, iar ecuația de regresie calculată poate da o eroare mare în estimarea indicatorului analizat.

Eroare medie de aproximare arată abaterea medie a valorilor calculate față de cele reale:

Valoarea maximă admisă este 12–15%.

Eroarea standard este utilizată ca măsură a răspândirii variabilei dependente în jurul liniei de regresie.Pentru întregul set de valori observate, standard (rms) eroare de ecuație de regresie, care este abaterea standard a valorilor reale la raportat la valorile teoretice calculate prin ecuația de regresie la X .

,

Unde
este numărul de grade de libertate;

m este numărul de parametri ai ecuației de regresie (pentru ecuația în linie dreaptă m=2).

Estimați valoarea mediei eroare pătratică il poti compara

a) cu valoarea medie a caracteristicii efective la;

b) cu abaterea standard a caracteristicii la:

Dacă
, atunci utilizarea acestei ecuații de regresie este adecvată.

Evaluat separat standard (rms) erori ale parametrilor ecuației și indicele de corelație:

;
;
.

X- deviație standard X.

Verificarea semnificației ecuației de regresie și a indicatorilor de etanșeitate a conexiunii

Pentru ca modelul construit să fie utilizat pentru calcule economice ulterioare, nu este suficient să se verifice calitatea modelului construit. De asemenea, este necesar să se verifice semnificația (importanța) estimărilor ecuației de regresie și a indicatorului de apropiere a conexiunii obținut prin metoda celor mai mici pătrate, i.e. este necesar să se verifice respectarea lor cu adevăraţii parametri ai relaţiei.

Acest lucru se datorează faptului că indicatorii calculați pentru o populație limitată păstrează elementul de aleatorie inerent valorilor individuale ale atributului. Prin urmare, acestea sunt doar estimări ale unei anumite regularități statistice. Este necesar să se evalueze gradul de acuratețe și semnificație (fiabilitatea, materialitatea) parametrilor de regresie. Sub importanţăînțelegeți probabilitatea ca valoarea parametrului verificat să nu fie egală cu zero, nu include valorile semnelor opuse.

Test de semnificație– verificarea ipotezei că parametrii diferă de zero.

Evaluarea semnificației ecuației de regresie pereche se reduce la testarea ipotezelor despre semnificația ecuației de regresie ca întreg și a parametrilor ei individuali ( A, b), coeficient de pereche de determinare sau indice de corelație.

În acest caz, pot fi prezentate următoarele ipotezele principaleH 0 :

1)
– coeficienții de regresie sunt nesemnificativi și ecuația de regresie este, de asemenea, nesemnificativă;

2)
– coeficientul de determinare de pereche este nesemnificativ, iar ecuația de regresie este, de asemenea, nesemnificativă.

Alternative (sau inverse) sunt următoarele ipoteze:

1)
– coeficienții de regresie sunt semnificativ diferiți de zero, iar ecuația de regresie construită este semnificativă;

2)
– coeficientul de determinare al perechii este semnificativ diferit de zero și ecuația de regresie construită este semnificativă.

Testarea ipotezei despre semnificația ecuației de regresie pereche

Pentru a testa ipoteza nesemnificației statistice a ecuației de regresie în ansamblu și a coeficientului de determinare, folosim F-criteriu(criteriul lui Fisher):

sau

Unde k 1 = m–1 ; k 2 = nm este numărul de grade de libertate;

n este numărul de unități de populație;

m este numărul de parametri ai ecuației de regresie;

– dispersia factorilor;

este varianța reziduală.

Ipoteza este testată după cum urmează:

1) dacă valoarea reală (observată). F-criteriul este mai mare decât valoarea critică (de masă) a acestui criteriu
, apoi cu probabilitate
ipoteza principală despre nesemnificația ecuației de regresie sau a coeficientului de determinare de pereche este respinsă, iar ecuația de regresie este recunoscută ca semnificativă;

2) dacă valoarea reală (observată) a criteriului F este mai mică decât valoarea critică a acestui criteriu
, apoi cu probabilitate (
) se acceptă ipoteza principală despre nesemnificația ecuației de regresie sau a coeficientului de determinare de pereche, iar ecuația de regresie construită este recunoscută ca fiind nesemnificativă.

valoare critica F- criteriul se regăseşte conform tabelelor corespunzătoare în funcţie de nivelul de semnificaţie și numărul de grade de libertate
.

Numărul de grade de libertate– indicator, care este definit ca diferența dintre dimensiunea eșantionului ( n) și numărul de parametri estimați pentru acest eșantion ( m). Pentru un model de regresie pereche, numărul de grade de libertate este calculat ca
, deoarece doi parametri sunt estimați din eșantion (
).

Nivel de semnificație - valoarea determinată
,

Unde este probabilitatea de încredere ca parametrul estimat să se încadreze în intervalul de încredere. De obicei se ia 0,95. Prin urmare este probabilitatea ca parametrul estimat să nu se încadreze în intervalul de încredere, egal cu 0,05 (5%) .

Apoi, în cazul evaluării semnificației ecuației de regresie pereche, valoarea critică a criteriului F este calculată ca
:

.

Testarea ipotezei despre semnificația parametrilor ecuației de regresie pereche și a indicelui de corelație

La verificarea semnificației parametrilor ecuației (presupunerea că parametrii diferă de zero), se emite ipoteza principală cu privire la nesemnificația estimărilor obținute (
. Ca o ipoteză alternativă (inversă) este înaintată cu privire la semnificația parametrilor ecuației (
).

Pentru a testa ipotezele propuse, folosim t -criteriu (t-statistici) Student. Valoare observată t-se compară criteriile cu valoarea t-criteriul determinat de tabelul de distribuție a Studentului (valoarea critică). valoare critica t- criterii
depinde de doi parametri: nivelul de semnificaţie și numărul de grade de libertate
.

Ipotezele propuse sunt testate după cum urmează:

1) dacă modulul valorii observate t-criteria este mai mare decât valoarea critică t-criterii, i.e.
, apoi cu probabilitate
se respinge ipoteza principală despre nesemnificația parametrilor de regresie, adică. parametrii de regresie nu sunt egali cu 0;

2) dacă modulul valorii observate t- criteriul este mai mic sau egal cu valoarea critică t-criterii, i.e.
, apoi cu probabilitate
se acceptă ipoteza principală despre nesemnificația parametrilor de regresie, i.e. parametrii de regresie aproape nu diferă de 0 sau sunt egali cu 0.

Evaluarea semnificației coeficienților de regresie folosind testul Student se realizează prin compararea estimărilor acestora cu valoarea erorii standard:

;

Pentru a evalua semnificația statistică a indicelui (coeficientului liniar) al corelației, se folosește și t- Criteriul elevului.

Ministerul Educației și Științei al Federației Ruse

Agenția Federală pentru Educație

Stat instituție educațională studii profesionale superioare

Institutul rusesc de corespondență de finanțe și economie

Filiala din Tula

Test

la disciplina „Econometrie”

Tula - 2010

Sarcina 2 (a, b)

Pentru întreprinderile din industria ușoară, au fost obținute informații care caracterizează dependența volumului producției (Y, milioane de ruble) de volumul investițiilor de capital (X, milioane de ruble) Tabel. 1.

X 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Necesar:

1. Aflați parametrii ecuației de regresie liniară, oferiți o interpretare economică a coeficientului de regresie.

2. Calculați reziduurile; găsiți suma reziduală a pătratelor; estimați varianța reziduurilor

; reprezentați grafic reziduurile.

3. Verificați îndeplinirea cerințelor prealabile LSM.

4. Verificați semnificația parametrilor ecuației de regresie folosind testul t Student (α=0,05).

5. Calculați coeficientul de determinare, verificați semnificația ecuației de regresie folosind testul F Fisher (α=0,05), găsiți eroarea medie de aproximare relativă. Emiteți o judecată asupra calității modelului.

6. Preziceți valoarea medie a indicatorului Y la un nivel de semnificație de α=0,1, dacă valoarea prezisă a factorului X este de 80% din valoarea sa maximă.

7. Prezentați grafic: valorile Y reale și model, punctele de prognoză.

8. Compuneți ecuații de regresie neliniară:

hiperbolic;

putere;

indicativ.

Dați grafice ale ecuațiilor de regresie construite.

9. Pentru aceste modele, găsiți coeficienții de determinare și media erori relative aproximări. Comparați modelele în funcție de aceste caracteristici și trageți o concluzie.

1. Modelul liniar are forma:

Parametrii ecuației de regresie liniară pot fi găsiți folosind formulele

Calculul valorilor parametrilor este prezentat în tabel. 2.

t y X yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
Mediu 33,6 23,5 864,9 635,1

Să determinăm parametrii modelului liniar

Modelul liniar are forma

Coeficientul de regresie

arată că producția lui Y crește cu o medie de 0,909 milioane de ruble. cu o creștere a volumului investițiilor de capital X cu 1 milion de ruble.

2. Calculați resturile

, suma reziduală a pătratelor , găsim varianța reziduală folosind formula:

Calculele sunt prezentate în tabel. 2.


Orez. 1. Graficul reziduurilor ε.

3. Să verificăm îndeplinirea premiselor LSM pe baza criteriului Durbin-Watson.

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1=0,88; d2=1,32 pentru α=0,05, n=10, k=1.

,

Aceasta înseamnă că un număr de reziduuri nu sunt corelate.

4. Să verificăm semnificația parametrilor ecuației pe baza testului t Student. (α=0,05).

pentru v=8; a=0,05.

Calcul valorii

produs în tabel. 2. Obținem:
, atunci putem concluziona că coeficienții de regresie a și b sunt semnificativi cu o probabilitate de 0,95.

5. Găsiți coeficientul de corelație folosind formula

Calculele se vor face în tabel. 2.

. Acea. relaţia dintre volumul investiţiei X şi producţia Y poate fi considerată strânsă, deoarece .

Coeficientul de determinare se găsește prin formula

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este luată în considerare în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia este înțeleasă ca o anumită mărime care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma unei ecuații simple y \u003d x, în care y acționează ca o variabilă dependentă, iar x este o variabilă independentă (factor caracteristică). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile

În general, se disting două tipuri opuse de relații: corelația și regresia.

Primul este caracterizat de egalitatea variabilelor condiționale. În acest caz, nu se știe cu siguranță care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație de regresie liniară, va fi necesar să aflăm ce tip de relație se observă.

Tipuri de regresii

Până în prezent, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Se pare că y = c + m * x + E. Ecuația hiperbolică are forma unei hiperbole regulate y \u003d c + m / x + E. Logaritmic ecuație liniară exprimă relația folosind o funcție logaritmică: În y \u003d În c + m * În x + În E.

Multiplu și neliniar

inca doua tipuri complexe regresiile sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y \u003d f (x 1, x 2 ... x c) + E. În această situație, y este variabila dependentă și x este variabila explicativă. Variabila E este stocastică și include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin inconsecventă. Pe de o parte, în ceea ce privește indicatorii luați în considerare, nu este liniară, iar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Regresii inverse și perechi

Un invers este un fel de funcție în care trebuie convertită vedere liniară. În cele mai tradiționale programe de aplicație, are forma unei funcții y \u003d 1 / c + m * x + E. Ecuația de regresie pereche arată relația dintre date în funcție de y = f(x) + E. La fel ca și celelalte ecuații, y depinde de x și E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Un indicator negativ indică prezența părere, pozitiv - despre o linie dreaptă. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1 - cu atât relația dintre parametri este mai puternică, cu atât mai aproape de 0 - cu atât mai slabă.

Metode

Corelativ metode parametrice poate evalua puterea relației. Ele sunt utilizate pe baza estimărilor distribuției pentru a studia parametrii care respectă legea distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație alese. Câmpul de corelație este folosit ca metodă de identificare a unei relații. Pentru a face acest lucru, toate datele existente trebuie reprezentate grafic. Într-un sistem de coordonate bidimensional dreptunghiular, toate datele cunoscute trebuie reprezentate grafic. Așa se formează câmpul de corelație. Valoarea factorului de descriere este marcată de-a lungul abscisei, în timp ce valorile factorului dependent sunt marcate de-a lungul ordonatei. Dacă există o relație funcțională între parametri, aceștia se aliniază sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi despre absența aproape completă a unei conexiuni. Dacă este între 30% și 70%, atunci aceasta indică prezența legăturilor de etanșeitate medie. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelație multiplă. El vorbește despre strânsoarea relației dintre setul de indicatori prezentat cu trăsătura studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este evaluată folosind acest indicator.

Pentru a calcula indicele de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de estimare a factorilor de regresie. Esența sa constă în minimizarea sumei abaterilor pătrate obținute datorită dependenței factorului de funcție.

O ecuație de regresie liniară pereche poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat în cazul detectării între indicatorii unei relații liniare pereche.

Opțiuni de ecuație

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul t arată modificarea medie a indicatorului final al funcției y, sub rezerva unei scăderi (creșteri) a variabilei x cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu este purtat sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune despre o schimbare lentă a rezultatului în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat în termeni de ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există astfel de condiții ale sarcinii în care toate informațiile sunt grupate în funcție de atributul x, dar, în același timp, pentru un anumit grup, sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care indicatorul depinde de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, mediile sunt adesea supuse fluctuațiilor externe. Aceste fluctuații nu sunt o reflectare a tiparelor relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind dimensiunea unei anumite populații cu media corespunzătoare, puteți obține suma lui y în cadrul grupului. Apoi, trebuie să eliminați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. În cazul în care intervalele sunt mici, putem lua condiționat indicatorul x pentru toate unitățile (din cadrul grupului) la fel. Înmulțiți-l cu suma lui y pentru a găsi suma produselor lui x și y. În plus, toate sumele sunt bătute împreună și se obține suma totală xy.

Regresia ecuației cu perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y \u003d f (x 1, x 2, ..., x m) + E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei de bunuri, a veniturilor din dobânzi la acțiunile răscumpărate, studiind cauzele și tipul funcției de cost de producție. De asemenea, este utilizată în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivelul microeconomiei, această ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce influență are fiecare dintre factori individual și în totalitatea lor asupra indicatorului de modelat și coeficienților acestuia. Ecuația de regresie poate lua o varietate de valori. În acest caz, două tipuri de funcții sunt de obicei folosite pentru a evalua relația: liniare și neliniare.

O funcție liniară este descrisă sub forma unei astfel de relații: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. În acest caz, a2, a m , sunt considerați a fi coeficienții de regresie „pură”. Este necesar să se caracterizeze modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția unei valori stabile a altor indicatori.

Ecuațiile neliniare au, de exemplu, forma functie de putere y=ax 1 b1 x 2 b2 ...x m bm . În acest caz, indicatorii b 1, b 2 ..... b m - se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori ar trebui luați în considerare la construirea unei regresii multiple

Pentru a construi corect regresie multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relației dintre factorii economici și cei modelați. Factorii care trebuie incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie măsurabil. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz, ar trebui să i se acorde o formă cantitativă.
  • Nu ar trebui să existe o intercorelație a factorilor sau o relație funcțională. Aceste acțiuni duc adesea la consecințe ireversibile- sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin neinterpretabili.

Metode de construcție

Există un număr mare de metode și moduri de a explica cum puteți alege factorii pentru ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind indicele de corelație. Printre acestea se numără:

  • Metoda excluderii.
  • Activați metoda.
  • Analiza de regresie în trepte.

Prima metodă implică separarea tuturor coeficienților din mulțimea agregată. A doua metodă implică introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost aplicați anterior ecuației. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interdependente. Acestea includ analiza discriminantă, recunoașterea modelelor, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, totuși, aceasta a apărut ca urmare a dezvoltării metodei componentelor. Toate sunt aplicate în anumite circumstanțe, în anumite condiții și factori.

În prezența unei corelații între factor și semnele rezultate, medicii trebuie adesea să determine cu ce valoare se poate schimba valoarea unui semn atunci când altul este modificat printr-o unitate de măsură general acceptată sau stabilită de către cercetătorul însuși.

De exemplu, cum se va schimba greutatea corporală a școlarilor din clasa I (fete sau băieți) dacă înălțimea lor crește cu 1 cm. În acest scop, se folosește metoda analizei regresiei.

Cel mai adesea, metoda analizei regresiei este utilizată pentru a dezvolta scale normative și standarde pentru dezvoltarea fizică.

  1. Definiţia regresion. Regresia este o funcție care permite, pe baza valorii medii a unui atribut, să se determine valoarea medie a altui atribut care este corelat cu primul.

    În acest scop, se utilizează coeficientul de regresie și o serie de alți parametri. De exemplu, puteți calcula numărul de răceli în medie la anumite valori ale temperaturii medii lunare a aerului în perioada toamnă-iarnă.

  2. Definirea coeficientului de regresie. Coeficientul de regresie este valoarea absolută cu care valoarea unui atribut se modifică în medie atunci când un alt atribut asociat acestuia se modifică după unitatea de măsură stabilită.
  3. Formula coeficientului de regresie. R y / x \u003d r xy x (σ y / σ x)
    unde R y / x - coeficient de regresie;
    r xy - coeficientul de corelație între caracteristicile x și y;
    (σ y și σ x) - abaterile standard ale caracteristicilor x și y.

    În exemplul nostru;
    σ x = 4,6 (abaterea standard a temperaturii aerului în perioada toamnă-iarnă;
    σ y = 8,65 (abaterea standard a numărului de răceli infecțioase).
    Astfel, R y/x este coeficientul de regresie.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, adică cu o scădere a temperaturii medii lunare a aerului (x) cu 1 grad, numărul mediu de răceli infecțioase (y) în perioada toamnă-iarnă se va modifica cu 1,8 cazuri.

  4. Ecuația de regresie. y \u003d M y + R y / x (x - M x)
    unde y este valoarea medie a atributului, care ar trebui determinată atunci când valoarea medie a altui atribut (x) se modifică;
    x - valoarea medie cunoscută a unei alte caracteristici;
    R y/x - coeficientul de regresie;
    M x, M y - valori medii cunoscute ale caracteristicilor x și y.

    De exemplu, numărul mediu de răceli infecțioase (y) poate fi determinat fără măsurători speciale la orice valoare medie a temperaturii medii lunare a aerului (x). Deci, dacă x \u003d - 9 °, R y / x \u003d 1,8 boli, M x \u003d -7 °, M y \u003d 20 boli, atunci y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 boli.
    Această ecuație se aplică în cazul unei relații drepte între două caracteristici (x și y).

  5. Scopul ecuației de regresie. Ecuația de regresie este utilizată pentru a reprezenta linia de regresie. Acesta din urmă permite, fără măsurători speciale, să se determine orice valoare medie (y) a unui atribut, dacă valoarea (x) a altui atribut se modifică. Pe baza acestor date, se construiește un grafic - linie de regresie, care poate fi folosit pentru a determina numărul mediu de răceli la orice valoare a temperaturii medii lunare în intervalul dintre valorile calculate ale numărului de răceli.
  6. Regresie sigma (formula).
    unde σ Ru/x - sigma (deviația standard) a regresiei;
    σ y este abaterea standard a caracteristicii y;
    r xy - coeficientul de corelație între caracteristicile x și y.

    Deci, dacă σ y este abaterea standard a numărului de răceli = 8,65; r xy - coeficientul de corelație dintre numărul de răceli (y) și temperatura medie lunară a aerului în perioada toamnă-iarnă (x) este - 0,96, atunci

  7. Scopul regresiei sigma. Oferă o caracteristică a măsurii diversităţii caracteristicii rezultate (y).

    De exemplu, caracterizează diversitatea numărului de răceli la o anumită valoare a temperaturii medii lunare a aerului în perioada toamnă-iarnă. Deci, numărul mediu de răceli la temperatura aerului x 1 \u003d -6 ° poate varia de la 15,78 boli la 20,62 boli.
    La x 2 = -9°, numărul mediu de răceli poate varia de la 21,18 boli la 26,02 boli etc.

    Regresia sigma este utilizată în construirea unei scale de regresie, care reflectă abaterea valorilor atributului efectiv de la valoarea medie a acestuia reprezentată pe linia de regresie.

  8. Date necesare pentru calcularea și reprezentarea grafică a scalei de regresie
    • coeficient de regresie - Ry/x;
    • ecuația de regresie - y \u003d M y + R y / x (x-M x);
    • regresie sigma - σ Rx/y
  9. Secvența de calcule și reprezentarea grafică a scalei de regresie.
    • determinați coeficientul de regresie prin formulă (vezi paragraful 3). De exemplu, ar trebui să se determine cât de mult se va schimba greutatea corporală în medie (la o anumită vârstă în funcție de sex) dacă înălțimea medie se schimbă cu 1 cm.
    • conform formulei ecuației de regresie (a se vedea paragraful 4), determinați care va fi media, de exemplu, greutatea corporală (y, y 2, y 3 ...) * pentru o anumită valoare de creștere (x, x 2, x 3 ...).
      ________________
      * Valoarea lui „y” trebuie calculată pentru cel puțin trei valori cunoscute ale lui „x”.

      În același timp, se cunosc valorile medii ale greutății corporale și ale înălțimii (M x și M y) pentru o anumită vârstă și sex.

    • calculați sigma regresiei, cunoscând valorile corespunzătoare ale σ y și r xy și substituind valorile acestora în formulă (a se vedea paragraful 6).
    • pe baza valorilor cunoscute x 1, x 2, x 3 și a valorilor medii corespunzătoare lor y 1, y 2 y 3, precum și pe cele mai mici (y - σ ru / x) și mai mari (y + σ ru) / x) valorile (y) construiesc o scară de regresie.

      Pentru o reprezentare grafică a scării de regresie, valorile x, x 2 , x 3 (axa y) sunt mai întâi marcate pe grafic, adică. se construiește o linie de regresie, de exemplu, dependența greutății corporale (y) de înălțimea (x).

      Apoi, la punctele corespunzătoare y 1 , y 2 , y 3 sunt marcate valorile numerice ale sigma de regresie, adică. pe grafic găsiți cel mai mic și cea mai mare valoare y 1 , y 2 , y 3 .

  10. Uz practic scale de regresie. Se dezvoltă scale normative și standarde, în special pentru dezvoltarea fizică. Conform scalei standard, este posibil să se ofere o evaluare individuală a dezvoltării copiilor. În același timp, dezvoltarea fizică este evaluată ca fiind armonioasă dacă, de exemplu, la o anumită înălțime, greutatea corporală a copilului este în limita unei sigma de regresie la unitatea medie calculată a greutății corporale - (y) pentru o anumită înălțime (x) ( y ± 1 σ Ry / x).

    Dezvoltarea fizică este considerată dizarmonică în ceea ce privește greutatea corporală dacă greutatea corporală a copilului pentru o anumită înălțime se află în a doua sigma de regresie: (y ± 2 σ Ry/x)

    Dezvoltarea fizică va fi puternic dizarmonică atât din cauza excesului, cât și a greutății corporale insuficiente, dacă greutatea corporală pentru o anumită înălțime se află în a treia sigma a regresiei (y ± 3 σ Ry/x).

Conform rezultatelor unui studiu statistic al dezvoltării fizice a băieților de 5 ani, se știe că înălțimea lor medie (x) este de 109 cm, iar greutatea corporală medie (y) este de 19 kg. Coeficientul de corelație între înălțime și greutatea corporală este de +0,9, abaterile standard sunt prezentate în tabel.

Necesar:

  • calculați coeficientul de regresie;
  • folosind ecuația de regresie, determinați care va fi greutatea corporală așteptată a băieților de 5 ani cu o înălțime egală cu x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • calculați sigma de regresie, construiți o scală de regresie, prezentați grafic rezultatele soluției acesteia;
  • trage concluziile adecvate.

Starea problemei și rezultatele soluționării acesteia sunt prezentate în tabelul rezumativ.

tabelul 1

Condițiile problemei Rezultate rezolvarea problemei
ecuația de regresie regresie sigma scala de regresie (greutate corporală estimată (în kg))
M σ r xy R y/x X La σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Înălțime (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Greutatea corporală (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Soluţie.

Concluzie. Astfel, scala de regresie în cadrul valorilor calculate ale greutății corporale vă permite să o determinați pentru orice altă valoare de creștere sau să evaluați dezvoltarea individuală a copilului. Pentru a face acest lucru, restabiliți perpendiculara pe dreapta de regresie.

  1. Vlasov V.V. Epidemiologie. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Sănătate publică și asistență medicală. Manual pentru licee. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medik V.A., Yuriev V.K. Un curs de prelegeri despre sănătatea publică și îngrijirea sănătății: Partea 1. Sănătatea publică. - M.: Medicină, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. şi altele.Medicina socială şi organizarea sănătăţii (Ghid în 2 volume). - Sankt Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. etc. Igiena socială și organizarea asistenței medicale ( Tutorial) - Moscova, 2000. - 432 p.
  6. S. Glantz. Statistica medico-biologică. Per din engleză. - M., Practică, 1998. - 459 p.


eroare: Conținutul este protejat!!