Regresie cu ecuații multiple.

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este luată în considerare în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia este înțeleasă ca o anumită mărime care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma unei ecuații simple y \u003d x, în care y acționează ca o variabilă dependentă, iar x este o variabilă independentă (factor caracteristică). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile

În general, se disting două tipuri opuse de relații: corelația și regresia.

Primul este caracterizat de egalitatea variabilelor condiționale. În acest caz, nu se știe cu siguranță care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație regresie liniara, va fi necesar să se afle ce tip de conexiune se observă.

Tipuri de regresii

Până în prezent, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Arată ca y = c + m * x + E. Ecuația hiperbolică are forma unei hiperbole regulate y \u003d c + m / x + E. Ecuația liniară logaritmică exprimă relația folosind funcția logaritmică: În y \u003d În c + m * În x + În E.

Multiplu și neliniar

inca doua tipuri complexe regresiile sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y \u003d f (x 1, x 2 ... x c) + E. În această situație, y este variabila dependentă și x este variabila explicativă. Variabila E este stocastică și include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin inconsecventă. Pe de o parte, în ceea ce privește indicatorii luați în considerare, nu este liniară, iar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Regresii inverse și perechi

O inversă este un fel de funcție care trebuie convertită într-o formă liniară. În cele mai tradiționale programe de aplicație, are forma unei funcții y \u003d 1 / c + m * x + E. Ecuația de regresie pereche arată relația dintre date în funcție de y = f(x) + E. La fel ca și celelalte ecuații, y depinde de x și E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Un indicator negativ indică prezența părere, pozitiv - despre o linie dreaptă. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1 - cu atât relația dintre parametri este mai puternică, cu atât mai aproape de 0 - cu atât mai slabă.

Metode

Corelativ metode parametrice poate evalua puterea relației. Ele sunt utilizate pe baza estimărilor distribuției pentru a studia parametrii care respectă legea distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație alese. Câmpul de corelație este folosit ca metodă de identificare a unei relații. Pentru a face acest lucru, toate datele existente trebuie reprezentate grafic. Într-un sistem de coordonate bidimensional dreptunghiular, toate datele cunoscute trebuie reprezentate grafic. Așa se formează câmpul de corelație. Valoarea factorului de descriere este marcată de-a lungul abscisei, în timp ce valorile factorului dependent sunt marcate de-a lungul ordonatei. Dacă există o relație funcțională între parametri, aceștia se aliniază sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi despre absența aproape completă a unei conexiuni. Dacă este între 30% și 70%, atunci aceasta indică prezența unor legături de apropiere medie. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelație multiplă. El vorbește despre strânsoarea relației dintre setul de indicatori prezentat cu trăsătura studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este evaluată folosind acest indicator.

Pentru a calcula indicele de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de estimare a factorilor de regresie. Esența sa constă în minimizarea sumei abaterilor pătrate obținute datorită dependenței factorului de funcție.

O ecuație de regresie liniară pereche poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat în cazul detectării între indicatorii unei relații liniare pereche.

Opțiuni de ecuație

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul t arată modificarea medie a indicatorului final al funcției y, sub rezerva unei scăderi (creșteri) a variabilei x cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu are sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune despre o schimbare lentă a rezultatului în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat în termeni de ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există astfel de condiții ale sarcinii în care toate informațiile sunt grupate în funcție de atributul x, dar, în același timp, pentru un anumit grup, sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care indicatorul depinde de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, mediile sunt adesea supuse fluctuațiilor externe. Aceste fluctuații nu sunt o reflectare a tiparelor relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind dimensiunea unei anumite populații cu media corespunzătoare, puteți obține suma lui y în cadrul grupului. Apoi, trebuie să eliminați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. În cazul în care intervalele sunt mici, putem lua condiționat indicatorul x pentru toate unitățile (din cadrul grupului) la fel. Înmulțiți-l cu suma lui y pentru a găsi suma produselor lui x și y. În plus, toate sumele sunt bătute împreună și se obține suma totală xy.

Regresia ecuației cu perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y \u003d f (x 1, x 2, ..., x m) + E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei de bunuri, a veniturilor din dobânzi la acțiunile răscumpărate, studiind cauzele și tipul funcției de cost de producție. De asemenea, este utilizată în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivelul microeconomiei, această ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce influență are fiecare dintre factori individual și în totalitatea lor asupra indicatorului de modelat și coeficienților acestuia. Ecuația de regresie poate lua o varietate de valori. În acest caz, două tipuri de funcții sunt de obicei folosite pentru a evalua relația: liniare și neliniare.

O funcție liniară este descrisă sub forma unei astfel de relații: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. În acest caz, a2, a m , sunt considerați a fi coeficienții de regresie „pură”. Este necesar să se caracterizeze modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția unei valori stabile a altor indicatori.

Ecuațiile neliniare au, de exemplu, forma functie de putere y=ax 1 b1 x 2 b2 ...x m bm . În acest caz, indicatorii b 1, b 2 ..... b m - se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori ar trebui luați în considerare la construirea unei regresii multiple

Pentru a construi corect o regresie multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relației dintre factorii economici și cei modelați. Factorii care trebuie incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie măsurabil. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz, ar trebui să i se acorde o formă cantitativă.
  • Nu ar trebui să existe o intercorelație a factorilor sau o relație funcțională. Aceste acțiuni duc adesea la consecințe ireversibile- sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin neinterpretabili.

Metode de construcție

Există un număr mare de metode și moduri de a explica cum puteți alege factorii pentru ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind indicele de corelație. Printre acestea se numără:

  • Metoda excluderii.
  • Activați metoda.
  • Analiza de regresie în trepte.

Prima metodă implică separarea tuturor coeficienților din mulțimea agregată. A doua metodă implică introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost aplicați anterior ecuației. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interdependente. Acestea includ analiza discriminantă, recunoașterea modelelor, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, totuși, aceasta a apărut ca urmare a dezvoltării metodei componentelor. Toate sunt aplicate în anumite circumstanțe, în anumite condiții și factori.

2 Regresie liniară multiplă

2.1 Determinarea parametrilor ecuației de regresie

Orice indicator economic este cel mai adesea influențat nu de unul, ci de mai mulți factori. În acest caz, în loc de regresie perechi, luăm în considerare regresie multiplă

Sarcina de a evalua relația statistică a variabilelor Și
este formulată similar cu cazul regresiei perechi. Ecuația de regresie multiplă poate fi reprezentată astfel:

, (2.2)

Unde
este vectorul variabilelor independente (explicative); – vector de parametri (de determinat); – eroare aleatorie (abatere); – variabilă dependentă (explicată).

Luați în considerare cel mai frecvent utilizat și mai simplu dintre modelele de regresie multiplă - modelul de regresie liniară multiplă.

Ecuația teoretică de regresie liniară are forma:

sau pentru observatii individuale
:

Aici
este vectorul dimensiune
parametri necunoscuți.
numit -al-lea coeficient de regresie teoretic (coeficient de regresie parțială). Caracterizează sensibilitatea unei cantități la o modificare a cantității , adică reflectă impactul asupra așteptării condiționate
variabila dependentă a variabilei explicative, cu condiția ca toate celelalte variabile explicative ale modelului să rămână constante. este un termen liber care determină în cazul în care toate variabilele explicative sunt egale cu zero.

După alegerea unei funcții liniare ca model de dependență, este necesar să se estimeze parametrii de regresie. Să fie vector de observații al variabilelor explicative și al variabilei dependente:

Pentru a rezolva în mod unic problema găsirii parametrilor
(adică găsiți cel mai bun vector), inegalitatea trebuie să se mențină
. Dacă această inegalitate nu este valabilă, atunci există o infinitate de vectori parametri diferiți pentru care formula liniara Comunicarea între
și se va potrivi absolut exact cu observațiile disponibile.

De exemplu, pentru a determina în mod unic estimările parametrilor ecuației de regresie, este suficient să existe un eșantion de trei observații. În acest caz, valorile parametrului găsit
definiți un astfel de plan în spațiul tridimensional, care va trece prin exact trei puncte. Pe de altă parte, adăugarea unei alte observații la cele trei observații existente va duce la faptul că al patrulea punct
aproape sigur se va afla în afara planului construit, ceea ce va necesita o anumită reevaluare a parametrilor.

Număr
numit numărul de grade de libertate. Dacă numărul de grade de libertate este mic, atunci fiabilitatea statistică a formulei estimate este scăzută. De exemplu, probabilitatea unei concluzii corecte (obținerea unor estimări mai precise) pentru trei observații este semnificativ mai mică decât pentru treizeci. Se crede că atunci când se estimează regresia liniară multiplă, pentru a asigura fiabilitatea statistică, este necesar ca numărul de observații să fie de cel puțin trei ori numărul parametrilor estimați.

Cea mai comună metodă de estimare a parametrilor unei ecuații de regresie multiplă este metoda cele mai mici pătrate(MNK).

Fundal OLS:

Ca și în cazul regresiei perechi, valorile adevărate ale parametrilor eșantionul nu poate fi obținut. În acest caz, în loc de ecuația de regresie teoretică, se estimează ecuația de regresie empirică:

Aici
– estimări ale valorilor teoretice ale coeficienților de regresie (coeficienți de regresie empirică); – estimarea abaterii . Pentru observatii individuale avem:

Atunci când ipotezele LSM privind erorile sunt îndeplinite, estimările parametrilor de regresie liniară multiplă de către LSM sunt imparțiale, eficiente și consecvente.

Pe baza (2.6): . (2,7)

Apoi, folosind metoda celor mai mici pătrate pentru a găsi estimări, următoarea funcție este minimizată:

. (2.8)

O condiție necesară pentru minimizarea funcției este egalitatea cu zero a tuturor derivatelor sale parțiale în raport cu , adică:

(2.9)

Echivalându-le cu zero, obținem sistemul
ecuatii lineare cu necunoscute. Un astfel de sistem are de obicei o soluție unică și se numește sistem de ecuații normale. Soluția sa explicită este cel mai reprezentabilă vizual sub formă de matrice vectorială.

2.2 Calculul coeficienților multipli de regresie liniară

Datele observaționale și coeficienții corespunzători sub formă de matrice sunt următoarele:




.

Aici
- vector coloană dimensional de observații ale variabilei dependente ; – matricea dimensiunilor
, în care -a linia
reprezintă observarea vectorului de valori ale variabilelor independente; unitate corespunde unei variabile cu membru liber ; este vectorul coloană al dimensiunii parametrilor ecuației de regresie; – vector coloană al dimensiunii abaterilor valorilor eșantionului (reale). variabilă dependentă de valori obţinut prin ecuaţia de regresie

Funcţie
sub formă de matrice poate fi reprezentat ca produs al unui vector rând
la vectorul coloană. Vectorul coloană poate fi, la rândul său, reprezentat după cum urmează:

. (2.11)

Aici
sunt vectori și matrice transpuse la
respectiv. La derivarea formulei, s-au folosit următoarele relații binecunoscute ale algebrei liniare:

O condiție necesară pentru extremul unei funcții este egalitatea la zero a derivatelor sale parțiale
Cu tot respectul
. Vector coloană derivate parțiale sub formă de matrice este după cum urmează:

. (2.12)

Să aruncăm o privire mai atentă la găsirea. Este evident că

nu depinde, prin urmare
.

Indicați vectorul coloană
dimensiuni prin . Apoi
, unde este elementul corespunzător al vectorului . De aceea
.

Indicați matricea
dimensiuni prin . Apoi



.

Prin urmare, derivata parțială
.

Ca urmare, avem
.

Prin urmare, formula (2.12) este valabilă. Echivalând cu zero, obținem:

(2.13)

(2.14)

Aici
este matricea inversă cu .

Relațiile generale rezultate sunt valabile pentru ecuațiile de regresie cu un număr arbitrar
variabile explicative. Să analizăm rezultatele obținute pentru cazurile:


,
,
, .

Din (2.11) rezultă: , i.e.

.

Din (2.14) rezultă

(2.15)


(2.16)

Rezolvarea acestui sistem are forma:

(2.17)

2.3 Analiza calității ecuației empirice de regresie liniară multiplă

Construirea unei ecuații de regresie empirică este etapa inițială a analizei econometrice. Prima ecuație de regresie construită pe baza unui eșantion este foarte rar satisfăcătoare în ceea ce privește una sau alta caracteristică. Prin urmare, următoarea evaluare cea mai importantă este verificarea calității ecuației de regresie. În econometrie, se adoptă o schemă bine stabilită a unei astfel de verificări, care se realizează în următoarele domenii:

    verificarea semnificației statistice a coeficienților ecuației de regresie;

    verificarea calității generale a ecuației de regresie;

    verificarea proprietăților datelor, a căror fezabilitate a fost presupusă la evaluarea ecuației (verificarea fezabilității premiselor LSM).

Înainte de a analiza calitatea ecuației de regresie, este necesar să se determine varianțele și erorile standard ale coeficienților, precum și estimările de interval ale coeficienților.

Varianțele eșantionului ale coeficienților de regresie empiric pot fi determinate după cum urmează:

. (2.18)

Aici – --lea element diagonal al matricei
.

în care:

, (2.19)

unde este numărul de variabile explicative din model. Uneori în formula (2.19) numitorul este reprezentat ca
, adică prin numărul de parametri ai modelului (care urmează să fie determinat de coeficienții de regresie).

În special, pentru ecuație
cu două variabile explicative, se folosesc următoarele formule:

,

,

,
,
. (2.20)

Aici – coeficientul de corelație al eșantionului între variabilele explicative Și
; eroare standard coeficient de regresie; este eroarea standard a regresiei (estimare imparțială).

Prin analogie cu regresia perechi după determinare estimări punctuale coeficienți (
) din ecuația teoretică de regresie, se pot calcula estimări pe intervale ale coeficienților specificați. Acoperire cu fiabilitate a intervalului de încredere
valoarea necunoscută a parametrului , este definită ca

(2.21)

Verificarea semnificației statistice a coeficienților ecuației de regresie.

Ca și în cazul regresiei pe perechi, semnificație statistică se testează pe baza coeficienților multipli de regresie liniară cu variabile explicative - statistici:

, (2.22)

având în acest caz distribuţia Studentului cu numărul de grade de libertate . La nivelul necesar de semnificație, valoarea observată a statisticii este comparată cu exactul critic
Distribuțiile elevilor.

Dacă
, atunci se confirmă semnificația statistică a coeficientului de regresie corespunzător. Aceasta înseamnă că factorul este legat liniar de variabila dependentă. Dacă se stabilește faptul de nesemnificație a coeficientului, atunci se recomandă excluderea variabilei din ecuație. Acest lucru nu va duce la o pierdere semnificativă a calității modelului, dar îl va face mai specific.

La evaluarea semnificaţiei coeficienţilor de regresie liniară pe stadiul inițial puteți folosi și regula „aspră”, discutată în capitolul 1.3, pentru a evita tabele.

Verificarea calității generale a ecuației de regresie

În acest scop, ca și în cazul regresiei perechi, folosim coeficient de determinare
:

(2.23)

Raport corect
. Cu cât acest coeficient este mai aproape de unul, cu atât ecuația de regresie explică comportamentul.

Pentru regresia multiplă, coeficientul de determinare este o funcție nedescrescătoare a numărului de variabile explicative. Adăugarea unei noi variabile explicative nu reduce niciodată valoarea lui , deoarece fiecare variabilă ulterioară poate doar adăuga, dar nu poate reduce, informațiile care explică comportamentul variabilei dependente. poate lua valori negative., atunci criteriul de multicoliniaritate poate fi luat ... în interiorul. 5. Examinare ipoteze despre coeficienţi ecuațiiregresie (examinare semnificația mai multor parametri ecuațiiregresie). 1) t-statistici...

  • Rezumat de disciplină (12)

    Rezumat disertație

    Rețeaua de informații Internet. Capitol 14 . Rețele de informații corporative. Sectiune...multiple regresie. Abur liniar regresie. Linear multiplu regresie. Examinarecalitateecuațiiregresie. Modele neliniare regresie si liniarizare...

  • Bugetul federal de stat educațional (44)

    Sarcină

    Despre semnificația coeficientului de corelație al eșantionului. Examinarecalitateecuațiiregresie. Model clasic de regresie. Cerințe preliminare... Estimări statice ale parametrilor de distribuție 3 6 14 ,15 4 3 3 DE LA–6 14 Examinare ipotezele statistice 3 6 16 2 1 ...

  • Problemele analizei și modelării corelației-regresii multiple sunt de obicei studiate în detaliu într-un curs special. Cursul „Teoria generală a statisticii” tratează doar aspectele cele mai generale ale acestei probleme complexe și oferă o idee inițială a metodei de construire a unei ecuații de regresie multiplă și a indicatorilor comunicării. Să considerăm forma liniară a relațiilor multifactoriale nu numai ca fiind cea mai simplă, ci și ca o formă oferită de pachetele de aplicații software pentru PC-uri. Dacă legătura unui factor individual cu un atribut rezultat nu este liniară, atunci ecuația este liniarizată prin înlocuirea sau transformarea valorii atributului factorului.

    Forma generală ecuația de regresie multivariată este următoarea:


    9.11. Măsuri de etanșeitate a conexiunilor într-un sistem multifactorial

    Un sistem multifactorial nu mai necesită unul, ci mulți indicatori ai strângerii legăturilor care au semnificații și aplicații diferite. Baza pentru măsurarea relațiilor este matricea coeficienților de corelație perechi (Tabelul 9.9).

    Pe baza acestei matrice, se poate judeca apropierea relației factorilor cu caracteristica efectivă și între ei. Deși toți acești indicatori se referă la relații pe perechi, matricea poate fi totuși utilizată pentru a preselecta factori pentru includerea în ecuația de regresie. Nu se recomandă includerea în ecuație a factorilor care sunt slab legați de caracteristicile de performanță, dar sunt strâns legați de alți factori.

    Să revenim la masă. 9.11. Analiza variatiei Sistemul de legături este conceput pentru a evalua cât de fiabil datele inițiale dovedesc existența unei legături între caracteristica efectivă și toți factorii incluși în ecuație. Pentru a face acest lucru, variațiile y sunt comparate - explicate și reziduale: sumele abaterilor pătrate corespunzătoare, pnho-

    379

    381

    9.13. Modele de corelație-regresie și aplicarea lor în analiză și prognoză

    Un model de corelație-regresie (CRM) al unui sistem de caracteristici interconectate este o ecuație de regresie care include principalii factori care afectează variația caracteristicii rezultate, are un coeficient de determinare mare (nu mai mic de 0,5) și coeficienți de regresie, interpretați în conformitate cu cu cunoştinţe teoretice despre natura relaţiilor din sistemul studiat.

    Definiția dată a CRM include condiții destul de stricte: nu orice ecuație de regresie poate fi considerată un model. În special, ecuația obținută mai sus pentru 16 ferme nu îndeplinește ultima cerință din cauza semnului care contrazice economia agriculturii la factorul x2 - ponderea terenului arabil. Cu toate acestea, în scopuri educaționale, îl vom considera ca un model.

    1. Semnele-factorii trebuie să fie într-o relație cauzală cu semnul efectiv (consecința). Prin urmare, este inacceptabil, de exemplu, să se introducă coeficientul de rentabilitate ca unul dintre factorii xj în modelul de cost y, deși includerea unui astfel de „factor” va crește semnificativ coeficientul de determinare.

    2. Semnele-factori nu ar trebui să fie părțile constitutive caracteristică eficientă sau funcțiile sale.

    3. Factorii-semne nu ar trebui să se dubleze unul pe altul, de exemplu. să fie coliniare (cu un coeficient de corelație mai mare de 0,8). Astfel, nu ar trebui să se includă energia și raportul capital-muncă al lucrătorilor în modelul productivității muncii, deoarece acești factori sunt strâns legați între ei în majoritatea obiectelor.

    4. Factorii de diferite niveluri ale ierarhiei nu ar trebui să fie incluși în model, i.e. factorul de ordinul cel mai apropiat și subfactorii săi. De exemplu, modelul costului cerealelor nu ar trebui să includă randamentul culturilor de cereale, doza de îngrășăminte pentru acestea sau costul procesării unui hectar, indicatori de calitate a semințelor, fertilitatea solului, de exemplu. subfactori de randament.

    5. Este de dorit ca pentru atributul și factorii efectivi să se respecte unitatea unității populației căreia îi sunt repartizați. De exemplu, dacă y este venitul brut al întreprinderii, atunci toți factorii ar trebui să se aplice și întreprinderii: costul activelor de producție, nivelul de specializare, numărul de angajați etc. Dacă y este salariul mediu al unui lucrător la o întreprindere, atunci factorii ar trebui să se refere la muncitor: rang sau clasă, experiență de muncă, vârstă, nivel de educație, sursă de alimentare etc. Această regulă este necategorică, în model salariile poate fi inclus muncitor, de exemplu, și nivelul de specializare al întreprinderii. Cu toate acestea, nu trebuie să uităm de recomandarea anterioară.

    6. Forma matematică a ecuaţiei de regresie trebuie să corespundă logicii conexiunii factorilor cu rezultatul dintr-un obiect real. De exemplu, factori de randament precum dozele de diferite îngrășăminte, nivelul de fertilitate, numărul de buruieni etc., creează creșteri ale randamentului, puțin dependente unele de altele; randamentele pot exista fără oricare dintre acești factori. Această natură a relațiilor corespunde ecuației de regresie aditivă:

    Primul termen din partea dreaptă a egalității este abaterea care apare din cauza diferenței dintre valorile individuale ale factorilor dintr-o anumită unitate a populației față de valorile lor medii pentru populație. Poate fi numit efectul ofertei de factori. Al doilea termen este abaterea care apare din cauza unor factori neincluși în model și diferența dintre eficiența individuală a factorilor dintr-o anumită unitate a populației și eficiența medie a factorilor din populație, măsurată prin coeficienți.

    Tabel 9.12 Analiza ofertei de factori și a randamentului factorilor conform modelului de regresie a nivelului venitului brut

    regresie catch-pură. Poate fi numit efectul factorului de rentabilitate.

    Exemplu. Să luăm în considerare calculul și analiza abaterilor conform modelului construit anterior al nivelului venitului brut în 16 ferme. Semnele acelor și altor abateri coincid de 8 ori și nu coincid de 8 ori. Coeficientul de corelație al rangurilor de abateri ale celor două tipuri a fost de 0,156. Aceasta înseamnă că relația dintre variația furnizării factorilor și variația rentabilității factorilor este slabă, nesemnificativă (Tabelul 9.12).

    Să acordăm atenție fermei nr. 15 cu un fapt foarte ridicat

    securitate (locul 15) și cel mai rău factor

    dacha (gradul 1), datorită căruia ferma a primit mai puțin

    1 22 frecați. venit de la 1 hectar. Dimpotrivă, ferma nr. 5 are a

    depozitarea este sub medie, dar datorită utilizării mai eficiente a factorilor, a primit 125 de ruble. venitul de la 1 hectar este mai mare decât s-ar primi cu randamentul mediu al factorilor pe totalitate. O eficiență mai mare a factorului x\ (costurile forței de muncă) poate însemna o calificare mai mare a lucrătorilor și un interes mai mare pentru calitatea muncii prestate. Eficiența mai mare a factorului xs din punct de vedere al rentabilității se poate datora calității înalte a laptelui (conținut de grăsime, răceală), datorită căreia acesta este vândut la prețuri mai mari. Coeficientul de regresie la x2, așa cum sa menționat deja, nu este justificat din punct de vedere economic.

    Utilizarea unui model de regresie pentru prognoză constă în înlocuirea valorilor așteptate ale caracteristicilor factorilor în ecuația de regresie pentru a calcula o prognoză punctuală a caracteristicii rezultate sau/și intervalul de încredere al acesteia cu o probabilitate dată, așa cum sa menționat deja în 9.6. Limitările prognozării prin ecuația de regresie formulată acolo rămân valabile și pentru modelele multifactoriale. În plus, este necesar să se observe consistența dintre valorile caracteristicilor factorilor substituite în model.

    Formulele de calcul a erorilor medii în estimarea poziției hiperplanului de regresie la un punct multidimensional dat și pentru o valoare individuală a caracteristicii rezultate sunt foarte complexe, necesită utilizarea algebrei matriceale și nu sunt luate în considerare aici. Eroarea medie în estimarea valorii caracteristicii efective, calculată folosind programul Microstat PC și dată în tabel. 9,7 este egal cu 79,2 ruble. la 1 ha. Aceasta este doar abaterea standard a valorilor veniturilor reale de la cele calculate conform ecuației, care nu ia în considerare erorile din poziția hiperplanului de regresie în sine la extrapolarea valorilor semnelor factorilor. Prin urmare, ne limităm la prognoze punctuale în mai multe variante (Tabelul 9.13).

    Pentru a compara previziunile cu nivelul de bază al valorilor medii ale caracteristicilor, este introdusă prima linie a tabelului. Prognoza pe termen scurt este concepută pentru mici modificări ale factorilor într-un timp scurt și o scădere a ofertei de muncă.

    Tabelul 9.13 Proiecții privind veniturile brute bazate pe modelul de regresie

    Rezultatul este nefavorabil: veniturile sunt reduse. Prognoza pe termen lung A este „prudentă”, presupune un progres foarte moderat al factorilor și, în consecință, o mică creștere a veniturilor. Opțiunea B - „optimist”, este concepută pentru o schimbare semnificativă a factorilor. Opțiunea 5 este construită conform modului în care Agafya Tikhonovna din comedia lui N.V. Gogol „Căsătoria” construiește mental un portret al „mirelor ideal”: luați nasul de la un solicitant, bărbia de la altul, înălțimea de la al treilea, personajul din a patra; Acum, dacă ai putea îmbina toate calitățile ei pe plac într-o singură persoană, ea nu ar ezita să se căsătorească. În mod similar, la prognoză, combinăm cele mai bune (din punct de vedere al modelului de venit) valorile observate ale factorilor: luăm valoarea X din ferma nr. 10, valoarea x2 din ferma nr. 2 și valoarea x2 din ferma nr. Valoarea x3 din ferma nr. 16. Toate aceste valori ale factorilor există deja în totalitatea studiată, nu sunt „așteptate”, nu „luate de pe tavan”. Asta e bine. Cu toate acestea, aceste valori ale factorilor pot fi combinate într-o singură întreprindere, sunt aceste valori sistemice? Soluția acestei probleme depășește sfera statisticii, necesită cunoștințe specifice despre obiectul prognozei.

    Dacă, pe lângă factorii cantitativi, într-o analiză de regresie multivariată, în ecuație este inclus și un factor necantitativ, atunci se folosește următoarea metodologie: prezența unui factor necantitativ în unitățile populației se notează cu unu, absența lui cu zero, adică intră așa-numitul

    Numărul de variabile fictive ar trebui să fie cu unul mai mic decât numărul de gradări ale unui factor calitativ (necantitativ). Prin această tehnică se poate măsura influența nivelului de educație, a locului de reședință, a tipului de locuință și a altor factori sociali sau naturali, necuantificabili, izolându-i de influența factorilor cantitativi.

    REZUMAT

    Relațiile care nu apar în fiecare caz individual, ci doar în totalitatea datelor, se numesc statistice. Ele sunt exprimate prin faptul că atunci când valoarea factorului x se modifică, distribuția condiționată a caracteristicii efective y se modifică și: valori diferite unei variabile (factorul x) corespunde diferitelor distribuții ale altei variabile (rezultat y).

    Corelația este un caz special de relație statistică, în care valori diferite ale unei variabile x corespund unor valori medii diferite ale variabilei y.

    Corelația sugerează că variabilele studiate au o expresie cantitativă.

    Conexiune statistică - mai mult concept larg, nu include restricții privind nivelul de măsurare a variabilelor. Variabilele, relația dintre care este studiată, pot fi atât cantitative, cât și necantitative.

    Relațiile statistice reflectă contingența în schimbarea semnelor x și y, care poate fi cauzată nu de relații cauzale, ci de așa-numita corelație falsă. De exemplu, în modificările articulației în x și y, se găsește un anumit model, dar nu este cauzat de influența

    390

    Descrierea matematică a dependenței de corelație a variabilei rezultate de mai multe variabile factoriale se numește ecuație de regresie multiplă. Parametrii ecuației de regresie sunt estimați prin metoda celor mai mici pătrate (LSM). Ecuația de regresie trebuie să fie liniară în parametri.

    Dacă ecuația de regresie reflectă neliniaritatea relației dintre variabile, atunci regresia se reduce la formă liniară(liniarizat) prin schimbarea variabilelor sau luând logaritmii acestora.

    Prin introducerea unor variabile fictive în ecuația de regresie, este posibil să se țină cont de influența variabilelor necantitative, izolându-le de influența factorilor cantitativi.

    Dacă coeficientul de determinare este aproape de unu, atunci folosind ecuația de regresie, puteți prezice care va fi valoarea variabilei dependente pentru una sau alta valoare așteptată a uneia sau mai multor variabile independente.

    1. Eliseeva I. I. Metode statistice de măsurare a conexiunilor. - L .: Editura Leningrad. un-ta, 1982.

    2. Eliseeva I. I., Rukavishnikov V. O. Logica analizei statistice aplicate. - M.: Finanțe și statistică, 1982.

    3. O. P. Krastin, Dezvoltarea și interpretarea modelelor de corelație în economie. - Riga: Zinatne, 1983.

    4. Kulaichev A. P. Metode și mijloace de analiză a datelor în mediul Windows. Stadia 6.0. - M.: NPO „Informatică și calculatoare”, 1996.

    5. Modelare statistică şi prognoză: Proc. indemnizație / Ed. A. G. Granberg. - M.: Finanțe și statistică, 1990.

    6. Foerster E, Renz B. Metode de corelare și analiză de regresie. Un ghid pentru economiști: Per. cu el. - M.: Finanțe și statistică, 1983.

    Sarcina regresiei liniare multiple este de a construi un model liniar al relației dintre un set de predictori continui și o variabilă dependentă continuă. Următoarea ecuație de regresie este adesea folosită:

    Aici un i- coeficienți de regresie, b 0- membru gratuit (dacă este folosit), e- un membru care conține o eroare - se fac diverse ipoteze despre aceasta, care, totuși, sunt mai des reduse la normalitatea distribuției cu un vector nul. matricea de asteptare si corelatie .

    Un astfel de model liniar descrie bine multe sarcini în diverse domenii, de exemplu, economie, industrie și medicină. Acest lucru se datorează faptului că unele sarcini sunt de natură liniară.

    Să luăm un exemplu simplu. Să fie solicitat să prezică costul așezării unui drum în funcție de parametrii săi cunoscuți. În același timp, avem date despre drumurile deja așezate, indicând lungimea, adâncimea stropirii, cantitatea de material de lucru, numărul de muncitori și așa mai departe.

    Este clar că costul drumului va deveni în cele din urmă egal cu suma costurilor tuturor acestor factori separat. Va fi nevoie de o anumită cantitate, de exemplu, piatră zdrobită, cu un cost cunoscut pe tonă, o anumită cantitate de asfalt, tot cu un cost cunoscut.

    Este posibil ca silvicultura să fie tăiată pentru așezarea, ceea ce va duce și la costuri suplimentare. Toate acestea împreună vor da costul creării drumului.

    În acest caz, modelul va include un membru gratuit, care, de exemplu, va fi responsabil pentru costurile organizatorice (care sunt aproximativ aceleași pentru toate lucrările de construcție și instalare nivelul dat) sau taxe.

    Eroarea va include factori pe care nu i-am luat în considerare la construirea modelului (de exemplu, vremea în timpul construcției - nu poate fi luată în considerare deloc).

    Exemplu: Analiza de regresie multiplă

    Pentru acest exemplu, vor fi analizate mai multe corelații posibile ale ratelor sărăciei și o putere care prezice procentul de familii sub pragul sărăciei. Prin urmare, vom considera variabila care caracterizează procentul familiilor sub pragul sărăciei ca variabilă dependentă, iar variabilele rămase ca predictori continui.

    Coeficienți de regresie

    Pentru a afla care dintre variabilele independente contribuie mai mult la prezicerea nivelului sărăciei, examinăm coeficienți standardizați regresie (sau Beta).

    Orez. 1. Estimări ale parametrilor coeficienților de regresie.

    Coeficienții Beta sunt coeficienții pe care i-ați obține dacă ați ajusta toate variabilele la o medie de 0 și o abatere standard de 1. Prin urmare, mărimea acestor coeficienți Beta vă permite să comparați contribuția relativă a fiecărei variabile independente la variabila dependentă. . După cum se poate observa din tabelul prezentat mai sus, variațiile populației din 1960 (POP_CHING), procentul populației care locuiește în zonele rurale (PT_RURAL) și numărul de oameni angajați în agricultură (N_Empld) sunt cei mai importanți predictori ai ratei sărăciei. , la fel de doar ele sunt semnificative statistic (95% lor interval de încredere nu include 0). Coeficientul de regresie al modificării populației din 1960 (Pop_Chng) este negativ, deci cu cât populația crește mai mică, cu atât mai multe familii care trăiesc sub pragul sărăciei în județul respectiv. Coeficientul de regresie pentru populația (%) care locuiește în sat (Pt_Rural) este pozitiv, adică cu cât procentul de locuitori din mediul rural este mai mare, cu atât rata sărăciei este mai mare.

    Semnificația efectelor predictoare

    Să ne uităm la Tabelul cu criteriile de semnificație.

    Orez. 2. Rezultate simultane pentru fiecare variabilă dată.

    După cum arată acest tabel, doar efectele a 2 variabile sunt semnificative statistic: modificarea populației din 1960 (Pop_Chng) și procentul populației care locuiește în sat (Pt_Rural), p.< .05.

    Analiza reziduurilor. După ajustarea unei ecuații de regresie, este aproape întotdeauna necesar să se verifice valorile și reziduurile prezise. De exemplu, valorile aberante mari pot denatura foarte mult rezultatele și pot duce la concluzii eronate.

    Graficul liniare al emisiilor

    De obicei, este necesar să se verifice reziduurile originale sau standardizate pentru valori aberante mari.

    Orez. 3. Numărul de observații și reziduuri.

    Scara axei verticale a acestui grafic este reprezentată de valoarea lui sigma, adică deviație standard resturi. Dacă una sau mai multe observații nu se încadrează în ±3 ori sigma, atunci ar putea merita să excludeți acele observații (acest lucru se poate face cu ușurință prin condițiile de selecție pentru observații) și să rulați din nou analiza pentru a vă asigura că rezultatele nu sunt modificate de către aceste valori aberante.

    Distanțe Mahalanobis

    Majoritatea manualelor de statistică petrec mult timp cu valori aberante și reziduuri ale variabilei dependente. Cu toate acestea, rolul valorii aberante în predictori rămâne adesea neidentificat. Pe partea variabilei predictoare, există o listă de variabile care participă cu ponderi diferite (coeficienți de regresie) la predicția variabilei dependente. Vă puteți gândi la variabilele independente ca la un spațiu multidimensional în care orice observație poate fi amânată. De exemplu, dacă aveți două variabile independente cu coeficienți de regresie egali, atunci puteți reprezenta graficul de dispersie a acestor două variabile și puteți plasa fiecare observație pe acel grafic. Apoi s-ar putea marca valoarea medie pe acest grafic și s-ar putea calcula distanțele de la fiecare observație la această medie (așa-numitul centru de greutate) în spațiul bidimensional. Aceasta este ideea principală din spatele calculării distanței Mahalanobis. Acum uitați-vă la histograma variabilei de schimbare a populației din 1960.

    Orez. 4. Histograma distribuției distanțelor Mahalanobis.

    Din grafic rezultă că există o valoare anormală la distanțele Mahalanobis.

    Orez. 5. Valori observate, prezise și reziduale.

    Observați cum se evidențiază județul Shelby (în primul rând) față de restul județelor. Dacă te uiți la datele brute, vei descoperi că județul Shelby are de fapt cel mai mare număr de oameni angajați în agricultură (variabila N_Empld). Ar putea fi mai înțelept să-l exprimați ca procent, mai degrabă decât numere absolute, caz în care distanța Mahalanobis a județului Shelby nu ar fi probabil la fel de mare în comparație cu alte județe. În mod clar, comitatul Shelby este o situație anormală.

    S-au eliminat resturile

    O altă statistică foarte importantă care permite să se măsoare severitatea problemei aberante este reziduurile eliminate. Acestea sunt reziduurile standardizate pentru cazurile respective, care se obțin prin eliminarea cazului respectiv din analiză. Rețineți că procedura de regresie multiplă ajustează suprafața de regresie pentru a arăta relația dintre variabila dependentă și predictor. Dacă o observație este o valoare anormală (cum ar fi județul Shelby), atunci există o tendință de a „trage” suprafața de regresie spre acel valori anormale. Ca urmare, dacă observația corespunzătoare este eliminată, se va obține o altă suprafață (și coeficienți Beta). Prin urmare, dacă reziduurile îndepărtate sunt foarte diferite de reziduurile standardizate, atunci veți avea motive să presupuneți că analiza regresiei grav denaturată de observația relevantă. În acest exemplu, reziduurile eliminate pentru județul Shelby arată că acesta este o valoare aberantă care deformează grav analiza. Graficul de dispersie arată clar valorile aberante.

    Orez. 6. Variabila Reziduuri inițiale și Reziduuri dislocate care indică procentul de familii care trăiesc sub pragul sărăciei.

    Majoritatea dintre ele au interpretări mai mult sau mai puțin clare, totuși, să ne întoarcem la graficele de probabilitate normale.

    După cum sa menționat deja, regresia multiplă presupune că există o relație liniară între variabilele din ecuație și o distribuție normală a reziduurilor. Dacă aceste ipoteze sunt încălcate, atunci concluzia poate fi inexactă. O diagramă de probabilitate normală a reziduurilor vă va spune dacă există sau nu încălcări grave ale acestor ipoteze.

    Orez. 7. Graficul probabilității normale; resturile originale.

    Această diagramă a fost construită în felul următor. În primul rând, reziduurile standardizate sunt clasate în ordine. Din aceste ranguri, se pot calcula valorile z (adică valorile standard ale distribuției normale) pe baza ipotezei că datele respectă distributie normala. Aceste valori z sunt reprezentate grafic de-a lungul axei y pe grafic.

    Dacă reziduurile observate (trasate de-a lungul axei x) sunt distribuite în mod normal, atunci toate valorile s-ar afla pe o linie dreaptă pe grafic. Pe graficul nostru, toate punctele sunt foarte apropiate de curbă. Dacă reziduurile nu sunt distribuite în mod normal, atunci ele se abat de la această linie. De asemenea, valorile aberante devin vizibile în acest grafic.

    Dacă există o pierdere a acordului și datele par să formeze o curbă clară (de exemplu, sub forma unui S) în jurul liniei, atunci variabila dependentă poate fi transformată într-un fel (de exemplu, o transformare logaritmică pentru a „reduce” coada distribuţiei etc.). O discuție despre această metodă este în afara domeniului acestui exemplu (Neter, Wasserman și Kutner, 1985, pp. 134-141, este prezentată o discuție despre transformările care înlătură non-normalitatea și neliniaritatea datelor). Cu toate acestea, cercetătorii de foarte multe ori pur și simplu efectuează analize în mod direct, fără a testa ipotezele relevante, ceea ce duce la concluzii eronate.


    Cursul 3 Regresie multiplă

      Condiții de aplicare a metodei și limitările acesteia

    Regresia perechilor poate da un rezultat bun în modelare dacă influența altor factori care afectează obiectul de studiu poate fi neglijată. Comportamentul variabilelor economice individuale nu poate fi controlat; nu este posibil să se asigure egalitatea tuturor celorlalte condiţii pentru aprecierea influenţei unui factor studiat. În acest caz, ar trebui să încercăm să identificăm influența altor factori prin introducerea lor în model, de exemplu. construiți o ecuație de regresie multiplă:

    Scopul principal al regresiei multiple este de a construi un model cu un număr mare de factori, determinând în același timp influența fiecăruia dintre ei în mod individual, precum și impactul lor cumulativ asupra indicatorului modelat. Specificarea modelului include două domenii de întrebări: selecția factorilor și alegerea tipului de ecuație de regresie.

    Cerințe factori:

      Ar trebui să fie cuantificabil. Dacă este necesar, includeți în model un factor calitativ care nu are o măsurare cantitativă, trebuie să i se acorde certitudine cantitativă (de exemplu, într-un model de randament, calitatea solului este dată sub formă de puncte).

      Ele nu ar trebui să fie intercorelate și cu atât mai mult să fie într-o relație funcțională exactă. Includerea în model a factorilor cu intercorelaţie mare când

    pentru dependență

    poate duce la consecințe nedorite, poate duce la instabilitate și nefiabilitate a estimărilor coeficienților de regresie. Dacă există o corelație mare între factori, atunci este imposibil să se determine influența izolată a acestora asupra indicatorului de performanță, astfel încât parametrii ecuației de regresie se dovedesc a fi neinterpretați.

      Multicoliniaritate

    Specific sistemelor multifactoriale este condiția inadmisibilității unei legături prea strânse între caracteristicile factorilor. Această condiție este adesea denumită problema coliniarității factorilor. Coliniaritatea înseamnă o corelație liniară non-aleatorie destul de strânsă a unor factori cu alții. De multe ori se recomandă excluderea unui factor asociat cu un alt factor la. Dintre cei doi factori strâns legați unul de celălalt, este rațional să se excludă factorul care este mai slab asociat cu caracteristica efectivă.

    Este necesară o tehnică mai complexă pentru a găsi și exclude un factor care nu are o relație strânsă cu niciun factor individual, dar are o relație strânsă multifactorială cu un complex de alți factori. Această poziție se numește multicoliniaritate. Pentru a o măsura, ar trebui să se calculeze secvenţial coeficienţii de corelaţie multiplă (sau de determinare) a fiecărui factor (în rolul de rezultat) cu toți ceilalți factori (în rolul variabilelor explicative). După ce am descoperit un factor multicoliniar sau mai mulți dintre ei, ar trebui să ia în considerare posibilitatea excluderii celor mai dependenți de complexul factorilor rămași, dacă acest lucru nu duce la o pierdere. sens economic modele.

    Coliniaritatea și multicoliniaritatea factorilor din sistemele economice nu apar întâmplător. Într-un set de întreprinderi sau regiuni omogene, de regulă, datorită legilor economiei, apare o variație paralelă a caracteristicilor factorilor: acele întreprinderi care au cele mai bune valori ale unor factori, de exemplu, cele mai bune conditii naturale, au în același timp un capital mai mare și un raport putere-greutate, o calificare mai mare a personalului, o tehnologie mai bună etc. De aici inevitabila coliniaritate mai mare sau mai mică a tuturor factorilor de producție sau condițiilor socio-economice de viață.

    Prezența coliniarității în sistem înrăutățește calitățile matematice ale modelului, poate duce la instabilitatea parametrilor rezultați, care se modifică dramatic cu o mică modificare a valorilor factorilor.

    O problemă specifică analizei multivariate este problema posibilității de a înlocui un factor pentru care nu există informații cu un alt factor și consecințele unei astfel de înlocuiri.

    Dacă este posibil, găsiți o altă variabilă ale cărei valori sunt cunoscute și care se află într-o relație suficient de strânsă cu factorul lipsă. De exemplu, dacă nu există date pentru regiune cu privire la salariile medii, atunci acestea pot fi înlocuite cu valoarea produsului regional brut pe cap de locuitor, ținând cont că ar trebui să existe o relație strânsă (deși nu tocmai cunoscută) între aceste economie. indicatori.

    Este important să luați în considerare scopul pentru care este construit modelul. Dacă scopul este doar de a prezice o caracteristică eficientă, atunci înlocuirea factorului cu o altă variabilă, dacă este strâns legată de factorul înlocuit, nu va duce la erori semnificative. Dar dacă scopul modelului a fost să ia decizii cu privire la politica sa economică de către manager, atunci înlocuirea factorului controlat cu un factor substitutiv strâns legat, dar negestionat, privează modelul de sens, în ciuda hotărârii ridicate.

      Selectarea tipului de model multifactorial și a caracteristicilor factorilor

    Relația caracteristicii efective y cu factori X 1 , X 2 , …, X k se exprimă prin ecuația:

    (22)

    Unde A este termenul liber al ecuației;

    k– numărul de factori;

    j– numărul factorului;

    i este numărul unității de populație;

    b j este coeficientul de regresie condiționat pur cu factorul X j, care măsoară modificarea rezultatului atunci când factorul se modifică după unitatea sa, și cu constanța altor factori incluși în model;

    ε i- variație aleatorie y i, neexplicat de model.

    Modelul sub forma (22) este aditiv. Aceasta înseamnă că modelul se bazează pe ipoteza că fiecare factor adaugă sau scade ceva din valoarea atributului rezultat. O astfel de ipoteză despre tipul de conexiune dintre cauze și efecte reflectă pe deplin o serie de sisteme economice de trăsături interconectate. De exemplu, dacă y este randamentul culturii și X 1 , X 2 , …, X k- factori agrotehnici: dozele de diferite tipuri de îngrășăminte, numărul de buruieni, udarea, proporția pierderilor în timpul recoltării, apoi într-adevăr, fiecare dintre acești factori fie crește, fie reduce randamentul, iar rezultatul poate exista fără vreunul dintre acești factori.

    Cu toate acestea, modelul aditiv nu este potrivit pentru toate relațiile din economie. Dacă o astfel de relație este studiată ca dependență de volumul producției unei întreprinderi y din zona ocupată X 1 , numar de angajati X 2 , costul mijloacelor fixe X 3 (sau capitalul total), atunci fiecare dintre factori este necesar pentru existența rezultatului, și nu o adăugare la acesta. În astfel de situații, trebuie să pornim de la ipoteza formei multiplicative a modelului:

    (23)

    Un astfel de model, conform primilor săi creatori, a fost numit „modelul Cobb-Douglas”.

    Este posibilă și o formă mixtă a modelului, în care unii factori vor intra aditiv, în timp ce alții vor intra multiplicativ.

    Atunci când alegeți caracteristicile factorilor, trebuie să procedați de la următoarele prevederi.

      Factorii ar trebui să fie cauzele, iar semnul rezultat ar trebui să fie consecința lor. Este inacceptabil să se includă în numărul de factori o trăsătură care ocupă un loc în economia reală la „ieșirea” sistemului, adică. dependent de model. De exemplu, se construiește un model al costului unui cent de cereale. Factorii luați sunt randamentul culturilor de cereale și intensitatea muncii unui centr, dar coeficientul de determinare este mic, modelul este slab. Pentru „îmbunătățirea” acestuia, la numărul de factori s-a adăugat profitabilitatea producției de cereale. Coeficientul de determinare a sărit imediat la 0,88. Dar modelul nu a devenit mai bun, a devenit lipsit de sens, deoarece profitabilitatea depinde de prețul de cost și nu invers.

      Semnele factorilor nu ar trebui să fie componente ale semnului rezultat. În același model de cost, salariile la sută de cereale, costul transportului unui cent de cereale etc., nu pot fi introduse ca factori. relaţia întregului cu părţile sale structurale trebuie analizată nu cu ajutorul analiza corelației, dar cu ajutorul sistemelor de indexare.

      Dublarea factorilor trebuie evitată. Fiecare factor real ar trebui să fie reprezentat de un indicator. De exemplu, factorul forță de muncă din modelul volumului de producție poate fi reprezentat fie de numărul mediu de angajați, fie de costul zilelor-om (ore-om) pentru producție, dar nu de ambii indicatori. Dublarea factorilor duce la fragmentare influența factorilorși poate fi nesigur din cauza unei astfel de fragmentări.

      Factorii care sunt strâns legați de alții ar trebui evitați ori de câte ori este posibil.

      Factorii de un nivel al ierarhiei ar trebui incluși; factorii de un nivel superior și subfactorii lor nu trebuie incluși. De exemplu, în modelul costului cerealelor includem randamentul, intensitatea forței de muncă, dar nu adăugăm scorul de fertilitate, doza de îngrășăminte, alimentarea cu energie a muncitorilor, i.e. subfactori - motivele care afectează randamentul și intensitatea muncii. Includerea subfactorilor este, de asemenea, o duplicare a unui factor.

      Există o logică într-o astfel de construcție a modelului, în care toate semnele sunt atribuite aceleiași unități a populației, atât semnul efectiv, cât și factorii. De exemplu, dacă se modelează volumul producției unei întreprinderi, atunci factorii ar trebui să se refere și la întreprindere: numărul de angajați, suprafața terenului, activele fixe etc. Dacă se construiește un model al salariului unui angajat, atunci factorii ar trebui să se refere și la angajat: vechimea acestuia, vârsta, educația, scara tarifară, raportul putere-greutate etc.

      Se aplică principiul simplității modelului. Dacă se poate construi model bun cu cinci factori, atunci nu ar trebui să urmăriți modelul ideal cu zece factori, de obicei factori suplimentari înrăutățesc modelul.

      Tabele de punctaj de corelare și regresie multivariate

    Să luăm în considerare acest sistem de indicatori pe exemplul relației dintre randamentul culturilor de cereale la 51 de firme agricole din regiunea Oryol. Inițial, au fost selectate 8 trăsături factori care pot afecta variația randamentului:

    X 1 - dimensiunea suprafeței de cereale însămânțate, ha;

    X 2 gravitație specifică cereale în suprafața totală, %;

    X 3 – costuri la 1 ha de cereale, mii de ruble/ha;

    X 4 - costurile forței de muncă la 1 ha, oră de om;.

    X 5 – nivel de remunerare, rub./persoană-oră;

    X 6 – alimentare cu energie, CP/100 ha teren arabil;

    X 7 - numarul de combine la 1000 hectare de cereale, buc.;

    X 8 - numarul tractoristilor la 100 de hectare de teren arabil, persoane.

    Ecuația de regresie inițială este:

    Cu toate acestea, numai coeficienții la X 3 (t-criteriul este egal cu 10,5) și când X 8 (t-criteriul este egal cu 2,72). Fiabilitate mai mare decât au alți factori și X 5 .

    După filtrarea factorilor nesiguri, de ex. eliminându-le din ecuație, ecuația finală de regresie este:

    Astfel, diferența de randamente în datele a 51 de firme agricole a fost influențată cel mai puternic și fiabil de diferențele dintre întreprinderi în ceea ce privește costurile la 1 ha, nivelul salariilor și disponibilitatea lucrătorilor calificați.

    Fiecare dintre coeficienți, numiți coeficienți de regresie pură, este interpretat ca mărime de modificare a randamentului, cu condiția ca acest factor să fie modificat de unitatea de măsură acceptată, iar ceilalți doi factori să rămână constanți la nivelurile medii. De exemplu, b 3 înseamnă că odată cu creșterea costurilor la 1 hectar de cereale și cu aceleași salarii și disponibilitate a tractoriștilor, randamentul mediu a crescut cu o medie de 4,6 cenți la hectar. Termenul „regresie condiționat pură” înseamnă că influența unui singur factor este curățată de variația concomitentă numai a acelor factori care intră în ecuație, dar nu este curățată de posibila variație concomitentă a altor factori.

    Valoarea coeficienților de regresie condiționat pură depinde de unitățile de măsură acceptate. Dacă factorul X 3 a fost măsurat nu în mii de ruble pe hectar, ci în ruble pe hectar, apoi coeficientul b 3 ar fi egal cu 0,00461 ruble/ha. Prin urmare, este imposibil să se compare între ei coeficienții de regresie condiționat pură. Pentru a obține coeficienți comparabili de influență a variației factorilor asupra variației rezultatului, ar trebui să scăpați de unitățile de măsură, să le aduceți la o singură unitate convențională. Pentru aceasta pot fi aplicate două metode.

    Prima modalitate se numește standardizare. Acest termen provine din nume englezesc deviație standard. Coeficienții de regresie standardizați sunt exprimați în fracții sau valori, dacă depășesc unu - în termeni de σ y. Coeficienții standardizați denotă Literă greacăβ și se numesc coeficienți beta. Formula lor este:

    În exemplul nostru, obținem:

    β 3 = 0,772;

    β 5 = 0,147;

    β 8 = 0,223.

    Interpretarea coeficienților beta este următoarea: când factorul se modifică X 3 pentru una dintre abaterile sale standard de la valoarea medie și cu constanța altor factori, trăsătura efectivă (randamentul) se va abate de la nivelul său mediu cu 0,772 din abaterea sa standard. Deoarece toți coeficienții standardizați sunt exprimați în aceleași unități, în σ y , sunt comparabile între ele și se poate concluziona că variația producțiilor a fost influențată cel mai puternic în setul de întreprinderi studiat de variația costurilor la hectar de semănat.

    O altă modalitate de a aduce coeficienții de regresie într-o formă comparabilă este de a le converti în coeficienți de elasticitate. Formula coeficientului de elasticitate ℓ j :

    (25)

    Coeficientul de elasticitate se interpretează astfel: când factorul se modifică X j prin valoarea sa medie și cu constanța altor factori incluși în ecuație, atributul rezultat se va modifica în medie cu ℓ j părți ale mediei sale (sau ℓ j medie dacă ℓ j>1, ceea ce se întâmplă mai rar). Se spune adesea, „se va schimba în ℓ j procent la modificarea de 1% a factorului.

    În exemplul nostru avem:

    Coeficienții de elasticitate sunt la fel de pronunțați ca β j, în aceleași unități și sunt comparabile între ele. Ele sunt mai convenabile decât coeficienții β de utilizat în planificare și prognoză. Este puțin probabil ca managerul să plănuiască să crească factorul, să zicem, investițiile cu 0,6 sigma. De obicei, ei plănuiesc să schimbe factorii, dacă sunt gestionați, cu atâtea procente din nivelul atins. De exemplu, dacă intenționăm să creștem costul pe hectar al culturilor de cereale cu 10%, salariile cu 30% și disponibilitatea șoferilor de tractor calificați cu 20%, atunci ne putem aștepta la o schimbare a randamentului prin
    , Unde k j– ratele de creștere planificate ale factorilor.

    Acum luați în considerare sistemul de indicatori de strângere a relațiilor multifactoriale. În primul rând, se construiește o matrice de coeficienți de corelație perechi (Tabelul 1).

    Tabelul 1. Matricea coeficienților de corelație perechi

    semne

    X 3

    X 5

    X 8

    X 3

    X 5

    X 8

    Matricea coeficienților de corelație perechi furnizează input pentru alți indicatori ai etanșeității conexiunii și pentru verificarea primară a coliniarității. În acest caz, toate relațiile dintre factori sunt slabe, coliniaritatea nu va strica modelul.

    Cel mai important indicator al proximității comunicării într-un sistem multifactorial este coeficientul de determinare multiplă R 2 . Măsoară strânsoarea generală a relației de variație a trăsăturii rezultate y cu o variaţie a întregului sistem de factori incluşi în model. Valoarea coeficientului de determinare multiplă poate fi calculată în mai multe moduri.

    1. Calcul bazat pe matricea coeficienților de corelație perechi

    ,

    unde Δ * - determinant de matrice;

    , (26)

    iar Δ este determinantul unei matrice care nu include primul rând Δ * și ultima sa coloană, adică:

    Cu doi factori, se obține o formulă de calcul simplificată:

    (27)

    Din (27) rezultă că, dacă factorii sunt independenți unul de celălalt, adică, , coeficientul de determinare multiplă este suma coeficienților de pereche de determinare.

    Folosind formula (27), putem calcula trei posibili coeficienți de determinare cu doi factori:

    2. Calcul pe baza coeficienților de corelație perechi și coeficienții β:

    În exemplu: R 2 \u003d 0,86 0,772 + 0,35 0,147 + 0,433 0,223 \u003d 0,8119.

    3. Calculul ca relație de corelare, i.e. raportul de variație a atributului rezultat y, asociat cu variația sistemului de factori incluși în model (în ecuația de regresie), la întreaga variație, generală, a atributului rezultat:

    . (30)

    Numărătorul formulei (30) este suma abaterilor pătrate ale valorilor individuale calculate ale atributului efectiv de la media acestuia, iar numitorul este suma pătratelor valorilor reale ale atributului efectiv din media, pentru toate unitățile populației.

    Coeficienții parțiali de determinare sunt indicatori care măsoară în ce proporție variația inexplicabilă este redusă de factorii deja aflați în model atunci când acest factor este inclus în model. X m. Formula pentru coeficientul parțial de determinare este următoarea:

    În exemplul nostru:

    Interpretarea este următoarea: includerea în modelul factorului X 3 după X 5 Și X 8 y cu 74%; factor de includere X 5 după X 3 Și X 8 reduce variația inexplicabilă y pe 10%; factor de includere X 8 după X 3 Și X 5 reduce variația inexplicabilă y cu 20%.

    Coeficienții determinării private sunt incomparabili între ei, deoarece acestea sunt fracțiuni cu valori diferite ale numitorului.

    Străgând rădăcina pătrată a oricărui coeficient de determinare, se obține coeficientul corelației corespunzătoare: multiplu, pereche sau privat.

    5. Includerea factorilor necantitativi în modelul multifactorial

    Factorii necantitativi ai producţiei agricole sunt precum zona naturala, forma de proprietate a întreprinderilor, direcția predominantă de producție (industrie) și altele. Este de preferat să nu se amestece întreprinderi sau regiuni care diferă prin aceste caracteristici calitative în populația inițială. Dar poate fi și necesar să se construiască un model cu unități eterogene ale populației, de exemplu, dacă numărul de unități care sunt omogene din punct de vedere calitativ este prea mic pentru o conexiune fiabilă. Uneori, scopul poate fi măsurarea influenței nete a unui factor non-cantitativ, cum ar fi proprietatea, asupra producției, iar acest lucru necesită includerea unui factor calitativ într-un model multifactorial.

    În astfel de cazuri, gradațiile calitative ale unei trăsături pot fi codificate de variabile speciale, adesea numite variabile „fictive” sau „structurale”. Ele reflectă eterogenitatea structurii calitative a populației. Să presupunem că este necesar să construim un model de regresie al profitabilității produselor întreprinderilor, iar în regiune există 16 întreprinderi de stat, 28 private, 13 forme de proprietate cooperativă.

    Dacă ignorăm diferențele asociate formei de proprietate, atunci acestea fie vor intra în variație reziduală, înrăutățind modelul de rentabilitate, fie se vor amesteca cu influența anumitor factori calitativi într-o proporție necunoscută, distorsionând măsura influenței lor.

    Necesar pentru m factori necantitativi sau gradaţii ale unui astfel de factor de introdus m-1 variabilă structurală, notată cu U j. Datele de calcul vor arăta astfel: m=3 (Masa 2).

    Tabelul 2. Date inițiale cu variabile structurale

    Tip de proprietate

    Unitatea de populație

    Caracteristici cantitative

    Variabile structurale

    X 1

    X 2

    X k

    U 1

    U 2

    Stat

    Semnificațiile acestor semne

    Semnificațiile acestor semne

    De cooperare

    Semnificațiile acestor semne

    Ca rezultat al soluției, se va obține un model al formularului:

    Unde X k +1 corespund variabilei U 1 , A X k +2 - variabil U 2 .

    Să rescriem modelul în notație specială:

    Semnificaţia coeficienţilor pentru variabilele structurale este următoarea: coeficient c 1 înseamnă că întreprinderile private au aceleași valori ale factorilor cantitativi X 1 X k au o rentabilitate c 1 mai mult decât întreprinderile de stat, care sunt luate ca bază de comparație (nu au variabile structurale U 1 Și U 2 ). Întreprinderile de forma cooperativă de proprietate au profitabilitatea pe c 2 mai mari decât cele de stat. Cantitati c 1 Și c 2 poate fi atât pozitiv, cât și negativ.

    În loc de un model general, trei modele particulare pot fi scrise pentru întreprinderile din grupuri separate după forma de proprietate, adăugând coeficientul variabilei structurale la termenul liber al ecuației:

    a) pentru întreprinderile din sectorul public

    b) pentru întreprinderile din sectorul privat

    c) pentru întreprinderile din sectorul cooperativ

    6. Aplicarea modelelor de regresie multifactorială pentru analiza întreprinderilor și prognoză

    Evaluarea performanței pe baza unui model de regresie, în comparație cu cea mai simplă metodă a unei astfel de evaluări - compararea rezultatului obținut de o întreprindere dată cu rezultatul mediu pentru o populație omogenă - oferă avantaje suplimentare.

    Conform exemplului nostru, randamentul mediu pentru 51 de firme agricole a fost de 22,9 c/ha de cereale.

    Agrofirma 1 a primit 17,6 q/ha. Prin urmare, această firmă rămâne în urmă. Totuși, se pune întrebarea: poate condițiile de producție ale acestei companii au fost mai proaste decât media? Comparația cu media populației ignoră complet diferența în „oferta de factori” a întreprinderilor și, de fapt, întreprinderile nu sunt întotdeauna în aceleași condiții.

    Evaluarea activităților pe baza modelului de regresie presupune luarea în considerare a inegalității condițiilor de producție, de exemplu, fertilitatea solului, situația financiară, disponibilitatea personalului calificat și altele. Este imposibil să se ia în considerare pe deplin diferența de condiții de producție între întreprinderi, deoarece orice model nu ia în considerare toți factorii de variație a randamentului. Evaluarea pe baza modelului se face prin compararea rezultatului real (randamentului) cu rezultatul ce ar fi realizat de întreprindere cu factorii efectivi și media pe totalitatea eficienței acestora, exprimată prin coeficienți de regresie condiționat pur. Luați în considerare rezultatele calculării randamentului a două firme (Tabelul 3).

    Tabelul 3. Rezultatul real și estimat al producției

    Agrofirma

    Semne factoriale

    Productivitate, c/ha

    X 3

    X 5

    X 8

    real

    estimat

    Media eșantionului

    Ambele firme au valori mai proaste decât media din eșantion, ale factorilor principali X 3 Și X 8 și, în consecință, valorile randamentului calculat sunt mai mici decât media. Dar, în același timp, firma 1 are practic același randament estimat ca și cel obținut efectiv. Nu există niciun motiv să considerăm că această firmă rămâne în urmă. Firma 2 are un randament efectiv mai mic decât cel calculat pe baza factorilor disponibili. Aceasta înseamnă că fie factorii necunoscuți necuprinși în model s-au dovedit a fi mai răi decât media pentru această firmă, fie gradul de utilizare a factorilor principali - costurile pe hectar și disponibilitatea muncitorilor calificați este mai mic decât media.

    Prognoza bazată pe modelul de regresie se bazează pe ipoteza că factorii sunt controlabili și pot lua una sau alta valoare planificată, așteptată, iar alte condiții necunoscute vor rămâne la nivelul mediu al populației. Controlabilitatea factorilor nu înseamnă că oricare dintre valorile acestora poate fi înlocuită în model atunci când se efectuează prognoze. Ecuația de regresie reflectă condițiile care au existat în agregat, conform cărora a fost obținută ecuația. Dacă valorile semnelor factorilor ar fi de 2-3 ori mai mari, atunci nu se poate argumenta că coeficienții de regresie condiționat puri ar rămâne aceleași.

    Prin urmare, se recomandă, atunci când se prognozează folosind ecuația de regresie, să nu se depășească limitele valorilor efectiv observate ale factorilor în agregat sau să se depășească aceste limite cu cel mult 10-15% din media. valorile. O cerință la fel de importantă în prognoză este cerința ca valorile prezise ale factorilor să fie consistente. Este necesar să se țină cont de semnul și apropierea relației dintre factori. De exemplu, dacă se prevede creșterea gradului de furnizare cu lucrători calificați, atunci este imposibil să se lase neschimbată, cu atât mai puțin să se reducă, valoarea prevăzută a nivelului salariilor. La planificarea creșterii raportului putere-greutate, este necesar să se mărească raportul capital-muncă aproximativ în aceeași proporție.

    Concentrându-ne pe valorile factorilor indicați în tabelul 3, presupunem că atunci când estimam randamentul, planificăm costurile pe hectar ( X 3 ) la nivelul de 3 mii de ruble, prezența șoferilor de tractor la 100 de hectare de teren arabil 0,8; salariu pe oră de 20 de ruble. la ora unu. Înlocuind aceste valori în modelul de regresie, obținem o prognoză punctuală pentru randamentul culturilor de cereale:

    O prognoză punctuală este așteptarea matematică (media) a valorilor posibile ale atributului prezis cu probabilitate diferită. Este necesară completarea prognozei punctuale cu calculul limitelor de încredere cu o probabilitate suficient de mare. Pentru a face acest lucru, utilizați valoarea erorii de aproximare pătratică medie, care este calculată prin formula:

    (33)

    Numătorul expresiei radicale este suma reziduală, neexplicată de model, a abaterilor pătrate ale caracteristicii rezultate, iar numitorul este numărul de grade de libertate ale variației reziduale. În exemplul nostru, suma reziduală a abaterilor pătrate este 814,3. Avem:

    Prin urmare, cu o fiabilitate de 0,95, randamentul prognozat va fi de 25,4±4,16·2, sau de la 17,8 la 33,72 c/ha. Toate aceste calcule se referă la prognozele de randament pentru firmele agricole individuale. Dacă vorbim despre randamentul mediu pentru totalul a 51 de firme agricole, atunci eroare medie media aritmetică este egală cu abaterea standard împărțită la rădăcina pătrată a dimensiunii eșantionului n, adică va fi:

    Interpretarea acestei valori a erorii medii de prognoză este următoarea: dacă 51 de firme agricole sunt prevăzute cu factori X 3 , X 5 , X 8 la nivelurile 3, 20, respectiv 0,8, atunci se va obţine randamentul mediu agregat de 25,4 ± 0,583 c/ha. Cu o probabilitate de 0,95, randamentul mediu agregat așteptat va fi de 25,4±0,583·2, sau de la 23,7 la 27,1 c/ha.

    Un model de corelație-regresie econometrică a unui sistem de trăsături interconectate ale populației studiate este o astfel de ecuație de regresie care include principalii factori care afectează variația caracteristicii rezultate în populație, are o valoare ridicată a coeficientului de determinare (nu mai mică decât 0,5), este fiabil și corect interpretat în conformitate (prin semn și în ordinea mărimii) cu teoria sistemului studiat prin coeficienți de regresie, și datorită acestor proprietăți, potrivit pentru evaluarea activității unităților de populație și pentru prognoză.

    multiplu regresie (2)Rezumat >> Marketing

    Introducerea lor în model, adică construirea ecuației multiplu regresie. Multiplu regresie utilizat pe scară largă în rezolvarea problemelor de cerere...



    eroare: Conținutul este protejat!!