Un exemplu de utilizare a regresiei liniare multiplă. Testează ecuațiile de regresie multiple

Să presupunem că un dezvoltator evaluează valoarea unui grup de clădiri mici de birouri într-un cartier de afaceri tradițional.

Un dezvoltator poate utiliza analiza de regresie multiplă pentru a estima prețul unei clădiri de birouri într-o zonă dată pe baza următoarelor variabile.

y este prețul estimat al unei clădiri pentru un birou;

x 1 - suprafața totală în metri pătrați;

x 2 - numărul de birouri;

x 3 - numărul de intrări (0,5 intrare înseamnă intrare doar pentru livrarea corespondenței);

x 4 - durata de funcționare a clădirii în ani.

Acest exemplu presupune că există o relație liniară între fiecare variabilă independentă (x 1, x 2, x 3 și x 4) și variabila dependentă (y), care este prețul unei clădiri de birouri din zonă. Datele inițiale sunt prezentate în figură.

Setările pentru rezolvarea problemei sunt afișate în figura ferestrei " Regresia„. Rezultatele calculului sunt plasate pe o foaie separată în trei tabele.

Drept urmare, am obținut următoarele model matematic:

y = 52318 + 27,64 * x1 + 12530 * x2 + 2553 * x3 - 234,24 * x4.

Dezvoltatorul poate determina acum costul estimat al unei clădiri de birouri din aceeași zonă. Dacă această clădire are o suprafață de 2500 de metri pătrați, trei birouri, două intrări și o durată de viață de 25 de ani, puteți estima valoarea acesteia folosind următoarea formulă:

y = 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 = 158 261 c.u.

V analiza regresiei cele mai importante rezultate sunt:

  • coeficienții variabilelor și intersecția Y, care sunt parametrii necesari ai modelului;
  • multiplu R, care caracterizează acuratețea modelului pentru datele de intrare disponibile;
  • Testul F al lui Fisher(în exemplul luat în considerare, depășește semnificativ valoarea critică egală cu 4,06);
  • t-statistici- mărimi care caracterizează gradul de semnificaţie al coeficienţilor individuali ai modelului.

O atenție deosebită trebuie acordată statisticilor t. Foarte des, la construirea unui model de regresie, nu se știe dacă acest sau acela factor x influențează y. Includerea factorilor în model care nu afectează valoarea de ieșire degradează calitatea modelului. Calcularea statisticii t ajută la detectarea unor astfel de factori. O estimare aproximativă se poate face după cum urmează: dacă la n >> k valoarea statisticii t în valoare absolută este semnificativ mai mare de trei, coeficientul corespunzător trebuie considerat semnificativ, iar factorul trebuie inclus în model, în caz contrar ar trebui excluse din model. Astfel, putem propune o tehnologie pentru construirea unui model de regresie, care constă din două etape:

1) procesați cu un pachet " Regresia„toate datele disponibile, analizați valorile t-statistice;

2) eliminați din tabelul de date inițiale coloanele cu acei factori pentru care coeficienții sunt nesemnificativi și procesați cu pachetul " Regresia"masa noua.

Materialul va fi ilustrat cu un exemplu transversal: prognozarea volumelor de vânzări ale companiei OmniPower. Imaginați-vă că sunteți manager de marketing pentru un mare lanț național de produse alimentare. V anul trecut batoane nutritive care conțin un numar mare de grăsimi, carbohidrați și calorii. Ele vă permit să restabiliți rapid rezervele de energie cheltuite de alergători, alpiniști și alți sportivi în antrenamente și competiții istovitoare. Vânzările de batoane nutritive au crescut dramatic în ultimii ani, iar OmniPower a considerat că acest segment de piață este foarte promițător. Înainte de a propune noul fel bar pe piața națională, compania ar dori să evalueze impactul costului său și al costurilor de publicitate asupra vânzărilor. 34 de magazine au fost selectate pentru cercetare de marketing. Trebuie să creați un model de regresie care vă permite să analizați datele din sondaj. Este posibil să aplicați un model simplu pentru asta regresie liniara discutat in postarea precedenta? Cum ar trebui schimbat?

Model regresie multiplă

Pentru cercetarea pieței, OmniPower a creat un eșantion de 34 de magazine cu aproximativ același volum de vânzări. Luați în considerare două variabile independente - prețul unui bar OmniPower în cenți ( X 1) și bugetul lunar al campaniei de publicitate în magazin, exprimat în dolari ( X 2). Acest buget include costurile de decorare a panourilor și vitrinelor, precum și distribuirea de cupoane și mostre gratuite. Variabilă dependentă Y reprezintă numărul de batoane OmniPower vândute pe lună (Figura 1).

Orez. 1. Vânzările lunare de bare OmniPower, prețul acestora și costurile de publicitate

Descărcați nota în format sau, exemple în format

Interpretarea coeficienților de regresie. Dacă într-o problemă sunt examinate mai multe variabile explicative, modelul de regresie liniară simplă poate fi extins presupunând că există o relație liniară între răspuns și fiecare dintre variabilele independente. De exemplu, dacă există k variabile explicative, modelul de regresie liniară multiplă ia forma:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i +… + β k X ki + ε i

Unde β 0 - schimb, β 1 - panta unei drepte Y in functie de variabila X 1 dacă variabilele X 2, X 3, ..., X k sunt constante, β 2 - panta unei drepte Y in functie de variabila X 2 dacă variabilele X 1, X 3, ..., X k sunt constante, β k- panta unei drepte Y in functie de variabila X k dacă variabilele X 1, X 2, ..., X k-1 sunt constante, ε i Y v i a-a observație.

Mai exact, un model de regresie multiplă cu două variabile explicative:

(2) Y eu = β 0 + β 1 X 1 i + β 2 X 2 i + ε i

Unde β 0 - schimb, β 1 - panta unei drepte Y in functie de variabila X 1 dacă variabilă X 2 este o constantă, β 2 - panta unei drepte Y in functie de variabila X 2 dacă variabilă X 1 este o constantă, ε i- eroarea aleatorie a unei variabile Y v i a-a observație.

Să comparăm acest model de regresie liniară multiplă și modelul de regresie liniară simplă: Y eu = β 0 + β 1 X i + ε i... Într-un model de regresie liniară simplă, panta β 1 Y când valoarea variabilei X se modifică cu unu şi nu ţine cont de influenţa altor factori. Într-un model de regresie multiplă cu două variabile independente (2), panta β 1 reprezintă modificarea mediei variabilei Y la modificarea valorii unei variabile X 1 pe unitate, ținând cont de influența variabilei X 2... Această valoare se numește coeficient de regresie pură (sau regresie parțială).

Ca și în modelul de regresie liniară simplă, coeficienții de regresie ale eșantionului b 0 , b 1 , și b 2 reprezintă estimările parametrilor corespondentului populatia generala β 0 , β 1 și β 2 .

Ecuație de regresie multiplă cu două variabile independente:

(3) = b 0 + b 1 X 1 i + b 2 X 2 i

Pentru calcularea coeficienților de regresie se utilizează metoda cele mai mici pătrate... În Excel, puteți utiliza Pachet de analize, opțiune Regresia... Spre deosebire de trasarea regresiei liniare, setați doar ca Intervalul de intrare X zona care include toate variabilele independente (fig. 2). În exemplul nostru, acesta este $ C $ 1: $ D $ 35.

Orez. 2. Fereastra de regresie a pachetelor Analiza Excel

Rezultatele pachetului de analize sunt prezentate în Fig. 3. După cum puteți vedea, b 0 = 5 837,52, b 1 = –53,217 și b 2 = 3,163. Prin urmare, = 5 837,52 –53,217 X 1 i + 3,163 X 2 i, Unde Ŷ i- vânzările estimate de batoane nutriționale OmniPower în i-m magazin (bucăți), X 1i- prețul unui bar (în cenți) în i-m magazin, X 2i- costuri lunare de publicitate in i-m magazin (în dolari).

Orez. 3. Studiu de regresie multiplă a volumului vânzărilor de bare OmniPower

Pantă selectivă b 0 este 5.837,52 și este o estimare a numărului mediu de bare OmniPower vândute pe lună la preț zero și fără cheltuieli publicitare. Deoarece aceste condiții sunt lipsite de sens, în această situație panta b 0 nu are o interpretare rezonabilă.

Pantă selectivă b 1 este egal cu -53,217. Aceasta înseamnă că pentru o anumită cheltuială publicitară lunară, o creștere a prețului unui bar cu un cent ar reduce volumul așteptat de vânzări cu 53.217 de unități. La fel de pantă selectivă b 2 de 3.613 înseamnă că, la un preț fix, o creștere de 1 dolar a costurilor lunare de publicitate este însoțită de o creștere a vânzărilor așteptate de 3.613 batoane. Aceste estimări oferă o mai bună înțelegere a impactului prețului și al reclamei asupra vânzărilor. De exemplu, pentru un cost fix de publicitate, o scădere cu 10 cenți a prețului unui bar ar crește vânzările cu 532.173 de unități, iar cu un preț fix al barului, o creștere a costurilor de publicitate de 100 USD ar crește vânzările cu 361,31 unități.

Interpretarea pantelor într-un model de regresie multiplă. Coeficienții dintr-un model de regresie multiplă sunt numiți coeficienți de regresie pură. Ei estimează modificarea medie a răspunsului Y la modificarea valorii X de unul dacă toate celelalte variabile explicative sunt înghețate. De exemplu, în problema barului OmniPower, un magazin cu cheltuieli publicitare fixe pe lună va vinde cu 53.217 batoane mai puține dacă le crește costul cu un cent. Este posibilă încă o interpretare a acestor coeficienți. Imaginați-vă aceleași magazine cu aceleași cheltuieli publicitare. Dacă prețul unui baton se reduce cu un cent, vânzările în aceste magazine vor crește cu 53.217 batoane. Luați în considerare acum două magazine în care barurile costă același, dar au costuri de publicitate diferite. Pentru o creștere de un dolar a acestor costuri, vânzările în aceste magazine ar crește cu 3.613 de unități. După cum puteți vedea, o interpretare rezonabilă a pantelor este posibilă numai sub anumite restricții impuse variabilelor explicative.

Prezicerea valorilor variabilei dependente Y. Odată ce descoperim că datele acumulate ne permit să folosim un model de regresie multiplă, putem prezice vânzările lunare de bare OmniPower și putem reprezenta intervalele de încredere pentru vânzările medii și prognozate. Pentru a prezice vânzările lunare medii de 79 de cenți pentru batoanele OmniPower într-un magazin care cheltuiește 400 USD în publicitate pe lună, utilizați ecuația de regresie multiplă: Y = 5837,53 - 53,2173 * 79 + 3,6131 * 400 = 3,079. Prin urmare, volumul de vânzări așteptat în magazinele care vând batoane OmniPower la 79 de cenți și cheltuiesc 400 de dolari pe lună pe publicitate este de 3.079.

Calcularea valorii Y iar prin estimarea reziduurilor este posibil să se construiască intervale de încredere care să conţină aşteptarea matematică şi valoarea prezisă a răspunsului. am examinat această procedură în termenii unui model simplu de regresie liniară. Cu toate acestea, construirea unor estimări similare pentru modelul de regresie multiplă este asociată cu mari dificultăți de calcul și nu este prezentată aici.

Coeficient de corelație mixt multiplu. Amintiți-vă că modelul de regresie vă permite să calculați coeficientul de corelație mixt r 2... Deoarece există cel puțin două variabile explicative într-un model de regresie multiplă, coeficientul de corelație mixtă multiplă este fracția de variație a unei variabile Y explicate printr-un set dat de variabile explicative:

Unde SSR- suma pătratelor regresiei, SST- suma totală a pătratelor.

De exemplu, în problema vânzărilor de bare OmniPower SSR = 39 472 731, SST= 52 093 677 și k = 2. Astfel,

Aceasta înseamnă că 75,8% din variația volumelor vânzărilor este atribuită modificărilor prețurilor și fluctuațiilor cheltuielilor publicitare.

Analiza reziduală pentru modelul de regresie multiplă

Analiza reziduală determină dacă poate fi aplicat un model de regresie multiplă cu două (sau mai multe) variabile explicative. De obicei, se efectuează următoarele tipuri de analiză a reziduurilor:

Primul grafic (Fig. 4a) vă permite să analizați distribuția reziduurilor în funcție de valorile prezise. Dacă valoarea reziduurilor nu depinde de valorile prezise și ia atât valori pozitive, cât și negative (ca în exemplul nostru), condiția relație liniară variabil Y din ambele variabile explicative se execută. Din pacate in Pachet de analize din anumite motive, acest program nu este creat. Poți în fereastră Regresia(vezi fig. 2) activare Resturi... Acest lucru vă va permite să afișați un tabel cu reziduuri și să îl utilizați deja pentru a construi un grafic cu puncte (Fig. 4).

Orez. 4. Dependența reziduurilor de valoarea prezisă

Al doilea și al treilea grafic arată dependența reziduurilor de variabilele explicative. Aceste grafice pot dezvălui un efect pătrat. În această situație, este necesar să se adauge pătratul variabilei explicative la modelul de regresie multiplă. Aceste grafice sunt afișate de Pachetul de analiză (vezi Fig. 2) dacă activați opțiunea Graficul reziduurilor (Fig. 5).

Orez. 5. Dependența reziduurilor de preț și de costurile de publicitate

Testarea semnificației modelului de regresie multiplă.

După verificarea faptului că modelul MLR este adecvat prin analiza reziduală, se poate determina dacă există o relație semnificativă statistic între variabila dependentă și setul de variabile explicative. Întrucât modelul include mai multe variabile explicative, ipotezele nule și alternative sunt formulate astfel: H 0: β 1 = β 2 = ... = β k = 0 (nu există o relație liniară între răspuns și variabilele explicative), H 1: există cel puțin o valoare β j ≠ 0 (există o relație liniară între răspuns și cel puțin o variabilă explicativă).

Pentru a testa ipoteza nulă, aplicați F-criteriu - test F- Statistica este egală cu pătratul mediu datorat regresiei (MSR) împărțit la varianța erorilor (MSE):

Unde F F-distributie cu kși n - k - 1 grade de libertate k - numărul de variabile independente din modelul de regresie.

Regula deciziei este următoarea: la nivelul de semnificație α, ipoteza nulă H 0 respins dacă F> F U (k, n - k - 1), în caz contrar ipoteza H 0 nu este respinsă (Fig. 6).

Orez. 6. Tabel rezumativ analiza variatiei pentru a testa ipoteza despre semnificație statistică coeficienți multipli de regresie

Tabel pivot ANOVA populat folosind Pachet de analize Excel când se rezolvă problema vânzării de bare OmniPower, este prezentat în Fig. 3 (vezi zona A10: F14). Dacă nivelul de semnificație este 0,05, valoarea critică F-distributii cu doua si 31 de grade de libertate F U (2,31)= F. OBR (1-0,05; 2; 31) = egal cu 3,305 (Fig. 7).

Orez. 7. Testarea ipotezei despre semnificația coeficienților de regresie la nivelul de semnificație α = 0,05, cu 2 și 31 grade de libertate

După cum se arată în fig. 3, statistica F este 48,477> F U (2,31)= 3,305 și p-valoare apropiată de 0.000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Concluzii statistice despre populația coeficienților de regresie

Pentru a identifica o relație semnificativă statistic între variabile Xși Yîntr-un model de regresie liniară simplă, a fost testată ipoteza pantei. În plus, pentru a estima panta populației generale, interval de încredere(cm. ).

Testarea ipotezelor. Pentru a testa ipoteza că panta populației β 1 este zero în modelul de regresie liniară simplă, se utilizează formula t = (b 1 - β 1) / S b 1. Poate fi extins la modelul de regresie multiplă:

Unde t- statistici de testare avand t-distributie cu n - k - 1 grade de libertate B j- panta variabilei NSjîn raport cu variabila Y dacă toate celelalte variabile explicative sunt constante, S bj- eroarea pătratică medie a coeficientului de regresie B j, k este numărul de variabile explicative din ecuația de regresie, β j este panta ipotetică a populației generale de răspunsuri j--lea relativ la o variabilă, când toate celelalte variabile sunt fixe.

În fig. 3 (tabelul de jos) arată rezultatele aplicării t-criterii (obținute folosind Pachet de analize) pentru fiecare dintre variabilele independente incluse în modelul de regresie. Astfel, dacă este necesar să se determine dacă o variabilă are X 2(costuri de publicitate) un impact semnificativ asupra vânzărilor pentru un preț fix al barei OmniPower, se formulează ipotezele nule și alternative: H 0: β2 = 0, H 1: β2 ≠ 0. În conformitate cu formula (6), obținem :

Dacă nivelul de semnificație este 0,05, valorile critice t-distribuţiile cu 31 grade de libertate sunt t L = STUDENT.OBR (0,025; 31) = –2,0395 şi t U = STUDENT.OBR (0,975; 31) = 2,0395 (Fig. 8). R-valoare = 1-STUDENT DIST (5,27; 31; TRUE) și aproape de 0,0000. Pe baza uneia dintre inegalități t= 5,27> 2,0395 sau R = 0,0000 < 0,05 нулевая гипотеза H 0 deviază. Prin urmare, pentru un preț fix al unui bar între variabilă X 2(costurile de publicitate) și volumul vânzărilor, există o relație semnificativă statistic. Astfel, există o probabilitate extrem de scăzută de a respinge ipoteza nulă dacă nu există o relație liniară între costurile de publicitate și vânzări.

Orez. 8. Testarea ipotezei despre semnificația coeficienților de regresie la nivelul de semnificație α = 0,05, cu 31 de grade de libertate

Testarea semnificației coeficienților specifici de regresie înseamnă de fapt testarea ipotezei despre semnificația unei anumite variabile incluse în modelul de regresie împreună cu altele. Prin urmare, t-criteriul de testare a ipotezei despre semnificaţia coeficientului de regresie echivalează cu testarea ipotezei despre influenţa fiecăreia dintre variabilele explicative.

Intervale de încredere.În loc să testați ipoteza despre panta populației, puteți estima valoarea acestei pante. Modelul de regresie multiplă utilizează următoarea formulă pentru a construi intervalul de încredere:

(7) B j ± t nk –1 S bj

Vom folosi această formulă pentru a construi un interval de încredere de 95% care să conțină panta populației generale β 1 (influența prețului X 1 de vânzare Y cu o sumă fixă ​​de costuri de publicitate X 2). Prin formula (7) obținem: b 1 ± t nk –1 S b 1 ... În măsura în care b 1 = –53,2173 (vezi Fig. 3), S b 1 = 6,8522, valoare critică t-statistici la nivel de incredere de 95% si 31 de grade de libertate t nk –1 = STUDENT.OBR (0,975; 31) = 2,0395, obținem:

–53,2173 ± 2,0395 * 6,8522

–53,2173 ± 13,9752

–67,1925 ≤ β 1 ≤ –39,2421

Astfel, ținând cont de efectul costurilor de publicitate, se poate susține că odată cu creșterea prețului unui baton cu un cent, volumul vânzărilor scade cu o sumă care variază de la 39,2 la 67,2 bucăți. Există o șansă de 95% ca acest interval să estimeze corect relația dintre cele două variabile. Deoarece acest interval de încredere nu conține zero, se poate argumenta că coeficientul de regresie β 1 are un efect semnificativ statistic asupra vânzărilor.

Evaluarea semnificației variabilelor explicative într-un model de regresie multiplă

Un model de regresie multiplă ar trebui să includă doar acele variabile explicative care prezic cu exactitate valoarea variabilei dependente. Dacă vreuna dintre variabilele explicative nu îndeplinește această cerință, aceasta trebuie eliminată din model. La fel de metoda alternativa, ceea ce face posibilă estimarea contribuției variabilei explicative, de regulă, cea privată F-criteriu. Constă în aprecierea modificării sumei pătratelor regresiei după includerea următoarei variabile în model. O nouă variabilă este inclusă în model numai atunci când conduce la o creștere semnificativă a preciziei predicției.

Pentru a aplica testul F particular pentru a rezolva problema vânzării barei OmniPower, este necesar să se evalueze contribuția variabilei X 2(costuri de publicitate) după ce variabila este inclusă în model X 1(pret bar). Dacă modelul include mai multe variabile explicative, contribuția variabilei explicative NSj poate fi determinat prin excluderea acestuia din model și estimarea regresiei sumei pătratelor (SSR) calculată peste variabilele rămase. Dacă modelul include două variabile, contribuția fiecăreia dintre ele este determinată de formulele:

Estimarea contribuției unei variabile X 1 X 2:

(8а) SSR (X 1 | X 2) = SSR (X 1 și X 2) - SSR (X 2)

Estimarea contribuției unei variabile X 2 cu condiția ca variabila să fie inclusă în model X 1:

(8b) SSR (X 2 | X 1) = SSR (X 1 și X 2) - SSR (X 1)

Cantitatile SSR (X 2)și SSR (X 1), respectiv, reprezintă suma pătratelor regresiei, calculată numai pentru una dintre variabilele explicate (Fig. 9).

Orez. 9. Coeficienții unui model de regresie liniară simplă luând în considerare: (a) volumul vânzărilor și prețul unui bar - SSR (X 1); (b) costuri de vânzare și publicitate - SSR (X 2)(obținut utilizând Excel Analysis Pack)

Ipoteze nule și alternative despre contribuția unei variabile X 1 sunt formulate astfel: H 0- includerea unei variabile X 1 nu duce la o creștere semnificativă a acurateței modelului, care ia în considerare variabila X 2; H 1- includerea unei variabile X 1 conduce la o creștere semnificativă a acurateței modelului, în care variabila X 2... Statisticile care stau la baza privatului F-criteriul pentru două variabile, calculat prin formula:

Unde MSE- variația erorii (reziduale) pentru doi factori simultan. A-prioriu F-statistica are F-distributie cu una si n–K – 1 grade de libertate.

Asa de, SSR (X 2)= 14 915 814 (Fig. 9), SSR (X 1 și X 2)= 39 472 731 (Fig. 3, celula C12). Prin urmare, prin formula (8a) obținem: SSR (X 1 | X 2) = SSR (X 1 și X 2) - SSR (X 2) = 39 472 731 - 14 915 814 = 24 556 917. Deci, pentru SSR (X 1 | X 2) = 24 556 917 și MSE (X 1 și X 2) = 407 127 (Fig. 3, celula D13), folosind formula (9), obținem: F= 24 556 917/407 127 = 60,32. Dacă nivelul de semnificație este 0,05, atunci valoarea critică F-distributii cu unu si 31 grade de libertate = F. OBR (0,95; 1; 31) = 4,16 (Fig. 10).

Orez. 10. Testarea ipotezei despre semnificația coeficienților de regresie la un nivel de semnificație de 0,05, cu unu și 31 grade de libertate

Din moment ce valoarea calculată F-statistica mai mult decât critică (60,32> 4,17), ipoteză H 0 deviază, prin urmare, luând în considerare variabila X 1(prețurile) îmbunătățește semnificativ modelul de regresie în care variabila este deja inclusă X 2(costuri de publicitate).

În mod similar, puteți estima efectul variabilei X 2(costul publicitar) pentru un model care include deja o variabilă X 1(Preț). Fă singur calculele. Condiția decisivă duce la faptul că 27.8> 4.17, și deci includerea variabilei X 2 conduce, de asemenea, la o creștere semnificativă a preciziei modelului, care ia în considerare variabila X 1. Deci, includerea fiecăreia dintre variabile îmbunătățește acuratețea modelului. Prin urmare, modelul de regresie multiplă trebuie să includă atât prețul, cât și costul publicitar.

Curios că sensul t-statistica calculată prin formula (6), și valoarea coeficientului F-statisticile date prin formula (9) sunt interconectate fără ambiguitate:

Unde A- numărul de grade de libertate.

Modele de regresie false și efecte de interacțiune

Când discutăm modelele de regresie multiple, am presupus că fiecare variabilă explicativă este numerică. Cu toate acestea, în multe situații este necesar să se includă variabile categorice în model. De exemplu, în problema vânzărilor OmniPower Bar, prețul și costurile publicitare au fost folosite pentru a estima vânzările lunare medii. Pe lângă aceste variabile numerice, puteți încerca să țineți cont în model de locația produsului în interiorul magazinului (de exemplu, în vitrină sau nu). Pentru a lua în considerare variabilele categorice în modelul de regresie, variabilele fictive ar trebui incluse. De exemplu, dacă o variabilă explicativă categorială are două categorii, o variabilă inactivă este suficientă pentru a le reprezenta. Xd: X d= 0 dacă observația aparține primei categorii, X d= 1 dacă observația aparține categoriei a doua.

Pentru a ilustra variabilele fictive, luați în considerare un model pentru a prezice valoarea medie a proprietății evaluate pe baza unui eșantion de 15 case. Să alegem zona de locuit a casei (mii de metri pătrați) și prezența unui șemineu ca variabile explicative (Fig. 11). Variabila simulată X 2(prezența unui șemineu) este definită după cum urmează: X 2= 0, dacă nu există șemineu în casă, X 2= 1 dacă casa are șemineu.

Orez. 11. Valoarea estimată prevăzută de spațiul de locuit și prezența unui șemineu

Să presupunem că panta valorii de evaluare, în funcție de suprafața de locuit, este aceeași pentru casele cu și fără șemineu. Apoi modelul de regresie multiplă arată astfel:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

Unde Y eu- valoarea evaluată i-du-te acasă, măsurat în mii de dolari, β 0 - schimbare de răspuns, X 1i,- spațiu de locuit i-go house, măsurată în mii de mp. picioare, β 1 - panta valorii de evaluare, în funcție de suprafața de locuit a casei cu o valoare constantă a variabilei fictive, X 1i, este o variabilă inactivă care indică prezența sau absența unui șemineu, β 1 - panta valorii de evaluare, în funcție de suprafața de locuit a casei cu o valoare constantă a variabilei fictive β 2 - efectul creșterii valorii de evaluare a unei case în funcție de prezența unui șemineu cu o dimensiune constantă a spațiului de locuit, ε i- eroare aleatorie în valoarea estimată i-du-te acasă. Rezultatele calculării modelului de regresie sunt prezentate în Fig. 12.

Orez. 12. Rezultatele calculării modelului de regresie pentru valoarea evaluată a caselor; obtinut prin Pachet de analizeîn Excel; pentru calcul, un tabel similar cu Fig. 11, cu singura modificare: „Da” sunt înlocuite cu unu, iar „Nu” - cu zerouri

În acest model, coeficienții de regresie sunt interpretați după cum urmează:

  1. Dacă variabila inactivă are o valoare constantă, o creștere a spațiului de locuit cu 1000 mp. ft crește valoarea estimată medie estimată de 16.200 USD.
  2. Dacă spațiul de locuit este constant, a avea un șemineu crește valoarea medie de evaluare a locuinței cu 3.9K USD.

Vă rugăm să rețineți (fig. 12), t-statistica corespunzatoare spatiului de locuit este 6,29, si R-valoarea este aproape zero. În același timp t-statistica corespunzătoare variabilei dummy este 3.1, și p-valoare - 0,009. Astfel, fiecare dintre aceste două variabile contribuie semnificativ la model dacă nivelul de semnificație este 0,01. În plus, coeficientul de corelație mixt multiplu înseamnă că 81,1% din variația valorii de evaluare este atribuită variabilității spațiului de locuit al locuinței și prezenței unui șemineu.

Efect de interacțiune.În toate modelele de regresie discutate mai sus, sa presupus că efectul răspunsului asupra variabilei explicative este independent statistic de efectul răspunsului asupra altor variabile explicative. Dacă această condiție nu este îndeplinită, interacțiunea are loc între variabilele dependente. De exemplu, este probabil ca publicitatea să aibă influență mare asupra volumului vânzărilor de mărfuri cu preț scăzut. Totuși, dacă prețul produsului este prea mare, creșterea costurilor de publicitate nu poate crește semnificativ vânzările. În acest caz, există o interacțiune între prețul produsului și costul reclamei acestuia. Cu alte cuvinte, nu se poate face afirmații generale despre dependența volumului vânzărilor de costurile de publicitate. Efectul cheltuielilor publicitare asupra vânzărilor depinde de preț. Această influență este luată în considerare în modelul de regresie multiplă folosind efectul de interacțiune. Pentru a ilustra acest concept, să revenim la problema costului caselor.

Modelul de regresie pe care l-am dezvoltat a presupus că efectul mărimii casei asupra valorii acesteia a fost independent de faptul dacă casa are șemineu. Cu alte cuvinte, se credea că panta valorii de evaluare, în funcție de suprafața de locuit a casei, este aceeași pentru casele cu și fără șemineu. Dacă aceste pante diferă unele de altele, există o interacțiune între dimensiunea casei și prezența unui șemineu.

Testarea ipotezei egalității pantelor se reduce la aprecierea contribuției pe care produsul variabilei explicative o aduce la modelul de regresie X 1și variabilă dummy X 2... Dacă această contribuție este semnificativă statistic, modelul original de regresie nu poate fi aplicat. Rezultatele analizei de regresie inclusiv variabile X 1, X 2și X 3 = X 1 * X 2 sunt prezentate în Fig. 13.

Orez. 13. Rezultate obţinute folosind Pachet de analize Excel pentru un model de regresie care ia în considerare spațiul de locuit, prezența unui șemineu și interacțiunile acestora

Pentru a testa ipoteza nulă H 0: β 3 = 0 și ipoteza alternativă H 1: β 3 ≠ 0, folosind rezultatele prezentate în Fig. 13, rețineți că t-statistica corespunzătoare efectului de interacțiune a variabilelor este 1,48. În măsura în care R-valoarea este 0,166> 0,05, ipoteza nulă nu este respinsă. În consecință, interacțiunea variabilelor nu are un efect semnificativ asupra modelului de regresie care ia în considerare suprafața de locuit și prezența unui șemineu.

Rezumat. Această postare arată cum un manager de marketing poate aplica mai multe analiză liniară pentru a prezice volumul vânzărilor, în funcție de preț și de costurile de publicitate. Sunt luate în considerare diverse modele de regresie multiplă, inclusiv modele pătratice, modele cu variabile fictive și modele cu efecte de interacțiune (Figura 14).

Orez. 14. Schema bloc a notei

Materiale folosite din cartea Levin și alte statistici pentru manageri. - M .: Williams, 2004 .-- p. 873-936

Scopul regresiei multiple este de a analiza relația dintre o variabilă dependentă și mai multe variabile independente.

Exemplu: Există date despre costul unei stații de lucru (la achiziționarea a 50 de stații de lucru) pentru diferite sisteme PDM. Se cere: să se evalueze relația dintre prețul unui loc de muncă cu sistem PDM și numărul de caracteristici implementate în acesta, prezentat în Tabelul 2.

Tabelul 2 - Caracteristicile sistemelor PDM

Număr de ordine sistem PDM Preț Managementul configurației produsului Modele de produse lucru in echipa Managementul schimbării produsului Fluxul documentelor Arhive Căutare document Planificarea proiectului Managementul producției
sunt un da da
Party Plus da da
PDM STEP Suite da da
Căutare da da
Frig de vânt da da
Manager busolă da da
T-Flex Docs da da
TechnoPro Nu Nu

Valoarea numerică a caracteristicilor (cu excepția „Cost”, „Modele de produs” și „Luc în echipă”) înseamnă numărul de cerințe îndeplinite pentru fiecare caracteristică.

Să creăm și să completăm o foaie de calcul cu datele inițiale (Figura 27).

Valoarea „1” a variabilelor „Mod. ed." și „Colectiv. r-aia." corespunde valorii „Da” a datelor originale, iar valoarea „0” corespunde valorii „Nu” a datelor originale.

Să construim o regresie între variabila dependentă „Cost” și variabilele independente „Ex. conf. "," Mod. ed. "," Colectiv. r-ta "," Control. rev. "," Doc. "," Arhive "," Căutare "," Plan "," Control. face. ".

Pentru a începe analiza statistică a datelor inițiale, apelați modulul „Regresia multiplă” (Figura 22).

În caseta de dialog care apare (Figura 23), specificați variabilele pentru care se va efectua analiza statistică.

Figura 27 - Date inițiale

Pentru a face acest lucru, faceți clic pe butonul Variabile și în caseta de dialog care apare (Figura 28), în partea corespunzătoare variabilelor dependente (Var. dependentă), Selectați „1-Cost”, iar în partea corespunzătoare variabilelor independente. (Lista de variabile independente), selectați toate celelalte variabile. Selectarea mai multor variabile din listă se realizează cu ajutorul tastelor „Ctrl” sau „Shift”, sau prin specificarea numerelor (gama de numere) ale variabilelor în câmpul corespunzător.



Figura 28 - Caseta de dialog pentru setarea variabilelor pentru analiza statistică

După ce variabilele sunt selectate, faceți clic pe butonul „OK” din caseta de dialog pentru specificarea parametrilor modulului „Regresie multiplă”. În fereastra care apare cu inscripția „Nr de indep. vars. > = (N-1); nu poate inversa corr. matrice." (Figura 29) apăsați butonul „OK”.

Acest mesaj apare atunci când sistemul nu poate construi o regresie pentru toate variabilele independente declarate, deoarece numărul de variabile este mai mare sau egal cu numărul de cazuri minus 1.

În fereastra care apare (Figura 30), în fila „Avansat”, puteți schimba metoda de construire a ecuației de regresie.

Figura 29 - Mesaj de eroare

Pentru a face acest lucru, selectați „Înainte pas” în câmpul „Metodă”.

Figura 30 - Fereastra pentru selectarea unei metode și setarea parametrilor pentru construirea unei ecuații de regresie

Metoda regresiei în trepte constă în faptul că la fiecare pas o variabilă independentă este inclusă sau exclusă din model. Astfel, se evidențiază setul celor mai „semnificative” variabile. Acest lucru vă permite să reduceți numărul de variabile care descriu dependența.

Analiză în trepte cu excludere („Backward stepwise”). În acest caz, toate variabilele vor fi mai întâi incluse în model, iar apoi, la fiecare pas, variabilele care au o mică contribuție la predicții vor fi eliminate. Apoi, în urma unei analize reușite, este posibil să se salveze în model doar variabile „importante”, adică acele variabile a căror contribuție la discriminare este mai mare decât altele.

Analiză în trepte înainte. Folosind această metodă, variabilele independente sunt incluse secvenţial în ecuaţia de regresie până când ecuaţia descrie în mod satisfăcător datele originale. Includerea variabilelor se determină folosind criteriul F -. La fiecare pas, toate variabilele sunt analizate și cea care introduce cea mai mare contribuție pentru a distinge între agregate. Această variabilă trebuie inclusă în model la acest pas, iar trecerea la pasul următor are loc.

În câmpul „Interceptare” (interceptarea regresiei), puteți alege dacă să îl includeți în ecuație („Includeți în model”) sau să îl ignorați și să îl considerați zero („Setat la zero”).

Parametrul Toleranță este toleranța variabilelor. Definit ca 1 minus pătratul coeficientului corelație multiplă această variabilă cu toate celelalte variabile explicative din ecuația de regresie. Prin urmare, cu cât toleranța variabilei este mai mică, cu atât este mai redundantă - contribuția acesteia la ecuația de regresie. Dacă toleranța oricăreia dintre variabilele din ecuația de regresie este egală sau apropiată de zero, atunci ecuația de regresie nu poate fi estimată. Prin urmare, este de dorit să setați toleranța parametrului egală cu 0,05 sau 0,1.

Parametrul „Regresia crestei; lambda: ”este utilizat atunci când variabilele explicative sunt puternic intercorelate, iar estimări robuste pentru coeficienții ecuației de regresie nu pot fi obținute prin metoda celor mai mici pătrate. Constanta specificată (lambda) va fi adăugată la diagonala matricei de corelație, care va fi apoi adusă înapoi la o formă standardizată (astfel încât toate elementele diagonale să fie egale cu 1,0). Cu alte cuvinte, acest parametru reduce artificial coeficienții de corelație, astfel încât estimări mai robuste (dar părtinitoare) ale parametrilor de regresie pot fi calculate. În cazul nostru, acest parametru nu este utilizat.

Parametrul „Prelucrare/tipărire în lot” (prelucrare, tipărire rapoarte) este utilizat atunci când este necesară pregătirea imediată a mai multor tabele pentru raport, reflectând rezultatele și procesul de analiză de regresie. Această opțiune este foarte utilă atunci când trebuie să tipăriți sau să analizați rezultatele analizei de regresie în pas la fiecare pas.

În fila „Stepwise” (Figura 31), puteți seta parametrii condiției de includere („F pentru a introduce”) sau excluderea („F pentru a elimina”) a variabilelor la construirea ecuației de regresie, precum și numărul de pași pentru construirea ecuației („Numărul de pași”).

Figura 31 - Fila „Stepwise” a ferestrei pentru selectarea unei metode și setarea parametrilor pentru construirea unei ecuații de regresie

F este mărimea valorii testului F.

Dacă, în timpul analizei în trepte cu includere, este necesar ca toate sau aproape toate variabilele să fie incluse în ecuația de regresie, atunci valoarea „F to introduce” trebuie setată la minim (0,0001), iar valoarea „F la eliminați" trebuie, de asemenea, setat la minim.

Dacă în timpul analizei în trepte, cu o excepție, este necesar să eliminați toate variabilele (una câte una) din ecuația de regresie, atunci setați valoarea „F to introduce” foarte mare, de exemplu 999, și setați valoarea „F to remove” close la „F pentru a intra”.

Rețineți că valoarea parametrului „F to remove” trebuie să fie întotdeauna mai mică decât „F to introduce”.

Opțiunea Afișare rezultate are două opțiuni:

2) La fiecare pas - afișați rezultatele analizei la fiecare pas.

După apăsarea butonului „OK”, va apărea fereastra rezultatelor analizei în fereastra de selectare a metodelor de analiză de regresie (Figura 32).

Figura 32 - Fereastra rezultatelor analizei

Figura 33 - Rezultate scurte ale analizei de regresie

Conform rezultatelor analizei, coeficientul de determinare. Aceasta înseamnă că regresia construită explică 99,987% din răspândirea valorilor în raport cu medie, i.e. explică aproape toată variabilitatea variabilelor.

Mare importanță iar nivelul său de semnificație arată că regresia construită este foarte semnificativă.

Pentru a vizualiza rezultatele scurte ale regresiei apăsați butonul „Rezumat: rezultatul regresiei”. Pe ecran va apărea o foaie de calcul cu rezultatele analizei (Figura 33).

A treia coloană ("B") afișează estimările parametrilor necunoscuți ai modelului, adică coeficienții ecuației de regresie.

Astfel, regresia căutată este:

O ecuație de regresie bine construită poate fi interpretată după cum urmează:

1) Costul unui sistem PDM crește odată cu creșterea numărului de funcții implementate pentru managementul schimbării, fluxul de lucru și planificare, precum și dacă sistemul include funcția de susținere a modelului de produs;

2) Costul unui sistem PDM scade odată cu creșterea funcțiilor de management al configurației implementate și odată cu creșterea capacităților de căutare.

Bună ziua, dragi cititori.
În articolele trecute, pe exemple practice, am arătat modalități de rezolvare a problemelor de clasificare (problema de credit scoring) și elementele de bază ale analizei informațiilor textuale (problema pașaportului). Astăzi aș dori să abordez o altă clasă de probleme, și anume, restaurarea regresiei. Sarcinile din această clasă sunt de obicei utilizate în prognoză.
Pentru un exemplu de rezolvare a unei probleme de prognoză, am luat setul de date privind eficiența energetică din cel mai mare depozit UCI. Ca instrumente, vom folosi în mod tradițional Python cu pachetele analitice pandas și scikit-learn.

Descrierea setului de date și enunțul problemei

Se oferă un set de date care descrie următoarele atribute ale camerei:

Conține caracteristicile încăperii pe baza cărora va fi efectuată analiza și valorile de încărcare care trebuie prevăzute.

Analiza preliminară a datelor

Mai întâi, să ne încărcăm datele și să ne uităm la ele:

Din panda import read_csv, DataFrame din sklearn.neighbors import KNeighborsRegressor din sklearn.linear_model import LinearRegression, LogisticRegression din sklearn.svm import SVR din sklearn.ense import RandomForestRegressor din sklearn.linear_metrics import /rs2ctationscore din sklearn.","; ") dataset.head ()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Acum să vedem dacă vreunul dintre atribute are legătură. Acest lucru se poate face prin calcularea coeficienților de corelație pentru toate coloanele. Cum se face acest lucru a fost descris în articolul anterior:

Dataset.corr ()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1,000000e + 00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1,000000e + 00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1,000000e + 00 -2.923165e-01 2.809757e-01 0.000000 -7,969726e-19 0,000000e + 00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1,000000e + 00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1,000000e + 00 0.000000 1.861418e-18 0,000000e + 00 0.889431 0.895785
X6 0,000000e + 00 0,000000e + 00 0,000000e + 00 0,000000e + 00 0,000000e + 00 1.000000 0,000000e + 00 0,000000e + 00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7,969726e-19 -1.381805e-16 1.861418e-18 0.000000 1,000000e + 00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0,000000e + 00 -1.079129e-16 0,000000e + 00 0.000000 2.129642e-01 1,000000e + 00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

După cum puteți vedea din matricea noastră, următoarele coloane se corelează între ele (Valoarea coeficientului de corelație este mai mare de 95%):
  • y1 -> y2
  • x1 -> x2
  • x4 -> x5
Acum să alegem ce coloane din perechile noastre putem elimina din selecția noastră. Pentru a face acest lucru, în fiecare pereche, vom selecta coloanele care au un impact mai mare asupra valorilor prezise. Y1și Y2și lăsați-le și ștergeți restul.
După cum puteți vedea, matrice cu coeficienți de corelație activate y1 ,y2 mai multă valoare au X2 și X5 decât X1 și X4, astfel încât să putem șterge ultimele coloane.

Dataset = dataset.drop (["X1", "X4"], axa = 1) dataset.head ()
În plus, puteți vedea că câmpurile Y1 și Y2 foarte strâns corelate între ele. Dar, deoarece trebuie să prezicem ambele valori, le lăsăm „ca atare”.

Alegerea modelului

Să separăm valorile prezise din eșantionul nostru:

Trg = set de date [["Y1", "Y2"]] trn = dataset.drop (["Y1", "Y2"], axa = 1)
După procesarea datelor, puteți trece la construirea modelului. Pentru a construi un model, vom folosi următoarele metode:

Teoria acestor metode poate fi citită în cursul prelegerilor lui K.V. Vorontsov despre învățarea automată.
Estimarea se va face folosind coeficientul de determinare ( R-pătrat). Acest coeficient este definită după cum urmează:

Unde este varianța condiționată a mărimii dependente la prin factor NS.
Coeficientul ia o valoare în interval și cu cât este mai aproape de 1, cu atât dependența este mai puternică.
Ei bine, acum poți trece direct la construirea unui model și la alegerea unui model. Să punem toate modelele noastre într-o singură listă pentru comoditatea analizei ulterioare:

Modele =
Deci modelele sunt gata, acum ne vom împărți datele inițiale în 2 subeșantioane: Testși educational... Cei care au citit articolele mele anterioare știu că acest lucru se poate face folosind funcția train_test_split () din pachetul scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = tren_test_split (trn, trg, test_size = 0,4)
Acum, deoarece trebuie să prezicem 2 parametri, trebuie să construim o regresie pentru fiecare dintre ei. În plus, pentru analize ulterioare, puteți înregistra rezultatele obținute într-un mod temporar DataFrame... O poți face astfel:

# creați structuri temporare TestModels = DataFrame () tmp = () # pentru fiecare model din lista pentru model în modele: # obțineți numele modelului m = str (model) tmp ["Model"] = m [: m.index ( "( ")] # pentru fiecare coloană a setului de rezultate pentru i în xrange (Ytrn.shape): # antrenează modelul model.fit (Xtrn, Ytrn [:, i]) # calculează coeficientul de determinare tmp [" R2_Y% s "% str (i +1)] = r2_score (Ytest [:, 0], model.predict (Xtest)) # scrieți datele și DataFrame final TestModels = TestModels.append () # faceți un index după numele modelului TestModels.set_index ("Model", inplace = True)
După cum puteți vedea din codul de mai sus, funcția r2_score () este utilizată pentru a calcula coeficientul.
Deci, datele pentru analiză au fost primite. Să construim acum grafice și să vedem care model a funcționat cel mai bine:

Fig, axes = plt.subplots (ncols = 2, figsize = (10,4)) TestModels.R2_Y1.plot (ax = axes, kind = "bar", title = "(! LANG: R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analiza rezultatelor și concluziilor

Din graficele de mai sus, putem concluziona că metoda a făcut față sarcinii mai bine decât altele RandomForest(pădure aleatorie). Coeficienții săi de determinare sunt mai mari decât ceilalți pentru ambele variabile:
Pentru o analiză ulterioară, să ne reantrenăm modelul:

Model = modele model.fit (Xtrn, Ytrn)
La o examinare mai atentă, se poate pune întrebarea de ce eșantionul dependent a fost împărțit în timpul anterior Ytrn la variabile (pe coloane), iar acum nu.
Ideea este că unele metode precum RandomForestRegressor, poate lucra cu mai multe variabile predictibile, în timp ce altele (de exemplu SVR) poate funcționa doar cu o variabilă. Prin urmare, în instruirea anterioară, am folosit împărțirea coloanelor pentru a evita erorile în procesul de construire a unor modele.
Alegerea unui model este, desigur, bună, dar ar fi bine să aveți și informații despre modul în care fiecare factor afectează valoarea prezisă. Pentru aceasta, modelul are proprietatea importanta_caracteristica_.
Folosind-o, puteți vedea ponderea fiecărui factor în modelele finale:

Model.feature_importants_
matrice ([0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

În cazul nostru, se poate observa că înălțimea și suprafața totală afectează cel mai mult sarcina de încălzire și răcire. Contribuția lor totală la modelul de prognoză este de aproximativ 72%.
De asemenea, trebuie remarcat faptul că, conform schemei de mai sus, puteți vedea influența fiecărui factor separat asupra încălzirii și separat asupra răcirii, dar deoarece acești factori sunt foarte strâns corelați între ei (), am făcut o concluzie generală asupra ambilor ele, care a fost scris mai sus...

Concluzie

În articol, am încercat să arăt pașii principali în analiza de regresie a datelor folosind Python și pachete analitice. pandași scikit-learn.
De remarcat faptul că setul de date a fost special selectat în așa fel încât să fie cât mai formalizat posibil, iar prelucrarea inițială a datelor de intrare ar fi minimă. În opinia mea, articolul va fi util celor care abia își încep drumul în analiza datelor, precum și celor care au o bază teoretică bună, dar aleg instrumentele pentru muncă.

Analiza regresiei este o metodă de cercetare statistică care vă permite să arătați dependența unui parametru de una sau mai multe variabile independente. În era pre-computer, aplicarea sa era destul de dificilă, mai ales când era vorba de cantități mari de date. Astăzi, după ce ați învățat cum să construiți o regresie în Excel, puteți rezolva probleme statistice complexe în doar câteva minute. Mai jos sunt exemple specifice din domeniul economiei.

Tipuri de regresie

Acest concept în sine a fost introdus în matematică în 1886. Are loc regresia:

  • liniar;
  • parabolic;
  • putere-lege;
  • exponențial;
  • hiperbolic;
  • indicativ;
  • logaritmică.

Exemplul 1

Să luăm în considerare problema determinării dependenței numărului de angajați care și-au părăsit locul de muncă de salariul mediu la 6 întreprinderi industriale.

Sarcină. Șase întreprinderi au analizat media lunară salariileși numărul de angajați care au renunțat voluntar. În formă tabelară, avem:

Numar de demisionati

Salariul

30.000 de ruble

35.000 de ruble

40.000 de ruble

45.000 de ruble

50.000 de ruble

55.000 de ruble

60.000 de ruble

Pentru problema determinării dependenței numărului de angajați renunțați de salariul mediu la 6 întreprinderi, modelul de regresie are forma ecuației Y = a 0 + a 1 x 1 + ... + akxk, unde xi sunt variabilele care influențează, ai sunt coeficienții de regresie și ak este numărul de factori.

Pentru această sarcină, Y este indicatorul angajaților care au demisionat, iar factorul de influență este salariul, pe care îl notăm cu X.

Utilizarea capabilităților procesorului de tabel Excel

Analiza de regresie în Excel trebuie să fie precedată de aplicarea funcțiilor încorporate la datele tabelare existente. Cu toate acestea, în aceste scopuri este mai bine să utilizați programul de completare foarte util „Pachet de analiză”. Pentru a-l activa aveți nevoie de:

  • din fila „Fișier” accesați secțiunea „Parametri”;
  • în fereastra care se deschide, selectați linia „Suplimente”;
  • faceți clic pe butonul „Go” situat mai jos, în dreapta liniei „Control”;
  • bifați lângă numele „Pachet de analiză” și confirmați acțiunile făcând clic pe „OK”.

Dacă totul este făcut corect, butonul necesar va apărea în partea dreaptă a filei „Date”, situată deasupra foii de lucru „Excel”.

în Excel

Acum că avem la îndemână toate instrumentele virtuale necesare pentru efectuarea calculelor econometrice, putem începe să ne rezolvăm problema. Pentru aceasta:

  • faceți clic pe butonul „Analiza datelor”;
  • în fereastra care se deschide, faceți clic pe butonul „Regresie”;
  • în fila care apare, introduceți intervalul de valori pentru Y (numărul de angajați care au demisionat) și pentru X (salariile lor);
  • ne confirmăm acțiunile apăsând butonul „Ok”.

Ca urmare, programul va completa automat noua foaie a procesorului de foi de calcul cu datele analizei de regresie. Notă! Excel are capacitatea de a defini independent locația pe care o preferați în acest scop. De exemplu, ar putea fi aceeași foaie ca și valorile Y și X, sau chiar O carte noua special concepute pentru stocarea acestor date.

Analizarea rezultatelor regresiei pentru R-pătrat

În Excel, datele obținute în cursul prelucrării datelor din exemplul în cauză sunt următoarele:

În primul rând, ar trebui să acordați atenție valorii pătratului R. Reprezintă coeficientul de determinare. În acest exemplu, R-pătrat = 0,755 (75,5%), adică parametrii calculați ai modelului explică relația dintre parametrii considerați cu 75,5%. Cu cât valoarea coeficientului de determinare este mai mare, cu atât modelul ales este considerat a fi mai aplicabil pentru o anumită sarcină. Se crede că descrie corect situația reală când valoarea R-pătratului este peste 0,8. Dacă R-pătrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza cotelor

Numărul 64,1428 arată care va fi valoarea lui Y dacă toate variabilele xi din modelul pe care îl luăm în considerare sunt zero. Cu alte cuvinte, se poate susține că valoarea parametrului analizat este influențată de alți factori care nu sunt descriși într-un anumit model.

Următorul coeficient -0,16285, situat în celula B18, arată semnificația influenței variabilei X asupra lui Y. Aceasta înseamnă că salariul mediu lunar al angajaților din cadrul modelului considerat afectează numărul de persoane care au demisionat cu o pondere de -0,16285 , adică gradul de influență a acestuia deloc mic. Semnul „-” indică faptul că coeficientul este negativ. Acest lucru este evident, deoarece toată lumea știe că cu cât salariul este mai mare la întreprindere, cu atât mai puține persoane își exprimă dorința de a rezilia contractul de muncă sau de a concedia.

Regresie multiplă

Acest termen este înțeles ca o ecuație de constrângere cu mai multe variabile independente de forma:

y = f (x 1 + x 2 +... x m) + ε, unde y este un indicator eficient (variabilă dependentă), iar x 1, x 2,... x m sunt indicatori-factori (variabile independente).

Estimarea parametrilor

Pentru regresia multiplă (MR), se realizează folosind metoda celor mai mici pătrate (OLS). Pentru ecuații liniare de forma Y = a + b 1 x 1 +… + b m x m + ε construim un sistem de ecuații normale (vezi mai jos)

Pentru a înțelege principiul metodei, luați în considerare cazul cu doi factori. Atunci avem o situație descrisă de formula

De aici obținem:

unde σ este varianța caracteristicii corespunzătoare reflectate în indice.

OLS se aplică ecuației MR pe o scară standardizată. În acest caz, obținem ecuația:

unde t y, t x 1,… t xm sunt variabile standardizate pentru care valorile medii sunt egale cu 0; β i sunt coeficienții de regresie standardizați, iar abaterea standard este 1.

Rețineți că toate β i în acest caz sunt specificate ca normalizate și centralizate, astfel încât comparația lor între ele este considerată corectă și validă. În plus, se obișnuiește să se filtreze factorii, eliminând cei cu cele mai mici valori ale βi.

Problemă folosind o ecuație de regresie liniară

Să presupunem că aveți un tabel cu dinamica prețurilor pentru un anumit produs N în ultimele 8 luni. Este necesar să luați o decizie cu privire la oportunitatea de a cumpăra lotul său la un preț de 1850 de ruble / t.

numărul lunii

numele lunii

pretul produsului N

1750 de ruble pe tonă

1755 de ruble pe tonă

1767 ruble pe tonă

1760 de ruble pe tonă

1770 de ruble pe tonă

1790 de ruble pe tonă

1810 ruble pe tonă

1840 de ruble pe tonă

Pentru a rezolva această problemă în procesorul de foi de calcul Excel, trebuie să utilizați instrumentul de analiză a datelor deja cunoscut din exemplul prezentat mai sus. Apoi, selectați secțiunea „Regresie” și setați parametrii. Trebuie reținut că în câmpul „Interval de intrare Y” trebuie introdus un interval de valori pentru variabila dependentă (în acest caz, prețul produsului în anumite luni ale anului), iar în „Intrare” interval X" - pentru variabila independentă (numărul lunii). Confirmăm acțiunile făcând clic pe „Ok”. Pe o foaie nouă (dacă s-a indicat așa) obținem datele pentru regresie.

Le folosim pentru a construi o ecuație liniară de forma y = ax + b, în ​​care coeficienții dreptei cu numele numărului lunii și coeficienții și liniile "Y-intersection" din foaia cu rezultatele analizei de regresie acționează ca parametri a și b. Astfel, ecuația de regresie liniară (SD) pentru problema 3 se scrie astfel:

Prețul produsului N = 11.714 * numărul lunii + 1727.54.

sau în notaţie algebrică

y = 11,714 x + 1727,54

Analiza rezultatelor

Pentru a decide dacă ecuația de regresie liniară obținută este adecvată, se folosesc coeficienți multipli de corelare și determinare, precum și testul Fisher și testul t Student. În tabelul Excel cu rezultatele regresiei, acestea sunt numite multiple R, R-pătrat, F-statistici și, respectiv, t-statistici.

KMC R face posibilă evaluarea gradului de apropiere a relației probabilistice dintre variabilele independente și dependente. Valoarea sa ridicată indică o relație destul de puternică între variabilele „Numărul lunii” și „Prețul produsului N în ruble pe tonă”. Cu toate acestea, natura acestei conexiuni rămâne necunoscută.

Pătratul coeficientului de determinare R2 (RI) este o caracteristică numerică a proporției din răspândirea totală și arată răspândirea a cărei parte a datelor experimentale, i.e. valorile variabilei dependente corespund ecuației de regresie liniară. În problema luată în considerare, această valoare este de 84,8%, adică datele statistice sunt descrise cu un grad ridicat de acuratețe de către SD-ul obținut.

Statistica F, numită și testul Fisher, este folosită pentru a evalua semnificația unei relații liniare, infirmând sau confirmând ipoteza existenței acesteia.

(Criteriul studentului) ajută la aprecierea semnificației coeficientului cu un termen necunoscut sau liber al unei relații liniare. Dacă valoarea testului t> t cr, atunci ipoteza nesemnificației termenului liber ecuație liniară respins.

În problema considerată pentru un termen liber folosind instrumentele Excel, s-a obținut că t = 169,20903, iar p = 2,89E-12, adică avem probabilitatea zero ca ipoteza corectă despre nesemnificația termenului liber să fie respins. Pentru coeficientul la necunoscut t = 5,79405 și p = 0,001158. Cu alte cuvinte, probabilitatea ca ipoteza corectă despre nesemnificația coeficientului cu necunoscutul să fie respinsă este de 0,12%.

Astfel, se poate susține că ecuația de regresie liniară rezultată este adecvată.

Problema oportunității cumpărării unui bloc de acțiuni

Regresia multiplă în Excel este efectuată folosind același instrument de analiză a datelor. Să luăm în considerare o problemă aplicată specifică.

Conducerea companiei „NNN” trebuie să decidă oportunitatea achiziționării unei participații de 20% la SA „MMM”. Costul pachetului (JV) este de 70 milioane USD. Specialiștii NNN au colectat date despre tranzacții similare. S-a decis evaluarea valorii blocului de acțiuni prin astfel de parametri, exprimați în milioane de dolari SUA, astfel:

  • conturi de plătit (VK);
  • volumul cifrei de afaceri anuale (VO);
  • conturi de încasat (VD);
  • costul mijloacelor fixe (SOF).

În plus, parametrul este restanțele salariale ale întreprinderii (V3 P) în mii de dolari SUA.

Soluție Excel pentru foi de calcul

În primul rând, trebuie să creați un tabel de date inițiale. Arata cam asa:

  • apelați fereastra „Analiza datelor”;
  • selectați secțiunea „Regresie”;
  • intervalul de valori ale variabilelor dependente din coloana G este introdus în caseta „Interval de intrare Y”;
  • faceți clic pe pictograma cu o săgeată roșie din dreapta ferestrei „Interval de intrare X” și selectați pe foaie intervalul tuturor valorilor de la coloanele B, C, D, F.

Verificați elementul „Foaie de lucru nouă” și faceți clic pe „Ok”.

Obțineți o analiză de regresie pentru o anumită sarcină.

Studiul rezultatelor și concluziilor

„Colectăm” ecuația de regresie din datele rotunjite prezentate mai sus pe foaia de calcul Excel:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Într-o formă matematică mai familiară, poate fi scrisă ca:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Datele pentru JSC „MMM” sunt prezentate în tabel:

Înlocuindu-le în ecuația de regresie, cifra este de 64,72 milioane de dolari SUA. Aceasta înseamnă că acțiunile SA „MMM” nu ar trebui cumpărate, deoarece valoarea lor de 70 de milioane de dolari SUA este mai degrabă supraevaluată.

După cum puteți vedea, utilizarea procesorului de foi de calcul Excel și a ecuației de regresie au făcut posibilă luarea unei decizii informate cu privire la oportunitatea unei tranzacții foarte specifice.

Acum știi ce este regresia. Exemplele în Excel discutate mai sus vă vor ajuta să rezolvați probleme practice din domeniul econometriei.



eroare: Conținutul este protejat!!