Odaberite Stranica

Matrica parnih koeficijenata korelacije je. Matrica korelacije parova

Podaci za 2011. dati su za teritorije Južnog federalnog okruga Ruske Federacije

Teritorije federalnog okruga

Bruto regionalni proizvod, milijarda rubalja, Y

Ulaganja u osnovna sredstva, milijarde rubalja, X1

1. Rep. Adygea

2. Rep. Dagestan

3. Rep. Ingušetija

4. Kabardino-Balkarska Republika

5. Rep. Kalmykia

6. Karachay-Cherkess Republic

7. Rep. Severna Osetija- Alanja

8. Krasnodarski kraj)

9. Stavropoljski kraj

10. Astrahanska oblast.

11. Volgogradska oblast.

12. Rostov region.

  • 1. Izračunati matricu koeficijenata korelacije parova; stopa statistički značaj koeficijenti korelacije.
  • 2. Konstruisati polje korelacije između efektivne karakteristike i faktora koji je najbliži njoj.
  • 3. Izračunajte parametre linearne regresije para za svaki faktor X..
  • 4. Procijeniti kvalitet svakog modela kroz koeficijent determinacije, prosječnu grešku aproksimacije i Fišerov F test. Odaberite najbolji model.

iznosiće 80% svoje maksimalne vrijednosti. Grafički predstaviti: stvarne i modelne vrijednosti, prognoze.

  • 6. Koristeći višestruku regresiju korak po korak (metod isključenja ili metoda uključivanja), izgraditi model formiranja cijene stana zbog značajnih faktora. Dajte ekonomsku interpretaciju koeficijenata regresijskog modela.
  • 7. Ocijeniti kvalitet izrađenog modela. Da li se kvalitet modela poboljšao u odnosu na jednofaktorski model? Procijenite utjecaj značajnih faktora na rezultat koristeći koeficijente elastičnosti, u - i -? koeficijenti

Prilikom rješavanja ovog problema, proračuni i konstrukcija grafikona i dijagrama vršit će se korištenjem postavke Excel Analysis podaci.

1. Izračunajte matricu koeficijenata korelacije parova i procijenite statističku značajnost koeficijenata korelacije

U dijaloškom okviru Korelacija, u polju Interval unosa, unesite raspon ćelija koje sadrže izvorne podatke. Pošto smo odabrali i naslove kolona, ​​čekiramo polje za potvrdu Labels u prvom redu.

Dobili smo sljedeće rezultate:

Tabela 1.1 Matrica koeficijenata korelacije parova

Analiza matrice koeficijenata parne korelacije pokazuje da zavisna varijabla Y, odnosno bruto regionalni proizvod, ima bližu vezu sa X1 (ulaganje u stalni kapital). Koeficijent korelacije je 0,936. To znači da 93,6% zavisne varijable Y (bruto regionalni proizvod) zavisi od indikatora X1 (ulaganje u stalni kapital).

Statistička značajnost koeficijenata korelacije odredit će se korištenjem Studentovog t-testa. Upoređujemo tabličnu vrijednost sa izračunatim vrijednostima.

Izračunajmo vrijednost tablice pomoću funkcije STUDISCOVER.

t tabela = 0,129 at verovatnoća poverenja jednak 0,9 i stepen slobode (n-2).

Faktor X1 je statistički značajan.

2. Konstruirajmo polje korelacije između efektivnog atributa (bruto regionalnog proizvoda) i faktora koji je najbliži njemu (ulaganje u fiksni kapital)

Da bismo to učinili, koristit ćemo Excel alat za dijagram raspršenosti.

Kao rezultat, dobijamo korelaciono polje za cenu bruto regionalnog proizvoda, milijardu rubalja. i ulaganja u osnovna sredstva, milijarde rubalja. (Slika 1.1.).

Slika 1.1

3. Izračunajte parametre linearne regresije para za svaki faktor X

Za izračunavanje parametara linearne parne regresije koristit ćemo alat Regresija uključen u postavku Analiza podataka.

U dijaloškom okviru Regresija, u polje Input interval Y unesite adresu raspona ćelija koje zavisna varijabla predstavlja. Na terenu

Ulaznim intervalom X unosimo adresu opsega koji sadrži vrijednosti nezavisnih varijabli. Izračunajmo parametre uparene regresije za faktor X.

Za X1 smo dobili sljedeće podatke prikazane u tabeli 1.2:

Tabela 1.2

Regresiona jednadžba za ovisnost cijene bruto regionalnog proizvoda od ulaganja u fiksni kapital ima oblik:

4. Ocijenimo kvalitet svakog modela kroz koeficijent determinacije, prosječnu grešku aproksimacije i Fišerov F-test. Hajde da ustanovimo koji je model najbolji.

Koeficijent determinacije, prosječnu grešku aproksimacije, dobili smo kao rezultat proračuna izvedenih u paragrafu 3. Dobijeni podaci prikazani su u sljedećim tabelama:

X1 podaci:

Tabela 1.3a

Tabela 1.4b

A) Koeficijent determinacije određuje koji se udio varijacije osobine Y uzima u obzir u modelu i nastaje zbog utjecaja faktora X na njega Što je veća vrijednost koeficijenta determinacije, to je bliža veza karakteristike u konstruisanom matematički model.

IN Excel program označava R-kvadrat.

Na osnovu ovog kriterijuma, najadekvatniji model je regresiona jednačina zavisnosti cene bruto regionalnog proizvoda od ulaganja u fiksni kapital (X1).

B) Izračunavamo prosječnu grešku aproksimacije koristeći formulu:

gdje je brojnik zbir kvadrata odstupanja izračunatih vrijednosti od stvarnih. U tabelama se nalazi u koloni SS, u redu Preostali.

Prosječnu cijenu stana izračunavamo u Excelu koristeći funkciju PROSJEČNO. = 24,18182 milijarde rubalja.

Prilikom izvođenja ekonomskih proračuna model se smatra dovoljno tačnim ako prosečna greška aproksimacija manja od 5%, model se smatra prihvatljivim ako je prosječna greška aproksimacije manja od 15%.

Prema ovom kriterijumu, najadekvatniji je matematički model za regresionu jednačinu zavisnosti cene bruto regionalnog proizvoda od ulaganja u fiksni kapital (X1).

C) F-test se koristi za testiranje značajnosti regresijskog modela. Da bi se to postiglo, također se pravi poređenje kritičnih (tabelarnih) vrijednosti Fisher F-testa.

Izračunate vrijednosti su date u tabelama 1.4b (označene slovom F).

Izračunat ćemo tabelarnu vrijednost Fisherovog F testa u Excelu koristeći funkciju FDIST. Uzmimo vjerovatnoću jednaku 0,05. Primljeno: = 4,75

Izračunate vrijednosti Fisherovog F testa za svaki faktor su uporedive s vrijednostima u tabeli:

71,02 > = 4,75 model je adekvatan prema ovom kriteriju.

Analizirajući podatke prema sva tri kriterijuma, možemo zaključiti da je najbolji matematički model izgrađen za faktor bruto regionalnog proizvoda koji je opisan linearnom jednadžbom

5. Za odabrani model zavisnosti cijene bruto regionalnog proizvoda

Predvidjeti ćemo prosječnu vrijednost indikatora na nivou značajnosti ako je predviđena vrijednost faktora 80% njegove maksimalne vrijednosti. Predstavimo to grafički: stvarne i modelne vrijednosti, prognoze.

Izračunajmo predviđenu vrijednost X prema uvjetu, to će biti 80% maksimalne vrijednosti;

Izračunajmo X max u Excelu koristeći funkciju MAX.

0,8 *52,8 = 42,24

Da bismo dobili prediktivne procjene zavisne varijable, dobijenu vrijednost nezavisne varijable zamjenjujemo u linearnu jednačinu:

5,07+2,14*42,24 = 304,55 milijardi rubalja.

Odredimo interval pouzdanosti prognoze, koji će imati sljedeće granice:

Da izračunam interval poverenja za predviđenu vrijednost izračunavamo odstupanje od linije regresije.

Za upareni regresijski model izračunava se vrijednost odstupanja:

one. značenje standardna greška iz tabele 1.5a.

(Pošto je broj stepeni slobode jednak jedan, imenilac će biti jednak n-2). prognoza regresije korelacionih parova

Za izračunavanje koeficijenta koristićemo se Excel funkcija STUDISPOSIB, uzmimo vjerovatnoću jednaku 0,1, broj stupnjeva slobode je 38.

Izračunamo vrijednost koristeći Excel i dobijemo 12294.


Odredimo gornju i donju granicu intervala.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Dakle, prognozirana vrijednost = 304,55 hiljada dolara biće između donje granice jednake 277,078 hiljada dolara. i gornja granica od 332,022 milijarde. Rub.

Stvarne i modelne vrijednosti, tačke prognoze prikazane su grafički na slici 1.2.


Slika 1.2

6. Koristeći višestruku regresiju korak po korak (metod eliminacije) izgradićemo model formiranja cijene bruto regionalnog proizvoda zbog značajnih faktora

Graditi višestruka regresija Koristimo funkciju regresije programa Excel, uključujući sve faktore. Kao rezultat, dobijamo tabele rezultata iz kojih nam je potreban Studentov t-test.

Tabela 1.8a

Tabela 1.8b

Tabela 1.8c.

Dobijamo model kao što je:

Pošto< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Odaberemo najmanju apsolutnu vrijednost Studentovog t-testa, jednaka je 8,427, uporedimo je sa vrijednošću tabele, koju izračunavamo u Excelu, uzmimo nivo značajnosti jednak 0,10, broj stupnjeva slobode n-m-1= 12-4=8: =1,8595

Od 8.427>1.8595 model treba smatrati adekvatnim.

7. Za procjenu značajnog faktora rezultirajućeg matematičkog modela izračunavamo koeficijente elastičnosti, i - koeficijente

Koeficijent elastičnosti pokazuje za koji procenat će se efektivni atribut promijeniti kada se atribut faktora promijeni za 1%:

E X4 = 2,137 * (10,69/24,182) = 0,94%

Odnosno, sa povećanjem ulaganja u fiksni kapital od 1%, trošak se u prosjeku povećava za 0,94%.

Koeficijent pokazuje za koji dio standardne devijacije se mijenja prosječna vrijednost zavisne varijable s promjenom nezavisne varijable za jednu standardnu ​​devijaciju.

2,137* (14.736/33,632) = 0,936.

Podaci o standardnoj devijaciji uzimaju se iz tabela dobijenih pomoću alata Deskriptivna statistika.

Tabela 1.11 Deskriptivna statistika (Y)

Tabela 1.12 Deskriptivna statistika (X4)

Koeficijent određuje udio utjecaja faktora u ukupnom utjecaju svih faktora:

Da bismo izračunali koeficijente parne korelacije, izračunavamo matricu koeficijenata parne korelacije u Excelu pomoću alata Korelacija u podešavanjima za analizu podataka.

Tabela 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Zaključak: Iz dobijenih proračuna možemo zaključiti da efektivni atribut Y (bruto regionalni proizvod) ima veliku zavisnost od faktora X1 (ulaganje u fiksni kapital) (za 100%).

Reference

  • 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Početni kurs. Tutorial. 2nd ed. - M.: Delo, 1998. - str. 69 - 74.
  • 2. Radionica o ekonometriji: Udžbenik / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i dr. 2002. - str. 49 - 105.
  • 3. Dougherty K. Uvod u ekonometriju: Transl. sa engleskog - M.: INFRA-M, 1999. - XIV, str. 262 - 285.
  • 4. Ayvyzyan S.A., Mikhtiryan V.S. Primijenjena matematika i osnove ekonometrije. -1998., str. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Ekonometrija. -2007. od 175-251.

Faktori koji su kolinearni...

Rješenje:

Smatra se da su dvije varijable jasno kolinearne, tj. su jedno u drugom linearna zavisnost, Ako . U našem modelu samo koeficijent para linearna regresija između faktora i više od 0,7. , što znači da su faktori kolinearni.

4. U modelu višestruke regresije, determinanta matrice parnih koeficijenata korelacije između faktora , i je blizu nule. To znači da faktori i...

multikolinearno

nezavisni

kvantitativno

Rješenje:

Za procjenu multikolinearnosti faktora može se koristiti determinanta matrice parnih koeficijenata korelacije između faktora. Ako faktori nisu međusobno povezani, tada bi matrica parnih koeficijenata korelacije između faktora bila jedinica. Budući da su svi nedijagonalni elementi bila bi jednaka nuli.
, budući da je = = i = = =0.
Ako postoji potpuna linearna veza između faktora i svi koeficijenti korelacije parova su jednaki jedan, tada je determinanta takve matrice jednaka nuli.


Što je determinanta interfaktorske korelacione matrice bliža nuli, to je jača multikolinearnost faktora i nepouzdaniji su rezultati višestruke regresije. I obrnuto, što je determinanta matrice međufaktorske korelacije bliža jedinici, to je manja multikolinearnost faktora.

5. Za ekonometrijski model linearna jednačina višestruka regresija tipa, konstruisana je matrica parnih koeficijenata linearna korelacija (y– zavisna varijabla; x (1),x (2), x (3), x (4)– nezavisne varijable):


Kolinearne (usko povezane) nezavisne (objašnjavajuće) varijable nisu

x(2) I x(3)

x (1) I x(3)

x (1) I x (4)

x(2) I x (4)

Rješenje:

Prilikom konstruisanja modela višestruke regresije potrebno je isključiti mogućnost postojanja bliske linearne veze između nezavisnih (eksplanatornih) varijabli, što dovodi do problema multikolinearnosti. U ovom slučaju, linearni koeficijenti korelacije se provjeravaju za svaki par nezavisnih (objašnjavajućih) varijabli. Ove vrijednosti se odražavaju u matrici uparenih koeficijenata linearne korelacije. Vjeruje se da prisustvo koeficijenata parne korelacije između eksplanatornih varijabli koji premašuju 0,7 u apsolutnoj vrijednosti odražava blisku vezu između ovih varijabli (bliskost veze sa varijablom y se ne razmatra u ovom slučaju). Takve nezavisne varijable se nazivaju kolinearne. Ako vrijednost koeficijenta parne korelacije između eksplanatornih varijabli ne prelazi 0,7 u apsolutnoj vrijednosti, tada takve eksplanatorne varijable nisu kolinearne. Razmotrimo vrijednosti uparenih koeficijenata međufaktorske korelacije: između x (1) I x(2) vrijednost je 0,45; između x (1) I x(3)– jednako 0,82; između x (1) I x (4)– jednako 0,94; između x(2) I x(3)– jednako 0,3; između x(2) I x (4)– jednako 0,7; između x(3) I x (4)– jednako 0,12. Dakle, vrijednosti , , ne prelaze 0,7. Dakle, kolinearno nisu faktori x (1) I x(2), x(2) I x(3), x(3) I x (4). Od posljednjih navedenih parova, opcije odgovora sadrže par x(2) I x(3)– ovo je tačan odgovor. Za ostale parove: x (1 I x(3), x (1) I x (4), x(2) I x (4)– vrijednosti koeficijenata uparene međufaktorske korelacije prelaze 0,7, a ovi faktori su kolinearni.

Tema 3: Lažne varijable

1. Dana je tabela početnih podataka za konstruiranje ekonometrijskog regresijskog modela:

Lažne varijable nisu

radno iskustvo

produktivnost rada

stepen obrazovanja

nivo kvalifikacija zaposlenih

Rješenje:

Prilikom izgradnje regresijskog modela može nastati situacija kada je potrebno u jednačinu, pored kvantitativnih varijabli, uključiti i varijable koje odražavaju neke karakteristike atributa (pol, obrazovanje, region, itd.). Ove vrste kvalitativnih varijabli nazivaju se "lažne" varijable. Za konstruisanje modela navedenog u izjavi zadatka koriste se lažne varijable: nivo obrazovanja i nivo veštine zaposlenog. Druge varijable nisu fiktivno, od predloženih opcija to su radni staž i produktivnost rada.

2. Prilikom proučavanja zavisnosti potrošnje mesa od nivoa prihoda i spola potrošača, možemo preporučiti...

koristite lažnu varijablu – pol potrošača

podijeliti populaciju na dva: za ženske potrošače i za muške potrošače

koristite lažnu varijablu - nivo prihoda

isključiti spol potrošača iz razmatranja, jer se ovaj faktor ne može kvantitativno mjeriti

Rješenje:

Prilikom izgradnje regresijskog modela može nastati situacija kada je potrebno u jednačinu, pored kvantitativnih varijabli, uključiti i varijable koje odražavaju neke karakteristike atributa (pol, obrazovanje, region, itd.). Ove vrste kvalitativnih varijabli nazivaju se "lažne" varijable. Oni odražavaju heterogenost statističke populacije koja se proučava i koriste se za bolje modeliranje zavisnosti u tako heterogenim objektima posmatranja. Prilikom modeliranja pojedinačnih ovisnosti za heterogene podatke, također možete koristiti metodu dijeljenja cijele zbirke heterogenih podataka u nekoliko zasebnih kolekcija, čiji je broj jednak broju stanja lažne varijable. Dakle, tačne opcije odgovora su: „koristite lažnu varijablu – pol potrošača“ i „podijelite populaciju na dva: za žene potrošače i za muške potrošače“.

3. Proučavamo zavisnost cijene stana ( at) iz njenog dnevnog boravka ( X) i tip kuće. Model uključuje lažne varijable koje odražavaju tipove kuća koje se razmatraju: monolitne, panelne, ciglene. Dobivena je jednačina regresije: ,
Gdje ,
Posebne regresijske jednadžbe za cigle i monolitne su ...

za kućni tip cigle

za monolitnu kuću

za kućni tip cigle

za monolitnu kuću

Rješenje:

Potrebno je pronaći konkretnu regresijsku jednačinu za ciglene i monolitne kuće. Za kuću od cigle, vrijednosti lažnih varijabli su sljedeće: , . Jednačina će imati oblik: ili za tip kuće: cigla.
Za monolitna kuća vrijednosti lažnih varijabli su , . Jednačina će poprimiti oblik
ili za tip kuće monolitne.

y x (1) x (2) x (3) x (4) x (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
x (1) 0.43 1.00 0.85 0.98 0.11 0.34
x (2) 0.37 0.85 1.00 0.88 0.03 0.46
x (3) 0.40 0.98 0.88 1.00 0.03 0.28
x (4) 0.58 0.11 0.03 0.03 1.00 0.57
x (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analiza matrice uparenih koeficijenata korelacije pokazuje da je efektivni indikator najtešnje povezan sa indikatorom x(4) - količina utrošenog đubriva po 1 ha ().

U isto vrijeme, veza između atributa-argumenata je prilično bliska. Dakle, postoji praktično funkcionalan odnos između broja traktora na točkovima ( x(1)) i broj alata za površinsku obradu tla .

Prisustvo multikolinearnosti je također naznačeno koeficijentima korelacije i . S obzirom na blisku vezu između indikatora x (1) , x(2) i x(3), samo jedan od njih može biti uključen u model regresije prinosa.

Da biste demonstrirali negativan uticaj multikolinearnosti, razmotrite regresijski model prinosa, uključujući sve input indikatore:

F ops = 121.

Vrijednosti ispravljenih procjena standardnih devijacija procjena koeficijenata jednadžbe navedene su u zagradama .

U okviru jednačine regresije prikazani su sljedeći parametri adekvatnosti: višestruki koeficijent determinacije; korigovana procena rezidualne varijanse, prosečna relativna greška aproksimacije i izračunata vrednost kriterijuma F obs = 121.

Jednačina regresije je značajna jer F obs = 121 > F kp = 2,85 pronađeno iz tabele F-raspodjela na a=0,05; n 1 =6 i n 2 =14.

Iz ovoga slijedi da je Q¹0, tj. i najmanje jedan od koeficijenata jednačine q j (j= 0, 1, 2, ..., 5) nije nula.

Za testiranje hipoteze o značaju pojedinačnih koeficijenata regresije H0: q j =0, gdje je j=1,2,3,4,5, uporedi kritičnu vrijednost t kp = 2,14, pronađeno iz tabele t-distribucije na nivou značajnosti a=2 Q=0,05 i broj stupnjeva slobode n=14, sa izračunatom vrijednošću . Iz jednačine slijedi da je koeficijent regresije statistički značajan samo kada x(4) od ½ t 4 ½=2,90 > t kp =2,14.



Oni se ne predaju ekonomska interpretacija negativni predznaci koeficijenata regresije pri x(1) i x(5) . Iz negativnih vrijednosti koeficijenata proizilazi da je povećanje zasićenosti poljoprivrede traktorima na kotačima ( x(1)) i proizvodi za zdravlje bilja ( x(5)) negativno utiče na prinos. Stoga je rezultirajuća regresijska jednačina neprihvatljiva.

Da bismo dobili jednadžbu regresije sa značajnim koeficijentima, koristimo algoritam korak po korak regresiona analiza. U početku koristimo korak po korak algoritam sa eliminacijom varijabli.

Isključimo varijablu iz modela x(1) , što odgovara minimalnoj apsolutnoj vrijednosti od ½ t 1 ½=0,01. Za preostale varijable, ponovo konstruišemo jednadžbu regresije:

Rezultirajuća jednačina je značajna jer F uočeno = 155 > F kp = 2,90, nađeno na nivou značajnosti a=0,05 i brojevima stepena slobode n 1 =5 i n 2 =15 prema tabeli F-distribucija, tj. vektor q¹0. Međutim, samo koeficijent regresije pri x(4) . Procijenjene vrijednosti ½ t j ½ za ostale koeficijente je manje t kr = 2,131, pronađeno iz tabele t-distribucije na a=2 Q=0,05 i n=15.

Isključivanjem varijable iz modela x(3) , što odgovara minimalnoj vrijednosti t 3 =0,35 i dobijamo jednačinu regresije:

(2.9)

U rezultirajućoj jednačini koeficijent at x(5) . Isključivanjem x(5) dobijamo jednačinu regresije:

(2.10)

Dobili smo značajnu regresionu jednačinu sa značajnim i interpretabilnim koeficijentima.

Međutim, rezultirajuća jednačina nije jedini “dobar” i ne “najbolji” model prinosa u našem primjeru.

Pokažimo to u uslovu multikolinearnosti, postupni algoritam sa uključivanjem varijabli je efikasniji. Prvi korak u modelu prinosa y varijabla uključena x(4) , koji ima najveći koeficijent korelacije sa y, objašnjeno varijablom - r(y,x(4))=0,58. U drugom koraku, uključujući jednadžbu zajedno sa x(4) varijable x(1) ili x(3) dobićemo modele koji iz ekonomskih razloga i statističkih karakteristika premašuju (2.10):

(2.11)

(2.12)

Uključivanje bilo koje od tri preostale varijable u jednačinu pogoršava njena svojstva. Vidi, na primjer, jednačinu (2.9).

Dakle, imamo tri “dobra” modela prinosa, od kojih moramo izabrati jedan iz ekonomskih i statističkih razloga.

Prema statističkim kriterijumima, model (2.11) je najadekvatniji. Odgovara minimalnim vrijednostima preostale varijanse = 2,26 i prosječnoj relativnoj grešci aproksimacije i najviše vrijednosti i F obs = 273.

Model (2.12) ima nešto lošije pokazatelje adekvatnosti, a slijedi model (2.10).

Sada ćemo izabrati najbolji od modela (2.11) i (2.12). Ovi modeli se međusobno razlikuju po varijablama x(1) i x(3) . Međutim, u modelima prinosa varijabla x(1) (broj traktora na točkovima na 100 ha) je poželjniji od promenljivog x(3) (broj mašina za površinsku obradu tla na 100 ha), što je donekle sekundarno (ili proizilazi iz x (1)).

U tom smislu, iz ekonomskih razloga, prednost treba dati modelu (2.12). Dakle, nakon implementacije algoritma postupne regresione analize sa uključivanjem varijabli i uzimajući u obzir činjenicu da samo jedna od tri povezane varijable treba da uđe u jednačinu ( x (1) , x(2) ili x(3)) odaberite konačnu regresijsku jednačinu:

Jednačina je značajna pri a=0,05, jer F obs = 266 > F kp = 3,20, pronađeno iz tabele F-distribucije na a= Q=0,05; n 1 =3 i n 2 =17. Svi regresijski koeficijenti u jednačini ½ su također značajni t j½> t kp(a=2 Q=0,05; n=17)=2,11. Koeficijent regresije q 1 treba smatrati značajnim (q 1 ¹0) iz ekonomskih razloga, dok t 1 =2,09 samo nešto manje t kp = 2,11.

Iz jednadžbe regresije proizilazi da povećanje broja traktora za jedan na 100 hektara obradivog zemljišta (po fiksnoj vrijednosti x(4)) dovodi do povećanja prinosa zrna u prosjeku za 0,345 c/ha.

Približan proračun koeficijenata elastičnosti e 1 »0,068 i e 2 »0,161 pokazuje da s povećanjem indikatora x(1) i x(4) za 1%, prinos zrna raste u prosjeku za 0,068%, odnosno 0,161%.

Višestruki koeficijent Određivanje pokazuje da je samo 46,9% varijacije prinosa objašnjeno indikatorima uključenim u model ( x(1) i x(4)), odnosno zasićenje biljne proizvodnje traktorima i đubrivima. Ostatak varijacija je posljedica djelovanja neuračunatih faktora ( x (2) , x (3) , x(5), vremenski uslovi itd.). Prosječna relativna greška aproksimacije karakteriše adekvatnost modela, kao i vrijednost preostale varijanse. Prilikom tumačenja regresijske jednačine, vrijednosti od interesa su relativne greške aproksimacije . Podsjetimo da - vrijednost modela efektivnog indikatora karakterizira prosječnu vrijednost prinosa za ukupno razmatrane regije, pod uslovom da su vrijednosti varijabli objašnjenja x(1) i x(4) su fiksirani na istom nivou, tj x (1) = x i(1) i x (4) = x i(4) . Zatim, prema vrijednostima d i Regije možete porediti po prinosu. Područja kojima odgovaraju d vrijednosti i>0, imaju prinos iznad proseka, i d i<0 - ниже среднего.

U našem primjeru, u pogledu prinosa, biljna proizvodnja je najefikasnija na površini koja odgovara d 7 =28%, pri čemu je prinos 28% veći od regionalnog proseka, a najmanje efikasan u oblasti sa d 20 =-27,3%.


Zadaci i vježbe

2.1. Iz opšte populacije ( y, x (1) , ..., x(p)), gdje y ima normalan zakon distribucije sa uslovnim matematičkim očekivanjem i varijansom s 2, slučajni uzorak od n, i neka ( y i, x i (1) , ..., x i(p)) - rezultat i ovo zapažanje ( i=1, 2, ..., n). Odrediti: a) matematičko očekivanje vektorske procjene najmanjih kvadrata q; b) matrica kovarijanse procjene najmanjih kvadrata vektora q; c) matematičko očekivanje procjene.

2.2. Prema uslovima zadatka 2.1, naći matematičko očekivanje sume kvadrata odstupanja usled regresije, tj. EQ R, Gdje

.

2.3. U skladu sa uslovima zadatka 2.1, odrediti matematičko očekivanje zbira kvadrata odstupanja uzrokovanih zaostalom varijacijom u odnosu na linije regresije, tj. EQ ost, gdje

2.4. Dokažite da kada je hipoteza H 0 ispunjena: q=0 statistika

ima F-distribuciju sa stepenima slobode n 1 =p+1 i n 2 =n-p-1.

2.5. Dokažite da kada je hipoteza H 0: q j =0 ispunjena, statistika ima t-distribuciju sa brojem stepeni slobode n=n-p-1.

2.6. Na osnovu podataka (tabela 2.3) o zavisnosti skupljanja stočnog hleba ( y) od trajanja skladištenja ( x) pronađite tačku procene uslovnog očekivanja pod pretpostavkom da je opšta regresiona jednačina linearna.

Tabela 2.3.

Potrebno: a) pronaći procjene zaostale varijanse s 2 pod pretpostavkom da opšta regresiona jednačina ima oblik ; b) provjeriti na a=0,05 značajnost jednačine regresije, tj. hipoteza H 0: q=0; c) sa pouzdanošću g=0,9 odrediti intervalne procjene parametara q 0, q 1; d) sa pouzdanošću g=0,95 odrediti intervalnu procjenu uslovnog matematičkog očekivanja na X 0 =6; e) odrediti na g=0,95 interval pouzdanosti predviđanja u tački X=12.

2.7. Na osnovu podataka o dinamici stope rasta cijena akcija za 5 mjeseci, datih u tabeli. 2.4.

Tabela 2.4.

mjeseci ( x)
y (%)

i uz pretpostavku da opšta jednačina regresije ima oblik , potrebno je: a) odrediti procene parametara regresione jednačine i preostale varijanse s 2 ; b) provjeriti na a=0,01 značajnost koeficijenta regresije, tj. hipoteze H 0: q 1 =0;

c) sa pouzdanošću g=0,95, naći intervalne procjene parametara q 0 i q 1; d) sa pouzdanošću g=0,9 uspostaviti intervalnu procjenu uslovnog matematičkog očekivanja pri x 0 =4; e) odrediti na g=0,9 interval pouzdanosti predviđanja u tački x=5.

2.8. Rezultati istraživanja dinamike prirasta mladih životinja dati su u tabeli 2.5.

Tabela 2.5.

Pod pretpostavkom da je opšta jednačina regresije linearna, potrebno je: a) odrediti procene parametara regresione jednačine i preostale varijanse s 2 ; b) provjeriti na a=0,05 značajnost jednačine regresije, tj. hipoteze H 0: q=0;

c) sa pouzdanošću g=0,8, naći intervalne procjene parametara q 0 i q 1; d) sa pouzdanošću g=0,98, odrediti i uporediti intervalne procjene uslovnog matematičkog očekivanja na x 0 =3 i x 1 =6;

e) odrediti na g=0,98 interval pouzdanosti predviđanja u tački x=8.

2.9. Cijena ( y) jedan primjerak knjige ovisno o tiražu ( x) (hiljadu primjeraka) karakteriziraju podaci koje je prikupila izdavačka kuća (tabela 2.6). Odrediti procjene najmanjih kvadrata i parametre jednadžbe hiperboličke regresije, sa pouzdanošću g=0,9, konstruirati intervale povjerenja za parametre q 0 i q 1, kao i uslovno očekivanje pri x=10.

Tabela 2.6.

Odredite procjene i parametre regresione jednadžbe oblika , testirajte hipotezu H 0 na a = 0,05: q 1 = 0 i konstruirajte intervale povjerenja sa pouzdanošću g = 0,9 za parametre q 0 i q 1 i uslovno matematičko očekivanje pri x=20.

2.11. U tabeli 2.8 prikazani su podaci o stopama rasta (%) sljedećih makroekonomskih pokazatelja n=10 razvijenih zemalja sveta za 1992: BNP - x(1) , industrijska proizvodnja - x(2) , indeks cijena - x (3) .

Tabela 2.8.

Zemlje x i parametri jednadžbe regresije, procjena rezidualne varijanse; b) provjeriti na a=0,05 značajnost koeficijenta regresije, tj. H 0: q 1 =0; c) sa pouzdanošću g=0,9, pronaći intervalne procjene q 0 i q 1; d) naći kod g=0,95 interval pouzdanosti za u tački X 0 =x i, Gdje i=5; e) uporediti statističke karakteristike regresionih jednačina: 1, 2 i 3.

2.12. Riješite problem 2.11 uzimanjem ( at) indikator x(1) , a za objašnjenje ( X) varijabla x (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Primijenjena statistika i osnove ekonometrije: Udžbenik. M., JEDINSTVO, 1998 (2. izdanje 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Primijenjena statistika u zadacima i vježbama: Udžbenik. M. JEDINSTVO - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Primijenjena statistika. Istraživanje zavisnosti. M., Finansije i statistika, 1985, 487 str.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Primijenjena statistika. Klasifikacija i smanjenje dimenzija. M., Finansije i statistika, 1989, 607 str.;

5. Johnston J. Ekonometrijske metode, M.: Statistics, 1980, 446 str.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Multivarijantne statističke metode. M., Finansije i statistika, 2000;

7. Mkhitaryan V.S., Troshin L.I. Proučavanje ovisnosti korištenjem metoda korelacije i regresije. M., MESI, 1995, 120 str.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Multivarijantne statističke metode u ekonomiji. M., MESI, 1995, 149 str.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Matematička statistika za poslovne ljude i menadžere. M., MESI, 2000, 140 str.;

10. Lukashin Yu.I. Metode regresije i adaptivnog predviđanja: Udžbenik, M., MESI, 1997.

11. Lukashin Yu.I. Adaptivne metode kratkoročnog predviđanja. - M., Statistika, 1979.


APLIKACIJE


Dodatak 1. Mogućnosti zadataka za samostalno kompjutersko istraživanje.

Koeficijent korelacije odražava stepen povezanosti dva indikatora. Uvijek uzima vrijednost od -1 do 1. Ako se koeficijent nalazi oko 0, onda nema veze između varijabli.

Ako je vrijednost blizu jedan (od 0,9, na primjer), onda postoji jaka direktna veza između posmatranih objekata. Ako je koeficijent blizu druge ekstremne tačke opsega (-1), tada postoji jaka inverzna veza između varijabli. Kada je vrijednost negdje između 0 do 1 ili 0 do -1, onda govorimo o slaboj vezi (direktnoj ili obrnutoj). Ovaj odnos se obično ne uzima u obzir: vjeruje se da ne postoji.

Izračunavanje koeficijenta korelacije u Excel-u

Pogledajmo primjer metoda za izračunavanje koeficijenta korelacije, karakteristike direktnih i inverznih odnosa između varijabli.

Vrijednosti indikatora x i y:

Y je nezavisna varijabla, x je zavisna varijabla. Potrebno je pronaći snagu (jako/slabo) i smjer (direktno/obrnuto) veze između njih. Formula koeficijenta korelacije izgleda ovako:


Da bismo ga lakše razumjeli, podijelimo ga na nekoliko jednostavnih elemenata.

Između varijabli utvrđena je jaka direktna veza.

Ugrađena funkcija CORREL izbjegava složene proračune. Izračunajmo koeficijent korelacije para u Excelu koristeći ga. Pozovite čarobnjaka funkcija. Naći ćemo pravog. Argumenti funkcije su niz y vrijednosti i niz x vrijednosti:

Pokažimo vrijednosti varijabli na grafikonu:


Jaka veza između y i x je vidljiva, jer linije idu skoro paralelno jedna s drugom. Odnos je direktan: y raste - x raste, y opada - x se smanjuje.



Matrica koeficijenta korelacije para u Excelu

Korelaciona matrica je tabela na preseku redova i kolona u kojoj se nalaze koeficijenti korelacije između odgovarajućih vrednosti. Ima smisla izgraditi ga za nekoliko varijabli.

Matrica koeficijenata korelacije u Excel-u se konstruiše pomoću alata „Korelacija“ iz paketa „Analiza podataka“.


Pronađena je jaka direktna veza između vrijednosti y i x1. Postoji jaka povratna sprega između x1 i x2. Praktično nema veze sa vrijednostima u koloni x3.

Z 1 (t)

Z 2 (t)

t

y(t)

Z 1 (t)

Z 2 (t)

t

y(t)

Glavni zadatak sa kojim se susrećemo pri odabiru faktora koji će biti uključeni u model korelacije je da se u analizu uvedu svi glavni faktori koji utiču na nivo fenomena koji se proučava. Međutim, uvođenje velikog broja faktora u model je nepraktično; ispravnije je odabrati samo relativno mali broj glavnih faktora za koje se pretpostavlja da su u korelaciji sa odabranim funkcionalnim indikatorom.

To se može učiniti takozvanim dvostepenim odabirom. U skladu s tim, svi prethodno odabrani faktori su uključeni u model. Zatim se među njima, na osnovu posebne kvantitativne procjene i dodatne kvalitativne analize, identifikuju beznačajno utjecajni faktori, koji se postepeno odbacuju dok ne ostanu oni za koje se može tvrditi da je raspoloživa statistička građa u skladu s hipotezom o njihovom zajedničkom značajan uticaj na zavisnu varijablu sa izabranim oblikom veze.

Dvostepena selekcija dobila je najpotpuniji izraz u tehnici tzv. višestepene regresione analize, u kojoj se eliminacija nebitnih faktora dešava na osnovu pokazatelja njihove važnosti, posebno na osnovu vrednosti t f - izračunatu vrijednost Studentovog testa.

Izračunajmo t f koristeći pronađene koeficijente korelacije parova i uporedimo ih sa t kritičnim za nivo značajnosti od 5% (dvostrano) i 18 stepeni slobode (ν = n-2).

gdje je r vrijednost koeficijenta korelacije para;

n – broj zapažanja (n=20)

Kada se poredi t f za svaki koeficijent sa t cr = 2,101 nalazimo da se pronađeni koeficijenti smatraju značajnim, jer t f > t cr.

t f za r yx 1 = 2, 5599 ;

t f za r yx 2 = 7,064206 ;

t f za r yx 3 = 2,40218 ;

t f za r x1 x 2 = 4,338906 ;

t f za r x1 x 3 = 15,35065;

t f za r x2 x 3 = 4,749981

Prilikom odabira faktora koji će biti uključeni u analizu, na njih se postavljaju specifični zahtjevi. Prije svega, indikatori koji izražavaju ove faktore moraju biti kvantitativno mjerljivi.

Faktori uključeni u model ne bi trebali biti u funkcionalnom ili bliskom međusobnom odnosu. Prisustvo takvih odnosa karakteriše multikolinearnost.

Multikolinearnost ukazuje da neki faktori karakterišu jedan te isti aspekt fenomena koji se proučava. Stoga je njihovo istovremeno uključivanje u model nepraktično, budući da se u određenoj mjeri dupliciraju. Ako ne postoje posebne pretpostavke govornika u korist jednog od ovih faktora, prednost treba dati onom koji karakteriše veliki parni (ili parcijalni) koeficijent korelacije.

Smatra se da je maksimalna vrijednost koeficijenta korelacije između dva faktora 0,8.

Multikolinearnost obično dovodi do degeneracije matrice varijabli i, posljedično, do činjenice da glavna determinanta smanjuje svoju vrijednost i u granici se približava nuli. Procjene koeficijenata regresijske jednadžbe postaju jako zavisne od tačnosti pronalaženja izvornih podataka i naglo mijenjaju njihove vrijednosti kada se promijeni broj opažanja.





greška: Sadržaj zaštićen!!