Beurteilung der statistischen Signifikanz der Regressionsgleichung und ihrer Parameter. Einschätzung der Aussagekraft der Regressionsgleichung und ihrer Koeffizienten

Nach der Bewertung der individuellen statistischen Signifikanz jedes Regressionskoeffizienten wird üblicherweise die kumulative Signifikanz der Koeffizienten analysiert, d. h. die gesamte Gleichung als Ganzes. Eine solche Analyse wird auf der Grundlage der Überprüfung der Hypothese über die Gesamtsignifikanz der Hypothese über die gleichzeitige Nullgleichheit aller Regressionskoeffizienten mit erklärenden Variablen durchgeführt:

H 0: b 1 = b 2 = ... = b m = 0.

Wird diese Hypothese nicht verworfen, so wird geschlussfolgert, dass der kumulative Effekt aller m erklärenden Variablen X 1 , X 2 , ..., X m des Modells auf die abhängige Variable Y als statistisch unbedeutend angesehen werden kann, und die Gesamtqualität der Regressionsgleichung ist gering.

Diese Hypothese wird anhand von getestet Varianzanalyse Vergleich von erklärter und Residualvarianz.

H 0: (erklärte Varianz) = (Restvarianz),

H 1: (erklärte Varianz) > (Restvarianz).

Die F-Statistik wird aufgebaut:

wo ist die Varianz, die durch die Regression erklärt wird;

– Reststreuung (Summe der quadrierten Abweichungen dividiert durch die Anzahl der Freiheitsgrade n-m-1). Wenn die LSM-Voraussetzungen erfüllt sind, hat die konstruierte F-Statistik eine Fisher-Verteilung mit den Freiheitsgraden n1 = m, n2 = n–m–1. Wenn daher auf dem erforderlichen Signifikanzniveau a F obs > F a ; m n - m -1 \u003d F a (wobei F a; m; n - m -1 der kritische Punkt der Fisher-Verteilung ist), dann weicht H 0 zugunsten von H 1 ab. Das bedeutet, dass die durch die Regression erklärte Varianz deutlich größer ist als die Residualvarianz und folglich die Regressionsgleichung die Dynamik der Änderung der abhängigen Variablen Y recht qualitativ widerspiegelt. Ist F beobachtbar< F a ; m ; n - m -1 = F кр. , то нет основания для отклонения Н 0 . Значит, объясненная дисперсия соизмерима с дисперсией, вызванной случайными факторами. Это дает основание считать, что совокупное влияние объясняющих переменных модели несущественно, а следовательно, общее качество модели невысоко.

In der Praxis wird jedoch statt dieser Hypothese eine eng verwandte Hypothese über die statistische Signifikanz des Bestimmtheitsmaßes R 2 geprüft:



H0: R2 > 0.

Um diese Hypothese zu testen, wird die folgende F-Statistik verwendet:

. (8.20)

Der Wert von F hat, sofern die LSM-Voraussetzungen erfüllt sind und H 0 gültig ist, eine Fisher-Verteilung ähnlich der Verteilung der F-Statistik (8.19). In der Tat dividiert man Zähler und Nenner des Bruchs in (8.19) durch die Gesamtsumme der quadrierten Abweichungen und wissend, dass es sich in die Summe der quadratischen Abweichungen, erklärt durch die Regression, und die Residualsumme der quadratischen Abweichungen zerlegt (dies ist, wie später gezeigt wird, eine Folge des Systems der Normalgleichungen)

,

erhalten wir die Formel (8.20):

Aus (8.20) ist ersichtlich, dass die Exponenten F und R 2 gleichzeitig gleich oder ungleich Null sind. Wenn F = 0, dann ist R 2 = 0, und die Regressionslinie Y = ist die beste OLS, und daher hängt der Wert von Y nicht linear von X 1 , X 2 , ..., X m ab. Um die Nullhypothese H 0 zu testen: F = 0 bei gegebenem Signifikanzniveau a ist gemäß den Tabellen der kritischen Punkte der Fisher-Verteilung der kritische Wert von F kr = F a ; m n-m-1 . Die Nullhypothese wird verworfen, wenn F > F cr. Dies ist äquivalent zu der Tatsache, dass R 2 > 0, d. h. R 2 ist statistisch signifikant.

Eine Analyse der Statistik F lässt uns darauf schließen, dass wir die Hypothese der gleichzeitigen Nullgleichheit aller Koeffizienten akzeptieren lineare Regression das Bestimmtheitsmaß R 2 sollte nicht wesentlich von Null abweichen. Ihr kritischer Wert nimmt mit zunehmender Zahl der Beobachtungen ab und kann beliebig klein werden.

Sei zum Beispiel bei der Bewertung einer Regression mit zwei erklärenden Variablen X 1 i , X 2 i für 30 Beobachtungen R 2 = 0,65. Dann

Anhänger = =25.07.

Gemäß den Tabellen der kritischen Punkte der Fisher-Verteilung finden wir F 0,05; 2; 27 = 3,36; F 0,01; 2; 27 = 5,49. Da F obl = 25,07 > F cr sowohl bei 5 % als auch bei 1 % Signifikanzniveau ist, wird die Nullhypothese in beiden Fällen verworfen.

Wenn in der gleichen Situation R 2 = 0,4, dann

Anhänger = = 9.

Auch hier wird die Annahme der Bedeutungslosigkeit des Zusammenhangs zurückgewiesen.

Beachten Sie, dass im Fall der paarweisen Regression das Testen der Nullhypothese für die F-Statistik dem Testen der Nullhypothese für die t-Statistik entspricht

Korrelationskoeffizient. In diesem Fall ist die F-Statistik gleich dem Quadrat der t-Statistik. Bei multipler linearer Regression erhält der Koeffizient R 2 eigenständige Bedeutung.

8.6. Varianzanalyse zur Zerlegung der Gesamtsumme der quadrierten Abweichungen. Freiheitsgrade für die entsprechenden Summen quadrierter Abweichungen

Wenden wir die obige Theorie für die paarweise lineare Regression an.

Nachdem die lineare Regressionsgleichung gefunden wurde, wird die Signifikanz sowohl der Gleichung als Ganzes als auch ihrer einzelnen Parameter bewertet.

Die Beurteilung der Signifikanz der Regressionsgleichung als Ganzes erfolgt mit dem Fisher F-Test. In diesem Fall wird eine Nullhypothese aufgestellt, dass der Regressionskoeffizient gleich Null ist, d.h. b = 0, also hat der Faktor x keinen Einfluss auf das Ergebnis y.

Der direkten Berechnung des F-Kriteriums geht eine Varianzanalyse voraus. Den zentralen Platz darin nimmt die Zerlegung der Gesamtsumme der quadrierten Abweichungen der Variablen y vom Mittelwert in zwei Teile ein - „erklärt“ und „ungeklärt“:

Gleichung (8.21) ist eine Folgerung aus dem in einem der vorherigen Themen hergeleiteten System von Normalgleichungen.

Ausdrucksbeweis (8.21).

Es bleibt zu beweisen, dass der letzte Term gleich Null ist.

Wenn Sie alle Gleichungen von 1 bis n addieren

y i = a+b×x i + e i , (8.22)

dann erhalten wir åy i = a×å1+b×åx i +åe i . Da åe i =0 und å1 =n, erhalten wir

Dann .

Wenn wir Gleichung (8.23) von Ausdruck (8.22) subtrahieren, erhalten wir

Als Ergebnis erhalten wir

Die letzten Summen sind aufgrund des Systems zweier Normalgleichungen gleich Null.

Die Gesamtsumme der quadrierten Abweichungen der Einzelwerte des effektiven Attributs y vom Durchschnittswert wird durch den Einfluss vieler Gründe verursacht. Wir unterteilen den gesamten Ursachensatz bedingt in zwei Gruppen: den untersuchten Faktor x und andere Faktoren. Hat der Faktor on keinen Einfluss auf das Ergebnis, dann verläuft die Regressionsgerade parallel zur OX-Achse und . Dann ist die gesamte Streuung des resultierenden Attributs auf den Einfluss anderer Faktoren zurückzuführen und die Gesamtsumme der quadrierten Abweichungen stimmt mit dem Residuum überein. Wenn andere Faktoren das Ergebnis nicht beeinflussen, steht y in funktionalem Zusammenhang mit x und die Residuensumme der Quadrate ist null. In diesem Fall ist die Summe der quadrierten Abweichungen, die durch die Regression erklärt werden, gleich der Summe der Quadrate.

Da nicht alle Punkte des Korrelationsfeldes auf der Regressionsgeraden liegen, erfolgt deren Streuung immer durch den Einfluss des Faktors x, d.h. Regression von y auf x, und verursacht durch die Wirkung anderer Ursachen (unerklärte Variation). Die Eignung der Regressionsgerade zur Vorhersage hängt davon ab, wie viel der Gesamtvariation des Merkmals y auf die erklärte Variation entfällt. Wenn die Summe der quadrierten Abweichungen aufgrund der Regression größer ist als die Residualsumme der Quadrate, dann ist die Regressionsgleichung offensichtlich statistisch signifikant und der x-Faktor hat einen signifikanten Einfluss auf das y-Merkmal. Dies ist gleichbedeutend damit, dass sich das Bestimmtheitsmaß der Eins nähert.

Jede Quadratsumme ist mit der Anzahl der Freiheitsgrade (df - Degrees of Freedom) verbunden, mit der Anzahl der Freiheitsgrade der unabhängigen Variation des Merkmals. Die Anzahl der Freiheitsgrade hängt mit der Anzahl der Einheiten der Grundgesamtheit n und der Anzahl der daraus bestimmten Konstanten zusammen. In Bezug auf das zu untersuchende Problem soll die Anzahl der Freiheitsgrade zeigen, wie viele unabhängige Abweichungen von n möglichen erforderlich sind, um eine gegebene Quadratsumme zu bilden. Für die Gesamtsumme der Quadrate sind also (n-1) unabhängige Abweichungen erforderlich, da in der Summe von n Einheiten nach Berechnung des Durchschnitts nur (n-1) die Anzahl der Abweichungen frei variiert. Zum Beispiel haben wir eine Reihe von y-Werten: 1,2,3,4,5. Der Durchschnitt von ihnen ist 3, und dann sind n Abweichungen vom Durchschnitt: -2, -1, 0, 1, 2. Da dann nur vier Abweichungen frei variieren und die fünfte Abweichung bestimmt werden kann, wenn die vorherigen vier es sind bekannt.

Bei der Berechnung der erklärten oder faktoriellen Summe der Quadrate theoretische (berechnete) Werte des effektiven Merkmals verwendet werden

Dann ist die Summe der quadratischen Abweichungen aufgrund der linearen Regression gleich

Da bei einer gegebenen Anzahl von Beobachtungen in x und y die faktorielle Summe der Quadrate bei der linearen Regression nur von der Regressionskonstante b abhängt, hat diese Summe der Quadrate nur einen Freiheitsgrad.

Es besteht eine Gleichheit zwischen der Anzahl der Freiheitsgrade der Gesamt-, Fakultäts- und Residuensumme der quadratischen Abweichungen. Die Anzahl der Freiheitsgrade der Summe der Quadrate der Residuen in der linearen Regression ist n-2. Die Anzahl der Freiheitsgrade der Gesamtquadratsumme wird durch die Anzahl der Einheiten variabler Merkmale bestimmt, und da wir den aus den Stichprobendaten berechneten Durchschnitt verwenden, verlieren wir einen Freiheitsgrad, d. h. df insgesamt = n–1.

Wir haben also zwei Gleichheiten:

Dividiert man jede Quadratsumme durch die Anzahl der ihr entsprechenden Freiheitsgrade, erhält man das mittlere Quadrat der Abweichungen oder äquivalent die Varianz pro Freiheitsgrad D.

;

;

.

Die Bestimmung der Streuung pro Freiheitsgrad bringt die Streuungen in eine vergleichbare Form. Durch Vergleich der faktoriellen und der verbleibenden Varianzen pro Freiheitsgrad erhalten wir den Wert des F-Kriteriums von Fisher

wobei F-Kriterium zum Testen der Nullhypothese H 0: D Tatsache = D Ruhe.

Wenn die Nullhypothese wahr ist, dann unterscheiden sich die faktorielle und die Residuenvarianz nicht voneinander. Für H 0 ist eine Widerlegung notwendig, damit die Faktorvarianz das Residuum um ein Vielfaches übersteigt. Der englische Statistiker Snedekor entwickelte Tabellen kritischer Werte von F-Verhältnissen für verschiedene Signifikanzniveaus der Nullhypothese und verschiedene Freiheitsgrade. Der Tabellenwert des F-Kriteriums ist der Maximalwert des Verhältnisses der Varianzen, die auftreten können, wenn sie zufällig divergieren gegebenes Niveau die Wahrscheinlichkeit, eine Nullhypothese zu haben. Der errechnete Wert des F-Verhältnisses wird als zuverlässig anerkannt, wenn er größer ist als der tabellarische. Wenn F Fakt > F Tabelle, dann wird die Nullhypothese H 0 : D Fakt = D Rest über das Fehlen einer Merkmalsbeziehung verworfen und auf die Signifikanz dieser Beziehung geschlossen.

Wenn F eine Tatsache ist< F табл, то вероятность нулевой гипотезы H 0: D факт = D ост выше заданного уровня (например, 0,05) и она не может быть отклонена без серьёзного риска сделать falsche Schlussfolgerungüber die Verbindung. In diesem Fall wird die Regressionsgleichung als statistisch unbedeutend angesehen. Die Hypothese H 0 wird nicht verworfen.

In diesem Beispiel aus Kapitel 3:

\u003d 131200 -7 * 144002 \u003d 30400 - die Gesamtsumme der Quadrate;

1057,878*(135,43-7*(3,92571) 2) = 28979,8 - Faktor Summe der Quadrate;

\u003d 30400-28979,8 \u003d 1420,197 - Restquadratsumme;

D Tatsache = 28979,8;

D Rest \u003d 1420,197 / (n-2) \u003d 284,0394;

F-Tatsache \u003d 28979,8 / 284,0394 \u003d 102,0274;

Fa = 0,05; 2; 5 = 6,61; Fa = 0,01; 2; 5 = 16,26.

Da F fact > F table sowohl bei 1 % als auch bei 5 % Signifikanzniveau ist, können wir schlussfolgern, dass die Regressionsgleichung signifikant ist (die Beziehung ist bewiesen).

Der Wert des F-Kriteriums hängt mit dem Bestimmtheitsmaß zusammen. Die Faktorsumme der quadrierten Abweichungen kann dargestellt werden als

,

und die Residualsumme der Quadrate als

.

Dann kann der Wert des F-Kriteriums ausgedrückt werden als

.

Eine Einschätzung der Signifikanz einer Regression erfolgt in der Regel in Form einer Varianzanalysetabelle

, ihr Wert wird bei einem bestimmten Signifikanzniveau α und der Anzahl der Freiheitsgrade (n-2) mit dem Tabellenwert verglichen.
Variationsquellen Anzahl der Freiheitsgrade Summe der quadrierten Abweichungen Streuung pro Freiheitsgrad F-Verhältnis
tatsächlich Tabellarisch bei a = 0,05
Allgemein
Erklärt 28979,8 28979,8 102,0274 6,61
Restwert 1420,197 284,0394

Abschlussprüfungen in Ökonometrie

1. Die Bewertung der Signifikanz der Parameter der Regressionsgleichung erfolgt anhand von:

A) t - Schülerkriterium;

b) F-Kriterium von Fisher - Snedekor;

c) mittlerer quadratischer Fehler;

G) durchschnittlicher Fehler Annäherungen.

2. Der Regressionskoeffizient in der Gleichung, die das Verhältnis zwischen dem Umsatzvolumen (Millionen Rubel) und dem Gewinn von Unternehmen in der Automobilindustrie für das Jahr (Millionen Rubel) charakterisiert, bedeutet, dass das Umsatzvolumen um steigt 1 Millionen Rubel Gewinnsteigerungen um:

d) 0,5 Millionen reiben.;

c) 500.000. reiben.;

D) 1,5 Millionen Rubel

3. Korrelationsverhältnis (Korrelationsindex) misst den Grad der Nähe der Beziehung zwischen X undY:

a) nur bei nichtlinearer Abhängigkeit;

B) mit jeder Form von Sucht;

c) nur wann lineare Abhängigkeit.

4. In Richtung Kommunikation gibt es:

a) moderat;

B) gerade;

c) geradlinig.

5. Basierend auf 17 Beobachtungen wurde eine Regressionsgleichung erstellt:
.
Um die Signifikanz der Gleichung zu überprüfen, haben wir gerechnetbeobachteter Wertt- Statistik: 3.9. Fazit:

A) Die Gleichung ist signifikant für a = 0,05;

b) Die Gleichung ist bei a = 0,01 unbedeutend;

c) Die Gleichung ist bei a = 0,05 nicht signifikant.

6. Was sind die Folgen einer Verletzung der OLS-Annahme „Die Erwartung von Regressionsresiduen ist Null“?

A) Voreingenommene Schätzungen von Regressionskoeffizienten;

b) Effiziente, aber inkonsistente Schätzungen von Regressionskoeffizienten;

c) ineffiziente Schätzungen von Regressionskoeffizienten;

d) Inkonsistente Schätzungen der Regressionskoeffizienten.

7. Welche der folgenden Aussagen trifft auf Heteroskedastizität von Residuen zu?

A) Schlussfolgerungen zu t- und F-Statistiken sind unzuverlässig;

d) Schätzungen der Parameter der Regressionsgleichung sind verzerrt.

8. Worauf basiert der Test? Rangkorrelation Speermann?

A) Zur Verwendung von t-Statistiken;

c) Bei der Verwendung ;

9. Worauf basiert der Weißtest?

b) Zur Verwendung von F-Statistiken;

B) im Einsatz ;

d) Zur grafischen Analyse der Residuen.

10. Welche Methode kann verwendet werden, um die Autokorrelation zu eliminieren?

11. Wie nennt man die Verletzung der Annahme der Konstanz der Varianz der Residuen?

a) Multikollinearität;

b) Autokorrelation;

B) Heteroskedastizität;

d) Homoskedastizität.

12. Dummy-Variablen werden eingeführt in:

a) nur in linearen Modellen;

b) nur in multipler nichtlinearer Regression;

c) nur in nichtlinearen Modellen;

D) sowohl lineare als auch nichtlineare Modelle auf eine lineare Form reduziert.

13. Wenn es in der Matrix paarweise Korrelationskoeffizienten gibt
, dann zeigt dies:

A) Über das Vorhandensein von Multikollinearität;

b) Über die Abwesenheit von Multikollinearität;

c) über das Vorhandensein von Autokorrelation;

d) Über die Abwesenheit von Heteroskedastizität.

14. Welche Maßnahme ist unmöglich, um Multikollinearität loszuwerden?

a) Erhöhung der Stichprobengröße;

D) Transformation der Zufallskomponente.

15. Wenn
und der Rang der Matrix A kleiner als (K-1) ist, dann gilt die Gleichung:

a) überidentifiziert;

B) nicht identifiziert;

c) genau identifiziert.

16. Die Regressionsgleichung sieht folgendermaßen aus:

ABER)
;

b)
;

in)
.

17. Was ist das Problem der Modellidentifikation?

A) Erhalten eindeutig definierter Parameter des Modells, das durch das System simultaner Gleichungen gegeben ist;

b) Auswahl und Implementierung von Methoden zur statistischen Schätzung unbekannter Parameter des Modells gemäß den anfänglichen statistischen Daten;

c) Überprüfung der Angemessenheit des Modells.

18. Welche Methode wird verwendet, um die Parameter einer überidentifizierten Gleichung zu schätzen?

C) DMNK,KMNK;

19. Wenn eine qualitative Variable hatkalternative Werte, dann verwendet die Simulation:

A) (k-1) Dummy-Variable;

b) kDummy-Variablen;

c) (k+1) Dummy-Variable.

20. Die Analyse der Nähe und Richtung der Verbindungen zweier Zeichen erfolgt auf der Grundlage von:

A) Paarkorrelationskoeffizient;

b) Bestimmtheitsmaß;

c) multipler Korrelationskoeffizient.

21. In einer linearen Gleichung x = a 0 +a 1 x Regressionskoeffizient zeigt:

a) die Nähe der Verbindung;

b) Varianzanteil „Y“ abhängig von „X“;

C) wie viel "Y" sich durchschnittlich ändert, wenn sich "X" um eine Einheit ändert;

d) Korrelationskoeffizientenfehler.

22. Welcher Indikator wird verwendet, um den Teil der Variation zu bestimmen, der auf eine Änderung des Werts des untersuchten Faktors zurückzuführen ist?

a) Variationskoeffizient;

b) Korrelationskoeffizient;

C) Bestimmtheitsmaß;

d) Elastizitätskoeffizient.

23. Der Elastizitätskoeffizient zeigt:

A) um wie viel % ändert sich der Wert von y, wenn sich x um 1 % ändert;

b) um wie viele Maßeinheiten sich der Wert von y ändert, wenn sich x um 1 % ändert;

c) um wie viel % ändert sich der Wert von y, wenn sich x um eine Einheit ändert. Ihre Messung.

24. Welche Methoden können angewendet werden, um Heteroskedastizität zu erkennen??

A) Golffeld-Quandt-Test;

B) Rangkorrelationstest nach Spearman;

c) Durbin-Watson-Test.

25. Was ist die Grundlage des Golffeld-Quandt-Tests?

a) Zur Verwendung von t-Statistiken;

B) Zur Verwendung von F - Statistiken;

c) Bei der Verwendung ;

d) Zur grafischen Analyse der Residuen.

26. Welche Methoden können nicht verwendet werden, um die Autokorrelation von Residuen zu eliminieren?

a) Verallgemeinerte Methode kleinsten Quadrate;

B) Methode der gewichteten kleinsten Quadrate;

C) die Maximum-Likelihood-Methode;

D) Zweistufige Methode der kleinsten Quadrate.

27. Wie nennt man die Verletzung der Annahme der Unabhängigkeit von Residuen?

a) Multikollinearität;

B) Autokorrelation;

c) Heteroskedastizität;

d) Homoskedastizität.

28. Welche Methode kann verwendet werden, um Heteroskedastizität zu beseitigen?

A) Verallgemeinerte Methode der kleinsten Quadrate;

b) Methode der gewichteten kleinsten Quadrate;

c) die Maximum-Likelihood-Methode;

d) Zweistufiges Verfahren der kleinsten Quadrate.

30. Wenn bist-Kriterium sind die meisten Regressionskoeffizienten statistisch signifikant, und das Modell als GanzesF- Das Kriterium ist unbedeutend, dann kann dies bedeuten:

a) Multikollinearität;

B) Zur Autokorrelation von Residuen;

c) Zur Heteroskedastizität von Resten;

d) Diese Option ist nicht möglich.

31. Ist es möglich, Multikollinearität durch Transformation von Variablen zu beseitigen?

a) Diese Maßnahme greift nur, wenn die Stichprobengröße erhöht wird;

32. Welche Methode kann verwendet werden, um Schätzungen des Parameters der linearen Regressionsgleichung zu finden:

A) die Methode der kleinsten Quadrate;

b) Korrelations- und Regressionsanalyse;

c) Varianzanalyse.

33. Eine multiple lineare Regressionsgleichung mit Dummy-Variablen wird konstruiert. Um die Signifikanz einzelner Koeffizienten zu überprüfen, verwenden wir Verteilung:

a) normal;

b) Student;

c) Pearson;

d) Fischer-Snedekor.

34. Wenn
und der Rang der Matrix A größer als (K-1) ist, dann gilt die Gleichung:

A) überidentifiziert;

b) nicht identifiziert;

c) genau identifiziert.

35. Um die Parameter eines genau identifizierbaren Gleichungssystems zu schätzen, wird Folgendes verwendet:

a) DMNK, KMNK;

b) DMNK, MNK, KMNK;

36. Chows Kriterium basiert auf der Anwendung von:

A) F - Statistik;

b) t - Statistik;

c) Durbin-Watson-Kriterien.

37. Dummy-Variablen können folgende Werte annehmen:

d) beliebige Werte.

39. Basierend auf 20 Beobachtungen wurde eine Regressionsgleichung erstellt:
.
Um die Signifikanz der Gleichung zu überprüfen, wird der Wert der Statistik berechnet:4.2. Schlussfolgerungen:

a) Die Gleichung ist signifikant bei a=0,05;

b) Die Gleichung ist bei a=0,05 nicht signifikant;

c) Die Gleichung ist bei a=0,01 nicht signifikant.

40. Welche der folgenden Aussagen ist nicht wahr, wenn die Residuen heteroskedastisch sind?

a) Schlussfolgerungen zu t- und F-Statistiken sind unzuverlässig;

b) Heteroskedastizität manifestiert sich durch den geringen Wert der Durbin-Watson-Statistik;

c) Bei Heteroskedastizität bleiben Schätzungen effektiv;

d) Schätzungen sind verzerrt.

41. Der Chow-Test basiert auf einem Vergleich:

A) Dispersionen;

b) Bestimmtheitsmaße;

c) mathematische Erwartungen;

d) mittel.

42. Wenn im Chow-Test
dann gilt:

A) dass die Partitionierung in Teilintervalle vom Standpunkt der Verbesserung der Modellqualität aus nützlich ist;

b) das Modell ist statistisch nicht signifikant;

c) das Modell ist statistisch signifikant;

d) dass es keinen Sinn macht, die Probe in Teile aufzuteilen.

43. Dummy-Variablen sind Variablen:

eine Qualität;

b) zufällig;

B) quantitativ;

d) logisch.

44. Welche der folgenden Methoden kann nicht zur Erkennung von Autokorrelation verwendet werden?

a) Reihenverfahren;

b) Durbin-Watson-Test;

c) Rangkorrelationstest nach Spearman;

D) Weißer Test.

45. Die einfachste Strukturform des Modells ist:

ABER)

b)

in)

G)
.

46. ​​​​Welche Maßnahmen können ergriffen werden, um Multikollinearität loszuwerden?

a) Erhöhung der Stichprobengröße;

b) Ausschluss von Variablen, die stark mit dem Rest korrelieren;

c) Änderung der Modellspezifikation;

d) Transformation der Zufallskomponente.

47. Wenn
und der Rang der Matrix A ist (K-1) dann die Gleichung:

a) überidentifiziert;

b) nicht identifiziert;

B) genau identifiziert;

48. Ein Modell gilt als identifiziert, wenn:

a) unter den Gleichungen des Modells gibt es mindestens eine normale;

B) jede Gleichung des Systems ist identifizierbar;

c) unter den Modellgleichungen gibt es mindestens eine nicht identifizierte;

d) unter den Gleichungen des Modells ist mindestens eine überidentifiziert.

49. Welche Methode wird verwendet, um die Parameter einer nicht identifizierten Gleichung zu schätzen?

a) DMNK, KMNK;

b) DMNC, MNC;

C) Die Parameter einer solchen Gleichung können nicht geschätzt werden.

50. An der Schnittstelle welcher Wissensgebiete entstand die Ökonometrie:

A) Wirtschaftstheorie; wirtschaftliche und mathematische Statistik;

b) Wirtschaftstheorie, mathematische Statistik und Wahrscheinlichkeitstheorie;

c) wirtschaftliche und mathematische Statistik, Wahrscheinlichkeitstheorie.

51. In der multiplen linearen Regressionsgleichung werden Konfidenzintervalle für die Regressionskoeffizienten unter Verwendung der Verteilung gebildet:

a) normal;

B) Student;

c) Pearson;

d) Fischer-Snedekor.

52. Basierend auf 16 Beobachtungen wurde eine gepaarte lineare Regressionsgleichung konstruiert. ZumSignifikanzprüfung des Regressionskoeffizienten berechnett für 6l =2.5.

a) Der Koeffizient ist bei a=0,05 unbedeutend;

b) Der Koeffizient ist bei a=0,05 signifikant;

c) Der Koeffizient ist bei a=0,01 signifikant.

53. Es ist bekannt, dass zwischen MengenXundYexistiertpositive Verbindung. Inwieweitist der paarweise Korrelationskoeffizient?

a) von -1 bis 0;

b) von 0 bis 1;

C) von -1 bis 1.

54. Der multiple Korrelationskoeffizient beträgt 0,9. Wieviel ProzentDie Streuung des resultierenden Attributs wird durch den Einfluss aller erklärtFaktor Eigenschaften?

55. Welche der folgenden Methoden kann nicht zum Nachweis von Heteroskedastizität verwendet werden??

A) Golffeld-Quandt-Test;

b) Rangkorrelationstest nach Spearman;

c) Reihenmethode.

56. Die gegebene Form des Modells ist:

a) ein System nichtlinearer Funktionen exogener Variablen von endogenen;

B) ein System linearer Funktionen von endogenen Variablen von exogenen;

c) ein System linearer Funktionen exogener Variablen von endogenen;

d) ein System von Normalgleichungen.

57. Innerhalb welcher Grenzen ändert sich der durch rekursive Formeln berechnete partielle Korrelationskoeffizient?

a) von - bis + ;

b) von 0 bis 1;

c) von 0 bis + ;

D) von -1 bis +1.

58. Innerhalb welcher Grenzen ändert sich der durch das Bestimmtheitsmaß berechnete partielle Korrelationskoeffizient?

a) von - bis + ;

B) von 0 bis 1;

c) von 0 bis + ;

d) von –1 bis +1.

59. Exogene Variablen:

a) abhängige Variablen;

B) unabhängige Variablen;

61. Beim Hinzufügen eines weiteren erklärenden Faktors zur Regressionsgleichung, dem multiplen Korrelationskoeffizienten:

a) sinkt

b) wird zunehmen;

c) seinen Wert behalten.

62. Eine hyperbolische Regressionsgleichung wurde erstellt:Y= a+ b/ X. ZumDer Signifikanztest der Gleichung verwendet die Verteilung:

a) normal;

B) Student;

c) Pearson;

d) Fischer-Snedekor.

63. Für welche Arten von Systemen können die Parameter einzelner ökonometrischer Gleichungen mit der traditionellen Methode der kleinsten Quadrate gefunden werden?

a) ein System von Normalgleichungen;

B) ein System unabhängiger Gleichungen;

C) ein System rekursiver Gleichungen;

D) ein System voneinander abhängiger Gleichungen.

64. Endogene Variablen:

A) abhängige Variablen;

b) unabhängige Variablen;

c) von früheren Zeitpunkten datiert.

65. Innerhalb welcher Grenzen ändert sich das Bestimmtheitsmaß?

a) von 0 bis + ;

b) von - bis + ;

C) von 0 bis +1;

d) von -1 bis +1.

66. Es wurde eine multiple lineare Regressionsgleichung erstellt. Um die Signifikanz einzelner Koeffizienten zu überprüfen, verwenden wir Verteilung:

a) normal;

b) Student;

c) Pearson;

D) Fischer-Snedekor.

67. Wenn der Regressionsgleichung ein weiterer erklärender Faktor hinzugefügt wird, das Bestimmtheitsmaß:

a) sinkt

B) wird zunehmen;

c) ihren Wert behalten;

d) wird nicht abnehmen.

68. Das Wesentliche der Methode der kleinsten Quadrate ist Folgendes:

A) die Schätzung wird aus der Bedingung bestimmt, dass die Summe der quadrierten Abweichungen der Probendaten von der bestimmten Schätzung minimiert wird;

b) die Schätzung wird aus der Bedingung bestimmt, dass die Summe der Abweichungen von Probendaten von der bestimmten Schätzung minimiert wird;

c) die Schätzung wird aus der Bedingung bestimmt, dass die Summe der quadrierten Abweichungen des Stichprobenmittelwerts von der Stichprobenvarianz minimiert wird.

69. Zu welcher Klasse nichtlinearer Regressionen gehört die Parabel:

73. Zu welcher Klasse nichtlinearer Regressionen gehört die Exponentialkurve:

74. Zu welcher Klasse nichtlinearer Regressionen gehört eine Funktion der Form ŷ?
:

A) Regressionen, die in Bezug auf die in die Analyse einbezogenen Variablen nichtlinear, aber in Bezug auf die geschätzten Parameter linear sind;

b) nichtlineare Regressionen der geschätzten Parameter.

78. Zu welcher Klasse nichtlinearer Regressionen gehört eine Funktion der Form ŷ?
:

a) Regressionen, die in Bezug auf die in die Analyse einbezogenen Variablen nichtlinear, aber in Bezug auf die geschätzten Parameter linear sind;

B) nichtlineare Regressionen auf die geschätzten Parameter.

79. In der Regressionsgleichung in Form einer Hyperbel ŷ
wenn der Wert
b >0 , dann:

A) mit einer Erhöhung des Faktors Merkmal X der Wert des resultierenden Attributs bei langsam abnehmen und x→∞ Durchschnittswert bei wird gleich sein a;

b) der Wert des effektiven Merkmals bei steigt mit langsamem Wachstum mit einer Erhöhung des Faktors Merkmal X, und bei x→∞

81. Der Elastizitätskoeffizient wird durch die Formel bestimmt

A) Lineare Funktion;

b) Parabeln;

c) Hyperbeln;

d) Exponentialkurve;

e) Leistung.

82. Der Elastizitätskoeffizient wird durch die Formel bestimmt
für ein Regressionsmodell in der Form:

a) Lineare Funktion;

B) Parabeln;

c) Hyperbeln;

d) Exponentialkurve;

e) Leistung.

86. Gleichung
genannt:

A) ein linearer Trend

b) parabolischer Trend;

c) hyperbolischer Trend;

d) exponentieller Trend.

89. Gleichung
genannt:

a) ein linearer Trend;

b) parabolischer Trend;

c) hyperbolischer Trend;

D) ein exponentieller Trend.

90. Systemansichten genannt:

A) ein System unabhängiger Gleichungen;

b) ein System rekursiver Gleichungen;

c) ein System voneinander abhängiger (gleichzeitiger, gleichzeitiger) Gleichungen.

93. Ökonometrie kann definiert werden als:

A) Es ist eine unabhängige wissenschaftliche Disziplin, die eine Reihe von theoretischen Ergebnissen, Techniken, Methoden und Modellen kombiniert, die darauf ausgelegt sind, auf der Grundlage von Wirtschaftstheorie, Wirtschaftsstatistik und mathematischen und statistischen Werkzeugen allgemeinen (qualitativen) Mustern einen spezifischen quantitativen Ausdruck zu verleihen aufgrund der Wirtschaftstheorie;

B) die Wissenschaft der ökonomischen Messungen;

C) statistische Analyse von Wirtschaftsdaten.

94. Zu den Aufgaben der Ökonometrie gehören:

A) Prognose wirtschaftlicher und sozioökonomischer Indikatoren, die den Zustand und die Entwicklung des analysierten Systems charakterisieren;

B) Simulation möglicher Szenarien für die sozioökonomische Entwicklung des Systems, um zu ermitteln, wie sich die geplanten Änderungen bestimmter überschaubarer Parameter auf die Leistungsmerkmale auswirken werden;

c) Testen von Hypothesen anhand statistischer Daten.

95. Beziehungen unterscheiden sich durch ihre Art:

A) Funktion und Korrelation;

b) funktional, krummlinig und geradlinig;

c) Korrelation und Inverse;

d) statistisch und direkt.

96. Bei einem direkten Zusammenhang mit einer Erhöhung eines Faktormerkmals:

a) das effektive Vorzeichen nimmt ab;

b) das effektive Attribut ändert sich nicht;

C) der Leistungsindikator steigt.

97. Welche Methoden werden verwendet, um das Vorhandensein, die Art und die Richtung von Assoziationen in der Statistik zu identifizieren?

a) Durchschnittswerte;

B) Vergleich paralleler Reihen;

C) analytische Gruppierungsmethode;

d) relative Werte;

D) grafische Methode.

98. Welche Methode wird verwendet, um die Formen des Einflusses einiger Faktoren auf andere zu identifizieren?

a) Korrelationsanalyse;

B) Regressionsanalyse;

c) Indexanalyse;

d) Varianzanalyse.

99. Welche Methode wird verwendet, um die Stärke der Auswirkung einiger Faktoren auf andere zu quantifizieren:

A) Korrelationsanalyse;

b) Regressionsanalyse;

c) die Mittelwertmethode;

d) Varianzanalyse.

100. Welche Indikatoren in ihrer Größenordnung gibt es im Bereich von minus bis plus eins:

a) Bestimmtheitsmaß;

b) Korrelationsverhältnis;

BEI) linearer Koeffizient Korrelationen.

101. Der Regressionskoeffizient für ein Einfaktormodell zeigt:

A) um wie viele Einheiten sich die Funktion ändert, wenn sich das Argument um eine Einheit ändert;

b) um wie viel Prozent sich die Funktion pro Einheitsänderung im Argument ändert.

102. Der Elastizitätskoeffizient zeigt:

a) um wie viel Prozent ändert sich die Funktion bei einer Änderung des Arguments um eine Maßeinheit;

B) um wie viel Prozent ändert sich die Funktion bei einer Änderung des Arguments um 1 %;

c) um wie viele Einheiten ihrer Maßeinheit sich die Funktion bei einer Änderung des Arguments um 1 % ändert.

105. Der Wert des Korrelationsindex von 0,087 bedeutet:

A) über ihre schwache Abhängigkeit;

b) eine starke Beziehung;

c) Rechenfehler.

107. Der Wert des Paarkorrelationskoeffizienten von 1,12 bedeutet:

a) über ihre schwache Abhängigkeit;

b) eine starke Beziehung;

C) über Rechenfehler.

109. Welche der angegebenen Zahlen können die Werte des Paarkorrelationskoeffizienten sein:

111. Welche der angegebenen Zahlen können die Werte des multiplen Korrelationskoeffizienten sein:

115. Markieren Sie die richtige Form lineare Gleichung Regressionen:

wie
;

durch
;

c) ŷ
;

D) ŷ
.

Abschätzung der Bedeutung einer Gleichung multiple Regression

Die Konstruktion einer empirischen Regressionsgleichung ist Erstphaseökonometrische Analyse. Die erste Regressionsgleichung, die auf der Grundlage einer Stichprobe erstellt wird, ist sehr selten in Bezug auf das eine oder andere Merkmal zufriedenstellend. Daher besteht die nächstwichtige Aufgabe der ökonometrischen Analyse darin, die Qualität der Regressionsgleichung zu überprüfen. In der Ökonometrie wird ein etabliertes Schema für eine solche Überprüfung übernommen.

Die Überprüfung der statistischen Qualität der geschätzten Regressionsgleichung erfolgt also in folgenden Bereichen:

Überprüfung der Signifikanz der Regressionsgleichung;

Überprüfung der statistischen Signifikanz der Koeffizienten der Regressionsgleichung;

Überprüfung der Eigenschaften der Daten, deren Machbarkeit bei der Auswertung der Gleichung angenommen wurde (Prüfung der Machbarkeit der LSM-Voraussetzungen).

Die Überprüfung der Signifikanz der multiplen Regressionsgleichung sowie der gepaarten Regression erfolgt anhand des Fisher-Kriteriums. In diesem Fall wird (anders als bei der paarweisen Regression) die Nullhypothese aufgestellt H 0 dass alle Regressionskoeffizienten gleich Null sind ( b 1=0, b 2=0, … , b m=0). Das Fisher-Kriterium wird durch die folgende Formel bestimmt:

wo D Tatsache - faktorielle Varianz, erklärt durch Regression, pro Freiheitsgrad; D os – Restdispersion pro Freiheitsgrad; R2- Koeffizient der Mehrfachbestimmung; t X in der Regressionsgleichung (in der gepaarten linearen Regression t= 1); P - Anzahl Beobachtungen.

Der erhaltene Wert des F-Kriteriums wird bei einem bestimmten Signifikanzniveau mit dem Tabellenwert verglichen. Wenn sein tatsächlicher Wert größer ist als der Tabellenwert, dann gilt die Hypothese Aberüber die Bedeutungslosigkeit der Regressionsgleichung wird verworfen und eine Alternativhypothese über ihre statistische Signifikanz akzeptiert.

Unter Verwendung des Fisher-Kriteriums kann nicht nur die Signifikanz der Regressionsgleichung als Ganzes bewertet werden, sondern auch die Signifikanz der zusätzlichen Einbeziehung jedes Faktors in das Modell. Eine solche Bewertung ist notwendig, um das Modell nicht mit Faktoren zu belasten, die das Ergebnis nicht wesentlich beeinflussen. Da das Modell aus mehreren Faktoren besteht, können diese außerdem in unterschiedlicher Reihenfolge in das Modell eingeführt werden, und da eine Korrelation zwischen den Faktoren besteht, kann die Bedeutung der Einbeziehung desselben Faktors in das Modell je nach Reihenfolge unterschiedlich sein die Faktoren wurden darin eingeführt.

Um die Signifikanz der Einbeziehung eines zusätzlichen Faktors in das Modell zu beurteilen, wird Fishers privates Kriterium berechnet Fxi. Es basiert auf dem Vergleich der Zunahme der faktoriellen Varianz aufgrund der Einbeziehung eines zusätzlichen Faktors in das Modell mit der Restvarianz pro Freiheitsgrad für die Regression als Ganzes. Daher die Berechnungsformel privates F-Kriterium für den Faktor sieht so aus:

wo R 2 yx 1 x 2… xi … xp - Multideterminationskoeffizient für ein Modell mit vollem Satz P Faktoren ; R 2 yx 1 x 2… x ich -1 x ich +1… xp- Mehrfachbestimmtheit für ein Modell ohne Faktor x ich;P- Anzahl der Beobachtungen; t- Anzahl der Parameter bei Faktoren x in der Regressionsgleichung.

Der tatsächliche Wert des Fisher-Teilkriteriums wird mit dem tabellarischen auf einem Signifikanzniveau von 0,05 oder 0,1 und den entsprechenden Anzahlen von Freiheitsgraden verglichen. Wenn der tatsächliche Wert Fxiübersteigt F-Tabelle, dann die zusätzliche Einbeziehung des Faktors x ich in das Modell statistisch begründet ist, und der "reine" Regressionskoeffizient b ich mit Faktor x ich statistisch signifikant. Wenn Fxi weniger F-Tabelle, dann erhöht die zusätzliche Einbeziehung des Faktors in das Modell den Anteil der erklärten Variation des Ergebnisses nicht signifikant y, und daher seine Einbeziehung in das Modell nicht sinnvoll ist, ist der Regressionskoeffizient für diesen Faktor in diesem Fall statistisch nicht signifikant.

Der partielle Test nach Fisher kann die Signifikanz aller Regressionskoeffizienten testen, wobei angenommen wird, dass jeder Faktor korrespondiert x ich zuletzt in die multiple Regressionsgleichung eingegeben wird und alle anderen Faktoren bereits vorher in das Modell aufgenommen wurden.

Abschätzung der Signifikanz der "reinen" Regressionskoeffizienten b ich an Schülerkriterium t kann ohne private Berechnung durchgeführt werden F-Kriterien. In diesem Fall wird wie bei der gepaarten Regression die Formel für jeden Faktor angewendet

t bi = b ich / m bi ,

wo b ich- Koeffizient der "reinen" Regression mit einem Faktor x ich ; m bi- Standardfehler des Regressionskoeffizienten b ich .

Sie können die Signifikanz der Parameter der Regressionsgleichung mithilfe der t-Statistik überprüfen.

Übung:
Für eine Gruppe von Unternehmen, die die gleiche Art von Produkten herstellen, werden folgende Kostenfunktionen betrachtet:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
wobei y die Produktionskosten in Tausend Kubikeinheiten sind.
x - Ausgabe, Tausend Einheiten.

Erforderlich:
1. Erstellen Sie paarweise Regressionsgleichungen y aus x:

  • linear;
  • Energie;
  • indikativ;
  • gleichseitige Hyperbel.
2. Berechnen Sie den linearen Paarkorrelationskoeffizienten und das Bestimmtheitsmaß. Schlussfolgern.
3. Bewerten Sie die statistische Signifikanz der Regressionsgleichung als Ganzes.
4. Bewerten Sie die statistische Signifikanz der Regressions- und Korrelationsparameter.
5. Führen Sie eine Prognose der Produktionskosten mit einer prognostizierten Leistung von 195 % des Durchschnittsniveaus durch.
6. Beurteilen Sie die Genauigkeit der Prognose, berechnen Sie den Prognosefehler und Konfidenzintervall.
7. Bewerten Sie das Modell anhand des durchschnittlichen Approximationsfehlers.

Lösung:

1. Die Gleichung hat die Form y = α + βx
1. Parameter der Regressionsgleichung.
Durchschnitte

Streuung

Standardabweichung

Korrelationskoeffizient

Die Beziehung zwischen Merkmal Y und Faktor X ist stark und direkt
Regressionsgleichung

Bestimmtheitsmaß
R 2 = 0,94 2 = 0,89, d.h. in 88,9774 % der Fälle führen Änderungen von x zu einer Änderung von y. Mit anderen Worten – die Genauigkeit der Auswahl der Regressionsgleichung ist hoch

x j x2 y2 x y y(x) (j-j cp) 2 (y-y(x)) 2 (x-xp) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Hinweis: y(x)-Werte werden aus der resultierenden Regressionsgleichung ermittelt:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

2. Schätzen der Parameter der Regressionsgleichung
Bedeutung des Korrelationskoeffizienten

Gemäß der Student-Tabelle finden wir Ttable
T-Tabelle (n-m-1; α / 2) \u003d (11; 0,05 / 2) \u003d 1,796
Da Tobs > Ttabl, verwerfen wir die Hypothese, dass der Korrelationskoeffizient gleich 0 ist. Mit anderen Worten, der Korrelationskoeffizient ist statistisch signifikant.

Analyse der Genauigkeit der Bestimmung von Schätzungen von Regressionskoeffizienten





Sa = 0,1712
Konfidenzintervalle für die abhängige Variable

Lassen Sie uns die Grenzen des Intervalls berechnen, in dem 95% der möglichen Werte von Y für eine unbegrenzte Anzahl von Beobachtungen und X = 1 konzentriert werden
(-20.41;56.24)
Hypothesentest bezüglich der Koeffizienten der linearen Regressionsgleichung
1) t-Statistik


Die statistische Signifikanz des Regressionskoeffizienten a wird bestätigt

Die statistische Signifikanz des Regressionskoeffizienten b wird nicht bestätigt
Konfidenzintervall für Koeffizienten der Regressionsgleichung
Lassen Sie uns die Konfidenzintervalle der Regressionskoeffizienten bestimmen, die mit 95%iger Zuverlässigkeit wie folgt sein werden:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
wobei t = 1,796
2) F-Statistik


fpp = 4,84
Da F > Fkp ist, ist das Bestimmtheitsmaß statistisch signifikant

THEMA 4. STATISTISCHE METHODEN ZUR UNTERSUCHUNG VON BEZIEHUNGEN

Regressionsgleichung - dies ist eine analytische Darstellung der Korrelationsabhängigkeit. Die Regressionsgleichung beschreibt einen hypothetischen funktionalen Zusammenhang zwischen dem bedingten Mittelwert des effektiven Merkmals und dem Wert des Merkmals - Faktor (Faktoren), d.h. der zugrunde liegende Trend der Sucht.

Die Paarkorrelationsabhängigkeit wird durch die Paarregressionsgleichung beschrieben, die Mehrfachkorrelationsabhängigkeit - durch die Mehrfachregressionsgleichung.

Das Merkmalsergebnis in der Regressionsgleichung ist die abhängige Variable (Antwort, erklärende Variable), und der Merkmalsfaktor ist die unabhängige Variable (Argument, erklärende Variable).

Die einfachste Art von Regressionsgleichung ist die Gleichung einer gepaarten linearen Beziehung:

wobei y die abhängige Variable ist (Vorzeichenergebnis); x ist eine unabhängige Variable (Vorzeichenfaktor); und sind die Parameter der Regressionsgleichung; - Schätzungsfehler.

Als Regressionsgleichung können verschiedene mathematische Funktionen verwendet werden. Die Gleichungen der linearen Abhängigkeit, Parabel, Hyperbel, Steppenfunktion usw. finden häufig praktische Anwendung.

In der Regel beginnt die Analyse mit einem linearen Zusammenhang, da die Ergebnisse leicht sinnvoll zu interpretieren sind. Die Wahl des Typs der Nebenbedingungsgleichung ist ein ziemlich wichtiger Schritt in der Analyse. In der „Vor-Computer“-Ära war dieses Verfahren mit gewissen Schwierigkeiten verbunden und verlangte vom Analytiker, die Eigenschaften mathematischer Funktionen zu kennen. Gegenwärtig ist es auf der Grundlage spezialisierter Programme möglich, schnell eine Reihe von Kommunikationsgleichungen aufzustellen und anhand formaler Kriterien eine Auswahl zu treffen bestes Modell(jedoch hat die mathematische Kompetenz des Analytikers nicht an Bedeutung verloren).

Anhand der Ergebnisse der Korrelationsfeldkonstruktion (siehe Vorlesung 6) kann eine Hypothese über die Art der Korrelationsabhängigkeit aufgestellt werden. Basierend auf der Art der Position der Punkte im Diagramm (die Koordinaten der Punkte entsprechen den Werten der abhängigen und unabhängigen Variablen) wird der Trend der Beziehung zwischen den Zeichen (Indikatoren) aufgedeckt. Verläuft die Regressionsgerade durch alle Punkte des Korrelationsfeldes, so deutet dies auf einen funktionalen Zusammenhang hin. In der Praxis der sozioökonomischen Forschung ist ein solches Bild nicht zu beobachten, da eine statistische (Korrelations-)Abhängigkeit besteht. Unter den Bedingungen der Korrelationsabhängigkeit wird beim Zeichnen einer Regressionslinie in einem Streudiagramm eine Abweichung der Punkte des Korrelationsfelds von der Regressionslinie beobachtet, was die sogenannten Residuen oder Schätzfehler zeigt (siehe Abbildung 7.1).

Das Vorhandensein eines Gleichungsfehlers ist darauf zurückzuführen, dass:

§ nicht alle das Ergebnis beeinflussenden Faktoren in der Regressionsgleichung berücksichtigt werden;

§ die Form der Verbindung kann falsch gewählt werden - die Regressionsgleichung;

§ Nicht alle Faktoren sind in der Gleichung enthalten.

Eine Regressionsgleichung zu konstruieren bedeutet, die Werte ihrer Parameter zu berechnen. Die Regressionsgleichung wird auf der Grundlage der tatsächlichen Werte der analysierten Merkmale erstellt. Die Berechnung der Parameter erfolgt in der Regel mit Methode der kleinsten Quadrate (LSM).

Die Essenz des MNC ist, dass es möglich ist, solche Werte der Parameter der Gleichung zu erhalten, bei denen sich die Summe der quadratischen Abweichungen der theoretischen Werte des Attribut-Ergebnisses (berechnet auf der Grundlage der Regressionsgleichung) von seinem tatsächlichen ergibt Werte minimiert:

,

wobei der tatsächliche Wert des Merkmalsergebnisses y ist i-te Einheit Zuschlagstoffe; - der Wert des Vorzeichenergebnisses der i-ten Einheit der Bevölkerung, erhalten durch die Regressionsgleichung ().

Somit ist das Problem für ein Extremum gelöst, dh es muss herausgefunden werden, bei welchen Werten der Parameter die Funktion S ein Minimum erreicht.

Differentiation durchführen, die partiellen Ableitungen gleich Null setzen:



, (7.3)

, (7.4)

wobei das Durchschnittsprodukt der Faktor- und Ergebniswerte ist; - der Mittelwert des Vorzeichenfaktors; - der Mittelwert des Zeichenergebnisses; - Varianz des Vorzeichenfaktors.

Der Parameter in der Regressionsgleichung charakterisiert die Steigung der Regressionsgeraden im Diagramm. Diese Option wird aufgerufen Regressionskoeffizienten und sein Wert charakterisiert dadurch, um wie viele Einheiten seiner Messung sich das Vorzeichenergebnis ändert, wenn sich der Vorzeichenfaktor um die Einheit seiner Messung ändert. Das Vorzeichen des Regressionskoeffizienten spiegelt die Richtung der Abhängigkeit wider (direkt oder invers) und stimmt mit dem Vorzeichen des Korrelationskoeffizienten (bei paarweiser Abhängigkeit) überein.

Im Rahmen des betrachteten Beispiels berechnete das Programm STATISTICA die Parameter der Regressionsgleichung, die den Zusammenhang zwischen der Höhe des durchschnittlichen Pro-Kopf-Geldeinkommens der Bevölkerung und dem Wert des Bruttoregionalprodukts pro Kopf in den Regionen Russlands beschreibt , siehe Tabelle 7.1.

Tabelle 7.1 - Berechnung und Bewertung der Parameter der Gleichung, die die Beziehung zwischen der Höhe des durchschnittlichen Pro-Kopf-Bareinkommens der Bevölkerung und dem Wert des Bruttoregionalprodukts pro Kopf in den Regionen Russlands beschreibt, 2013

Spalte "B" der Tabelle enthält die Werte der Parameter der Paarregressionsgleichung, daher können wir schreiben: = 13406,89 + 22,82 x Diese Gleichung beschreibt den Trend der Beziehung zwischen den analysierten Merkmalen. Der Parameter ist der Regressionskoeffizient. In diesem Fall ist es gleich 22,82 und charakterisiert Folgendes: Bei einer Erhöhung des BRP pro Kopf um 1.000 Rubel steigen die durchschnittlichen Bareinkommen pro Kopf im Durchschnitt (wie durch das "+" -Zeichen angegeben) um 22,28 Rubel.

Der Parameter der Regressionsgleichung in sozioökonomischen Studien wird in der Regel nicht sinnvoll interpretiert. Formal spiegelt es den Wert des Vorzeichens wider - das Ergebnis, sofern der Vorzeichen - Faktor gleich Null ist. Der Parameter charakterisiert die Lage der Regressionsgerade in der Grafik, siehe Abbildung 7.1.

Abbildung 7.1 - Korrelationsfeld und Regressionslinie, die die Abhängigkeit der Höhe des durchschnittlichen Pro-Kopf-Geldeinkommens der Bevölkerung in den Regionen Russlands und dem Wert des BRP pro Kopf widerspiegeln

Der Parameterwert entspricht dem Schnittpunkt der Regressionsgerade mit der Y-Achse bei X=0.

Die Konstruktion der Regressionsgleichung wird begleitet von einer Bewertung der statistischen Signifikanz der Gleichung als Ganzes und ihrer Parameter. Die Notwendigkeit solcher Verfahren ist mit einer begrenzten Datenmenge verbunden, die die Anwendung des Gesetzes der großen Zahlen und damit die Identifizierung eines wahren Trends in der Beziehung der analysierten Indikatoren verhindern kann. Darüber hinaus kann jede Studienpopulation als Stichprobe betrachtet werden Population, und die während der Analyse erhaltenen Merkmale als Schätzung der allgemeinen Parameter.

Die Bewertung der statistischen Signifikanz der Parameter und der Gleichung als Ganzes ist die Begründung der Möglichkeit, das konstruierte Kommunikationsmodell für Managemententscheidungen und Prognosen (Modellierung) zu verwenden.

Statistische Bedeutung der Regressionsgleichung im Allgemeinen wird mit geschätzt Fisher F-Test, das ist das Verhältnis der für einen Freiheitsgrad berechneten faktoriellen und residualen Varianzen:

wo - Faktorvarianz des Merkmals - Ergebnis; k ist die Anzahl der Freiheitsgrade der faktoriellen Streuung (die Anzahl der Faktoren in der Regressionsgleichung); - der Mittelwert der abhängigen Variablen; - theoretischer (durch die Regressionsgleichung erhaltener) Wert der abhängigen Variablen für die i-te Einheit der Grundgesamtheit; - Restvarianz des Vorzeichens - Ergebnis; n ist das Bevölkerungsvolumen; n-k-1 ist die Anzahl der Freiheitsgrade der Restdispersion.

Der Wert des Fisher-F-Tests charakterisiert gemäß der Formel das Verhältnis zwischen dem Faktor und den Restvarianzen der abhängigen Variablen und zeigt im Wesentlichen, wie oft der Wert des erklärten Teils der Variation den unerklärten übersteigt.

Der Fisher-F-Test ist tabelliert, die Eingabe in die Tabelle ist die Anzahl der Freiheitsgrade der faktoriellen und Residualvarianzen. Der Vergleich des berechneten Werts des Kriteriums mit dem tabellarischen (kritischen) ermöglicht die Beantwortung der Frage: Ist der Teil der Variation des Merkmalsergebnisses, der durch die in der Gleichung dieser Art enthaltenen Faktoren erklärt werden kann, statistisch signifikant? Wenn ein , dann wird die Regressionsgleichung als statistisch signifikant erkannt und dementsprechend ist auch das Bestimmtheitsmaß statistisch signifikant. Sonst ( ), ist die Gleichung statistisch unbedeutend, d.h. die Variation der in der Gleichung berücksichtigten Faktoren erklärt nicht den statistisch signifikanten Teil der Variation des Merkmalsergebnisses, oder die Beziehungsgleichung ist nicht richtig gewählt.

Schätzung der statistischen Signifikanz der Parameter der Gleichung auf der Grundlage durchgeführt t-Statistik, die sich aus dem Verhältnis des Absolutwerts der Parameter der Regressionsgleichung zu ihren Standardfehlern ( ):

, wo ; (7.6)

, wo ; (7.7)

wo - Standardabweichungen Vorzeichen - Faktor und Vorzeichen - Ergebnis; - Bestimmtheitsmaß.

In spezialisierten Statistikprogrammen wird die Berechnung von Parametern immer von der Berechnung ihrer Standardfehler (quadratischer Mittelwert) und t-Statistiken begleitet (siehe Tabelle 7.1). Der berechnete Wert der t-Statistik wird mit dem tabellarischen Wert verglichen, wenn das Volumen der untersuchten Population weniger als 30 Einheiten beträgt (sicherlich eine kleine Stichprobe), sollte man sich auf die Student's t-Verteilungstabelle beziehen, wenn das Populationsvolumen groß ist , sollte man die Normalverteilungstabelle (Laplacesches Wahrscheinlichkeitsintegral) verwenden. Ein Gleichungsparameter gilt als statistisch signifikant, wenn.

Die Schätzung von Parametern auf der Grundlage der t-Statistik ist im Wesentlichen ein Test der Nullhypothese über die Gleichheit der allgemeinen Parameter mit Null (H 0: =0; H 0: =0;), dh über einen statistisch unbedeutenden Wert Wert der Parameter der Regressionsgleichung. Das Signifikanzniveau der Hypothese wird in der Regel angenommen: = 0,05. Wenn das berechnete Signifikanzniveau kleiner als 0,05 ist, wird die Nullhypothese verworfen und die alternative akzeptiert - über die statistische Signifikanz des Parameters.

Fahren wir mit dem Beispiel fort. Tabelle 7.1 in Spalte "B" zeigt die Werte der Parameter, in der Spalte Std.Err.ofB - die Werte der Standardfehler der Parameter ( ), in der Spalte t (77 - die Anzahl der Freiheitsgrade) werden die Werte der t - Statistik unter Berücksichtigung der Anzahl der Freiheitsgrade berechnet. Um die statistische Signifikanz der Parameter zu beurteilen, müssen die berechneten Werte der t-Statistik mit dem Tabellenwert verglichen werden. Das angegebene Signifikanzniveau (0,05) in der Normalverteilungstabelle entspricht t = 1,96. Seit 18.02, 10.84, d.h. , sollte man die statistische Signifikanz der erhaltenen Parameterwerte erkennen, d.h. Diese Werte werden unter dem Einfluss von nicht zufälligen Faktoren gebildet und spiegeln den Trend der Beziehung zwischen den analysierten Indikatoren wider.

Um die statistische Signifikanz der Gleichung als Ganzes zu beurteilen, wenden wir uns dem Wert des Fisher-F-Tests zu (siehe Tabelle 7.1). Der errechnete Wert des F-Kriteriums = 117,51, der Tabellenwert des Kriteriums, bezogen auf die entsprechende Anzahl Freiheitsgrade (für Faktorstreuung d.f. =1, für Reststreuung d.f. =77), beträgt 4,00 (siehe Anhang .. .. .). Auf diese Weise, , daher ist die Regressionsgleichung als Ganzes statistisch signifikant. In einer solchen Situation können wir auch von der statistischen Signifikanz des Wertes des Bestimmtheitsmaßes sprechen, d.h. Die 60-prozentige Variation des durchschnittlichen Pro-Kopf-Einkommens der Bevölkerung in den Regionen Russlands lässt sich durch die Variation des Volumens des Bruttoregionalprodukts pro Kopf erklären.

Durch die Bewertung der statistischen Signifikanz der Regressionsgleichung und ihrer Parameter können wir eine andere Kombination von Ergebnissen erhalten.

· Gleichung durch F-Test ist statistisch signifikant und alle Parameter der Gleichung durch t-Statistik sind ebenfalls statistisch signifikant. Diese Gleichung kann sowohl zum Treffen von Managemententscheidungen (welche Faktoren beeinflusst werden sollten, um das gewünschte Ergebnis zu erzielen) als auch zum Vorhersagen des Verhaltens des Ergebnisattributs für bestimmte Werte der Faktoren verwendet werden.

· Nach dem F-Kriterium ist die Gleichung statistisch signifikant, aber die Parameter (Parameter) der Gleichung sind unbedeutend. Die Gleichung kann verwendet werden, um Managemententscheidungen zu treffen (in Bezug auf die Faktoren, für die die statistische Signifikanz ihres Einflusses bestätigt wurde), aber die Gleichung kann nicht für Prognosen verwendet werden.

· Die F-Test-Gleichung ist statistisch nicht signifikant. Die Gleichung kann nicht verwendet werden. Die Suche nach signifikanten Vorzeichen oder einer analytischen Form des Zusammenhangs zwischen Argument und Antwort sollte fortgesetzt werden.

Wenn die statistische Signifikanz der Gleichung und ihrer Parameter bestätigt wird, kann die sogenannte Punktvorhersage durchgeführt werden, d.h. Für bestimmte Werte des Faktors (x) wurde eine Schätzung des Werts des Attributergebnisses (y) erhalten.

Es ist ziemlich offensichtlich, dass der vorhergesagte Wert der abhängigen Variablen, berechnet auf der Grundlage der Beziehungsgleichung, nicht mit ihrem tatsächlichen Wert übereinstimmen wird ( Graphisch wird diese Situation dadurch bestätigt, dass nicht alle Punkte des Korrelationsfeldes auf der Regressionsgerade liegen, nur bei einem funktionalen Zusammenhang wird die Regressionsgerade durch alle Punkte des Streudiagramms verlaufen. Das Vorhandensein von Diskrepanzen zwischen den tatsächlichen und theoretischen Werten der abhängigen Variablen ist in erster Linie auf das Wesen der Korrelationsabhängigkeit zurückzuführen: Gleichzeitig beeinflussen viele Faktoren das Ergebnis, von denen nur ein Teil berücksichtigt werden kann eine bestimmte Beziehungsgleichung. Außerdem kann die Form der Beziehung zwischen Ergebnis und Faktor (die Art der Regressionsgleichung) falsch gewählt sein. In diesem Zusammenhang stellt sich die Frage, wie aussagekräftig die konstruierte Nebenbedingungsgleichung ist. Diese Frage wird durch zwei Indikatoren beantwortet: das Bestimmtheitsmaß (es wurde bereits oben diskutiert) und der Standardfehler der Schätzung.

Die Differenz zwischen den tatsächlichen und theoretischen Werten der abhängigen Variablen wird genannt Abweichungen oder Fehler oder Reste. Basierend auf diesen Werten wird die Restvarianz berechnet. Quadratwurzel aus der Restvarianz und ist Root-Mean-Square (Standard) Schätzfehler:

= (7.8)

Der Standardfehler der Gleichung wird in denselben Einheiten wie die vorhergesagte Rate gemessen. Wenn die Gleichungsfehler einer Normalverteilung folgen (bei großen Datenmengen), sollten 95 Prozent der Werte von der Regressionslinie in einem Abstand von nicht mehr als 2S sein (basierend auf der Eigenschaft einer Normalverteilung - die Regel von drei Sigma). Wert Standart Fehler Die Schätzung wird bei der Berechnung von Konfidenzintervallen verwendet, wenn der Wert eines Zeichens vorhergesagt wird - das Ergebnis für eine bestimmte Einheit der Bevölkerung.

In der praktischen Forschung wird es oft notwendig, den Durchschnittswert eines Merkmals - das Ergebnis für einen bestimmten Wert des Merkmals - Faktor vorherzusagen. In diesem Fall bei der Berechnung des Konfidenzintervalls für den Mittelwert der abhängigen Variablen()

der Wert des mittleren Fehlers wird berücksichtigt:

(7.9)

Die Verwendung unterschiedlicher Fehlerwerte erklärt sich aus der Tatsache, dass die Variabilität der Indikatorenniveaus für bestimmte Bevölkerungseinheiten viel höher ist als die Variabilität des Mittelwerts, daher ist der Prognosefehler des Mittelwerts kleiner.

Konfidenzintervall der Prognose des Mittelwertes der abhängigen Variablen:

, (7.10)

wo - marginaler Schätzfehler (siehe Stichprobentheorie); t ist der Vertrauenskoeffizient, dessen Wert in der entsprechenden Tabelle angegeben ist, basierend auf dem vom Forscher angenommenen Wahrscheinlichkeitsniveau (Anzahl der Freiheitsgrade) (siehe Stichprobentheorie).

Das Konfidenzintervall für den vorhergesagten Wert des Ergebnisattributs kann auch unter Berücksichtigung der Korrektur für die Verschiebung (Shift) der Regressionsgeraden berechnet werden. Der Wert des Korrekturfaktors wird bestimmt durch:

(7.11)

wobei der Wert des Attributfaktors ist, auf dessen Grundlage der Wert des Attributergebnisses vorhergesagt wird.

Daraus folgt, dass der Prognosefehler umso größer ist, je mehr der Wert vom Durchschnittswert des Attributfaktors abweicht, je größer der Wert des Korrekturfaktors ist. Unter Berücksichtigung angegebenen Koeffizienten wird das Konfidenzintervall der Prognose berechnet:

Die Genauigkeit der Prognose basierend auf der Regressionsgleichung kann durch beeinflusst werden verschiedene Gründe. Zunächst ist zu berücksichtigen, dass die Bewertung der Güte der Gleichung und ihrer Parameter auf der Annahme von erfolgt Normalverteilung zufällige Reste. Ein Verstoß gegen diese Annahme kann auf das Vorhandensein stark unterschiedlicher Werte in den Daten mit ungleichmäßiger Variation und dem Vorhandensein einer nichtlinearen Beziehung zurückzuführen sein. In diesem Fall wird die Qualität der Prognose reduziert. Zweitens ist zu beachten, dass die Werte der Faktoren, die bei der Vorhersage des Ergebnisses berücksichtigt werden, den Variationsbereich der Daten, auf denen die Gleichung basiert, nicht überschreiten sollten.

©2015-2019 Seite
Alle Rechte liegen bei ihren Autoren. Diese Website erhebt keinen Anspruch auf Urheberschaft, sondern bietet eine kostenlose Nutzung.
Erstellungsdatum der Seite: 08.01.2018



Error: Inhalt ist geschützt!!