Mehrfache Regressionsgleichung.

27.09.2019 | Internet

Während des Studiums stoßen Studierende sehr oft auf eine Vielzahl von Gleichungen. Eine davon - die Regressionsgleichung - wird in diesem Artikel diskutiert. Diese Art von Gleichung wird speziell verwendet, um die Eigenschaften der Beziehung zwischen mathematischen Parametern zu beschreiben. Diese Art der Gleichstellung wird in Statistik und Ökonometrie verwendet.

Regression definieren

In der Mathematik bezeichnet Regression eine bestimmte Größe, die die Abhängigkeit des Durchschnittswertes eines Datensatzes von den Werten einer anderen Größe beschreibt. Die Regressionsgleichung zeigt als Funktion eines bestimmten Merkmals den Mittelwert eines anderen Merkmals. Die Regressionsfunktion hat die Form einer einfachen Gleichung y = x, wobei y die abhängige Variable und x die unabhängige Variable (Attributsfaktor) ist. Tatsächlich wird die Regression als y = f (x) ausgedrückt.

Welche Arten von Beziehungen zwischen Variablen gibt es?

Im Allgemeinen gibt es zwei gegensätzliche Arten von Beziehungen: Korrelation und Regression.

Die erste ist durch die Gleichheit der bedingten Variablen gekennzeichnet. In diesem Fall ist nicht sicher bekannt, welche Variable von der anderen abhängt.

Wenn zwischen den Variablen keine Gleichheit besteht und die Bedingungen angeben, welche Variable erklärend und welche abhängig ist, können wir über das Vorhandensein einer Beziehung des zweiten Typs sprechen. Um die Gleichung zu bilden lineare Regression, ist es notwendig herauszufinden, welche Art von Verbindung beobachtet wird.

Regressionstypen

Heute gibt es 7 verschiedene Regressionsarten: hyperbolisch, linear, mehrfach, nichtlinear, paarweise, invers, logarithmisch linear.

Hyperbolisch, linear und logarithmisch

Die lineare Regressionsgleichung wird in der Statistik verwendet, um die Parameter der Gleichung klar zu erklären. Es sieht aus wie y = c + t * x + E. Die hyperbolische Gleichung hat die Form einer regulären Hyperbel y = c + m / x + E. Die logarithmisch lineare Gleichung drückt den Zusammenhang mit einer logarithmischen Funktion aus: In y = In c + m * In x + In E.

Mehrfach und nichtlinear

Zwei komplexere Regressionsarten sind mehrfach und nichtlinear. Die multiple Regressionsgleichung wird durch die Funktion y = f (x 1, x 2 ... x c) + E ausgedrückt. In dieser Situation ist y die abhängige Variable und x die erklärende. Variable E ist stochastisch und beinhaltet den Einfluss anderer Faktoren in die Gleichung. Die nichtlineare Regressionsgleichung ist etwas umstritten. Einerseits ist sie in Bezug auf die berücksichtigten Indikatoren nicht linear, andererseits aber in der Rolle der Bewertung von Indikatoren linear.

Inverse und gepaarte Regressionen

Die Umkehrung ist die Art von Funktion, die in eine lineare Form umgewandelt werden muss. In den traditionellsten Anwendungen hat es die Form einer Funktion y = 1 / c + m * x + E. Die gepaarte Regressionsgleichung zeigt die Beziehung zwischen den Daten als Funktion von y = f (x) + E. Wie in anderen Gleichungen hängt y von x ab und E ist ein stochastischer Parameter.

Korrelationskonzept

Dies ist ein Indikator, der die Existenz einer Beziehung zwischen zwei Phänomenen oder Prozessen zeigt. Die Stärke der Beziehung wird als Korrelationskoeffizient ausgedrückt. Sein Wert schwankt innerhalb des Intervalls [-1; +1]. Ein negativer Indikator zeigt das Vorhandensein von Feedback an, ein positiver Indikator weist auf ein direktes hin. Wenn der Koeffizient einen Wert gleich 0 annimmt, besteht keine Beziehung. Je näher der Wert an 1 liegt, desto stärker ist die Beziehung zwischen den Parametern, je näher an 0, desto schwächer.

Methoden

Korrelation parametrische Methoden kann die Nähe der Beziehung einschätzen. Sie werden auf der Grundlage einer Verteilungsschätzung verwendet, um Parameter zu untersuchen, die dem Normalverteilungsgesetz gehorchen.

Die Parameter der linearen Regressionsgleichung sind notwendig, um die Art der Abhängigkeit, die Funktion der Regressionsgleichung zu erkennen und die Indikatoren der gewählten Beziehungsformel zu bewerten. Das Korrelationsfeld wird als Link-Identifikationsverfahren verwendet. Dazu müssen alle vorhandenen Daten grafisch dargestellt werden. In einem rechtwinkligen zweidimensionalen Koordinatensystem müssen alle bekannten Daten geplottet werden. So wird das Korrelationsfeld gebildet. Der Wert des beschreibenden Faktors ist entlang der Abszisse markiert, während die Werte des abhängigen Faktors entlang der Ordinate markiert sind. Besteht ein funktionaler Zusammenhang zwischen den Parametern, werden sie in Form einer Linie aufgereiht.

Wenn der Korrelationskoeffizient solcher Daten weniger als 30% beträgt, können wir von einem fast vollständigen Fehlen von Kommunikation sprechen. Liegt er zwischen 30 % und 70 %, deutet dies auf das Vorhandensein von Verbindungen mittlerer Dichte hin. 100 %-Anzeige ist ein Beweis für die Funktionsverbindung.

Eine nichtlineare Regressionsgleichung muss wie eine lineare durch einen Korrelationsindex (R) ergänzt werden.

Korrelation für multiple Regression

Das Bestimmtheitsmaß ist ein Indikator für das Quadrat Mehrfachkorrelation... Er spricht von der engen Beziehung zwischen dem vorgestellten Indikatorenset und dem untersuchten Merkmal. Er kann auch über die Art des Einflusses von Parametern auf das Ergebnis sprechen. Die multiple Regressionsgleichung wird mit diesem Indikator geschätzt.

Um den Index der Mehrfachkorrelation zu berechnen, ist es notwendig, seinen Index zu berechnen.

Methode der kleinsten Quadrate

Diese Methode ist eine Möglichkeit, Regressionsfaktoren zu schätzen. Sein Wesen liegt in der Minimierung der Summe der quadrierten Abweichungen, die aufgrund der Abhängigkeit des Faktors von der Funktion erhalten werden.

Mit dieser Methode kann eine gepaarte lineare Regressionsgleichung geschätzt werden. Diese Art von Gleichungen wird im Fall der Erkennung zwischen den Indikatoren einer gepaarten linearen Beziehung verwendet.

Gleichungsparameter

Jeder Parameter der linearen Regressionsfunktion hat eine bestimmte Bedeutung. Die gepaarte lineare Regressionsgleichung enthält zwei Parameter: c und m Der Parameter m zeigt die durchschnittliche Änderung des Endindikators der Funktion y, vorbehaltlich einer Abnahme (Erhöhung) der Variablen x um eine herkömmliche Einheit. Wenn die Variable x null ist, ist die Funktion gleich dem Parameter c. Ist die Variable x nicht null, hat der Faktor c keine wirtschaftliche Bedeutung. Die einzige Auswirkung auf die Funktion ist das Vorzeichen vor dem Faktor c. Wenn es ein Minus gibt, können wir von einer verzögerten Änderung des Ergebnisses gegenüber dem Faktor sprechen. Liegt ein Plus vor, deutet dies auf eine beschleunigte Änderung des Ergebnisses hin.

Jeder Parameter, der den Wert einer Regressionsgleichung ändert, kann durch eine Gleichung ausgedrückt werden. Faktor c hat beispielsweise die Form c = y - tx.

Gruppierte Daten

Es gibt Bedingungen des Problems, bei denen alle Informationen nach dem Attribut x gruppiert sind, gleichzeitig jedoch für eine bestimmte Gruppe die entsprechenden Durchschnittswerte des abhängigen Indikators angegeben werden. In diesem Fall charakterisieren die Durchschnittswerte, wie sich der Indikator in Abhängigkeit von x ändert. Somit helfen die gruppierten Informationen, die Regressionsgleichung zu finden. Es wird als Beziehungsanalyse verwendet. Dieses Verfahren hat jedoch seine Nachteile. Leider unterliegen die Durchschnittswerte oft externen Schwankungen. Diese Schwankungen spiegeln nicht die Regelmäßigkeit der Beziehung wider, sie überdecken nur ihr "Rauschen". Die Mittelwerte zeigen viel schlechtere Beziehungsmuster als die lineare Regressionsgleichung. Sie können jedoch als Grundlage für das Finden einer Gleichung verwendet werden. Durch Multiplizieren der Größe einer einzelnen Population mit dem entsprechenden Durchschnitt erhalten Sie die Summe von y innerhalb der Gruppe. Als nächstes müssen Sie alle erhaltenen Beträge ausschlagen und den endgültigen Indikator y finden. Etwas schwieriger sind Berechnungen mit dem Indikator des Betrags xy. Für den Fall, dass die Intervalle klein sind, ist es konventionell möglich, den x-Exponenten für alle Einheiten (innerhalb der Gruppe) gleich zu setzen. Sie sollten es mit der Summe von y multiplizieren, um die Summe der Produkte von x und y zu ermitteln. Weiterhin werden alle Beträge zusammengeklopft und der Gesamtbetrag xy erhalten.

Gleichung für multiple paarweise Regression: Bewertung der Bedeutung eines Links

Wie bereits erwähnt, hat die multiple Regression eine Funktion der Form y = f (x 1, x 2,…, x m) + E. Am häufigsten wird eine solche Gleichung verwendet, um das Problem von Angebot und Nachfrage nach einem Produkt, Zinserträge aus zurückgekauften Aktien zu lösen und die Gründe und Art der Produktionskostenfunktion zu untersuchen. Sie wird auch in einer Vielzahl von makroökonomischen Studien und Berechnungen aktiv verwendet, aber auf der Ebene der Mikroökonomie wird eine solche Gleichung etwas seltener verwendet.

Die Hauptaufgabe der multiplen Regression besteht darin, ein Datenmodell mit einer Vielzahl von Informationen aufzubauen, um weiter zu bestimmen, welchen Einfluss jeder der Faktoren einzeln und in ihrer Gesamtheit auf den zu modellierenden Indikator und seine Koeffizienten hat. Die Regressionsgleichung kann verschiedenste Werte annehmen. Gleichzeitig werden normalerweise zwei Arten von Funktionen verwendet, um die Beziehung zu bewerten: linear und nichtlinear.

Eine lineare Funktion wird in Form einer solchen Beziehung dargestellt: y = a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. In diesem Fall werden a2, a m als Koeffizienten der "reinen" Regression betrachtet. Sie sind erforderlich, um die durchschnittliche Änderung des Parameters y mit einer Änderung (Abnahme oder Zunahme) jedes entsprechenden Parameters x um eine Einheit unter der Bedingung eines stabilen Wertes anderer Indikatoren zu charakterisieren.

Nichtlineare Gleichungen haben beispielsweise die Form Power-Funktion y = ax 1 b1 x 2 b2 ... x m bm. In diesem Fall werden die Indikatoren b 1, b 2 ..... bm - als Elastizitätskoeffizienten bezeichnet, sie zeigen, wie sich das Ergebnis (um wie viele %) bei einer Zunahme (Abnahme) des entsprechenden Indikators x um 1% ändert und mit einem stabilen Indikator für andere Faktoren.

Welche Faktoren müssen bei der Konstruktion einer multiplen Regression berücksichtigt werden?

Um die multiple Regression korrekt zu konstruieren, ist es notwendig herauszufinden, auf welche Faktoren besonderes Augenmerk gelegt werden sollte.

Es ist notwendig, ein gewisses Verständnis für die Art der Beziehung zwischen wirtschaftlichen Faktoren und dem Modell zu haben. Die einzubeziehenden Faktoren müssen die folgenden Kriterien erfüllen:

Muss quantifizierbar sein. Um einen die Qualität eines Objekts beschreibenden Faktor verwenden zu können, sollte dieser auf jeden Fall quantifiziert werden.
Es sollte keine Interkorrelation von Faktoren oder eine funktionale Beziehung geben. Solche Aktionen führen am häufigsten zu irreversible Folgen- das System der gewöhnlichen Gleichungen wird unkonditioniert, was seine Unzuverlässigkeit und seine unklaren Schätzungen mit sich bringt.
Bei einem großen Korrelationsindikator kann der isolierte Einfluss von Faktoren auf das endgültige Indikatorergebnis nicht ermittelt werden, daher werden die Koeffizienten uninterpretierbar.

Bauweisen

Es gibt eine Vielzahl von Methoden und Techniken, die erklären, wie Sie die Faktoren für die Gleichung auswählen können. All diese Methoden basieren jedoch auf der Auswahl von Koeffizienten anhand des Korrelationsindikators. Darunter sind:

Ausschlussmethode.
Methode der Inklusion.
Regressionsanalyse Schritt für Schritt.

Das erste Verfahren beinhaltet das Herausfiltern aller Koeffizienten aus dem Aggregatsatz. Die zweite Methode beinhaltet die Einführung vieler zusätzlicher Faktoren. Nun, das dritte ist die Eliminierung von Faktoren, die zuvor auf die Gleichung angewendet wurden. Jede dieser Methoden hat eine Daseinsberechtigung. Sie haben ihre Vor- und Nachteile, aber sie alle können das Problem des Löschens unnötiger Indikatoren auf ihre eigene Weise lösen. In der Regel liegen die Ergebnisse jeder einzelnen Methode ziemlich nahe beieinander.

Multivariate Analysemethoden

Solche Methoden zur Bestimmung von Faktoren basieren auf der Betrachtung individueller Kombinationen miteinander in Beziehung stehender Merkmale. Dazu gehören Diskriminanzanalyse, Gesichtserkennung, Hauptkomponentenanalyse und Clusteranalyse. Darüber hinaus gibt es auch eine Faktorenanalyse, die jedoch als Ergebnis der Entwicklung der Komponentenmethode entstanden ist. Alle von ihnen gelten unter bestimmten Umständen, unter bestimmten Bedingungen und Faktoren.

2 Mehrfache lineare Regression

2.1 Bestimmung der Parameter der Regressionsgleichung

Jeder Wirtschaftsindikator wird meistens nicht von einem, sondern von mehreren Faktoren beeinflusst. In diesem Fall betrachten wir anstelle der paarweisen Regression mehrfache Regression

Das Problem der Bewertung des statistischen Zusammenhangs von Variablen und
ist ähnlich wie bei der paarweisen Regression formuliert. Die multiple Regressionsgleichung kann wie folgt dargestellt werden:

, (2.2)

wo
- Vektor unabhängiger (erklärender) Variablen; - Parametervektor (noch zu bestimmen); - zufälliger Fehler (Abweichung); - abhängige (erklärte) Variable.

Betrachten Sie das am häufigsten verwendete und einfachste der multiplen Regressionsmodelle - das multiple lineare Regressionsmodell.

Die theoretische lineare Regressionsgleichung lautet:

oder für individuelle Beobachtungen
:

Hier
- Maßvektor
unbekannte Parameter.
namens -th theoretischer Regressionskoeffizient (partieller Regressionskoeffizient). Es charakterisiert die Empfindlichkeit einer Größe gegenüber einer Mengenänderung , d.h. spiegelt die Auswirkung auf die bedingte Erwartung wider
die abhängige Variable der erklärenden Variablen, sofern alle anderen erklärenden Variablen des Modells konstant bleiben. Ist ein Achsenabschnitt, der bestimmt, wann alle erklärenden Variablen gleich Null sind.

Nachdem eine lineare Funktion als Abhängigkeitsmodell gewählt wurde, müssen die Regressionsparameter geschätzt werden. Lass es sein Beobachtungen des Vektors der erklärenden Variablen und der abhängigen Variablen:

Um das Problem der Parameterfindung eindeutig zu lösen
(d.h. finde irgendeinen besten Vektor), die Ungleichung muss gelten
... Ist diese Ungleichung nicht erfüllt, dann gibt es unendlich viele verschiedene Parametervektoren, für die lineare Formel Kommunikation zwischen
und stimmt genau mit den verfügbaren Beobachtungen überein.

Um beispielsweise die Schätzungen der Parameter der Regressionsgleichung eindeutig zu bestimmen, reicht es aus, eine Stichprobe von drei Beobachtungen zu haben. In diesem Fall sind die gefundenen Parameterwerte
definieren Sie eine solche Ebene im dreidimensionalen Raum, die genau durch drei Punkte verläuft. Auf der anderen Seite führt das Hinzufügen einer weiteren zur Stichprobe zu den verfügbaren drei Beobachtungen dazu, dass der vierte Punkt
wird mit ziemlicher Sicherheit außerhalb der konstruierten Ebene liegen, was eine gewisse Neubewertung der Parameter erfordert.

Nummer
namens Anzahl der Freiheitsgrade... Wenn die Anzahl der Freiheitsgrade klein ist, ist die statistische Zuverlässigkeit der geschätzten Formel gering. Beispielsweise ist die Wahrscheinlichkeit einer korrekten Schlussfolgerung (das Erhalten genauerer Schätzungen) bei drei Beobachtungen deutlich geringer als bei dreißig. Bei der Schätzung der multiplen linearen Regression wird davon ausgegangen, dass die statistische Zuverlässigkeit erfordert, dass die Anzahl der Beobachtungen mindestens das Dreifache der Anzahl der geschätzten Parameter beträgt.

Die gebräuchlichste Methode zum Schätzen der Parameter einer multiplen Regressionsgleichung ist die Methode kleinsten Quadrate(OLS).

OLS-Voraussetzungen:

Wie bei der paarweisen Regression sind die wahren Werte der Parameter es ist unmöglich, aus der Probe zu gewinnen. In diesem Fall wird anstelle der theoretischen Regressionsgleichung die empirische Regressionsgleichung geschätzt:

Hier
- Schätzungen der theoretischen Werte der Regressionskoeffizienten (empirische Regressionskoeffizienten); - Abweichungsbewertung. Für Einzelbeobachtungen haben wir:

Wenn die OLS-Annahmen erfüllt sind, sind die Schätzungen der Parameter der multiplen linearen Regression durch OLS unverzerrt, effizient und konsistent.

Basierend auf (2.6):. (2.7)

Dann wird mit der Methode der kleinsten Quadrate die folgende Funktion minimiert, um die Schätzungen zu finden:

. (2.8)

Eine notwendige Bedingung für die Minimierung der Funktion ist die Null-Gleichheit aller seiner partiellen Ableitungen nach , d.h.:

(2.9)

Wenn wir sie mit Null gleichsetzen, erhalten wir das System
lineare Gleichungen mit Unbekannten. Ein solches System hat normalerweise eine eindeutige Lösung und wird als System von Normalgleichungen bezeichnet. Seine explizite Lösung wird am deutlichsten in Form einer Vektormatrix dargestellt.

2.2 Berechnung mehrerer linearer Regressionskoeffizienten

Beobachtungsdaten und entsprechende Koeffizienten in Matrixform sind wie folgt:

Hier
-dimensionaler Spaltenvektor der Beobachtungen der abhängigen Variablen; - Dimensionsmatrix
, wobei -te Zeile
stellt eine Beobachtung eines Vektors von Werten unabhängiger Variablen dar; man entspricht einer Variablen mit einem freien Term ; - einen Spaltenvektor der Dimensionen der Parameter der Regressionsgleichung; - Vektor-Spalte der Dimensionalität der Abweichungen der Stichprobe (realen) Werte abhängige Variable von Werten erhalten durch die Regressionsgleichung

Funktion
in Matrixform kann als Produkt des Zeilenvektors dargestellt werden
pro Spaltenvektor. Der Spaltenvektor kann in folgender Form dargestellt werden:

. (2.11)

Hier
- Vektoren und Matrizen transponiert nach
bzw. Bei der Ableitung der Formel wurden die folgenden bekannten linearen Algebra-Relationen verwendet:

Eine notwendige Bedingung für das Extremum einer Funktion ist die Null-Gleichheit ihrer partiellen Ableitungen
bei allem Respekt
... Spaltenvektor partielle Ableitungen in Matrixform sieht so aus:

. (2.12)

Betrachten wir die Suche im Detail. Es ist klar, dass

hängt also nicht davon ab,
.

Wir bezeichnen den Spaltenvektor
Abmessungen durch ... Dann
, wobei das entsprechende Element des Vektors ist. Deshalb
.

Wir bezeichnen die Matrix
Abmessungen durch ... Dann

Daher ist die partielle Ableitung
.

Als Ergebnis haben wir
.

Folglich gilt Formel (2.12). Gleich Null erhalten wir:

(2.13)

(2.14)

Hier
Ist die inverse Matrix zu.

Die erhaltenen allgemeinen Beziehungen gelten für Regressionsgleichungen mit einer beliebigen Zahl
erklärende Variablen. Analysieren wir die Ergebnisse für die Fälle:

,
,
, .

Aus (2.11) folgt:, d.h.

Aus (2.14) folgt

(2.15)

(2.16)

Die Lösung für dieses System ist:

(2.17)

2.3 Analyse der Qualität der empirischen multiplen linearen Regressionsgleichung

Die Erstellung einer empirischen Regressionsgleichung ist der erste Schritt in der ökonometrischen Analyse. Die allererste Regressionsgleichung, die aus der Stichprobe erstellt wurde, ist auf die eine oder andere Weise sehr selten zufriedenstellend. Daher ist die nächste wichtige Bewertung die Qualität der Regressionsgleichung zu überprüfen. In der Ökonometrie wird ein etabliertes Schema einer solchen Überprüfung angewendet, das in den folgenden Bereichen durchgeführt wird:

Prüfen der statistischen Signifikanz der Koeffizienten der Regressionsgleichung;

Prüfen der Gesamtqualität der Regressionsgleichung;

Überprüfung der Eigenschaften der Daten, deren Machbarkeit bei der Auswertung der Gleichung angenommen wurde (Überprüfung der Machbarkeit der OLS-Annahmen).

Vor der Analyse der Qualität der Regressionsgleichung müssen die Varianzen und Standardfehler der Koeffizienten sowie die Intervallschätzungen der Koeffizienten bestimmt werden.

Stichprobenvarianzen empirischer Regressionskoeffizienten können wie folgt bestimmt werden:

. (2.18)

Hier Ist das th diagonale Element der Matrix
.

Dabei:

, (2.19)

wobei die Anzahl der erklärenden Variablen des Modells ist. Manchmal wird in Formel (2.19) der Nenner in der Form
Bedeutung von die Anzahl der Modellparameter (wird durch die Regressionskoeffizienten bestimmt).

Insbesondere für die Gleichung
mit zwei erklärenden Variablen werden die folgenden Formeln verwendet:

,
,
. (2.20)

Hier - Stzwischen erklärenden Variablen und
; – Standart Fehler Regressionskoeffizienten; Der Standardfehler der Regression (unverzerrte Schätzung).

In Analogie zur gepaarten Regression, nach Bestimmung Punktschätzungen Koeffizienten (
) der theoretischen Regressionsgleichung können Intervallschätzungen der angegebenen Koeffizienten berechnet werden. Vertrauensintervallabdeckung mit Zuverlässigkeit
unbekannter Parameterwert ist definiert als

(2.21)

Überprüfung der statistischen Signifikanz der Koeffizienten der Regressionsgleichung.

Wie bei der paarweisen Regression statistische Signifikanz mehrere lineare Regressionskoeffizienten mit erklärenden Variablen werden basierend auf getestet -Statistiken:

, (2.22)

die in diesem Fall eine Student-Verteilung mit der Anzahl der Freiheitsgrade hat. Auf dem erforderlichen Signifikanzniveau wird der beobachtete Wert der -Statistik mit dem kritischen genauen Wert verglichen
Schülerverteilung.

Wenn
, dann wird die statistische Signifikanz des entsprechenden Regressionskoeffizienten bestätigt. Dies bedeutet, dass der Faktor linear mit der abhängigen Variablen zusammenhängt. Wenn die Tatsache der Bedeutungslosigkeit des Koeffizienten festgestellt wird, wird empfohlen, die Variable aus der Gleichung auszuschließen. Dies führt nicht zu einem signifikanten Qualitätsverlust des Modells, aber es wird spezifischer.

Bei der Beurteilung der Signifikanz der linearen Regressionskoeffizienten auf Erstphase Sie können auch die in Kapitel 1.3 besprochene "grobe" Regel verwenden, um die Verwendung von Tabellen zu vermeiden.

Überprüfung der Gesamtqualität der Regressionsgleichung

Zu diesem Zweck verwenden wir wie bei der paarweisen Regression Bestimmtheitsmaß
:

(2.23)

Das Verhältnis ist fair
... Je näher dieser Koeffizient an Eins liegt, desto mehr erklärt die Regressionsgleichung das Verhalten.

Bei der multiplen Regression ist das Bestimmtheitsmaß eine nicht abnehmende Funktion der Anzahl der erklärenden Variablen. Das Hinzufügen einer neuen erklärenden Variablen verringert niemals den Wert, da jede nachfolgende Variable die Informationen, die das Verhalten der abhängigen Variablen erklären, nur ergänzen, aber in keiner Weise reduzieren kann. negative Werte annehmen kann., dann kann das Multikollinearitätskriterium ... innerhalb akzeptiert werden. 5. Untersuchung Hypothesen über die Koeffizienten GleichungenRückschritte (Untersuchung die Bedeutung der Parameter des Vielfachen GleichungenRückschritte). 1) t-Statistik ...

Disziplinzusammenfassung (12)

Zusammenfassung der Dissertation

Informationsnetz Internet. Kapitel 14 ... Informationsnetzwerke für Unternehmen. Abschnitt ... Plural Rückschritte... Gepaart linear Rückschritt... Mehrfachlinear Rückschritt. UntersuchungQualitätGleichungenRückschritte... Nichtlineare Modelle Rückschritte und Linearisierung ...

Landeshaushalt Bildung (44)

Aufgabe

Zur Bedeutung des Stichprobenkorrelationskoeffizienten. UntersuchungQualitätGleichungenRückschritte... Klassisches Regressionsmodell. Voraussetzungen ... Statische Schätzungen von Verteilungsparametern 3 6 14 , 15 4 3 3 IZ – 6 14 Untersuchung statistische Hypothesen 3 6 16 2 1 ...

Die Probleme der multiplen Korrelations-Regressions-Analyse und -Modellierung werden in der Regel in einem speziellen Kurs ausführlich behandelt. In der Lehrveranstaltung "Allgemeine Statistiktheorie" werden nur die allgemeinsten Fragen dieses komplexen Problems behandelt und ein erstes Verständnis der Methodik zur Konstruktion der multiplen Regressionsgleichung und der Linkindikatoren vermittelt. Betrachten wir die lineare Form der Mehrfaktorbeziehungen nicht nur als die einfachste, sondern auch als die von den Softwarepaketen für Personalcomputer bereitgestellte Form. Wenn der Zusammenhang eines einzelnen Faktors mit dem effektiven Attribut nicht linear ist, wird die Gleichung linearisiert, indem der Wert des Faktorattributs ersetzt oder transformiert wird.

Generelle Form die multivariate Regressionsgleichung lautet wie folgt:

9.11. Maße der Dichtheit von Verbindungen in einem multifaktoriellen System

Ein multifaktorielles System benötigt nicht mehr einen, sondern viele Indikatoren für die Dichtigkeit von Verbindungen, die unterschiedliche Bedeutungen und Anwendungen haben. Grundlage für die Messung von Beziehungen ist eine Matrix gepaarter Korrelationskoeffizienten (Tabelle 9.9).

Diese Matrix kann verwendet werden, um die Nähe der Beziehung von Faktoren mit einem produktiven Merkmal und untereinander zu beurteilen. Obwohl sich alle diese Indikatoren auf paarweise Beziehungen beziehen, kann die Matrix dennoch zur Vorauswahl von Faktoren für die Aufnahme in die Regressionsgleichung verwendet werden. Es wird nicht empfohlen, Faktoren in die Gleichung einzubeziehen, die schwach mit den Leistungsindikatoren, aber in engem Zusammenhang mit anderen Faktoren stehen.

Kommen wir zurück zur Tabelle. 9.11. ANOVA Das Verknüpfungssystem soll beurteilen, wie zuverlässig die Ausgangsdaten das Vorhandensein einer Verknüpfung zwischen dem effektiven Attribut und allen in der Gleichung enthaltenen Faktoren nachweisen. Dazu werden die Varianzen von y verglichen - erklärt und Residuum: die Summe der entsprechenden Abweichungsquadrate,

379

381

9.13. Korrelations-Regressions-Modelle und ihre Anwendung in Analyse und Prognose

Das Korrelations-Regressions-Modell (CRM) eines Systems von zusammenhängenden Merkmalen ist eine Regressionsgleichung, die die Hauptfaktoren enthält, die die Variation des effektiven Merkmals beeinflussen, ein hohes Bestimmtheitsmaß (nicht weniger als 0,5) und Regressionskoeffizienten hat, die gemäß interpretiert werden theoretisches Wissen über die Natur der Beziehungen im untersuchten System.

Die obige Definition von CRM beinhaltet ziemlich strenge Bedingungen: Nicht jede Regressionsgleichung kann als Modell betrachtet werden. Insbesondere die oben erhaltene Gleichung für 16 Betriebe erfüllt die letzte Anforderung nicht, da das Vorzeichen der Agrarwirtschaft mit dem Faktor x2 – dem Anteil der Ackerfläche – widerspricht. Aus pädagogischen Gründen werden wir es jedoch als Modell betrachten.

1. Vorzeichen-Faktoren sollten in einem kausalen Zusammenhang mit dem wirksamen Vorzeichen (Wirkung) stehen. Daher ist es beispielsweise nicht akzeptabel, den Rentabilitätskoeffizienten als einen der Faktoren xj in das Kostenmodell y einzugeben, obwohl die Einbeziehung eines solchen "Faktors" das Bestimmtheitsmaß erheblich erhöht.

2. Vorzeichen-Faktoren sollten nicht sein Bestandteile effektives Attribut oder seine Funktionen.

3. Vorzeichenfaktoren sollten sich nicht duplizieren, d.h. kollinear sein (mit einem Korrelationskoeffizienten von mehr als 0,8). Daher sollte das Arbeitsproduktivitätsmodell das Verhältnis von Energie und Kapital zu Arbeit der Arbeitnehmer nicht berücksichtigen, da diese Faktoren in den meisten Einrichtungen eng miteinander verbunden sind.

4. Faktoren verschiedener Hierarchiestufen sollten nicht in das Modell aufgenommen werden; Faktor der nächsten Ordnung und seine Unterfaktoren. Zum Beispiel sollte das Getreidekostenmodell nicht sowohl den Ertrag von Getreidepflanzen und die Düngegabe für sie oder die Kosten für die Verarbeitung eines Hektars, Indikatoren für die Saatgutqualität, die Bodenfruchtbarkeit, d.h. Subfaktoren der Rendite selbst.

5. Es ist wünschenswert, dass die Einheit der Gesamteinheit, der sie zugeordnet sind, für das effektive Attribut und die effektiven Faktoren beachtet wird. Wenn beispielsweise y das Bruttoeinkommen des Unternehmens ist, müssen sich auch alle Faktoren auf das Unternehmen beziehen: der Wert des Produktionsvermögens, der Spezialisierungsgrad, die Anzahl der Mitarbeiter usw. Wenn y der Durchschnittslohn eines Arbeitnehmers im Unternehmen ist, sollten sich die Faktoren auf den Arbeitnehmer beziehen: Besoldungsgruppe oder Klasse, Berufserfahrung, Alter, Bildungsstand, Stromversorgung usw. Diese Regel ist im Modell nicht kategorisch Löhne Dazu zählen beispielsweise der Spezialisierungsgrad des Unternehmens. Die vorherige Empfehlung sollte jedoch nicht vergessen werden.

6. Die mathematische Form der Regressionsgleichung muss der Logik der Verknüpfung von Faktoren mit dem Ergebnis in einem realen Objekt entsprechen. Zum Beispiel führen Produktivitätsfaktoren wie die Dosis verschiedener Düngemittel, das Fruchtbarkeitsniveau, die Anzahl der Unkrautjätungen usw. zu einer Steigerung des Ertragswerts und einer geringen Abhängigkeit voneinander; Renditen können ohne einen dieser Faktoren existieren. Die additive Regressionsgleichung entspricht dieser Art der Verbindungen:

Der erste Term auf der rechten Seite der Gleichheit ist die Abweichung, die aufgrund der Differenz der Einzelwerte der Faktoren in einer bestimmten Bevölkerungseinheit von ihren Durchschnittswerten in der Bevölkerung entsteht. Es kann als Faktorangebotseffekt bezeichnet werden. Der zweite Term ist eine Abweichung, die aufgrund von Faktoren entsteht, die nicht im Modell enthalten sind, und der Differenz der individuellen Effizienz von Faktoren in einer gegebenen Einheit des Aggregats von der durchschnittlichen Effizienz der Faktoren im Aggregat, gemessen durch die Koeffizienten von

Tabelle 9.12 Analyse des Faktorangebots und der Faktorproduktivität nach dem Regressionsmodell des Bruttoeinkommensniveaus

saubere Regression. Man kann es den Return-Faktor-Effekt nennen.

Beispiel. Betrachten wir die Berechnung und Analyse von Abweichungen nach dem zuvor konstruierten Modell der Bruttoeinkommenshöhe in 16 Betrieben. Die Vorzeichen dieser und anderer Abweichungen fallen 8-mal zusammen und fallen 8-mal nicht zusammen. Der Korrelationskoeffizient der Ränge der Abweichungen der beiden Typen betrug 0,156. Dies bedeutet, dass der Zusammenhang zwischen der Variation der Faktorverfügbarkeit und der Variation der Faktorproduktivität schwach und unbedeutend ist (Tabelle 9.12).

Achten wir auf Hof Nr. 15 mit einem hohen Faktor

hohe Verfügbarkeit (Platz 15) und der schlechteste Faktor

Datscha (1. Rang), wodurch der Hof weniger als . erhielt

1 22 reiben. Einkommen von 1 Hektar. Im Gegenteil, der Betrieb Nr. 5 hat eine

Das Angebot ist unterdurchschnittlich, aber dank der effizienteren Nutzung der Faktoren erhielt es 125 Rubel. Der Ertrag von 1 Hektar ist höher, als er mit der durchschnittlichen Effizienz der Faktoren insgesamt erzielt worden wäre. Eine höhere Effizienz des Faktors x \ (Arbeitskosten) kann eine höhere Qualifikation der Arbeitnehmer und ein größeres Interesse an der Qualität der geleisteten Arbeit bedeuten. Eine höhere Wirtschaftlichkeit des xs-Faktors kann in der hohen Qualität der Milch (Fettgehalt, Kühlung) liegen, wodurch diese zu höheren Preisen verkauft wird. Der Regressionskoeffizient bei x2 ist, wie bereits erwähnt, wirtschaftlich nicht gerechtfertigt.

Die Verwendung eines Regressionsmodells zur Vorhersage besteht darin, die Erwartungswerte von Faktorattributen in die Regressionsgleichung zur Berechnung einer Punktprognose eines effektiven Attributs und / oder seines Konfidenzintervalls mit einer gegebenen Wahrscheinlichkeit einzusetzen, wie bereits in 9.6 erwähnt. Die an gleicher Stelle formulierten Einschränkungen der Prognose durch die Regressionsgleichung behalten ihre Bedeutung für multivariate Modelle. Darüber hinaus muss die Konsistenz zwischen den Werten der in das Modell eingesetzten Faktorzeichen beachtet werden.

Die Formeln zur Berechnung der durchschnittlichen Fehler bei der Schätzung der Position der Regressionshyperebene an einem gegebenen mehrdimensionalen Punkt und für den Einzelwert des effektiven Indikators sind sehr kompliziert, erfordern die Verwendung der Matrixalgebra und werden hier nicht berücksichtigt. Der durchschnittliche Fehler bei der Bewertung des Wertes des effektiven Indikators, berechnet mit dem PC-Programm "Microstat" und in der Tabelle angegeben. 9,7 entspricht 79,2 Rubel. pro 1 Hektar. Dies ist nur die Standardabweichung der tatsächlichen Einkommenswerte von den berechneten gemäß der Gleichung, die die Fehler in der Position der Regressionshyperebene selbst bei der Extrapolation der Werte der Faktorzeichen nicht berücksichtigt. Daher beschränken wir uns auf Punktprognosen in mehreren Versionen (Tabelle 9.13).

Um die Prognosen mit dem Grundniveau der aggregierten Durchschnittswerte der Merkmale zu vergleichen, wurde die erste Zeile der Tabelle eingeführt. Die kurzfristige Prognose ist auf kleine Veränderungen der Faktoren in kurzer Zeit und einen Beschäftigungsrückgang ausgelegt.

Tabelle 9.13 Bruttoeinkommensprojektionen des Regressionsmodells

Das Ergebnis ist ungünstig: Das Einkommen wird reduziert. Langfristprognose A - "vorsichtig", sie geht von einem sehr moderaten Verlauf der Faktoren und dementsprechend von einer leichten Einkommenssteigerung aus. Option B - "optimistisch", ist auf eine signifikante Änderung der Faktoren ausgelegt. Variante 5 ist so aufgebaut, dass Agafya Tikhonovna in der Komödie von NV Gogol "Ehe" gedanklich ein Porträt des "idealen Bräutigams" konstruiert: Nehmen Sie die Nase von einem Bewerber, das Kinn von einem anderen, Höhe vom dritten, Charakter vom vierten ; Wenn sie nun alle Eigenschaften, die sie mag, in einer Person vereinen könnte, würde sie nicht zögern zu heiraten. Bei der Prognose kombinieren wir also die (aus Sicht des Einkommensmodells) besten beobachteten Werte von Faktoren: Wir nehmen den Wert von X [von Hof Nr. 10, Wert x2 von Hof Nr. 2, Wert x3 von Farm Nr. 16. Alle diese Faktorenwerte existieren bereits in den untersuchten Aggregaten, sie werden nicht "erwartet", nicht "himmelhoch". Das ist gut. Können diese Werte von Faktoren jedoch in einem Unternehmen kombiniert werden, sind diese Werte systemisch? Die Lösung dieses Problems geht über den Rahmen der Statistik hinaus und erfordert spezifische Kenntnisse über das vorhergesagte Objekt.

Wenn in der multivariaten Regressionsanalyse zusätzlich zu quantitativen Faktoren ein nicht-quantitativer Faktor in die Gleichung aufgenommen wird, wird die folgende Technik verwendet: Das Vorhandensein eines nicht-quantitativen Faktors in Bevölkerungseinheiten wird mit Eins bezeichnet, sein Fehlen mit Null , dh geben Sie die sogenannte

Die Anzahl der Dummy-Variablen sollte um eins kleiner sein als die Anzahl der Abstufungen des qualitativen (nicht quantitativen) Faktors. Mit Hilfe dieser Technik ist es möglich, den Einfluss des Bildungsniveaus, des Wohnorts, der Wohnungsart und anderer sozialer oder natürlicher, nicht quantitativer Faktoren zu messen und vom Einfluss quantitativer Faktoren zu isolieren.

ZUSAMMENFASSUNG

Zusammenhänge, die nicht in jedem Einzelfall, sondern nur in einem Datensatz auftauchen, werden als statistisch bezeichnet. Sie äußern sich darin, dass sich bei einer Wertänderung des Faktors x auch die bedingte Verteilung des effektiven Attributs y ändert: unterschiedliche Bedeutungen eine Variable (Faktor x) entspricht unterschiedlichen Verteilungen einer anderen Variablen (Ergebnis y).

Korrelation ist ein Sonderfall der statistischen Verbindung, bei dem unterschiedliche Werte einer Variablen x unterschiedlichen Mittelwerten der Variablen y entsprechen.

Die Korrelation geht davon aus, dass die untersuchten Variablen quantifizierbar sind.

Statistische Beziehung ist ein weiter gefasstes Konzept, das keine Einschränkungen hinsichtlich des Messniveaus von Variablen beinhaltet. Die Variablen, zwischen denen die Beziehung untersucht wird, können sowohl quantitativ als auch nicht quantitativ sein.

Statistische Zusammenhänge spiegeln die Konjugation im Vorzeichenwechsel x und y wider, die nicht durch kausale Zusammenhänge, sondern durch die sogenannte Fehlkorrelation verursacht werden kann. Beispielsweise findet man bei den gemeinsamen Veränderungen in x und y ein bestimmtes Muster, das aber nicht durch den Einfluss verursacht wird

390

Die mathematische Beschreibung der Korrelationsabhängigkeit der effektiven Variablen von mehreren Fakultätsvariablen wird als multiple Regressionsgleichung bezeichnet. Die Parameter der Regressionsgleichung werden nach der Methode der kleinsten Quadrate (OLS) geschätzt. Die Regressionsgleichung muss in Parametern linear sein.

Wenn die Regressionsgleichung die Nichtlinearität der Beziehung zwischen den Variablen widerspiegelt, reduziert sich die Regression auf lineare Ansicht(linearisiert) durch Ändern von Variablen oder Logarithmen.

Durch die Einführung von Dummy-Variablen in die Regressionsgleichung kann man den Einfluss nicht-quantitativer Variablen berücksichtigen und sie vom Einfluss quantitativer Faktoren isolieren.

Wenn das Bestimmtheitsmaß nahe eins liegt, können Sie mithilfe der Regressionsgleichung vorhersagen, wie hoch der Wert der abhängigen Variablen für den einen oder anderen erwarteten Wert einer oder mehrerer unabhängiger Variablen sein wird.

1. Eliseeva II Statistische Methoden zur Messung von Verbindungen. - L.: Verlag Leningrad. un-das, 1982.

2. Eliseeva II, Rukavishnikov VO Logik der angewandten statistischen Analyse. - M.: Finanzen und Statistik, 1982.

3. Krastin OP Entwicklung und Interpretation von Korrelationsmodellen in der Ökonomie. - Riga: Zinatne, 1983.

4. Kulaichev AP Methoden und Tools zur Datenanalyse im Windows-Umfeld. Stadia 6.0. - M.: NPO "Informatik und Computer", 1996.

5. Statistische Modellierung und Prognose: Lehrbuch. Zulage / Ed. A. G. Granberg. - M.: Finanzen und Statistik, 1990.

6. Foerster E, Renz B. Methoden der Korrelations- und Regressionsanalyse. Ein Leitfaden für Ökonomen: Per. mit ihm. - M.: Finanzen und Statistik, 1983.

Die Aufgabe der multiplen linearen Regression besteht darin, ein lineares Modell der Beziehung zwischen einem Satz kontinuierlicher Prädiktoren und einer stetigen abhängigen Variablen zu erstellen. Die folgende Regressionsgleichung wird häufig verwendet:

Hier und ich- Regressionskoeffizienten, b 0- kostenloses Mitglied (falls verwendet), e- ein Term, der einen Fehler enthält - darüber werden verschiedene Annahmen gemacht, die jedoch häufiger mit einer Nullvektor-Mathematik auf die Normalverteilung reduziert werden. Erwartungen und Korrelationsmatrix.

Durch ein solches lineares Modell lassen sich viele Probleme in verschiedenen Fachgebieten, zB Wirtschaft, Industrie, Medizin, gut beschreiben. Dies liegt daran, dass einige Aufgaben linearer Natur sind.

Nehmen wir ein einfaches Beispiel. Es sei erforderlich, die Kosten für den Bau einer Straße anhand ihrer bekannten Parameter vorherzusagen. Gleichzeitig haben wir Daten zu den bereits verlegten Straßen, die die Länge, die Tiefe der Beregnung, die Menge des Arbeitsmaterials, die Anzahl der Arbeiter usw. angeben.

Es ist klar, dass die Kosten der Straße letztendlich der Summe der Kosten all dieser Faktoren entsprechen werden. Sie benötigen eine bestimmte Menge, zum Beispiel Schotter, mit bekannten Kosten pro Tonne, eine bestimmte Menge Asphalt auch mit bekannten Kosten.

Möglicherweise muss der Wald für die Installation abgeholzt werden, was ebenfalls zu zusätzlichen Kosten führt. All dies zusammen ergibt die Kosten für den Bau der Straße.

In diesem Fall enthält das Modell ein kostenloses Mitglied, das beispielsweise für die Organisationskosten (die für alle Bau- und Installationsarbeiten ungefähr gleich sind) verantwortlich ist dieses Level) oder Steuerabzüge.

Der Fehler umfasst Faktoren, die wir beim Bau des Modells nicht berücksichtigt haben (z. B. das Wetter während des Baus - es ist in der Regel nicht zu berücksichtigen).

Beispiel: multiple Regressionsanalyse

Für dieses Beispiel werden mehrere mögliche Korrelationen zwischen Armutsquoten und einem Grad, der den Prozentsatz der Haushalte unterhalb der Armutsgrenze vorhersagt, analysiert. Daher betrachten wir die Variable, die den Prozentsatz der Familien, die unterhalb der Armutsgrenze leben, als abhängige Variable und die übrigen Variablen als kontinuierliche Prädiktoren.

Regressionskoeffizienten

Um herauszufinden, welche der unabhängigen Variablen mehr zur Vorhersage der Armutsrate beiträgt, untersuchen wir standardisierte Verhältnisse(oder Beta-) Regression.

Reis. 1. Schätzungen der Parameter der Regressionskoeffizienten.

Beta-Koeffizienten sind die Koeffizienten, die Sie erhalten würden, wenn Sie alle Variablen auf den Mittelwert 0 und die Standardabweichung 1 bringen würden. Daher ermöglicht Ihnen die Größe dieser Beta-Koeffizienten, den relativen Beitrag jeder unabhängigen Variablen zur abhängigen Variablen zu vergleichen. Wie Sie der obigen Tabelle entnehmen können, sind die Variablen der Bevölkerungsveränderung seit 1960 (POP_CHING), der Anteil der auf dem Land lebenden Bevölkerung (PT_RURAL) und die Zahl der Beschäftigten in der Landwirtschaft (N_Empld) die wichtigsten Prädiktoren für Armut, schon seit nur sie sind statistisch signifikant (95% von ihnen .) Konfidenzintervall enthält nicht 0). Der Regressionskoeffizient der Bevölkerungsveränderung seit 1960 (Pop_Chng) ist negativ. Je weniger die Bevölkerung zunimmt, desto mehr Familien leben im entsprechenden Landkreis unterhalb der Armutsgrenze. Der Regressionskoeffizient für die im Dorf lebende Bevölkerung (%) (Pt_Rural) ist positiv, d. h. je höher der Anteil der Landbewohner, desto höher die Armutsquote.

Bedeutung von Prädiktoreffekten

Schauen wir uns die Tabelle mit den Signifikanzkriterien an.

Reis. 2. Gleichzeitige Ergebnisse für jede gegebene Variable.

Wie diese Tabelle zeigt, sind nur die Effekte von 2 Variablen statistisch signifikant: Bevölkerungsveränderung seit 1960 (Pop_Chng) und der Anteil der im Dorf lebenden Bevölkerung (Pt_Rural), p< .05.

Restanalyse. Nach dem Anpassen der Regressionsgleichung müssen Sie fast immer die vorhergesagten Werte und Residuen überprüfen. Große Ausreißer können beispielsweise die Ergebnisse stark verzerren und zu falschen Schlussfolgerungen führen.

Liniendiagramm der Emissionen

Bei großen Emissionen ist es in der Regel erforderlich, die originalen oder standardisierten Rückstände zu überprüfen.

Reis. 3. Beobachtungszahlen und Residuen.

Der Maßstab der vertikalen Achse dieses Diagramms ist in Sigma aufgetragen, d. h. Standardabweichung Reste. Wenn eine oder mehrere Beobachtungen nicht in das ± 3-fache Sigma-Intervall fallen, kann es sinnvoll sein, diese Beobachtungen auszuschließen (dies kann leicht über die Beobachtungsauswahlbedingungen erfolgen) und die Analyse erneut durchzuführen, um sicherzustellen, dass die Ergebnisse nicht beeinflusst werden durch diese Ausreißer.

Mahalanobis Entfernungen

Die meisten statistischen Lehrbücher widmen Ausreißern und Residuen in Bezug auf die abhängige Variable viel Zeit. Die Rolle von Ausreißern in Prädiktoren ist jedoch oft unklar. Auf der Seite der Prädiktorvariablen gibt es eine Liste von Variablen, die mit unterschiedlichen Gewichten (Regressionskoeffizienten) an der Vorhersage der abhängigen Variablen beteiligt sind. Sie können sich unabhängige Variablen als einen mehrdimensionalen Raum vorstellen, in dem jede Beobachtung verschoben werden kann. Wenn Sie beispielsweise zwei unabhängige Variablen mit gleichen Regressionskoeffizienten haben, können Sie das Streudiagramm der beiden Variablen zeichnen und jede Beobachtung in diesem Diagramm platzieren. Dann war es möglich, den Durchschnittswert auf dieser Grafik zu markieren und die Entfernung jeder Beobachtung zu diesem Durchschnitt (dem sogenannten Schwerpunkt) im zweidimensionalen Raum zu berechnen. Dies ist die Hauptidee bei der Berechnung der Mahalanobis-Distanz. Schauen wir uns nun ein Histogramm der Bevölkerungsveränderungsvariable seit 1960 an.

Reis. 4. Histogramm der Mahalanobis-Distanzverteilung.

Aus der Grafik folgt, dass es bei Mahalanobis-Abständen einen Ausreißer gibt.

Reis. 5. Beobachtete, vorhergesagte und Restwerte.

Beachten Sie, dass Shelby County (in der ersten Reihe) sich vom Rest der Grafschaften abhebt. Wenn Sie sich die Rohdaten ansehen, werden Sie feststellen, dass Shelby County tatsächlich die meisten Beschäftigten in der Landwirtschaft hat (Variable N_Empld). Es kann sinnvoll sein, sie in Prozent und nicht als absolute Zahl auszudrücken. In diesem Fall ist die Mahalanobis-Distanz von Shelby County wahrscheinlich nicht so groß wie in anderen Landkreisen. Shelby County ist eindeutig ein Ausreißer.

Reste entfernt

Eine weitere sehr wichtige Statistik zur Beurteilung der Schwere des Ausreißerproblems sind die entfernten Rückstände. Dies sind die standardisierten Residuen für die entsprechenden Beobachtungen, die erhalten werden, wenn diese Beobachtung aus der Analyse entfernt wird. Denken Sie daran, dass das Verfahren der multiplen Regression die Regressionsoberfläche anpasst, um die Beziehung zwischen der abhängigen Variable und der Variablen und dem Prädiktor aufzuzeigen. Wenn eine Beobachtung ein Ausreißer ist (wie Shelby County), dann besteht die Tendenz, die Regressionsfläche in Richtung dieses Ausreißers zu "ziehen". Als Ergebnis erhält man, wenn die entsprechende Beobachtung entfernt wird, eine andere Oberfläche (und Beta-Koeffizienten). Wenn sich die entfernten Rückstände also stark von den standardisierten Rückständen unterscheiden, haben Sie Grund zu der Annahme, dass Regressionsanalyse durch entsprechende Aufsicht stark verzerrt. In diesem Beispiel weisen die entfernten Residuen für Shelby County darauf hin, dass es sich um einen Ausreißer handelt, der die Analyse stark verzerrt. Ein Ausreißer ist im Streudiagramm deutlich sichtbar.

Reis. 6. Baseline-Residuen und entfernte Residuen sind eine Variable, die den Prozentsatz der Haushalte angibt, die unterhalb des Existenzminimums leben.

Die meisten von ihnen haben mehr oder weniger klare Interpretationen, dennoch wenden wir uns normalen Wahrscheinlichkeitsgraphen zu.

Wie bereits erwähnt, geht die multiple Regression davon aus, dass eine lineare Beziehung zwischen den Variablen in der Gleichung und einer Normalverteilung der Residuen besteht. Wenn diese Annahmen verletzt werden, kann die Schlussfolgerung ungenau sein. Ein normales Wahrscheinlichkeitsnetz von Residuen sagt Ihnen, ob diese Annahmen ernsthaft verletzt wurden oder nicht.

Reis. 7. Normaler Wahrscheinlichkeitsgraph; Erste Rückstände.

Dieses Diagramm wurde wie folgt konstruiert. Zuerst werden die standardisierten Residuen der Reihe nach geordnet. Aus diesen Rängen können z-Werte (d. h. Standardwerte der Normalverteilung) berechnet werden, basierend auf der Annahme, dass die Daten gehorchen Normalverteilung... Diese z-Werte sind entlang der y-Achse im Diagramm aufgetragen.

Wenn die beobachteten Residuen (entlang der x-Achse aufgetragen) normalverteilt sind, würden alle Werte auf einer Geraden im Diagramm liegen. In unserem Diagramm liegen alle Punkte sehr nahe an der Kurve. Sind die Residuen nicht normalverteilt, weichen sie von dieser Linie ab. Ausreißer machen sich auch in dieser Grafik bemerkbar.

Wenn ein Anpassungsverlust auftritt und die Daten eine explizite Kurve (z. B. S-förmig) in Bezug auf die Linie zu bilden scheinen, kann die abhängige Variable auf irgendeine Weise transformiert werden (z. B. Log-Transformation zum "Schrumpfen" des Schwanzes der Verteilung usw.). Eine Diskussion dieses Verfahrens liegt außerhalb des Rahmens dieses Beispiels (Neter, Wasserman und Kutner, 1985, S. 134-141, für eine Diskussion von Transformationen, die Datenanomalie und Nichtlinearität entfernen). Allerdings führen Forscher die Analyse sehr oft einfach direkt durch, ohne die entsprechenden Annahmen zu testen, was zu falschen Schlussfolgerungen führt.

Vorlesung 3. Multiple Regression

Bedingungen für die Anwendung der Methode und ihre Grenzen

Die paarweise Regression kann bei der Modellierung ein gutes Ergebnis liefern, wenn der Einfluss anderer Faktoren, die das Forschungsobjekt beeinflussen, vernachlässigt werden kann. Das Verhalten einzelner ökonomischer Variablen kann nicht kontrolliert werden; Es ist nicht möglich, die Gleichheit aller anderen Bedingungen für die Beurteilung des Einflusses eines untersuchten Faktors sicherzustellen. In diesem Fall sollte man versuchen, den Einfluss anderer Faktoren zu identifizieren, indem man sie in das Modell einbringt, d.h. Erstellen Sie eine multiple Regressionsgleichung:

Das Hauptziel der multiplen Regression besteht darin, ein Modell mit einer großen Anzahl von Faktoren zu erstellen und gleichzeitig den Einfluss jedes einzelnen von ihnen sowie ihre kumulative Wirkung auf den modellierten Indikator zu bestimmen. Die Modellspezifikation umfasst zwei Themenbereiche: Auswahl der Faktoren und Auswahl der Art der Regressionsgleichung.

Faktoranforderungen:

Muss quantifizierbar sein. Beziehen Sie ggf. einen qualitativen Faktor in das Modell ein, der keine quantitative Messung hat, sondern quantifiziert werden muss (z. B. im Ertragsmodell wird die Bodenqualität in Form von Punkten angegeben).

Sie sollten nicht miteinander korreliert sein und darüber hinaus nicht in präzisem Funktionszusammenhang stehen. Aufnahme von Faktoren mit hoher Interkorrelation in das Modell, wenn

für Sucht

kann zu unerwünschten Folgen führen, Instabilität und Unzuverlässigkeit der Schätzungen der Regressionskoeffizienten nach sich ziehen. Wenn eine hohe Korrelation zwischen den Faktoren besteht, ist es unmöglich, ihre isolierte Wirkung auf den effektiven Indikator zu bestimmen, daher erweisen sich die Parameter der Regressionsgleichung als uninterpretiert.

Multikollinearität

Spezifisch für multifaktorielle Systeme ist die Unzulässigkeitsbedingung eines zu engen Zusammenhangs zwischen faktoriellen Zeichen. Diese Bedingung wird oft als faktorkollineares Problem bezeichnet. Kollinearität bedeutet eine ziemlich enge nicht-zufällige lineare Korrelation einiger Faktoren mit anderen. Es wird oft empfohlen, einen Faktor auszuschließen, der mit einem anderen Faktor in assoziiert ist. Von den beiden eng verwandten Faktoren ist es sinnvoll, den schwächeren Faktor auszuschließen, der mit dem effektiven Merkmal verbunden ist.

Eine komplexere Technik ist erforderlich, um einen Faktor zu finden und auszuschließen, der nicht eng mit einem bestimmten Faktor verwandt ist, aber eine enge multifaktorielle Beziehung zu einem Komplex anderer Faktoren aufweist. Diese Position wird Multikollinearität genannt. Um es zu messen, sollte man nacheinander die Koeffizienten der multiplen Korrelation (oder Bestimmung) jedes Faktors berechnen (in der Rolle des Ergebnisses) mit allen anderen Faktoren (in der Rolle der erklärenden Variablen). Hat man einen multikollinearen Faktor oder mehrere gefunden, sollte man die Möglichkeit in Betracht ziehen, den verbleibenden Faktor, der am stärksten vom Komplex abhängt, auszuschließen, wenn dies nicht zu einem Verlust führt ökonomischer Sinn Modelle.

Kollinearität und Multikollinearität von Faktoren in Wirtschaftssystemen entstehen nicht zufällig. In der Summe ähnlicher Unternehmen oder Regionen ergibt sich in der Regel aufgrund der Wirtschaftsgesetze eine parallele Variation der Faktorzeichen: diejenigen Unternehmen, die die besten Werte einiger Faktoren aufweisen, zum Beispiel die besten natürliche Bedingungen, gleichzeitig eine höhere Kapital- und Stromversorgungsquote, höhere Qualifikation des Personals, bessere Technik etc. Daher die unvermeidliche mehr oder weniger starke Kollinearität aller Produktionsfaktoren oder sozioökonomischen Lebensbedingungen.

Das Vorhandensein von Kollinearität im System verschlechtert die mathematischen Eigenschaften des Modells und kann zu einer Instabilität der effektiven Parameter führen, die sich bei einer kleinen Änderung der Werte der Faktoren stark ändern.

Ein spezifisches Problem der multivariaten Analyse ist die Frage nach der Möglichkeit, einen Faktor, für den es keine Informationen gibt, durch einen anderen zu ersetzen und die Folgen einer solchen Ersetzung.

Wenn möglich, sollten Sie eine andere Variable finden, deren Werte bekannt sind und die eng mit dem fehlenden Faktor zusammenhängt. Liegen beispielsweise keine Daten zu den Durchschnittslöhnen für die Region vor, können diese durch den Wert des Bruttoregionalprodukts pro Kopf ersetzt werden, wobei zu berücksichtigen ist, dass zwischen diesen wirtschaftlichen Eigenschaften.

Es ist wichtig, den Zweck zu berücksichtigen, für den das Modell erstellt wird. Wenn das Ziel nur darin besteht, den effektiven Indikator vorherzusagen, führt das Ersetzen eines Faktors durch eine andere Variable mit ihrer engen Verbindung mit dem ersetzten Faktor nicht zu signifikanten Fehlern. Wenn aber das Ziel des Modells die wirtschaftspolitische Entscheidungsfindung des Managers war, dann entzieht die Ersetzung eines kontrollierten Faktors durch einen eng verwandten, aber unkontrollierbaren Ersatzfaktor dem Modell trotz hoher Determiniertheit seinen Sinn.

Auswahl des Typs des multivariaten Modells und der faktoriellen Merkmale

Die Beziehung des effektiven Merkmals ja mit Faktoren x 1 , x 2 , …, x k ausgedrückt durch die Gleichung:

(22)

wo ein- freier Term der Gleichung;

k- die Anzahl der Faktoren;

J- Faktornummer;

ich- die Nummer der Bevölkerungseinheit;

B J- Koeffizient der bedingt reinen Regression mit dem Faktor x J, Messung der Ergebnisänderung, wenn sich der Faktor um seine Einheit ändert, und mit der Konstanz anderer im Modell enthaltener Faktoren;

ε ich- Zufällige Variation ja ich nicht durch das Modell erklärt.

Das Modell in der Form (22) ist additiv. Dies bedeutet, dass das Modell auf der Hypothese basiert, dass jeder Faktor etwas zum Wert des effektiven Merkmals hinzufügt oder etwas davon abzieht. Diese Hypothese über die Art des Zusammenhangs zwischen Ursachen und Wirkungen spiegelt vollständig eine Reihe von Wirtschaftssystemen mit miteinander verbundenen Merkmalen wider. Zum Beispiel, wenn ja Ist der Ertrag einer landwirtschaftlichen Kultur und x 1 , x 2 , …, x k- agrotechnische Faktoren: Dosierungen verschiedener Düngemittel, Anzahl der Unkrautjätungen, Bewässerung, Anteil der Verluste während der Ernte, dann erhöht oder verringert tatsächlich jeder dieser Faktoren den Ertrag, und das Ergebnis kann ohne einen der aufgeführten Faktoren vorliegen .

Allerdings ist das additive Modell nicht für alle Zusammenhänge in der Wirtschaft geeignet. Wenn Sie eine solche Beziehung wie die Abhängigkeit des Produktionsvolumens des Unternehmens untersuchen ja aus dem besetzten Gebiet x 1 , die Anzahl der Mitarbeiter x 2 , die Kosten des Anlagevermögens x 3 (oder das gesamte Kapital), dann ist jeder der Faktoren für die Existenz des Ergebnisses notwendig und kein Zusatz dazu. In solchen Situationen muss man von der Hypothese der multiplikativen Form des Modells ausgehen:

(23)

Dieses Modell wurde nach seinen ersten Schöpfern das "Cobb-Douglas-Modell" genannt.

Möglich ist auch eine Mischform des Modells, bei der einige Faktoren additiv, andere multiplikativ eingehen.

Bei der Wahl der Faktorzeichen ist von den folgenden Bestimmungen auszugehen.

Die Faktoren sollten die Ursachen sein, und das resultierende Zeichen sollte ihre Folge sein. Es ist inakzeptabel, in die Anzahl der Faktoren ein Merkmal aufzunehmen, das in der Realwirtschaft am „Output“ des Systems einen Platz einnimmt, d.h. abhängig vom modellierten. Zum Beispiel wird ein Modell der Kosten für eine Getreidemühle gebaut. Die Faktoren sind der Getreideertrag und die Arbeitsintensität eines Zentners, aber das Bestimmtheitsmaß ist klein, das Modell ist schlecht. Um sie zu „verbessern“, wurde die Wirtschaftlichkeit der Getreideproduktion zu der Anzahl der Faktoren hinzugefügt. Der Bestimmungskoeffizient sprang sofort auf 0,88. Aber das Modell hat sich nicht verbessert, es ist bedeutungslos geworden, da die Rentabilität von den Kosten abhängt und nicht umgekehrt.

Faktormerkmale sollten nicht Teil eines produktiven Merkmals sein. Es ist unmöglich, das gleiche Selbstkostenmodell anhand der Faktoren Gehalt pro Centner Getreide, Transportkosten für einen Centner Getreide usw. das Verhältnis des Ganzen zu seinen Bauteilen sollte nicht mit Korrelationsanalyse und Verwendung von Indexsystemen.

Eine Duplizierung von Faktoren sollte vermieden werden. Jeder reale Faktor sollte durch einen Indikator dargestellt werden. Beispielsweise kann der Faktor Arbeit im Produktionsvolumenmodell entweder durch die durchschnittliche Zahl der Beschäftigten oder durch die Kosten von Manntagen (Mannstunden) für die Herstellung von Produkten dargestellt werden, jedoch nicht durch beide Indikatoren. Duplizierung von Faktoren führt zu Fragmentierung Faktoreinfluss und es kann aufgrund einer solchen Fragmentierung unzuverlässig sein.

Faktoren, die eng mit anderen zusammenhängen, sollten nach Möglichkeit vermieden werden.

Faktoren einer Hierarchieebene sollten berücksichtigt werden, Faktoren der höheren Ebene und deren Unterfaktoren sollten nicht berücksichtigt werden. Zum Beispiel beziehen wir in das Getreidekostenmodell den Ertrag, die Arbeitsintensität ein, aber noch nicht den Fruchtbarkeitswert, die Düngemitteldosis, die Energieversorgung der Arbeiter, d.h. Subfaktoren - Gründe, die sich auf Produktivität und Arbeitsintensität auswirken. Die Einbeziehung von Subfaktoren ist auch eine Duplizierung eines Faktors.

Es gibt eine Logik in einer solchen Konstruktion des Modells, bei der alle Merkmale derselben Einheit der Grundgesamtheit zugeordnet werden, sowohl das resultierende Merkmal als auch die Faktoren. Wenn beispielsweise das Produktionsvolumen eines Unternehmens modelliert wird, sollten sich die Faktoren auch auf das Unternehmen beziehen: die Anzahl der Mitarbeiter, die Grundstücksfläche, das Anlagevermögen usw. Wenn ein Lohnmodell eines Arbeitnehmers erstellt wird, sollten sich die Faktoren auch auf den Arbeitnehmer beziehen: Betriebszugehörigkeit, Alter, Bildung, Höhe der Lohnskala (Skala), Stromversorgung usw.

Es gilt das Prinzip der Einfachheit des Modells. Wenn es möglich ist, mit fünf Faktoren ein gutes Modell zu bauen, dann sollte man dem idealen Modell mit zehn Faktoren nicht hinterherjagen, in der Regel verschlechtern unnötige Faktoren das Modell.

Indikatorensysteme der multivariaten Korrelation und Regression

Betrachten wir dieses Indikatorensystem am Beispiel des Zusammenhangs zwischen dem Ertrag von Getreideernten in 51 landwirtschaftlichen Betrieben in der Region Orjol. Zunächst wurden 8 faktorielle Merkmale ausgewählt, die die Ertragsvariation beeinflussen können:

x 1 - die Größe der Aussaatfläche von Getreide, Hektar;

x 2 – spezifisches Gewicht Getreide in der Gesamtfläche,%;

x 3 - Kosten für die Aussaat von Getreide pro Hektar, tausend Rubel / ha;

x 4 - Arbeitskosten pro 1 Hektar, Mann-h ;.

x 5 - die Höhe der Vergütung, Rubel / Person-h;

x 6 - Stromversorgung, PS / 100 Hektar Ackerland;

x 7 - die Anzahl der Mähdrescher pro 1000 ha Getreide, Stück;

x 8 - die Anzahl der Traktorfahrer pro 100 Hektar Ackerland, Menschen.

Die ursprüngliche Regressionsgleichung lautet:

Allerdings sind nur die Koeffizienten bei x 3 (T-Kriterium ist 10.5) und für x 8 (T-Kriterium ist 2,72). Größere Zuverlässigkeit als andere Faktoren haben und x 5 .

Nach dem Aussortieren unzuverlässiger Faktoren, d.h. Wenn man sie aus der Gleichung ausschließt, lautet die endgültige Regressionsgleichung:

So wurde die Ertragsdifferenz in den Daten von 51 landwirtschaftlichen Betrieben am stärksten und zuverlässigsten durch die Unterschiede zwischen den Betrieben bei den Kosten pro Hektar, beim Lohnniveau und bei der Bereitstellung qualifizierter Arbeitskräfte beeinflusst.

Jeder der Koeffizienten, die als reine Regressionskoeffizienten bezeichnet werden, wird als Größe der Renditeänderung interpretiert, sofern sich dieser Faktor um die akzeptierte Maßeinheit ändert und die beiden anderen Faktoren auf Durchschnittsniveau konstant bleiben. Zum Beispiel, B 3 bedeutet, dass bei einer Erhöhung der Kosten für 1 Hektar Getreide und bei unveränderten Löhnen und der Bereitstellung von Traktorfahrern der durchschnittliche Ertrag um durchschnittlich 4,6 Zentner/ha gestiegen ist. Der Begriff "bedingt reine Regression" bedeutet, dass der Einfluss eines bestimmten Faktors nur der Faktoren, die in der Gleichung enthalten sind, von einer begleitenden Variation befreit wird, jedoch nicht von einer möglichen begleitenden Variation anderer Faktoren.

Der Wert der Koeffizienten der bedingt reinen Regression hängt von den verwendeten Maßeinheiten ab. Wenn der Faktor x 3 nicht in Tausend Rubel pro Hektar gemessen wurde, sondern in Rubel pro Hektar, dann ist der Koeffizient B 3 wäre gleich 0,00461 Rubel / ha. Daher ist es unmöglich, die Koeffizienten der bedingt reinen Regression miteinander zu vergleichen. Um vergleichbare Koeffizienten des Einflusses der Variation von Faktoren auf die Variation des Ergebnisses zu erhalten, sollte man die Maßeinheiten loswerden, sie auf eine konventionelle Einheit bringen. Dazu gibt es zwei Möglichkeiten.

Der erste Weg heißt Standardisierung. Dieser Begriff stammt aus englischer Name Standardabweichung. Standardisierte Regressionskoeffizienten werden in Brüchen oder Werten ausgedrückt, wenn sie eins überschreiten - in σ Werten ja... Standardisierte Verhältnisse bedeuten griechischer Briefβ und heißen Betakoeffizienten. Ihre Formel lautet wie folgt:

In unserem Beispiel erhalten wir:

β 3 = 0,772;

β 5 = 0,147;

β 8 = 0,223.

Die Interpretation der Betakoeffizienten ist wie folgt: wenn sich der Faktor ändert x 3 um eine seiner Standardabweichungen vom Durchschnitt und mit der Konstanz anderer Faktoren weicht das effektive Vorzeichen (Ausbeute) um 0,772 seiner Standardabweichung von seinem Durchschnittswert ab. Da alle standardisierten Koeffizienten in denselben Maßeinheiten ausgedrückt werden, ist in σ ja , sie sind miteinander vergleichbar, und es kann gefolgert werden, dass die Ertragsvariation in der untersuchten Betriebsgruppe am stärksten durch die Variation der Kosten pro Hektar Saat beeinflusst wurde.

Eine andere Möglichkeit, die Regressionskoeffizienten in eine vergleichbare Form zu bringen, besteht darin, sie in elastische Koeffizienten umzuwandeln. Die Formel für den Elastizitätskoeffizienten ℓ J :

(25)

Der Elastizitätskoeffizient wird wie folgt interpretiert: wenn sich der Faktor ändert x J durch seinen Durchschnittswert und mit der Konstanz anderer Faktoren, die in der Gleichung enthalten sind, ändert sich der effektive Indikator im Durchschnitt um ℓ J Teil seines Durchschnitts (oder um ℓ J Durchschnitte, wenn ℓ J> 1, was weniger häufig vorkommt). Es wird oft gesagt, „wird zu ℓ J Prozent pro 1% Änderung des Faktors ”.

In unserem Beispiel haben wir:

Die Elastizitätskoeffizienten sind so ausgeprägt wie β J, in den gleichen Einheiten und sind miteinander vergleichbar. Sie sind bei der Planung und Vorhersage bequemer zu verwenden als β-Koeffizienten. Es ist unwahrscheinlich, dass der Manager plant, den Faktor, sagen wir, Investitionen um 0,6 Sigma zu erhöhen. Normalerweise planen sie, die Faktoren, wenn sie überschaubar sind, um einen bestimmten Prozentsatz des erreichten Niveaus zu ändern. Wenn wir beispielsweise planen, die Kosten pro Hektar Getreide um 10 %, die Löhne um 30 % und die Bereitstellung von qualifizierten Traktorfahrern um 20 % zu erhöhen, dann können wir mit einer Ertragsänderung um . rechnen
, wo k J- die geplanten Wachstumsraten der Faktoren.

Betrachten wir nun das System der Indikatoren für die Enge von Multifaktorbeziehungen. Zunächst wird eine Matrix gepaarter Korrelationskoeffizienten konstruiert (Tabelle 1).

Tabelle 1. Matrix gepaarter Korrelationskoeffizienten

Zeichen	x 3	x 5	x 8

x 3
x 5
x 8

Die Matrix gepaarter Korrelationskoeffizienten liefert Eingangsdaten für weitere Indikatoren der Kommunikationsdichte und für die anfängliche Überprüfung auf Kollinearität. In diesem Fall sind alle Verbindungen zwischen den Faktoren schwach, Kollinearität wird das Modell nicht verderben.

Der wichtigste Indikator für die Enge der Kommunikation in einem multifaktoriellen System ist der Koeffizient der Mehrfachbestimmung R 2 ... Es misst die Gesamtdichte der Variationsbeziehung des effektiven Merkmals ja mit Variation des gesamten im Modell enthaltenen Faktorensystems. Der Wert des Mehrfachbestimmungskoeffizienten kann auf verschiedene Weise berechnet werden.

1.Berechnung basierend auf der Matrix gepaarter Korrelationskoeffizienten

wobei Δ * die Determinante der Matrix ist;

, (26)

und Δ die Determinante einer Matrix ist, die nicht die erste Zeile von Δ * und ihre letzte Spalte enthält, d. h.:

Mit zwei Faktoren ergibt sich eine vereinfachte Berechnungsformel:

(27)

Aus (27) folgt, dass, wenn die Faktoren voneinander unabhängig sind, d.h. , ist der Mehrfachbestimmungskoeffizient die Summe der gepaarten Bestimmungskoeffizienten.

Mit Formel (27) können wir drei mögliche zweifaktorielle Bestimmtheitsmaße berechnen:

2.Berechnung basierend auf gepaarten Korrelationskoeffizienten und β-Koeffizienten:

Im Beispiel: R 2 = 0,86 0,772 + 0,35 0,147 + 0,433 0,223 = 0,8119.

3. Berechnung als Korrelationsverhältnis, d.h. Variationsverhältnis des effektiven Merkmals ja, verbunden mit der Variation des im Modell enthaltenen Faktorensystems (in der Regressionsgleichung), auf die gesamte, allgemeine Variation des effektiven Indikators:

. (30)

Der Zähler der Formel (30) ist die Summe der Quadrate der Abweichungen der einzelnen berechneten Werte des effektiven Indikators von seinem Durchschnitt, und der Nenner ist die Summe der Quadrate der tatsächlichen Werte des effektiven Indikators vom Durchschnitt für alle Bevölkerungseinheiten.

Partielle Bestimmtheitsmaße sind Indikatoren, die messen, um wie viel die ungeklärte Streuung durch bereits im Modell vorhandene Faktoren reduziert wird, wenn dieser Faktor in das Modell aufgenommen wird. x m... Die Formel für das partielle Bestimmtheitsmaß lautet wie folgt:

In unserem Beispiel:

Die Interpretation lautet wie folgt: Einbeziehung des Faktors in das Modell x 3 nach x 5 und x 8 ja um 74 %; Faktoreinschluss x 5 nach x 3 und x 8 reduziert unerklärliche Variationen ja auf 10 %; Faktoreinschluss x 8 nach x 3 und x 5 reduziert unerklärliche Variationen ja um 20 %.

Die Teilbestimmungskoeffizienten sind untereinander nicht vergleichbar, da es sich um Anteile unterschiedlicher Nennerwerte handelt.

Aus der Quadratwurzel eines jeden Bestimmtheitskoeffizienten erhält man den Koeffizienten der entsprechenden Korrelation: mehrfach, paarweise oder partiell.

5. Einbeziehung nicht-quantitativer Faktoren in das multivariate Modell

Faktoren der landwirtschaftlichen Produktion wie Naturgebiet, die Eigentumsform von Unternehmen, die vorherrschende Produktionsrichtung (Industrie) und andere. Es ist vorzuziehen, die anfängliche Gruppe von Unternehmen oder Regionen, die sich in diesen qualitativen Merkmalen unterscheiden, nicht zu vermischen. Es kann aber auch notwendig sein, ein Modell mit heterogenen Bevölkerungseinheiten aufzubauen, wenn beispielsweise die Anzahl der qualitativ homogenen Einheiten für eine zuverlässige Kommunikation zu gering ist. Manchmal kann das Ziel gesetzt werden, den Nettoeinfluss eines nichtquantitativen Faktors, beispielsweise der Eigentumsform, auf die Produktionsergebnisse zu messen, und dies erfordert die Einbeziehung eines qualitativen Faktors in das multivariate Modell.

In solchen Fällen können die qualitativen Abstufungen eines Merkmals mit speziellen Variablen kodiert werden, die oft als "fiktive" oder "strukturelle" Variablen bezeichnet werden. Sie spiegeln die Heterogenität der qualitativen Bevölkerungsstruktur wider. Angenommen, es ist notwendig, ein Regressionsmodell der Rentabilität der Produktion von Unternehmen zu erstellen, und in der Region gibt es 16 staatliche Unternehmen, 28 private, 13 genossenschaftliche Eigentumsformen.

Wenn wir die mit der Eigentumsform verbundenen Unterschiede ignorieren, werden sie entweder in eine Restvariation übergehen, was das Rentabilitätsmodell verschlechtert, oder in einem unbekannten Verhältnis mit dem Einfluss bestimmter qualitativer Faktoren vermischt werden, wodurch das Maß ihres Einflusses verzerrt wird.

Notwendig für m nicht-quantitative Faktoren oder Abstufungen eines solchen Faktors einzugeben m-1 Strukturvariable, die wir bezeichnen U J... Die Daten für die Berechnung haben die folgende Form, wenn m=3 (Tabelle 2).

Tabelle 2. Ausgangsdaten mit Strukturvariablen

Eigentumsart	Aggregateinheit	Quantitative Funktionen				Strukturelle Variablen
Eigentumsart	Aggregateinheit		x 1	x 2	x k	U 1	U 2
Bundesland		Die Bedeutung dieser Zeichen
		Die Bedeutung dieser Zeichen
Kooperative		Die Bedeutung dieser Zeichen

Als Ergebnis der Lösung wird ein Modell des Formulars erhalten:

wo x k +1 entsprechen der Variablen U 1 , ein x k +2 - variabel U 2 .

Schreiben wir das Modell in spezieller Notation um:

Die Bedeutung der Koeffizienten für Strukturvariablen ist wie folgt: Koeffizient C 1 bedeutet, dass private Unternehmen mit den gleichen Werten quantitativer Faktoren x 1 … x k haben eine Rentabilität auf C 1 mehr als staatseigene Unternehmen, die als Vergleichsbasis herangezogen werden (keine strukturellen Variablen haben U 1 und U 2 ). Genossenschaftsunternehmen haben eine Rentabilität von C 2 mehr als die Regierung. Die Mengen C 1 und C 2 kann sowohl positiv als auch negativ sein.

Anstelle eines allgemeinen Modells können Sie drei Teilmodelle für Unternehmen getrennter Gruppen nach Eigentumsverhältnissen schreiben, indem Sie den Koeffizienten an der strukturellen Variablen zum freien Term der Gleichung hinzufügen:

a) für Unternehmen des öffentlichen Sektors

b) für privatwirtschaftliche Unternehmen

c) für Unternehmen des Genossenschaftssektors

6. Anwendung multivariater Regressionsmodelle zur Analyse von Unternehmensaktivitäten und Prognosen

Die Leistungsbewertung auf der Grundlage eines Regressionsmodells im Vergleich zur einfachsten Methode einer solchen Bewertung - der Vergleich des Ergebnisses eines bestimmten Unternehmens mit dem durchschnittlichen Ergebnis einer homogenen Bevölkerung - bietet zusätzliche Vorteile.

Der durchschnittliche Ertrag von 51 landwirtschaftlichen Betrieben lag nach unserem Beispiel bei 22,9 c/ha Getreide.

Agrofirm 1 erhielt 17,6 c/ha. Folglich hinkt diese Firma hinterher. Es stellt sich jedoch die Frage: Vielleicht waren die Produktionsbedingungen dieses Unternehmens unterdurchschnittlich? Der Vergleich mit dem Bevölkerungsdurchschnitt lässt den Unterschied im „Faktorenangebot“ der Unternehmen völlig außer Acht, tatsächlich befinden sich die Unternehmen jedoch nicht immer in den gleichen Bedingungen.

Die Bewertung von Aktivitäten auf der Grundlage eines Regressionsmodells beinhaltet die Berücksichtigung von Ungleichheiten bei den Produktionsbedingungen, beispielsweise der Bodenfruchtbarkeit, der finanziellen Situation, der Verfügbarkeit von qualifiziertem Personal und anderen. Es ist unmöglich, die unterschiedlichen Produktionsbedingungen zwischen den Unternehmen vollständig zu berücksichtigen, da jedes Modell nicht alle Faktoren der Ertragsvariation berücksichtigt. Die Schätzung auf der Grundlage des Modells erfolgt durch den Vergleich des tatsächlichen Ergebnisses (Ertrags) mit dem Ergebnis, das das Unternehmen mit den verfügbaren tatsächlichen Faktoren und dem Durchschnitt für das Aggregat ihrer Wirksamkeit erzielt hätte, ausgedrückt durch die Koeffizienten der bedingt reinen Regression . Betrachten Sie die Ergebnisse der Berechnung der Rendite zweier Unternehmen (Tabelle 3).

Tabelle 3. Tatsächliches und geschätztes Produktionsergebnis

Agrofirm	Faktorzeichen			Produktivität, c / ha
Agrofirm	x 3	x 5	x 8	tatsächlich	berechnet


Durchschnitt für die Stichprobe

Beide Firmen haben bei den Werten der Hauptfaktoren schlechter als der Stichprobendurchschnitt x 3 und x 8 , und dementsprechend sind die Werte der geschätzten Ausbeute niedriger als der Durchschnitt. Gleichzeitig hat Unternehmen 1 jedoch praktisch den gleichen geschätzten Ertrag wie tatsächlich erzielt. Es gibt keinen Grund zu der Annahme, dass dieses Unternehmen hinterherhinkt. Unternehmen 2 hat eine niedrigere tatsächliche Rendite als die für die verfügbaren Faktoren berechnete. Dies bedeutet, dass entweder dieser Betrieb schlechter ausfiel als die durchschnittlichen unbekannten Faktoren, die nicht im Modell berücksichtigt wurden, oder der Nutzungsgrad der Hauptfaktoren - Kosten pro Hektar und Bereitstellung von qualifizierten Arbeitskräften - unter dem Durchschnitt liegt.

Prognosen auf der Grundlage eines Regressionsmodells basieren auf der Annahme, dass die Faktoren kontrollierbar sind und den einen oder anderen geplanten erwarteten Wert annehmen können und andere unbekannte Bedingungen auf dem Durchschnittsniveau für die Bevölkerung bleiben. Die Kontrollierbarkeit von Faktoren bedeutet nicht, dass während der Prognose einer ihrer Werte in das Modell eingesetzt werden kann. Die Regressionsgleichung spiegelt die Bedingungen wider, die in der Grundgesamtheit bestanden, nach denen die Gleichung erhalten wurde. Wenn die Werte der Faktorzeichen 2-3 mal höher wären, kann nicht argumentiert werden, dass die Koeffizienten der bedingt reinen Regression gleich bleiben würden.

Daher wird empfohlen, bei der Vorhersage mit der Regressionsgleichung die tatsächlich beobachteten Werte der Faktoren insgesamt nicht zu überschreiten oder diese Grenzen um nicht mehr als 10-15% der Durchschnittswerte zu überschreiten. Eine ebenso wichtige Anforderung bei der Prognose ist die Anforderung, die Systematik der prognostizierten Werte von Faktoren zu beachten. Es ist notwendig, das Vorzeichen und die Nähe der Beziehung zwischen den Faktoren zu berücksichtigen. Wenn beispielsweise eine Erhöhung des Angebots an qualifizierten Arbeitskräften prognostiziert wird, ist es unmöglich, den prognostizierten Wert des Lohnniveaus unverändert zu lassen oder gar zu reduzieren. Bei der Planung des Wachstums des Leistungs-Arbeits-Verhältnisses ist es erforderlich, das Kapital-Arbeits-Verhältnis in etwa im gleichen Verhältnis zu erhöhen.

Basierend auf den Werten der in Tabelle 3 angegebenen Faktoren gehen wir davon aus, dass wir bei der Vorhersage des Ertrags die Kosten pro Hektar planen ( x 3 ) in Höhe von 3 Tausend Rubel, die Anwesenheit von Traktorfahrern pro 100 Hektar Ackerland 0,8; Lohn für eine Arbeitsstunde in Höhe von 20 Rubel. in Stunde. Durch Einsetzen dieser Werte in das Regressionsmodell erhalten wir eine Punktprognose für den Ertrag von Getreidekulturen:

Eine Punktprognose ist die mathematische Erwartung (Durchschnitt) der möglichen Werte des vorhergesagten Merkmals mit unterschiedlichen Wahrscheinlichkeiten. Es ist notwendig, die Punktprognose mit der Berechnung von Konfidenzgrenzen mit ziemlich hoher Wahrscheinlichkeit zu ergänzen. Verwenden Sie dazu den Wert des quadratischen Mittelwertfehlers der Näherung, der durch die Formel berechnet wird:

(33)

Der Zähler des Radikalausdrucks ist das nicht durch das Modell erklärbare Residuum, die Summe der Quadrate der Abweichungen des effektiven Attributs, und der Nenner ist die Anzahl der Freiheitsgrade der Restvariation. In unserem Beispiel beträgt die Restquadratsumme der Abweichungen 814,3. Wir haben:

Folglich beträgt der vorhergesagte Ertrag mit einer Zuverlässigkeit von 0,95 25,4 ± 4,16 · 2 oder 17,8 bis 33,72 c / ha. Alle diese Berechnungen beziehen sich auf Ertragsprognosen für einzelne landwirtschaftliche Betriebe. Wenn wir über den Durchschnittsertrag für die Gesamtheit von 51 landwirtschaftlichen Betrieben sprechen, dann durchschnittlicher Fehler das arithmetische Mittel ist gleich der Standardabweichung geteilt durch die Quadratwurzel des Stichprobenumfangs n, d.h. wird sein:

Die Interpretation dieses Wertes des Prognosefehlers des Durchschnittswertes ist wie folgt: wenn 51 landwirtschaftliche Betriebe mit Faktoren versorgt werden x 3 , x 5 , x 8 auf den Stufen 3, 20 bzw. 0,8 wird der durchschnittliche Gesamtertrag von 25,4 ± 0,583 c / ha erzielt. Mit einer Wahrscheinlichkeit von 0,95 beträgt der erwartete Gesamtertrag 25,4 ± 0,583 · 2 oder 23,7 bis 27,1 c / ha.

Ein ökonometrisches Korrelations-Regressionsmodell des Systems der miteinander verbundenen Merkmale der untersuchten Population ist eine Regressionsgleichung, die die Hauptfaktoren enthält, die die Variation des effektiven Merkmals im Aggregat beeinflussen, einen hohen Bestimmtheitskoeffizienten hat (nicht weniger als 0,5 ), zuverlässig und korrekt interpretiert (nach Vorzeichen und in der Größenordnung) mit der Theorie des untersuchten Systems durch Regressionskoeffizienten, und aufgrund dieser Eigenschaften ist es geeignet, die Aktivität von Einheiten der Population und für Prognose.

Plural Rückschritte (2)Zusammenfassung >> Marketing

Indem man sie in das Modell einführt, d. h. die Gleichung konstruieren mehrere Rückschritte. Plural Rückschritt weit verbreitet bei der Lösung von Nachfrageproblemen ...