Lineares Regressionsdiagramm in Excel. Erstellen einer multiplen Regressionsgleichung in Excel

Die Regressionsanalyse ist eine der beliebtesten Methoden der statistischen Forschung. Es kann verwendet werden, um den Grad des Einflusses unabhängiger Variablen auf die abhängige Variable zu bestimmen. In der Funktionalität Microsoft Excel Für diese Art der Analyse stehen Tools zur Verfügung. Werfen wir einen Blick darauf, was sie sind und wie man sie verwendet.

Um jedoch die Funktion zur Durchführung einer Regressionsanalyse nutzen zu können, müssen Sie zunächst das Analysepaket aktivieren. Erst dann erscheinen die für diesen Vorgang notwendigen Werkzeuge im Excel-Menüband.


Wenn wir nun zur Registerkarte gehen "Daten", auf dem Menüband in der Toolbox "Analyse" wir werden einen neuen Button sehen - "Datenanalyse".

Arten der Regressionsanalyse

Es gibt verschiedene Arten von Regressionen:

  • parabolisch;
  • Leistung;
  • logarithmisch;
  • exponentiell;
  • Demonstration;
  • hyperbolisch;
  • lineare Regression.

Über die Ausführung der letzten Ansicht Regressionsanalyse Wir werden später mehr über Excel sprechen.

Lineare Regression in Excel

Unten sehen Sie als Beispiel eine Tabelle, die die durchschnittliche tägliche Lufttemperatur auf der Straße und die Anzahl der Ladenkunden für den entsprechenden Werktag zeigt. Lassen Sie uns mithilfe der Regressionsanalyse genau herausfinden, wie sich Wetterbedingungen in Form der Lufttemperatur auf den Besuch eines Einzelhandelsgeschäfts auswirken können.

Die allgemeine lineare Regressionsgleichung sieht folgendermaßen aus: Y = a0 + a1x1 + ... + axk. In dieser Formel Y bezeichnet die Variable, deren Einfluss wir untersuchen möchten. In unserem Fall ist dies die Anzahl der Käufer. Bedeutung X- Das Unterschiedliche Faktoren die sich auf die Variable auswirken. Optionen A sind die Regressionskoeffizienten. Das heißt, sie bestimmen die Bedeutung eines bestimmten Faktors. Index k bezeichnet die Gesamtzahl dieser gleichen Faktoren.


Analyseergebnisanalyse

Die Ergebnisse der Regressionsanalyse werden in Form einer Tabelle an der in den Einstellungen angegebenen Stelle angezeigt.

Einer der Hauptindikatoren ist R Quadrat. Es zeigt die Qualität des Modells an. In unserem Fall gegebener Koeffizient beträgt 0,705 oder etwa 70,5 %. Dies ist ein akzeptables Qualitätsniveau. Ein Verhältnis von weniger als 0,5 ist schlecht.

Ein weiterer wichtiger Indikator befindet sich in der Zelle am Schnittpunkt der Linie „Y-Kreuzung“ und Spalte „Koeffizienten“. Hier wird angegeben, welchen Wert Y haben wird, und in unserem Fall ist dies die Anzahl der Käufer, wobei alle anderen Faktoren gleich Null sind. In dieser Tabelle beträgt dieser Wert 58,04.

Wert am Schnittpunkt des Diagramms „Variable X1“ Und „Koeffizienten“ zeigt den Grad der Abhängigkeit von Y von X. In unserem Fall ist dies der Grad der Abhängigkeit der Anzahl der Ladenkunden von der Temperatur. Ein Koeffizient von 1,31 gilt als durchaus hohe Rate beeinflussen.

Wie Sie sehen, ist es ganz einfach, mit Microsoft Excel eine Regressionsanalysetabelle zu erstellen. Aber nur eine geschulte Person kann mit den am Ausgang erhaltenen Daten arbeiten und deren Wesen verstehen.

Methode lineare Regression ermöglicht es uns, eine gerade Linie zu beschreiben, die einer Reihe geordneter Paare (x, y) möglichst genau entspricht. Die Gleichung für eine gerade Linie, bekannt als lineare Gleichung, ist unten angegeben:

ŷ ist der erwartete Wert von y für gegebener Wert X,

x ist eine unabhängige Variable,

a - Segment auf der y-Achse für eine gerade Linie,

b ist die Steigung der Geraden.

In der folgenden Abbildung wird dieses Konzept grafisch dargestellt:

Die obige Abbildung zeigt eine Linie, die durch die Gleichung ŷ =2+0,5x beschrieben wird. Das Liniensegment auf der y-Achse ist der Punkt, an dem die Linie die y-Achse schneidet; in unserem Fall ist a = 2. Die Steigung der Linie, b, das Verhältnis von Linienanstieg zur Linienlänge, hat einen Wert von 0,5. Eine positive Steigung bedeutet, dass die Linie von links nach rechts ansteigt. Wenn b = 0, ist die Linie horizontal, was bedeutet, dass zwischen der abhängigen und der unabhängigen Variablen kein Zusammenhang besteht. Mit anderen Worten: Eine Änderung des Werts von x hat keinen Einfluss auf den Wert von y.

ŷ und y werden oft verwechselt. Die Grafik zeigt 6 geordnete Punktpaare und eine Linie gemäß der angegebenen Gleichung

Diese Abbildung zeigt den Punkt, der dem geordneten Paar x = 2 und y = 4 entspricht. Beachten Sie, dass der erwartete Wert von y gemäß der Linie bei liegt X= 2 ist ŷ. Wir können dies mit der folgenden Gleichung bestätigen:

ŷ = 2 + 0,5х =2 +0,5(2) =3.

Der y-Wert ist der tatsächliche Punkt und der ŷ-Wert ist der erwartete y-Wert Lineargleichung für einen gegebenen Wert von x.

Der nächste Schritt besteht darin, die lineare Gleichung zu bestimmen, die der Menge der geordneten Paare maximal entspricht. Darüber haben wir im vorherigen Artikel gesprochen, in dem wir die Form der Gleichung durch bestimmt haben.

Verwenden von Excel zum Definieren der linearen Regression

Um das in Excel integrierte Regressionsanalysetool nutzen zu können, müssen Sie das Add-In aktivieren Analysepaket. Sie finden es, indem Sie auf die Registerkarte klicken Datei –> Optionen(2007+) im angezeigten Dialog Optionenübertreffen Gehe zur Registerkarte Add-ons. Auf dem Feld Kontrolle wählen Add-onsübertreffen und klicken Gehen. Aktivieren Sie im angezeigten Fenster das Kontrollkästchen neben Analysepaket, klicken OK.

In der Registerkarte Daten in einer Gruppe Analyse Es erscheint eine neue Schaltfläche Datenanalyse.

Um zu demonstrieren, wie das Add-In funktioniert, verwenden wir die Daten, bei denen ein Mann und ein Mädchen einen Tisch im Badezimmer teilen. Geben Sie die Daten für unser Beispielbad in die Spalten A und B eines leeren Blattes ein.

Gehen Sie zur Registerkarte Daten, in einer Gruppe Analyse klicken Datenanalyse. Im erscheinenden Fenster Datenanalyse wählen Rückschritt wie in der Abbildung gezeigt, und klicken Sie auf OK.

Stellen Sie im Fenster die erforderlichen Regressionsparameter ein Rückschritt, wie es auf dem Bild zu sehen ist:

Klicken OK. Die folgende Abbildung zeigt die erzielten Ergebnisse:

Diese Ergebnisse stimmen mit denen überein, die wir durch unabhängige Berechnungen in erhalten haben.

Verwendung der grafischen Methode.
Diese Methode wird verwendet, um die Form der Kommunikation zwischen den untersuchten Wirtschaftsindikatoren zu visualisieren. Dazu wird ein Graph in einem rechtwinkligen Koordinatensystem aufgetragen, auf der Ordinatenachse werden die Einzelwerte des resultierenden Attributs Y und auf der Abszissenachse die Einzelwerte des Faktorattributs X aufgetragen.
Die Menge der Punkte der Effektiv- und Faktorzeichen heißt Korrelationsfeld.
Basierend auf dem Korrelationsfeld kann eine Hypothese aufgestellt werden (z Bevölkerung), dass die Beziehung zwischen allen möglichen Werten von X und Y linear ist.

Lineare Regressionsgleichung hat die Form y = bx + a + ε
Dabei ist ε ein zufälliger Fehler (Abweichung, Störung).
Gründe für das Vorliegen eines zufälligen Fehlers:
1. Keine Einbeziehung signifikanter erklärender Variablen in das Regressionsmodell;
2. Aggregation von Variablen. Beispielsweise ist die Gesamtkonsumfunktion ein Versuch, die Gesamtheit der individuellen Ausgabeentscheidungen von Individuen allgemein auszudrücken. Dies ist nur eine Annäherung an einzelne Beziehungen, die unterschiedliche Parameter haben.
3. Falsche Beschreibung der Modellstruktur;
4. Falsche Funktionsspezifikation;
5. Messfehler.
Da die Abweichungen ε i für jede einzelne Beobachtung i zufällig sind und ihre Werte in der Stichprobe unbekannt sind, gilt:
1) Gemäß den Beobachtungen x i und y i können nur Schätzungen der Parameter α und β erhalten werden
2) Die Schätzungen der Parameter α und β des Regressionsmodells sind jeweils die Werte a und b, die zufälliger Natur sind, da einer Zufallsstichprobe entsprechen;
Dann sieht die geschätzte Regressionsgleichung (aus den Beispieldaten erstellt) wie folgt aus: y = bx + a + ε, wobei e i die beobachteten Werte (Schätzungen) der Fehler ε i sind und und b jeweils die Schätzungen der Parameter α und β des Regressionsmodells, die gefunden werden sollen.
Um die Parameter α und β abzuschätzen, verwenden Sie LSM (Methode). kleinsten Quadrate).
System normaler Gleichungen.

Für unsere Daten hat das Gleichungssystem die Form:

10a + 356b = 49
356a + 2135b = 9485

Drücken Sie a aus der ersten Gleichung aus und setzen Sie es in die zweite Gleichung ein
Wir erhalten b = 68,16, a = 11,17

Regressionsgleichung:
y = 68,16 x - 11,17

1. Parameter der Regressionsgleichung.
Beispiel bedeutet.



Stichprobenvarianzen.


Standardabweichung

1.1. Korrelationskoeffizient
Wir berechnen den Indikator für die Nähe der Kommunikation. Dieser Indikator ist ein Beispiel linearer Koeffizient Korrelation, die nach der Formel berechnet wird:

Der lineare Korrelationskoeffizient nimmt Werte von –1 bis +1 an.
Beziehungen zwischen Merkmalen können schwach oder stark (eng) sein. Ihre Kriterien werden auf der Chaddock-Skala bewertet:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
In unserem Beispiel ist die Beziehung zwischen Merkmal Y und Faktor X sehr hoch und direkt.

1.2. Regressionsgleichung(Auswertung der Regressionsgleichung).

Die lineare Regressionsgleichung lautet y = 68,16 x -11,17
Die Koeffizienten der linearen Regressionsgleichung können angegeben werden wirtschaftlicher Sinn. Koeffizient der Regressionsgleichung zeigt an, wie viele Einheiten Das Ergebnis ändert sich, wenn sich der Faktor um 1 Einheit ändert.
Der Koeffizient b = 68,16 zeigt die durchschnittliche Änderung des effektiven Indikators (in Einheiten von y) bei einer Zunahme oder Abnahme des Wertes des Faktors x pro Einheit seiner Messung. In diesem Beispiel erhöht sich y bei einer Erhöhung um 1 Einheit um durchschnittlich 68,16.
Der Koeffizient a = -11,17 zeigt formal das vorhergesagte Niveau von y, jedoch nur, wenn x=0 nahe an den Stichprobenwerten liegt.
Wenn x=0 jedoch weit von den x-Probenwerten entfernt ist, kann eine wörtliche Interpretation zu falschen Ergebnissen führen, und selbst wenn die Regressionsgerade die Werte der beobachteten Stichprobe genau beschreibt, gibt es keine Garantie dafür, dass dies auch der Fall ist Fall bei der Extrapolation nach links oder rechts.
Durch Einsetzen der entsprechenden Werte von x in die Regressionsgleichung ist es möglich, die ausgerichteten (vorhergesagten) Werte des effektiven Indikators y(x) für jede Beobachtung zu bestimmen.
Die Beziehung zwischen y und x bestimmt das Vorzeichen des Regressionskoeffizienten b (wenn > 0 - direkte Beziehung, andernfalls - inverse). In unserem Beispiel ist die Verbindung direkt.

1.3. Elastizitätskoeffizient.
Es ist unerwünscht, Regressionskoeffizienten (im Beispiel b) zur direkten Bewertung des Einflusses von Faktoren auf das Effektivmerkmal zu verwenden, wenn ein Unterschied in den Maßeinheiten des Effektivindikators y und des Faktorattributs x besteht.
Zu diesem Zweck werden Elastizitätskoeffizienten und Betakoeffizienten berechnet. Der Elastizitätskoeffizient wird durch die Formel ermittelt:


Es zeigt an, um wie viel Prozent sich das effektive Attribut y im Durchschnitt ändert, wenn sich das Faktorattribut x um 1 % ändert. Dabei wird der Grad der Schwankung der Faktoren nicht berücksichtigt.
In unserem Beispiel ist der Elastizitätskoeffizient größer als 1. Wenn sich also X um 1 % ändert, ändert sich Y um mehr als 1 %. Mit anderen Worten: X beeinflusst Y erheblich.
Beta-Koeffizient zeigt, um welchen Teil des Wertes seiner Standardabweichung sich der Wert des effektiven Attributs im Durchschnitt ändert, wenn sich das Faktorattribut um den Wert seiner Standardabweichung ändert und der Wert der verbleibenden unabhängigen Variablen auf einem konstanten Niveau festgelegt wird:

Diese. Eine Erhöhung von x um den Wert der Standardabweichung dieses Indikators führt zu einer Erhöhung des durchschnittlichen Y um 0,9796 der Standardabweichung dieses Indikators.

1.4. Näherungsfehler.
Bewerten wir die Qualität der Regressionsgleichung anhand des absoluten Näherungsfehlers.


Da der Fehler größer als 15 % ist, ist die Verwendung dieser Gleichung als Regression nicht wünschenswert.

1.6. Bestimmungskoeffizient.
Das Quadrat des (multiplen) Korrelationskoeffizienten wird Bestimmtheitsmaß genannt und gibt den Anteil der Variation des resultierenden Attributs an, die durch die Variation des Faktorattributs erklärt wird.
Am häufigsten wird das Bestimmtheitsmaß bei der Interpretation als Prozentsatz ausgedrückt.
R2 = 0,982 = 0,9596
diese. In 95,96 % der Fälle führen Änderungen in x zu einer Änderung in y. Mit anderen Worten: Die Genauigkeit der Auswahl der Regressionsgleichung ist hoch. Die verbleibenden 4,04 % der Y-Änderung sind auf Faktoren zurückzuführen, die im Modell nicht berücksichtigt wurden.

X j x2 y2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Schätzung der Parameter der Regressionsgleichung.
2.1. Bedeutung des Korrelationskoeffizienten.

Gemäß der Student-Tabelle mit dem Signifikanzniveau α=0,05 und den Freiheitsgraden k=7 finden wir t krit:
t krit = (7; 0,05) = 1,895
wobei m = 1 die Anzahl der erklärenden Variablen ist.
Wenn t obs > t kritisch ist, wird der erhaltene Wert des Korrelationskoeffizienten als signifikant anerkannt (die Nullhypothese, die besagt, dass der Korrelationskoeffizient gleich Null ist, wird abgelehnt).
Da t obl > t krit, lehnen wir die Hypothese ab, dass der Korrelationskoeffizient gleich 0 ist. Mit anderen Worten: Der Korrelationskoeffizient ist statistisch signifikant
In einer gepaarten linearen Regression ist t 2 r = t 2 b und das anschließende Testen der Hypothesen über die Signifikanz der Regressions- und Korrelationskoeffizienten entspricht dem Testen der Hypothese über die Signifikanz der linearen Regressionsgleichung.

2.3. Analyse der Genauigkeit der Bestimmung von Schätzungen der Regressionskoeffizienten.
Die unverzerrte Schätzung der Varianz von Störungen ist der Wert:


S 2 y = 94,6484 – ungeklärte Varianz (ein Maß für die Streuung der abhängigen Variablen um die Regressionslinie).
S y = 9,7287 - Standart Fehler Schätzungen (Regressionsstandardfehler).
Sa- Standardabweichung zufällige Variable A.


S b - Standardabweichung der Zufallsvariablen b.

2.4. Konfidenzintervalle für die abhängige Variable.
Die auf dem konstruierten Modell basierende Wirtschaftsprognose geht davon aus, dass die bereits bestehenden Variablenbeziehungen auch für die Vorlaufperiode erhalten bleiben.
Um die abhängige Variable des resultierenden Attributs vorherzusagen, müssen die Vorhersagewerte aller im Modell enthaltenen Faktoren bekannt sein.
Die Vorhersagewerte der Faktoren werden in das Modell eingesetzt und es werden punktuelle Vorhersageschätzungen des untersuchten Indikators erhalten. (a + bx p ± ε)
Wo

Berechnen wir die Grenzen des Intervalls, in dem 95 % der möglichen Werte von Y mit einer unbegrenzten Anzahl von Beobachtungen konzentriert sind und X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Individuelle Konfidenzintervalle fürYbei einem bestimmten WertX.
(a + bx i ± ε)
Wo

x i y = -11,17 + 68,16x i ε ich ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Mit einer Wahrscheinlichkeit von 95 % kann garantiert werden, dass der Wert von Y bei einer unbegrenzten Anzahl von Beobachtungen die Grenzen der gefundenen Intervalle nicht überschreitet.

2.5. Testen von Hypothesen zu den Koeffizienten der linearen Regressionsgleichung.
1) T-Statistik. Kriterium des Schülers.
Testen wir die Hypothese H 0 über die Gleichheit einzelner Regressionskoeffizienten auf Null (mit der Alternative H 1 ist ungleich) auf dem Signifikanzniveau α=0,05.
t krit = (7; 0,05) = 1,895


Da 12,8866 > 1,895 ist, ist die statistische Signifikanz des Regressionskoeffizienten b bestätigt (wir lehnen die Hypothese ab, dass dieser Koeffizient gleich Null ist).


Da 2,0914 > 1,895, ist die statistische Signifikanz des Regressionskoeffizienten a bestätigt (wir lehnen die Hypothese ab, dass dieser Koeffizient gleich Null ist).

Konfidenzintervall für die Koeffizienten der Regressionsgleichung.
Bestimmen wir die Konfidenzintervalle der Regressionskoeffizienten, die mit einer Zuverlässigkeit von 95 % wie folgt aussehen:
(b - t krit S b; b + t krit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Mit einer Wahrscheinlichkeit von 95 % kann argumentiert werden, dass der Wert dieses Parameters im gefundenen Intervall liegen wird.
(an einer)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Mit einer Wahrscheinlichkeit von 95 % kann argumentiert werden, dass der Wert dieses Parameters im gefundenen Intervall liegen wird.

2) F-Statistik. Fisher-Kriterium.
Die Signifikanz des Regressionsmodells wird mit dem Fisher-F-Test überprüft, dessen berechneter Wert sich als Verhältnis der Varianz der anfänglichen Beobachtungsreihe des untersuchten Indikators und der unvoreingenommenen Schätzung der Varianz der Restsequenz für ergibt dieses Model.
Wenn der berechnete Wert mit den Freiheitsgraden lang=EN-US>n-m-1) bei einem bestimmten Signifikanzniveau größer als der tabellierte Wert ist, gilt das Modell als signifikant.

Dabei ist m die Anzahl der Faktoren im Modell.
Die Bewertung der statistischen Signifikanz der gepaarten linearen Regression erfolgt nach folgendem Algorithmus:
1. Es wird eine Nullhypothese aufgestellt, dass die Gleichung als Ganzes statistisch nicht signifikant ist: H 0: R 2 =0 auf dem Signifikanzniveau α.
2. Bestimmen Sie als nächstes den tatsächlichen Wert des F-Kriteriums:


wobei m=1 für die paarweise Regression ist.
3. Der Tabellenwert wird aus Fisher-Verteilungstabellen für ein bestimmtes Signifikanzniveau ermittelt, wobei berücksichtigt wird, dass die Anzahl der Freiheitsgrade für die Gesamtsumme der Quadrate (größere Varianz) 1 und die Anzahl der Freiheitsgrade für die Restsumme von beträgt Quadrate (geringere Varianz) in der linearen Regression beträgt n-2 .
4. Wenn der tatsächliche Wert des F-Kriteriums kleiner als der Tabellenwert ist, gibt es keinen Grund, die Nullhypothese abzulehnen.
Andernfalls wird die Nullhypothese verworfen und mit Wahrscheinlichkeit (1-α) die Alternativhypothese übernommen statistische Signifikanz Gleichungen im Allgemeinen.
Tabellenwert des Kriteriums mit Freiheitsgraden k1=1 und k2=7, Fkp = 5,59
Da der tatsächliche Wert von F > Fkp ist, ist das Bestimmtheitsmaß statistisch signifikant (die gefundene Schätzung der Regressionsgleichung ist statistisch zuverlässig).

Überprüfen Sie die Autokorrelation der Residuen.
Eine wichtige Voraussetzung für die Erstellung eines qualitativen Regressionsmodells mit dem LSM ist die Unabhängigkeit der Werte zufälliger Abweichungen von den Abweichungswerten aller anderen Beobachtungen. Dadurch wird sichergestellt, dass keine Korrelation zwischen etwaigen Abweichungen und insbesondere zwischen benachbarten Abweichungen besteht.
Autokorrelation (serielle Korrelation) definiert als die Korrelation zwischen beobachteten Messungen, geordnet nach Zeit (Zeitreihen) oder räumlich (Kreuzreihen). Eine Autokorrelation von Residuen (Ausreißern) tritt in der Regressionsanalyse häufig bei der Verwendung von Zeitreihendaten auf und sehr selten bei der Verwendung von Querschnittsdaten.
Bei wirtschaftlichen Aufgaben kommt es viel häufiger vor positive Autokorrelation als negative Autokorrelation. In den meisten Fällen wird eine positive Autokorrelation durch einen richtungskonstanten Einfluss einiger Faktoren verursacht, die im Modell nicht berücksichtigt werden.
Negative Autokorrelation bedeutet eigentlich, dass auf eine positive Abweichung eine negative folgt und umgekehrt. Eine solche Situation kann eintreten, wenn nach saisonalen Daten (Winter-Sommer) der gleiche Zusammenhang zwischen der Nachfrage nach Erfrischungsgetränken und dem Einkommen berücksichtigt wird.
Unter Hauptursachen für Autokorrelation kann folgendes unterschieden werden:
1. Spezifikationsfehler. Die Nichtberücksichtigung einer wichtigen erklärenden Variablen im Modell oder die falsche Wahl der Abhängigkeitsform führt in der Regel zu systemischen Abweichungen der Beobachtungspunkte von der Regressionsgeraden, was zu einer Autokorrelation führen kann.
2. Trägheit. Viele Wirtschaftsindikatoren (Inflation, Arbeitslosigkeit, BSP usw.) weisen eine gewisse Zyklizität auf, die mit dem Wellencharakter der Geschäftstätigkeit verbunden ist. Daher erfolgt die Änderung der Indikatoren nicht sofort, sondern weist eine gewisse Trägheit auf.
3. Webeffekt. In vielen Industrie- und anderen Bereichen reagieren Konjunkturindikatoren verzögert (time lag) auf Veränderungen der wirtschaftlichen Rahmenbedingungen.
4. Datenglättung. Daten für einen bestimmten langen Zeitraum werden häufig durch Mittelung der Daten über die einzelnen Intervalle ermittelt. Dadurch kann es zu einer gewissen Glättung der innerhalb des betrachteten Zeitraums bestehenden Schwankungen kommen, was wiederum zu einer Autokorrelation führen kann.
Die Konsequenzen der Autokorrelation ähneln denen der Heteroskedastizität: Schlussfolgerungen zu t- und F-Statistiken, die die Signifikanz des Regressionskoeffizienten und des Bestimmtheitsmaßes bestimmen, können falsch sein.

Autokorrelationserkennung

1. Grafische Methode
Für die grafische Definition der Autokorrelation gibt es eine Reihe von Möglichkeiten. Einer von ihnen bezieht Abweichungen e i auf die Zeitpunkte ihres Empfangs i. Gleichzeitig wird auf der Abszissenachse entweder der Zeitpunkt der Gewinnung statistischer Daten oder die Seriennummer der Beobachtung aufgetragen und auf der Ordinatenachse Abweichungen e i (bzw. Abweichungsschätzungen).
Es liegt nahe, anzunehmen, dass bei einem bestimmten Zusammenhang zwischen Abweichungen eine Autokorrelation stattfindet. Das Fehlen einer Abhängigkeit weist höchstwahrscheinlich auf das Fehlen einer Autokorrelation hin.
Die Autokorrelation wird deutlicher, wenn Sie e i gegen e i-1 grafisch darstellen.

Durbin-Watson-Test.
Dieses Kriterium ist das bekannteste zur Erkennung von Autokorrelation.
Bei der statistischen Analyse geht die Regressionsgleichung weiter Erstphase Oft prüfen sie die Machbarkeit einer Prämisse: der Bedingungen für die statistische Unabhängigkeit von Abweichungen voneinander. In diesem Fall wird die Unkorrelation benachbarter Werte e i überprüft.

j y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Zur Analyse der Korrelation von Abweichungen werden Durbin-Watson-Statistiken verwendet:

Kritische Werte d 1 und d 2 werden anhand spezieller Tabellen für das erforderliche Signifikanzniveau α, die Anzahl der Beobachtungen n = 9 und die Anzahl erklärender Variablen m=1 ermittelt.
Es gibt keine Autokorrelation, wenn die folgende Bedingung zutrifft:
d1< DW и d 2 < DW < 4 - d 2 .
Ohne auf die Tabellen zurückzugreifen, können wir die Näherungsregel verwenden und davon ausgehen, dass bei 1,5 keine Autokorrelation der Residuen vorliegt< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Die Regressionslinie ist eine grafische Darstellung der Beziehung zwischen Phänomenen. Sie können ganz einfach eine Regressionslinie in Excel erstellen.

Dafür benötigen Sie:

1.Öffnen Sie das Excel-Programm

2. Erstellen Sie Spalten mit Daten. In unserem Beispiel werden wir eine Regressionslinie oder Beziehung zwischen Aggressivität und Selbstzweifeln bei Erstklässlern erstellen. An dem Experiment nahmen 30 Kinder teil, die Daten sind in der Excel-Tabelle dargestellt:

1 Spalte – Nummer des Betreffs

2-spaltig - Aggressivität in Punkten

3-spaltig - Schüchternheit in Punkten

3. Dann müssen Sie beide Spalten auswählen (ohne den Namen der Spalte) und die Tabulatortaste drücken einfügen , wählen Punkt , und wählen Sie aus den vorgeschlagenen Layouts das allererste aus mit Markern punktieren .

4. Wir haben also ein Leerzeichen für die Regressionsgerade erhalten – das sogenannte – Streudiagramm. Um zur Regressionslinie zu gelangen, müssen Sie auf die resultierende Zahl klicken und auf die Registerkarte klicken Konstrukteur, finden Sie auf der Tafel Diagrammlayouts und wähle M A ket9 , heißt es auch f(x)

5. Wir haben also eine Regressionslinie. Die Grafik zeigt auch die Gleichung und das Quadrat des Korrelationskoeffizienten

6. Es müssen noch der Name des Diagramms und die Namen der Achsen hinzugefügt werden. Bei Bedarf können Sie auch die Legende entfernen und die Anzahl der horizontalen Rasterlinien reduzieren (Tab Layout , Dann Netz ). Im Reiter werden die wesentlichen Änderungen und Einstellungen vorgenommen Layout

Die Regressionsgerade wird in MS Excel erstellt. Jetzt kann es dem Text der Arbeit hinzugefügt werden.

In den vorherigen Anmerkungen lag der Fokus häufig auf einer einzelnen numerischen Variable, beispielsweise der Rendite von Investmentfonds, der Ladezeit von Webseiten oder dem Konsum von Erfrischungsgetränken. In dieser und den folgenden Anmerkungen betrachten wir Methoden zur Vorhersage der Werte einer numerischen Variablen in Abhängigkeit von den Werten einer oder mehrerer anderer numerischer Variablen.

Das Material wird anhand eines ausführlichen Beispiels veranschaulicht. Prognose des Umsatzvolumens in einem Bekleidungsgeschäft. Die Discount-Bekleidungskette Sunflowers expandiert seit 25 Jahren kontinuierlich. Allerdings verfügt das Unternehmen derzeit nicht über einen systematischen Ansatz bei der Auswahl neuer Filialen. Der Standort, an dem das Unternehmen eine neue Filiale eröffnen möchte, wird anhand subjektiver Überlegungen bestimmt. Die Auswahlkriterien sind gewinnbringende Konditionen Mietvertrag oder die Vorstellung des Managers von einem idealen Ladenstandort. Stellen Sie sich vor, Sie wären der Leiter der Abteilung Sonderprojekte und Planung. Sie wurden damit beauftragt, einen strategischen Plan für die Eröffnung neuer Geschäfte zu entwickeln. Dieser Plan sollte eine Prognose des Jahresumsatzes in neu eröffneten Filialen enthalten. Sie glauben, dass der Verkauf von Flächen in direktem Zusammenhang mit dem Umsatz steht, und möchten diese Tatsache in Ihren Entscheidungsprozess einbeziehen. Wie entwickelt man ein statistisches Modell, das den Jahresumsatz basierend auf der neuen Ladengröße vorhersagt?

Normalerweise wird die Regressionsanalyse verwendet, um die Werte einer Variablen vorherzusagen. Sein Ziel besteht darin, ein statistisches Modell zu entwickeln, das die Werte der abhängigen Variablen oder Antwort anhand der Werte mindestens einer unabhängigen oder erklärenden Variablen vorhersagt. In dieser Anmerkung betrachten wir eine einfache lineare Regression – eine statistische Methode, die es uns ermöglicht, die Werte der abhängigen Variablen vorherzusagen Y durch die Werte der unabhängigen Variablen X. Die folgenden Hinweise beschreiben das Modell multiple Regression, entwickelt, um die Werte der unabhängigen Variablen vorherzusagen Y durch die Werte mehrerer abhängiger Variablen ( X 1 , X 2 , …, X k).

Hinweis im oder Format herunterladen, Beispiele im Format

Arten von Regressionsmodellen

Wo ρ 1 ist der Autokorrelationskoeffizient; Wenn ρ 1 = 0 (keine Autokorrelation), D≈ 2; Wenn ρ 1 ≈ 1 (positive Autokorrelation), D≈ 0; Wenn ρ 1 = -1 (negative Autokorrelation), D ≈ 4.

In der Praxis basiert die Anwendung des Durbin-Watson-Kriteriums auf einem Wertevergleich D mit kritischen theoretischen Werten dL Und d U für eine gegebene Anzahl von Beobachtungen N, die Anzahl der unabhängigen Variablen des Modells k(für einfache lineare Regression k= 1) und Signifikanzniveau α. Wenn D< d L , wird die Hypothese der Unabhängigkeit zufälliger Abweichungen abgelehnt (daher liegt eine positive Autokorrelation vor); Wenn D > d U, die Hypothese wird nicht abgelehnt (d. h. es gibt keine Autokorrelation); Wenn dL< D < d U Es gibt nicht genügend Gründe, eine Entscheidung zu treffen. Wenn der berechnete Wert Dübersteigt dann 2 dL Und d U Es wird nicht der Koeffizient selbst verglichen D, und der Ausdruck (4 – D).

Um die Durbin-Watson-Statistik in Excel zu berechnen, wenden wir uns der unteren Tabelle in Abb. zu. 14 Abhebung des Restbetrags. Der Zähler in Ausdruck (10) wird mit der Funktion = SUMMQDIFF(array1, array2) und der Nenner = SUMMQ(array) berechnet (Abb. 16).

Reis. 16. Formeln zur Berechnung der Durbin-Watson-Statistik

In unserem Beispiel D= 0,883. Die Hauptfrage lautet: Welcher Wert der Durbin-Watson-Statistik sollte als klein genug angesehen werden, um auf eine positive Autokorrelation schließen zu können? Es ist notwendig, den Wert von D mit den kritischen Werten zu korrelieren ( dL Und d U) abhängig von der Anzahl der Beobachtungen N und Signifikanzniveau α (Abb. 17).

Reis. 17. Kritische Werte der Durbin-Watson-Statistik (Tabellenfragment)

Somit gibt es im Problem des Umsatzvolumens in einem Geschäft, das Waren zu Ihnen nach Hause liefert, eine unabhängige Variable ( k= 1), 15 Beobachtungen ( N= 15) und Signifikanzniveau α = 0,05. Somit, dL= 1,08 und DU= 1,36. Weil das D = 0,883 < dL= 1,08, es besteht eine positive Autokorrelation zwischen den Residuen, die Methode der kleinsten Quadrate kann nicht angewendet werden.

Testen von Hypothesen über Steigung und Korrelationskoeffizient

Die obige Regression wurde ausschließlich für Prognosezwecke angewendet. Um Regressionskoeffizienten zu bestimmen und den Wert einer Variablen vorherzusagen Y für einen gegebenen Variablenwert X Es wurde die Methode der kleinsten Quadrate verwendet. Darüber hinaus haben wir den Standardfehler der Schätzung und den Koeffizienten der gemischten Korrelation berücksichtigt. Wenn die Restanalyse bestätigt, dass die Bedingungen für die Anwendbarkeit der Methode der kleinsten Quadrate nicht verletzt werden und das einfache lineare Regressionsmodell auf der Grundlage der Stichprobendaten angemessen ist, kann argumentiert werden, dass zwischen den Variablen in der Grundgesamtheit ein Unterschied besteht lineare Abhängigkeit.

AnwendungT -Kriterien für die Steigung. Indem man prüft, ob die Grundgesamtheitssteigung β 1 gleich Null ist, kann man feststellen, ob eine statistisch signifikante Beziehung zwischen den Variablen besteht X Und Y. Wenn diese Hypothese abgelehnt wird, kann argumentiert werden, dass zwischen den Variablen X Und Y es besteht ein linearer Zusammenhang. Die Null- und Alternativhypothese werden wie folgt formuliert: H 0: β 1 = 0 (kein linearer Zusammenhang), H1: β 1 ≠ 0 (es besteht ein linearer Zusammenhang). A-Priorat T-statistic ist gleich der Differenz zwischen der Stichprobensteigung und der hypothetischen Grundgesamtheitsteigung, dividiert durch den Standardfehler der Steigungsschätzung:

(11) T = (B 1 β 1 ) / Sb 1

Wo B 1 ist die Steigung der direkten Regression basierend auf Stichprobendaten, β1 ist die hypothetische Steigung der direkten Allgemeinbevölkerung, und Teststatistiken T Es hat T- Vertrieb mit n - 2 Freiheitsgrade.

Überprüfen wir, ob bei α = 0,05 ein statistisch signifikanter Zusammenhang zwischen der Ladengröße und dem Jahresumsatz besteht. T-Kriterien werden bei der Verwendung zusammen mit anderen Parametern angezeigt Analysepaket(Möglichkeit Rückschritt). Die vollständigen Ergebnisse des Analysepakets sind in Abb. dargestellt. 4, ein Fragment im Zusammenhang mit der T-Statistik - in Abb. 18.

Reis. 18. Anwendungsergebnisse T

Wegen der Anzahl der Geschäfte N= 14 (siehe Abb. 3), kritischer Wert T-Statistiken auf einem Signifikanzniveau α = 0,05 können durch die Formel ermittelt werden: t L=STUDENT.INV(0,025;12) = -2,1788 wobei 0,025 die Hälfte des Signifikanzniveaus und 12 = ist N – 2; t U= STUDENT.INR (0,975, 12) = +2,1788.

Weil das T-Statistik = 10,64 > t U= 2,1788 (Abb. 19), Nullhypothese H 0 ist abgelehnt. Andererseits, R-Wert für X\u003d 10,6411, berechnet nach der Formel \u003d 1-STUDENT.DIST (D3, 12, TRUE), ist ungefähr gleich Null, so die Hypothese H 0 wird erneut abgelehnt. Die Tatsache, dass R-Wert ist nahezu Null, was bedeutet, dass es fast unmöglich wäre, ihn mithilfe der linearen Regression zu ermitteln, wenn es keinen wirklichen linearen Zusammenhang zwischen Ladengröße und Jahresumsatz gäbe. Daher besteht ein statistisch signifikanter linearer Zusammenhang zwischen dem durchschnittlichen jährlichen Ladenumsatz und der Ladengröße.

Reis. 19. Testen der Hypothese über die Steigung der Gesamtbevölkerung bei einem Signifikanzniveau von 0,05 und 12 Freiheitsgraden

AnwendungF -Kriterien für die Steigung. Ein alternativer Ansatz zum Testen von Hypothesen über die Steigung einer einfachen linearen Regression ist die Verwendung von F-Kriterien. Erinnere dich daran F-Kriterium wird verwendet, um die Beziehung zwischen zwei Varianzen zu testen (siehe Details). Beim Testen der Steigungshypothese ist das Maß für zufällige Fehler die Fehlervarianz (die Summe der quadratischen Fehler dividiert durch die Anzahl der Freiheitsgrade). F-Test verwendet das Verhältnis der durch die Regression erklärten Varianz (d. h. die Werte). SSR dividiert durch die Anzahl der unabhängigen Variablen k), zur Fehlervarianz ( MSE=S YX 2 ).

A-Priorat F-statistic entspricht den mittleren quadratischen Abweichungen aufgrund der Regression (MSR) dividiert durch die Fehlervarianz (MSE): F = MSR/ MSE, Wo MSR=SSR / k, MSE =SSE/(N– k – 1), k ist die Anzahl der unabhängigen Variablen im Regressionsmodell. Teststatistiken F Es hat F- Vertrieb mit k Und N– k – 1 Freiheitsgrade.

Für ein gegebenes Signifikanzniveau α wird die Entscheidungsregel wie folgt formuliert: if F > FU, die Nullhypothese wird abgelehnt; andernfalls wird es nicht abgelehnt. Ergebnisse werden in Form einer Pivot-Tabelle dargestellt Varianzanalyse sind in Abb. dargestellt. 20.

Reis. 20. Tabelle der Varianzanalyse zum Testen der Hypothese der statistischen Signifikanz des Regressionskoeffizienten

Ähnlich T-Kriterium F-Kriterien werden bei Verwendung in der Tabelle angezeigt Analysepaket(Möglichkeit Rückschritt). Vollständige Ergebnisse der Arbeit Analysepaket in Abb. dargestellt. 4, Fragment bezogen auf F-Statistik - in Abb. 21.

Reis. 21. Anwendungsergebnisse F– Mit dem Excel Analysis ToolPack ermittelte Kriterien

F-Statistik ist 113,23 und R-Wert nahe Null (Zelle BedeutungF). Wenn das Signifikanzniveau α 0,05 beträgt, bestimmen Sie den kritischen Wert F-Verteilungen mit einem und 12 Freiheitsgraden lassen sich aus der Formel ermitteln F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Abb. 22). Weil das F = 113,23 > F U= 4,7472 und R-Wert nahe 0< 0,05, нулевая гипотеза H 0 weicht ab, d.h. Die Größe eines Ladens hängt eng mit seinem jährlichen Umsatzvolumen zusammen.

Reis. 22. Testen der Hypothese über die Steigung der Gesamtbevölkerung bei einem Signifikanzniveau von 0,05, mit einem und 12 Freiheitsgraden

Konfidenzintervall mit Steigung β 1 . Um die Hypothese der Existenz einer linearen Beziehung zwischen Variablen zu testen, können Sie ein Konfidenzintervall mit der Steigung β 1 erstellen und sicherstellen, dass der hypothetische Wert β 1 = 0 zu diesem Intervall gehört. Die Mitte des Konfidenzintervalls, das die Steigung β 1 enthält, ist die Stichprobensteigung B 1 , und seine Grenzen sind die Mengen b 1 ±t n –2 Sb 1

Wie in Abb. gezeigt. 18, B 1 = +1,670, N = 14, Sb 1 = 0,157. T 12 = STUDENT.OBR (0,975, 12) = 2,1788. Somit, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 oder + 1,328 ≤ β 1 ≤ +2,012. Somit liegt die Steigung der Grundgesamtheit mit einer Wahrscheinlichkeit von 0,95 im Bereich von +1,328 bis +2,012 (d. h. von 1.328.000 $ bis 2.012.000 $). Da diese Werte größer als Null sind, besteht ein statistisch signifikanter linearer Zusammenhang zwischen Jahresumsatz und Ladenfläche. Wenn das Konfidenzintervall Null enthalten würde, gäbe es keine Beziehung zwischen den Variablen. Darüber hinaus bedeutet das Konfidenzintervall, dass alle 1.000 m². Füße führt zu einer Steigerung des durchschnittlichen Umsatzes von 1.328.000 $ auf 2.012.000 $.

VerwendungT -Kriterien für den Korrelationskoeffizienten. Korrelationskoeffizient eingeführt R, ein Maß für die Beziehung zwischen zwei numerischen Variablen. Damit lässt sich feststellen, ob zwischen zwei Variablen ein statistisch signifikanter Zusammenhang besteht. Bezeichnen wir den Korrelationskoeffizienten zwischen den Populationen beider Variablen mit dem Symbol ρ. Die Null- und Alternativhypothese werden wie folgt formuliert: H 0: ρ = 0 (keine Korrelation), H 1: ρ ≠ 0 (es besteht ein Zusammenhang). Prüfung auf Existenz einer Korrelation:

Wo R = + , Wenn B 1 > 0, R = – , Wenn B 1 < 0. Тестовая статистика T Es hat T- Vertrieb mit n - 2 Freiheitsgrade.

Im Problem der Sunflowers-Handelskette r2= 0,904 und b 1- +1,670 (siehe Abb. 4). Weil das b 1> 0, der Korrelationskoeffizient zwischen Jahresumsatz und Ladengröße beträgt R= +√0,904 = +0,951. Testen wir die Nullhypothese, dass zwischen diesen Variablen keine Korrelation besteht T- Statistiken:

Bei einem Signifikanzniveau von α = 0,05 sollte die Nullhypothese verworfen werden, weil T= 10,64 > 2,1788. Somit kann argumentiert werden, dass ein statistisch signifikanter Zusammenhang zwischen dem Jahresumsatz und der Ladengröße besteht.

Bei der Erörterung von Schlussfolgerungen über Bevölkerungssteigungen sind Konfidenzintervalle und Kriterien zum Testen von Hypothesen austauschbare Instrumente. Allerdings erweist sich die Berechnung des Konfidenzintervalls, das den Korrelationskoeffizienten enthält, als schwieriger, da die Form der Stichprobenverteilung der Statistik R hängt vom wahren Korrelationskoeffizienten ab.

Schätzung der mathematischen Erwartung und Vorhersage einzelner Werte

In diesem Abschnitt werden Methoden zur Schätzung der erwarteten Reaktion erläutert Y und Vorhersagen einzelner Werte Y für gegebene Werte der Variablen X.

Konstruktion eines Konfidenzintervalls. In Beispiel 2 (siehe Abschnitt oben Methode der kleinsten Quadrate) Die Regressionsgleichung ermöglichte es, den Wert der Variablen vorherzusagen Y X. Bei der Standortwahl für eine Einzelhandelsfiliale wird der durchschnittliche Jahresumsatz in einem Geschäft mit einer Fläche von 4000 qm ermittelt. Fuß entsprach 7,644 Millionen Dollar. Allerdings ist diese Schätzung der mathematischen Erwartung der allgemeinen Bevölkerung ein Punkt. Um die mathematischen Erwartungen der Allgemeinbevölkerung abzuschätzen, wurde das Konzept eines Konfidenzintervalls vorgeschlagen. Ebenso kann man das Konzept vorstellen Konfidenzintervall für die mathematische Erwartung der Antwort für einen gegebenen Wert einer Variablen X:

Wo , = B 0 + B 1 X i– vorhergesagte Wertvariable Y bei X = X i, S YX ist der mittlere quadratische Fehler, N ist die Stichprobengröße, Xich- der angegebene Wert der Variablen X, µ Y|X = Xicherwarteter Wert Variable Y bei X = Х ich,SSX=

Die Analyse der Formel (13) zeigt, dass die Breite des Konfidenzintervalls von mehreren Faktoren abhängt. Bei einem gegebenen Signifikanzniveau führt eine Zunahme der Amplitude der Schwankungen um die Regressionsgerade, gemessen anhand des mittleren quadratischen Fehlers, zu einer Vergrößerung der Intervallbreite. Andererseits geht erwartungsgemäß mit einer Vergrößerung der Stichprobengröße eine Verengung des Intervalls einher. Darüber hinaus ändert sich die Breite des Intervalls je nach Wert Xich. Wenn der Wert der Variablen Y für Mengen vorhergesagt X, nahe am Durchschnittswert Das Konfidenzintervall erweist sich als schmaler als bei der Vorhersage der Antwort für Werte, die weit vom Mittelwert entfernt sind.

Nehmen wir an, wir möchten bei der Standortwahl für ein Geschäft ein 95-prozentiges Konfidenzintervall für den durchschnittlichen Jahresumsatz aller Geschäfte mit einer Fläche von 4000 Quadratmetern aufbauen. Füße:

Daher beträgt der durchschnittliche Jahresumsatz in allen Filialen mit einer Fläche 4.000 Quadratmeter. Fuß liegt mit einer Wahrscheinlichkeit von 95 % im Bereich von 6,971 bis 8,317 Millionen Dollar.

Berechnen Sie das Konfidenzintervall für den vorhergesagten Wert. Zusätzlich zum Konfidenzintervall für die mathematische Erwartung der Antwort für einen bestimmten Wert der Variablen X, ist es oft notwendig, das Konfidenzintervall für den vorhergesagten Wert zu kennen. Obwohl die Formel zur Berechnung eines solchen Konfidenzintervalls Formel (13) sehr ähnlich ist, enthält dieses Intervall einen vorhergesagten Wert und keine Schätzung des Parameters. Intervall für die vorhergesagte Reaktion YX = Xi für einen bestimmten Wert der Variablen Xich wird durch die Formel bestimmt:

Nehmen wir an, dass wir bei der Auswahl eines Standorts für eine Einzelhandelsfiliale ein 95-prozentiges Konfidenzintervall für den prognostizierten Jahresumsatz in einem Geschäft mit einer Fläche von 4000 Quadratmetern aufbauen möchten. Füße:

Daher beträgt das prognostizierte jährliche Verkaufsvolumen für eine Fläche von 4.000 Quadratmetern. Fuß liegt mit einer Wahrscheinlichkeit von 95 % im Bereich von 5,433 bis 9,854 Millionen Dollar. Wie Sie sehen können, ist das Konfidenzintervall für den vorhergesagten Antwortwert viel breiter als das Konfidenzintervall für seinen mathematischen Erwartungswert. Dies liegt daran, dass die Variabilität bei der Vorhersage einzelner Werte viel größer ist als bei der Schätzung des Erwartungswerts.

Fallstricke und ethische Probleme im Zusammenhang mit der Verwendung von Regression

Schwierigkeiten im Zusammenhang mit der Regressionsanalyse:

  • Missachtung der Anwendbarkeitsbedingungen der Methode der kleinsten Quadrate.
  • Eine fehlerhafte Schätzung der Bedingungen für die Anwendbarkeit der Methode der kleinsten Quadrate.
  • Falsche Wahl alternativer Methoden unter Verstoß gegen die Anwendbarkeitsbedingungen der Methode der kleinsten Quadrate.
  • Anwendung der Regressionsanalyse ohne vertiefte Kenntnisse des Studienfachs.
  • Extrapolation der Regression über den Bereich der erklärenden Variablen hinaus.
  • Verwirrung zwischen statistischen und kausalen Zusammenhängen.

Die Verbreitung von Tabellenkalkulationen und Software Für statistische Berechnungen wurden die Rechenprobleme beseitigt, die den Einsatz der Regressionsanalyse verhinderten. Dies führte jedoch dazu, dass die Regressionsanalyse zunehmend auch von Anwendern eingesetzt wurde, die nicht über ausreichende Qualifikationen und Kenntnisse verfügten. Woher wissen Benutzer über alternative Methoden Bescheid, wenn viele von ihnen keine haben? die geringste Ahnung Sie kennen die Bedingungen für die Anwendbarkeit der Methode der kleinsten Quadrate und wissen nicht, wie Sie deren Umsetzung überprüfen können?

Der Forscher sollte sich nicht von der Berechnung von Zahlen, der Verschiebung, der Steigung und dem gemischten Korrelationskoeffizienten mitreißen lassen. Er braucht tieferes Wissen. Lassen Sie uns dies anhand eines klassischen Beispiels aus Lehrbüchern veranschaulichen. Anscombe zeigte, dass alle vier in Abb. 23 haben die gleichen Regressionsparameter (Abb. 24).

Reis. 23. Vier künstliche Datensätze

Reis. 24. Regressionsanalyse von vier künstlichen Datensätzen; Fertig mit Analysepaket(Klicken Sie auf das Bild, um das Bild zu vergrößern)

Aus Sicht der Regressionsanalyse sind also alle diese Datensätze völlig identisch. Wenn die Analyse hierzu abgeschlossen wäre, hätten wir viel verloren nützliche Informationen. Dies wird durch die für diese Datensätze erstellten Streudiagramme (Abb. 25) und Residuendiagramme (Abb. 26) belegt.

Reis. 25. Streudiagramme für vier Datensätze

Streudiagramme und Residuendiagramme zeigen, dass sich diese Daten voneinander unterscheiden. Die einzige Menge, die entlang einer geraden Linie verteilt ist, ist Menge A. Die Darstellung der aus Menge A berechneten Residuen weist kein Muster auf. Das Gleiche gilt nicht für die Sätze B, C und D. Das für Satz B aufgezeichnete Streudiagramm zeigt ein ausgeprägtes quadratisches Muster. Diese Schlussfolgerung wird durch die Darstellung der Residuen bestätigt, die eine parabolische Form hat. Das Streudiagramm und das Residuendiagramm zeigen, dass Datensatz B einen Ausreißer enthält. In dieser Situation ist es notwendig, den Ausreißer aus dem Datensatz auszuschließen und die Analyse zu wiederholen. Die Technik zum Erkennen und Eliminieren von Ausreißern aus Beobachtungen wird Einflussanalyse genannt. Nach Eliminierung des Ausreißers kann das Ergebnis der Neubewertung des Modells völlig anders ausfallen. Ein aus Datensatz D erstelltes Streudiagramm veranschaulicht eine ungewöhnliche Situation, in der das empirische Modell stark von einer einzelnen Antwort abhängt ( X 8 = 19, Y 8 = 12,5). Solche Regressionsmodelle müssen besonders sorgfältig berechnet werden. Daher sind Streu- und Residuendiagramme ein wesentliches Werkzeug für die Regressionsanalyse und sollten ein integraler Bestandteil davon sein. Ohne sie ist die Regressionsanalyse nicht glaubwürdig.

Reis. 26. Diagramme der Residuen für vier Datensätze

So vermeiden Sie Fallstricke bei der Regressionsanalyse:

  • Analyse der möglichen Beziehung zwischen Variablen X Und Y Beginnen Sie immer mit einem Streudiagramm.
  • Bevor Sie die Ergebnisse einer Regressionsanalyse interpretieren, prüfen Sie die Bedingungen für deren Anwendbarkeit.
  • Zeichnen Sie die Residuen gegen die unabhängige Variable auf. Dies ermöglicht es, zu bestimmen, wie das empirische Modell mit den Beobachtungsergebnissen übereinstimmt, und eine Verletzung der Varianzkonstanz zu erkennen.
  • Um die Annahme zu testen Normalverteilung Um Fehler zu vermeiden, verwenden Sie Histogramme, Stamm-Blatt-Diagramme, Boxplots und Normalverteilungsdiagramme.
  • Wenn die Anwendbarkeitsbedingungen der Methode der kleinsten Quadrate nicht erfüllt sind, verwenden Sie alternative Methoden(z. B. quadratische oder multiple Regressionsmodelle).
  • Wenn die Anwendbarkeitsbedingungen der Methode der kleinsten Quadrate erfüllt sind, ist es notwendig, die Hypothese über die statistische Signifikanz der Regressionskoeffizienten zu testen und Konfidenzintervalle zu erstellen, die den mathematischen Erwartungswert und den vorhergesagten Antwortwert enthalten.
  • Vermeiden Sie es, Werte der abhängigen Variablen außerhalb des Bereichs der unabhängigen Variablen vorherzusagen.
  • Bedenken Sie, dass statistische Abhängigkeiten nicht immer kausal sind. Denken Sie daran, dass eine Korrelation zwischen Variablen nicht bedeutet, dass zwischen ihnen ein kausaler Zusammenhang besteht.

Zusammenfassung. Wie im Blockdiagramm (Abb. 27) dargestellt, beschreibt der Hinweis ein einfaches lineares Regressionsmodell, die Bedingungen für seine Anwendbarkeit und Möglichkeiten zum Testen dieser Bedingungen. Berücksichtigt T-Kriterium zum Testen der statistischen Signifikanz der Steigung der Regression. Zur Vorhersage der Werte der abhängigen Variablen wurde ein Regressionsmodell verwendet. Betrachtet wird ein Beispiel im Zusammenhang mit der Standortwahl für eine Einzelhandelsfiliale, bei dem die Abhängigkeit des Jahresumsatzes von der Ladenfläche untersucht wird. Mithilfe der erhaltenen Informationen können Sie einen Standort für das Geschäft genauer auswählen und dessen Jahresumsatz vorhersagen. In den folgenden Anmerkungen wird die Diskussion der Regressionsanalyse sowie mehrerer Regressionsmodelle fortgesetzt.

Reis. 27. Blockdiagramm einer Notiz

Materialien aus dem Buch Levin et al. Statistiken für Manager werden verwendet. - M.: Williams, 2004. - S. 792–872

Wenn die abhängige Variable kategorial ist, sollte die logistische Regression angewendet werden.



Fehler: Der Inhalt ist geschützt!!