Ein Beispiel für die Verwendung der multiplen linearen Regression. Testen Sie die Arbeit der multiplen Regressionsgleichung

Angenommen, ein Entwickler bewertet eine Gruppe kleiner Bürogebäude in einem traditionellen Geschäftsviertel.

Ein Entwickler kann eine multiple Regressionsanalyse verwenden, um den Preis eines Bürogebäudes in einem bestimmten Gebiet basierend auf den folgenden Variablen zu schätzen.

y ist der geschätzte Preis eines Bürogebäudes;

x 1 - Gesamtfläche in Quadratmetern;

x 2 - Anzahl der Büros;

x 3 - die Anzahl der Eingaben (Eingabe von 0,5 bedeutet eine Eingabe nur für die Zustellung von Korrespondenz);

x 4 - Betriebszeit des Gebäudes in Jahren.

Dieses Beispiel geht davon aus, dass zwischen jeder unabhängigen Variablen (x 1 , x 2 , x 3 und x 4) und der abhängigen Variablen (y), d. h. dem Preis eines Bürogebäudes in einem bestimmten Gebiet, eine lineare Beziehung besteht. Die Anfangsdaten sind in der Abbildung dargestellt.

Die Einstellungen zum Lösen der Aufgabe sind in der Abbildung des Fensters " Rückfall". Die Berechnungsergebnisse sind auf einem separaten Blatt in drei Tabellen aufgeführt

Als Ergebnis haben wir folgendes bekommen mathematisches Modell:

y = 52318 + 27,64*x1 + 12530*x2 + 2553*x3 - 234,24*x4.

Der Bauträger kann nun den Schätzwert eines Bürogebäudes im selben Gebiet ermitteln. Wenn dieses Gebäude eine Fläche von 2500 hat Quadratmeter, drei Büros, zwei Eingänge und eine Lebensdauer von 25 Jahren, können Sie den Wert nach folgender Formel schätzen:

y \u003d 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 \u003d 158 261 c.u.

IN Regressionsanalyse Die wichtigsten Ergebnisse sind:

  • Koeffizienten für Variablen und Y-Schnittpunkt, die die gewünschten Parameter des Modells sind;
  • Vielfaches R, das die Genauigkeit des Modells für die verfügbaren Eingabedaten charakterisiert;
  • Fisher F-Test(in dem betrachteten Beispiel übersteigt es den kritischen Wert von 4,06 deutlich);
  • t-Statistik– Werte, die den Signifikanzgrad einzelner Koeffizienten des Modells charakterisieren.

Besonderes Augenmerk sollte auf t-Statistiken gelegt werden. Sehr oft ist beim Erstellen eines Regressionsmodells nicht bekannt, ob dieser oder jener Faktor x y beeinflusst. Die Einbeziehung von Faktoren in das Modell, die den Ausgabewert nicht beeinflussen, verschlechtert die Qualität des Modells. Die Berechnung der t-Statistik hilft, solche Faktoren zu erkennen. Eine ungefähre Schätzung kann wie folgt vorgenommen werden: Wenn für n>>k der Absolutwert der t-Statistik signifikant größer als drei ist, sollte der entsprechende Koeffizient als signifikant angesehen werden, und der Faktor sollte in das Modell aufgenommen, ansonsten ausgeschlossen werden das Model. Daher ist es möglich, eine Technologie zum Erstellen eines Regressionsmodells vorzuschlagen, die aus zwei Phasen besteht:

1) Verarbeite das Paket " Rückfall"alle verfügbaren Daten, t-Statistikwerte analysieren;

2) Entfernen Sie aus der Tabelle der Anfangsdaten Spalten mit den Faktoren, für die die Koeffizienten unbedeutend sind, und verarbeiten Sie sie mit dem Paket " Rückfall„Neuer Tisch.

Das Material wird anhand eines durchgehenden Beispiels veranschaulicht: Verkaufsprognosen für OmniPower. Stellen Sie sich vor, Sie sind Marketingleiter einer großen nationalen Lebensmittelkette. IN letzten Jahren Nährstoffriegel enthalten große Menge Fette, Kohlenhydrate und Kalorien. Sie ermöglichen es Ihnen, die Energiereserven, die Läufer, Kletterer und andere Athleten bei anstrengenden Workouts und Wettkämpfen verbraucht haben, schnell wieder aufzufüllen. In den letzten Jahren sind die Verkäufe von Lebensmittelriegeln explodiert, und das Management von OmniPower ist zu dem Schluss gekommen, dass dieses Marktsegment sehr vielversprechend ist. Vor dem Angebot die neue art Bar auf dem nationalen Markt möchte das Unternehmen die Auswirkungen seiner Kosten und Werbekosten auf den Umsatz bewerten. 34 Geschäfte wurden für die Marktforschung ausgewählt. Sie müssen ein Regressionsmodell erstellen, mit dem Sie die während der Studie erhaltenen Daten analysieren können. Kann man dafür ein einfaches Modell verwenden? lineare Regression im vorigen Beitrag besprochen? Wie soll es geändert werden?

Modell multiple Regression

Für die Marktforschung erstellte OmniPower eine Stichprobe von 34 Geschäften mit ungefähr demselben Umsatzvolumen. Betrachten Sie zwei unabhängige Variablen - den Preis eines OmniPower-Barrens in Cent ( X1) und monatliches In-Store-Werbebudget in Dollar ( X2). Dieses Budget beinhaltet die Kosten für Beschilderung und Schaufenster sowie die Verteilung von Coupons und Gratisproben. Abhängige Variable Y stellt die Anzahl der pro Monat verkauften OmniPower-Riegel dar (Abbildung 1).

Reis. 1. Monatliches Verkaufsvolumen von OmniPower-Riegeln, deren Preis und Werbekosten

Hinweis im Format oder herunterladen, Beispiele im Format

Interpretation der Regressionskoeffizienten. Wenn in einem Problem mehrere erklärende Variablen untersucht werden, kann das einfache lineare Regressionsmodell erweitert werden, indem angenommen wird, dass eine lineare Beziehung zwischen der Antwort und jeder der erklärenden Variablen besteht. Zum Beispiel, wenn es gibt k erklärenden Variablen hat das multiple lineare Regressionsmodell die Form:

(1) Y ich = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε ich

Wo β 0 - Schicht, β 1 - Gerade Steigung Y, je nach Variable X1 wenn die Variablen X 2 , X 3 , … , X k sind Konstanten β 2 - Gerade Steigung Y, je nach Variable X2 wenn die Variablen X 1 , X 3 , … , X k sind Konstanten β k- Gerade Steigung Y, je nach Variable X k wenn die Variablen X 1 , X 2 , … , X k-1 sind Konstanten ε ich Y v ich m Beobachtung.

Insbesondere ein multiples Regressionsmodell mit zwei erklärenden Variablen:

(2) Y ich = β 0 + β 1 X 1 ich + β 2 X 2 ich + ε ich

Wo β 0 - Schicht, β 1 - Gerade Steigung Y, je nach Variable X1 wenn die Variable X2 ist eine Konstante, β 2 - Gerade Steigung Y, je nach Variable X2 wenn die Variable X1 ist eine Konstante, ε ich- Zufallsvariablenfehler Y v ich m Beobachtung.

Vergleichen wir dieses multiple lineare Regressionsmodell mit einem einfachen linearen Regressionsmodell: Y ich = β 0 + β 1 X ich + ε ich. In einem einfachen linearen Regressionsmodell die Steigung β 1 Y wenn sich der Wert der Variablen X um eins ändert und den Einfluss anderer Faktoren nicht berücksichtigt. In einem multiplen Regressionsmodell mit zwei unabhängigen Variablen (2) die Steigung β 1 stellt die Änderung des Mittelwerts der Variablen dar Y wenn der Wert einer Variablen geändert wird x1 pro Einheit unter Berücksichtigung des Einflusses der Variablen X2. Dieser Wert wird Koeffizient der reinen Regression (oder partiellen Regression) genannt.

Wie in einem einfachen linearen Regressionsmodell die Stichproben-Regressionskoeffizienten B 0 , B 1 , Und B 2 sind Schätzungen der Parameter der entsprechenden Bevölkerung β 0 , β 1 Und β 2 .

Multiple Regressionsgleichung mit zwei unabhängigen Variablen:

(3) = B 0 + B 1 X 1 ich + B 2 X 2 ich

Zur Berechnung der Regressionskoeffizienten wird die Methode verwendet kleinsten Quadrate. In Excel können Sie verwenden Analysepaket, Möglichkeit Rückfall. Anders als bei der Erstellung einer linearen Regression, setzen Sie einfach als Eingabeintervall X Bereich mit allen unabhängigen Variablen (Abb. 2). In unserem Beispiel ist dies $C$1:$D$35.

Reis. 2. Batch-Regressionsfenster Excel-Analyse

Die Ergebnisse des Analysepakets sind in Abb. 1 dargestellt. 3. Wie wir sehen, B 0 = 5 837,52, B 1 = -53,217 und B 2 = 3,163. Somit, = 5 837,52 –53,217 X 1 ich + 3,163 X 2 ich, Wo Ŷ ich- prognostizierte Verkäufe von OmniPower-Nahrungsriegeln in ich-m speichern (Stücke), X1ich- Barpreis (in Cent) in ich-m Laden, X2i- monatliche Werbeausgaben ich speichern (in Dollar).

Reis. 3. Multiple Regressionsstudie zum Verkaufsvolumen von OmniPower Riegeln

Selektive Steigung B 0 beträgt 5.837,52 und ist eine Schätzung der durchschnittlichen Anzahl von OmniPower-Riegeln, die pro Monat zum Nullpreis und ohne Werbekosten verkauft werden. Da diese Bedingungen bedeutungslos sind, ist in dieser Situation der Wert der Steigung b 0 hat keine vernünftige Deutung.

Selektive Steigung B 1 ist -53,217. Das bedeutet, dass bei einem gegebenen monatlichen Betrag an Werbeausgaben eine Erhöhung des Preises eines Riegels um einen Cent zu einem Rückgang der erwarteten Verkäufe um 53.217 Einheiten führen würde. Ebenso die Sampling-Steigung B 2 3,613 bedeutet, dass bei einem Festpreis eine Erhöhung der monatlichen Werbeausgaben um 1 US-Dollar mit einer Erhöhung der erwarteten Barrenverkäufe um 3.613 einhergeht. Diese Schätzungen ermöglichen ein besseres Verständnis der Auswirkungen von Preis und Werbung auf den Umsatz. Bei einem festen Betrag an Werbeausgaben erhöht beispielsweise eine Senkung des Preises eines Riegels um 10 Cent den Umsatz um 532.173 Einheiten, und bei einem festen Preis eines Riegels erhöht eine Erhöhung der Werbekosten um 100 USD den Umsatz um 361,31 Einheiten .

Interpretation von Steigungen in einem multiplen Regressionsmodell. Die Koeffizienten in einem multiplen Regressionsmodell werden als reine Regressionskoeffizienten bezeichnet. Sie schätzen die durchschnittliche Antwortänderung Y beim Ändern des Wertes X pro Einheit, wenn alle anderen erklärenden Variablen "eingefroren" sind. Beim OmniPower-Riegelproblem beispielsweise verkauft ein Geschäft mit einem festen Betrag an Werbeausgaben pro Monat 53.217 Riegel weniger, wenn er seinen Preis um einen Cent erhöht. Eine andere Interpretation dieser Koeffizienten ist möglich. Stellen Sie sich dieselben Geschäfte mit denselben Werbeausgaben vor. Wenn der Preis eines Barrens um einen Cent sinkt, erhöht sich der Umsatz in diesen Geschäften um 53.217 Barren. Betrachten Sie nun zwei Geschäfte, in denen die Riegel gleich viel kosten, aber die Werbekosten unterschiedlich sind. Wenn diese Kosten um einen Dollar steigen, erhöht sich das Verkaufsvolumen in diesen Geschäften um 3.613 Einheiten. Wie wir sehen, ist eine vernünftige Interpretation der Steigungen nur unter gewissen Einschränkungen möglich, die den erklärenden Variablen auferlegt werden.

Vorhersage der Werte der abhängigen Variablen Y. Sobald wir feststellen, dass die gesammelten Daten es uns ermöglichen, ein multiples Regressionsmodell zu verwenden, können wir die monatlichen Verkäufe von OmniPower Riegeln vorhersagen und Konfidenzintervalle für die durchschnittlichen und vorhergesagten Verkäufe erstellen. Um den durchschnittlichen monatlichen Umsatz von 79-Cent-OmniPower-Riegeln in einem Geschäft vorherzusagen, das 400 $ pro Monat für Werbung ausgibt, verwenden Sie die multiple Regressionsgleichung: Y = 5.837,53 – 53,2173 * 79 + 3,6131 * 400 = 3.079. Daher das erwartete Verkaufsvolumen für Geschäfte Der Verkauf von OmniPower-Riegeln zu einem Preis von 79 Cent und Ausgaben von 400 US-Dollar pro Monat für Werbung sind 3.079.

Berechnung des Wertes Y und durch Auswertung der Residuen kann man Konfidenzintervalle konstruieren, die enthalten erwarteter Wert und der vorhergesagte Reaktionswert. wir haben dieses Vorgehen im Rahmen eines einfachen linearen Regressionsmodells betrachtet. Die Konstruktion ähnlicher Schätzungen für das multiple Regressionsmodell ist jedoch mit großen Rechenschwierigkeiten verbunden und wird hier nicht dargestellt.

Multipler gemischter Korrelationskoeffizient. Denken Sie daran, dass Sie mit dem Regressionsmodell den Koeffizienten der gemischten Korrelation berechnen können r2. Da es in einem multiplen Regressionsmodell mindestens zwei erklärende Variablen gibt, ist der multiple gemischte Korrelationskoeffizient der Bruchteil der Varianz der Variablen Y, erklärt durch einen gegebenen Satz erklärender Variablen:

Wo SSR ist die Summe der Quadrate der Regression, SST ist die Gesamtsumme der Quadrate.

Zum Beispiel bei dem Problem, einen OmniPower-Riegel zu verkaufen SSR = 39 472 731, SST= 52 093 677 und k = 2. Somit ist

Das bedeutet, dass 75,8 % der Schwankungen der Verkaufsmengen auf Preisänderungen und Schwankungen der Werbeausgaben zurückzuführen sind.

Residuenanalyse für ein multiples Regressionsmodell

Mit der Residuenanalyse können Sie bestimmen, ob ein multiples Regressionsmodell mit zwei (oder mehr) erklärenden Variablen angewendet werden kann. In der Regel werden folgende Arten der Rückstandsanalytik durchgeführt:

Das erste Diagramm (Abb. 4a) ermöglicht es uns, die Verteilung der Residuen in Abhängigkeit von den vorhergesagten Werten von zu analysieren. Wenn der Wert der Residuen nicht von den vorhergesagten Werten abhängt und sowohl positive als auch negative Werte annimmt (wie in unserem Beispiel), wird die Bedingung lineare Abhängigkeit Variable Y auf beiden erklärenden Variablen erfüllt ist. Leider drin Analysepaket Aus irgendeinem Grund wird dieses Diagramm nicht erstellt. Kann im Fenster sein Rückfall(siehe Abb. 2) einschalten Überreste. Auf diese Weise können Sie eine Tabelle mit den Resten anzeigen und darauf ein Streudiagramm erstellen (Abb. 4).

Reis. 4. Abhängigkeit der Residuen vom vorhergesagten Wert

Die zweite und dritte Grafik zeigen die Abhängigkeit der Residuen von den erklärenden Variablen. Diese Diagramme können einen quadratischen Effekt zeigen. In dieser Situation ist es notwendig, dem multiplen Regressionsmodell eine quadrierte erklärende Variable hinzuzufügen. Diese Diagramme werden vom Analysepaket (siehe Abb. 2) angezeigt, wenn Sie die Option Residual Graph aktivieren (Abb. 5).

Reis. 5. Abhängigkeit der Residuen von Preis und Werbekosten

Testen der Signifikanz eines multiplen Regressionsmodells.

Nachdem durch Residuenanalyse bestätigt wurde, dass das lineare multiple Regressionsmodell angemessen ist, kann bestimmt werden, ob es eine statistisch signifikante Beziehung zwischen der abhängigen Variablen und dem Satz erklärender Variablen gibt. Da das Modell mehrere erklärende Variablen enthält, werden die Null- und Alternativhypothesen wie folgt formuliert: H 0: β 1 = β 2 = ... = β k = 0 (es besteht kein linearer Zusammenhang zwischen der Antwortgröße und den erklärenden Variablen), H 1: es gibt mindestens einen Wert β j ≠ 0 (es besteht eine lineare Abhängigkeit zwischen der Antwort und mindestens einer erklärenden Variablen).

Um die Nullhypothese zu testen, verwenden wir F-Kriterium - Test F-Statistik gleich Regression Mean Square (MSR) dividiert durch Fehlervarianz (MSE):

Wo F F- Verteilung mit k Und n–k–1 Freiheitsgrade k- die Anzahl der unabhängigen Variablen im Regressionsmodell.

Die Entscheidungsregel sieht so aus: bei einem Signifikanzniveau von α die Nullhypothese H 0 abgelehnt, wenn F > F U(k,n – k – 1), ansonsten wird die Hypothese H 0 nicht verworfen (Abb. 6).

Reis. 6. Pivot-Tabelle Varianzanalyse um die Hypothese zu testen statistische Signifikanz mehrere Regressionskoeffizienten

ANOVA-Zusammenfassungstabelle, ausgefüllt mit Analysepaket Excel bei der Lösung des Problems des Verkaufs von OmniPower-Riegeln ist in Abb. 3 (siehe Bereich A10:F14). Wenn das Signifikanzniveau 0,05 ist, der kritische Wert F-Verteilungen mit zwei und 31 Freiheitsgraden FU(2.31)\u003d F. OBR (1-0,05; 2; 31) \u003d gleich 3,305 (Abb. 7).

Reis. 7. Testen der Hypothese über die Signifikanz der Regressionskoeffizienten auf dem Signifikanzniveau α = 0,05, mit 2 und 31 Freiheitsgraden

Wie in Abb. 3, F-Statistik ist 48,477 > FU(2.31)= 3,305 und P-Wert nahe 0,000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Statistische Rückschlüsse auf die Grundgesamtheit von Regressionskoeffizienten

Um eine statistisch signifikante Beziehung zwischen Variablen zu identifizieren X Und Y In einem einfachen linearen Regressionsmodell wurde ein Steigungshypothesentest durchgeführt. Darüber hinaus haben wir gebaut, um die Steigung der allgemeinen Bevölkerung abzuschätzen Konfidenzintervall(cm. ).

Hypothesentest. Um die Hypothese zu testen, dass die Steigung der Grundgesamtheit β 1 in einem einfachen linearen Regressionsmodell Null ist, wird die Formel t = (b 1 – β 1)/S b 1 verwendet. Es kann zu einem multiplen Regressionsmodell erweitert werden:

Wo T ist eine Teststatistik, die hat T- Verteilung mit n–k–1 Freiheitsgrade bj- die Steigung der Variablen XJ in Bezug auf Variable Y wenn alle anderen erklärenden Variablen Konstanten sind, Sbj ist der mittlere quadratische Fehler des Regressionskoeffizienten bj, k- die Anzahl der erklärenden Variablen in der Regressionsgleichung, β j - die hypothetische Steigung der Grundgesamtheit der Antworten J-th in Bezug auf eine Variable, wenn alle anderen Variablen fest sind.

Auf Abb. 3 (untere Tabelle) zeigt die Ergebnisse der Anwendung T-Kriterien (erhalten mit Analysepaket) für jede der im Regressionsmodell enthaltenen unabhängigen Variablen. Wenn also festgestellt werden muss, ob eine Variable vorhanden ist X2(Werbekosten) bei einem Festpreis eines OmniPower-Riegels einen signifikanten Einfluss auf den Umsatz haben, werden die Null- und Alternativhypothesen formuliert: H 0: β2 = 0, H 1: β2 ≠ 0. Gemäß Formel (6) erhalten wir :

Wenn das Signifikanzniveau 0,05 beträgt, die kritischen Werte T-Verteilungen mit 31 Freiheitsgraden sind t L = STUDENT.OBR(0,025;31) = –2,0395 und t U = STUDENT.OBR(0,975;31) = 2,0395 (Abb. 8). R-value =1-STUDENT.DIST(5.27;31;TRUE) und liegt nahe bei 0,0000. Basierend auf einer der Ungleichungen T= 5,27 > 2,0395 oder R = 0,0000 < 0,05 нулевая гипотеза H 0 ist abgelehnt. Daher bei einem Festpreis von einem Balken zwischen den variablen X2(Werbekosten) und Umsatzvolumen besteht ein statistisch signifikanter Zusammenhang. Somit besteht eine äußerst geringe Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn kein linearer Zusammenhang zwischen Werbeausgaben und Umsatzvolumen besteht.

Reis. 8. Testen der Hypothese über die Signifikanz der Regressionskoeffizienten auf einem Signifikanzniveau von α = 0,05 mit 31 Freiheitsgraden

Das Testen der Signifikanz bestimmter Regressionskoeffizienten testet tatsächlich die Hypothese über die Signifikanz einer bestimmten Variablen, die zusammen mit anderen im Regressionsmodell enthalten ist. Somit, T-Kriterium zum Testen der Hypothese über die Signifikanz des Regressionskoeffizienten ist gleichbedeutend mit dem Testen der Hypothese über den Einfluss jeder der erklärenden Variablen.

Vertrauensintervalle. Anstatt die Hypothese über die Steigung der Grundgesamtheit zu testen, können Sie den Wert dieser Steigung schätzen. In einem multiplen Regressionsmodell wird die folgende Formel verwendet, um ein Konfidenzintervall zu erstellen:

(7) bj ± nk –1 Sbj

Wir verwenden diese Formel, um ein 95-%-Konfidenzintervall zu konstruieren, das die Steigung der Grundgesamtheit β 1 enthält (der Effekt des Preises x1 auf Verkaufsvolumen Y mit einem festen Betrag an Werbekosten X2). Nach Formel (7) erhalten wir: B 1 ± nk –1 Sb 1 . Weil das B 1 = –53,2173 (siehe Abb. 3), Sb 1 = 6,8522, kritischer Wert T-Statistiken bei 95 % Konfidenzniveau und 31 Freiheitsgraden nk –1 \u003d STUDENT.OBR (0,975; 31) \u003d 2,0395 erhalten wir:

–53,2173 ± 2,0395*6,8522

–53,2173 ± 13,9752

–67,1925 ≤ β 1 ≤ –39,2421

Unter Berücksichtigung des Werbekosteneffekts kann somit argumentiert werden, dass bei einer Erhöhung des Barrenpreises um einen Cent die Verkaufsmenge um einen Betrag abnimmt, der zwischen 39,2 und 67,2 Einheiten liegt. Es besteht eine Wahrscheinlichkeit von 95 %, dass dieses Intervall die Beziehung zwischen den beiden Variablen richtig schätzt. Da dieses Konfidenzintervall nicht Null enthält, kann argumentiert werden, dass der Regressionskoeffizient β 1 einen statistisch signifikanten Einfluss auf den Umsatz hat.

Bewertung der Bedeutung erklärender Variablen in einem multiplen Regressionsmodell

Ein multiples Regressionsmodell sollte nur die erklärenden Variablen enthalten, die den Wert der abhängigen Variablen genau vorhersagen. Wenn eine der erklärenden Variablen diese Anforderung nicht erfüllt, muss sie aus dem Modell entfernt werden. Als Alternative Methode, was es ermöglicht, den Beitrag der erklärenden Variablen in der Regel zu schätzen F-Kriterium. Es besteht darin, die Änderung der Summe der Quadrate der Regression nach der Aufnahme der nächsten Variablen in das Modell zu bewerten. Eine neue Variable wird nur dann in das Modell aufgenommen, wenn sie zu einer signifikanten Erhöhung der Genauigkeit der Vorhersage führt.

Um einen partiellen F-Test auf das OmniPower-Riegelverkaufsproblem anzuwenden, ist es notwendig, den Beitrag der Variablen zu bewerten X2(Werbekosten) nach Einbeziehung der Variablen in das Modell x1(Barpreis). Wenn das Modell mehrere erklärende Variablen enthält, der Beitrag der erklärenden Variablen XJ kann bestimmt werden, indem sie aus dem Modell ausgeschlossen und die Regressionsquadratsumme (SSR) ausgewertet wird, die über die verbleibenden Variablen berechnet wird. Wenn das Modell zwei Variablen enthält, wird der Beitrag jeder von ihnen durch die Formeln bestimmt:

Schätzen des Beitrags einer Variablen X1 X2:

(8a) SSR(X 1 |X 2) = SSR(X 1 und X 2) – SSR(X 2)

Schätzen des Beitrags einer Variablen X2 vorausgesetzt, dass die Variable im Modell enthalten ist X1:

(8b) SSR(X 2 |X 1) = SSR(X 1 und X 2) – SSR(X 1)

Mengen Halbleiterrelais (X2) Und SSR(X1) sind jeweils die Quadratsummen der Regression, die nur für eine der erklärten Variablen berechnet wurden (Abb. 9).

Reis. 9. Die Koeffizienten eines einfachen linearen Regressionsmodells unter Berücksichtigung von: (a) dem Verkaufsvolumen und dem Preis des Barrens - SSR(X 1); (b) Verkaufsvolumen und Werbekosten - Halbleiterrelais (X2)(erhalten mit dem Excel Analysis ToolPack)

Null- und Alternativhypothesen über den Beitrag einer Variablen X1 sind wie folgt formuliert: H 0- Variable aktivieren X1 führt nicht zu einer signifikanten Erhöhung der Genauigkeit des Modells, das die Variable berücksichtigt X2; H1- Variable aktivieren X1 führt zu einer deutlichen Erhöhung der Genauigkeit des Modells, das die Variable berücksichtigt X2. Die dem Quotienten zugrunde liegende Statistik F-Kriterium für zwei Variablen, berechnet nach der Formel:

Wo MSE ist die Varianz des Fehlers (Residuum) für zwei Faktoren gleichzeitig. A-Priorat F-Statistik hat F-Verteilung von einem und N-k-1 Freiheitsgrade.

So, Halbleiterrelais (X2)= 14 915 814 (Bild 9), SSR (X 1 und X 2)= 39 472 731 (Abb. 3, Zelle C12). Daher erhalten wir nach Formel (8a): SSR (X 1 | X 2) \u003d SSR (X 1 und X 2) - SSR (X 2) \u003d 39 472 731 - 14 915 814 = 24 556 917. Also z SSR(X 1 | X 2) = 24 556 917 und MSE (X 1 und X2) = 407 127 (Abb. 3, Zelle D13) erhalten wir unter Verwendung von Formel (9): F= 24.556.917 / 407.127 = 60,32. Wenn das Signifikanzniveau 0,05 ist, dann der kritische Wert F-Verteilungen mit einem und 31 Freiheitsgraden = F. OBR (0,95; 1; 31) = 4,16 (Abb. 10).

Reis. 10. Testen der Hypothese über die Signifikanz der Regressionskoeffizienten auf einem Signifikanzniveau von 0,05, mit einem und 31 Freiheitsgraden

Da der berechnete Wert F-Statistik mehr als kritisch (60,32 > 4,17), Hypothese H 0 wird zurückgewiesen, wodurch die Variable berücksichtigt wird X1(Preise) verbessert ein Regressionsmodell, das die Variable bereits enthält, erheblich X2(Werbekosten).

Ebenso kann man den Einfluss der Variablen auswerten X2(Werbekosten) pro Modell, das die Variable bereits beinhaltet X1(Preis). Führen Sie die Berechnungen selbst durch. Die Entscheidungsbedingung bewirkt 27,8 > 4,17 und damit die Einbeziehung der Variablen X2 führt auch zu einer deutlichen Erhöhung der Genauigkeit des Modells, das die Größe X 1 berücksichtigt. Das Einbeziehen jeder der Variablen verbessert also die Genauigkeit des Modells. Daher müssen beide Variablen in das multiple Regressionsmodell aufgenommen werden: Preis und Werbekosten.

Kurioserweise der Wert T-Statistik berechnet nach Formel (6) und der Wert des Privaten F-Statistiken, die durch Formel (9) gegeben sind, sind eindeutig miteinander verbunden:

Wo A ist die Anzahl der Freiheitsgrade.

Dummy-Variablen-Regressionsmodelle und Interaktionseffekte

Bei der Erörterung multipler Regressionsmodelle sind wir davon ausgegangen, dass jede unabhängige Variable eine Zahl ist. In vielen Situationen ist es jedoch notwendig, kategoriale Variablen in das Modell aufzunehmen. Beispielsweise wurden beim OmniPower Riegel-Verkaufsproblem Preis und Werbekosten verwendet, um die durchschnittlichen monatlichen Verkäufe vorherzusagen. Zusätzlich zu diesen numerischen Variablen können Sie versuchen, im Modell die Position der Waren im Laden zu berücksichtigen (z. B. im Schaufenster oder nicht). Um kategoriale Variablen im Regressionsmodell zu berücksichtigen, müssen Dummy-Variablen darin enthalten sein. Wenn beispielsweise eine kategoriale erklärende Variable zwei Kategorien hat, reicht eine Dummy-Variable aus, um sie darzustellen XD: Xd= 0, wenn die Beobachtung zur ersten Kategorie gehört, Xd= 1, wenn die Beobachtung zur zweiten Kategorie gehört.

Betrachten Sie zur Veranschaulichung der Dummy-Variablen ein Modell zur Vorhersage des durchschnittlichen Schätzwerts von Immobilien auf der Grundlage einer Stichprobe von 15 Häusern. Als erklärende Variablen wählen wir die Wohnfläche des Hauses (tausend Quadratmeter) und das Vorhandensein eines Kamins (Abb. 11). Dummy-Variable X2(Vorhandensein eines Kamins) wird wie folgt definiert: X2= 0 wenn es im Haus keinen Kamin gibt, X2= 1, wenn das Haus einen Kamin hat.

Reis. 11. Geschätzter Wert aufgrund der Wohnfläche und des Vorhandenseins eines Kamins

Nehmen wir an, dass die Steigung des Schätzwerts je nach Wohnfläche für Häuser mit und ohne Kamin gleich ist. Dann sieht das multiple Regressionsmodell so aus:

Y ich = β 0 + β 1 X 1i + β 2 X 2i + ε ich

Wo Y ich- Schätzwert ich-th Haus, gemessen in Tausenden von Dollar, β 0 - Reaktionsverschiebung, x1ich,- Wohnraum ich-Haus gehen, gemessen in tausend Quadratmetern. Füße, β 1 - die Steigung des Schätzwerts, abhängig von der Wohnfläche des Hauses bei konstantem Wert der Dummy-Variablen, x1ich, ist eine Dummy-Variable, die das Vorhandensein oder Fehlen eines Kamins anzeigt, β 1 - die Steigung des Schätzwerts, abhängig von der Wohnfläche des Hauses bei konstantem Wert der Dummy-Variablen β 2 - der Effekt der Erhöhung des Schätzwerts des Hauses, abhängig vom Vorhandensein eines Kamins bei konstanter Wohnfläche, ε ich– ein zufälliger Fehler im Schätzwert ich tes Haus. Die Ergebnisse der Berechnung des Regressionsmodells sind in Abb. 1 dargestellt. 12.

Reis. 12. Ergebnisse der Berechnung des Regressionsmodells für den geschätzten Wert von Häusern; erhalten mit Analysepaket in Excel; Für die Berechnung wurde eine Tabelle ähnlich Abb. 1 verwendet. 11, mit der einzigen Änderung: „Ja“ wird durch Einsen und „Nein“ durch Nullen ersetzt

In diesem Modell werden die Regressionskoeffizienten wie folgt interpretiert:

  1. Bei konstanter Dummy-Variable ergibt sich ein Zuwachs an Wohnfläche pro 1.000 qm. Fuß führt zu einer Erhöhung des prognostizierten durchschnittlichen Schätzwerts um 16,2.000 $.
  2. Wenn die Wohnfläche konstant ist, erhöht ein Kamin den durchschnittlichen Hauswert um 3.900 $.

Achten Sie darauf (Abb. 12), T-Statistik entsprechend Wohnfläche ist 6,29, und R- Wert ist fast Null. Gleichzeitig T-Statistik, die der Dummy-Variablen entspricht, ist 3,1, und P-Wert - 0,009. Somit trägt jede dieser beiden Variablen signifikant zum Modell bei, wenn das Signifikanzniveau 0,01 beträgt. Darüber hinaus bedeutet der multiple gemischte Korrelationskoeffizient, dass 81,1 % der Schwankungen des Schätzwerts auf die Variabilität der Wohnfläche des Hauses und das Vorhandensein eines Kamins zurückzuführen sind.

Interaktionseffekt. In allen oben diskutierten Regressionsmodellen wurde die Auswirkung der Antwort auf die erklärende Variable als statistisch unabhängig von der Auswirkung der Antwort auf andere erklärende Variablen betrachtet. Ist diese Bedingung nicht erfüllt, besteht eine Wechselwirkung zwischen den abhängigen Variablen. Zum Beispiel ist es wahrscheinlich, dass Werbung hat großen Einfluss auf das Verkaufsvolumen von Waren mit niedrigem Preis. Ist der Preis eines Produktes jedoch zu hoch, kann eine Erhöhung der Werbeausgaben den Umsatz nicht signifikant steigern. In diesem Fall besteht eine Wechselwirkung zwischen dem Preis des Produkts und den Kosten seiner Werbung. Mit anderen Worten, es lassen sich keine generellen Aussagen über die Abhängigkeit der Umsätze von den Werbekosten machen. Der Einfluss der Werbekosten auf den Umsatz hängt vom Preis ab. Dieser Einfluss wird im multiplen Regressionsmodell durch den Interaktionseffekt berücksichtigt. Um dieses Konzept zu veranschaulichen, kehren wir zum Problem der Hauskosten zurück.

In dem von uns entwickelten Regressionsmodell wurde angenommen, dass der Einfluss der Hausgröße auf den Wert nicht davon abhängt, ob das Haus über einen Kamin verfügt. Mit anderen Worten, es wurde angenommen, dass die Steigung des Schätzwerts in Abhängigkeit von der Wohnfläche des Hauses für Häuser mit und ohne Kamin gleich war. Wenn sich diese Neigungen voneinander unterscheiden, besteht eine Wechselwirkung zwischen der Größe des Hauses und dem Vorhandensein eines Kamins.

Das Testen der Hypothese gleicher Steigungen läuft darauf hinaus, den Beitrag zu schätzen, den das Produkt der erklärenden Variablen zum Regressionsmodell leistet x1 und eine Dummy-Variable X2. Wenn dieser Beitrag statistisch signifikant ist, kann das ursprüngliche Regressionsmodell nicht angewendet werden. Ergebnisse einer Regressionsanalyse mit Variablen X1, X2 Und X 3 \u003d X 1 * X 2 in Abb. gezeigt. 13.

Reis. 13. Ergebnisse erhalten mit Analysepaket Excel für ein Regressionsmodell, das Wohnraum, das Vorhandensein eines Kamins und deren Wechselwirkung berücksichtigt

Um die Nullhypothese H 0: β 3 = 0 und die Alternativhypothese H 1: β 3 ≠ 0 mit den in Abb. 13, beachte das T-Statistik entsprechend der Wirkung der Interaktion von Variablen ist gleich 1,48. Weil das R-Wert 0,166 > 0,05 ist, wird die Nullhypothese nicht verworfen. Daher hat das Zusammenspiel der Variablen keinen signifikanten Einfluss auf das Regressionsmodell, das Wohnfläche und das Vorhandensein eines Kamins berücksichtigt.

Zusammenfassung. Dieser Hinweis zeigt, wie ein Marketingleiter mehrere beantragen kann lineare Analyse um das Verkaufsvolumen abhängig vom Preis und den Werbekosten vorherzusagen. Es werden verschiedene multiple Regressionsmodelle betrachtet, darunter quadratische Modelle, Modelle mit Dummy-Variablen und Modelle mit Interaktionseffekten (Abb. 14).

Reis. 14. Blockdiagramm der Notiz

Es werden Materialien aus dem Buch Levin et al. Statistics for Managers verwendet. - M.: Williams, 2004. - p. 873–936

Der Zweck der multiplen Regression besteht darin, die Beziehung zwischen einer abhängigen und mehreren unabhängigen Variablen zu analysieren.

Beispiel: Es gibt Daten zu den Kosten eines Arbeitsplatzes (beim Kauf von 50 Arbeitsplätzen) für verschiedene PDM-Systeme. Erforderlich: Bewertung der Beziehung zwischen dem Preis eines PDM-Systemarbeitsplatzes und der Anzahl der darin implementierten Merkmale, die in Tabelle 2 dargestellt sind.

Tabelle 2 – Eigenschaften von PDM-Systemen

Artikelnummer PDM-System Preis Produktkonfigurationsmanagement Produktmodelle Zusammenarbeit Produktänderungsmanagement Dokumentenfluss Archiv Dokumentensuche Projektplanung Management der Produktherstellung
iMAN Ja Ja
Party Plus Ja Ja
PDM STEP-Suite Ja Ja
Suchen Ja Ja
Windchill Ja Ja
Kompass-Manager Ja Ja
T-Flex-Dokumentation Ja Ja
TechnoPro Nein Nein

Der Zahlenwert der Merkmale (außer „Kosten“, „Produktmodelle“ und „Teamarbeit“) bezeichnet die Anzahl der umgesetzten Anforderungen jedes Merkmals.

Lassen Sie uns eine Tabelle erstellen und mit Anfangsdaten ausfüllen (Abbildung 27).

Der Wert „1“ der Variablen „Mod. Hrsg. " und „Sammeln. r-ta.“ entspricht dem Wert "Ja" der Quelldaten und der Wert "0" dem Wert "Nein" der Quelldaten.

Lassen Sie uns eine Regression zwischen der abhängigen Variablen "Kosten" und den unabhängigen Variablen "Bsp. Konf., Mod. Hrsg., Sammeln. r-ta“, „Bsp. rev.", "Doc.", "Archive", "Search", "Plan-e", "Ex. gemacht.

Um die statistische Analyse der Ausgangsdaten zu starten, rufen Sie das Modul „Multiple Regression“ auf (Abbildung 22).

Geben Sie im angezeigten Dialogfeld (Abbildung 23) die Variablen an, für die die statistische Analyse durchgeführt werden soll.

Abbildung 27 - Anfangsdaten

Drücken Sie dazu die Schaltfläche „Variablen“ und wählen Sie im angezeigten Dialogfeld (Abbildung 28) in dem Teil, der den abhängigen Variablen entspricht (Dependent var.), „1-Cost“ und in dem Teil, der den unabhängigen Variablen entspricht (Independent variable list ) wählen Sie alle anderen Variablen aus. Die Auswahl mehrerer Variablen aus der Liste erfolgt über die Tasten „Strg“ oder „Umschalt“ oder durch Angabe der Nummern (Nummernbereich) der Variablen im entsprechenden Feld.



Abbildung 28 – Dialogfeld zum Einstellen von Variablen für die statistische Analyse

Nach Auswahl der Variablen klicken Sie im Dialogfenster zur Parametrierung des Moduls "Multiple Regression" auf die Schaltfläche "OK". In dem erscheinenden Fenster mit der Aufschrift „No of indep. var. >=(N-1); kann Korr. nicht invertieren Matrix." (Abbildung 29) Drücken Sie die „OK“-Taste.

Diese Meldung erscheint, wenn das System keine Regression für alle deklarierten unabhängigen Variablen erstellen kann, weil die Anzahl der Variablen ist größer oder gleich der Anzahl der Vorkommen minus 1.

Im angezeigten Fenster (Abbildung 30) können Sie auf der Registerkarte „Erweitert“ die Methode zum Erstellen der Regressionsgleichung ändern.

Abbildung 29 – Fehlermeldung

Wählen Sie dazu im Feld „Methode“ (Methode) „Schrittweise vorwärts“ (Schritt für Schritt mit Inklusion).

Abbildung 30 – Fenster zum Auswählen einer Methode und Einstellen von Parametern zum Erstellen einer Regressionsgleichung

Die Methode der schrittweisen Regression besteht darin, dass bei jedem Schritt eine unabhängige Variable in das Modell aufgenommen oder ausgeschlossen wird. Somit wird eine Reihe der "signifikantsten" Variablen herausgegriffen. Dadurch reduziert sich die Anzahl der Variablen, die die Abhängigkeit beschreiben.

Schrittweise Analyse mit Ausnahme ("Schrittweise rückwärts"). In diesem Fall werden zuerst alle Variablen in das Modell aufgenommen, und dann werden bei jedem Schritt Variablen eliminiert, die wenig zu den Vorhersagen beitragen. Als Ergebnis einer erfolgreichen Analyse können dann nur die "wichtigen" Variablen im Modell gespeichert werden, also diejenigen Variablen, deren Beitrag zur Diskriminierung größer ist als die anderen.

Schrittweise Analyse mit Inklusion ("Forward stepwise"). Bei dieser Methode werden nacheinander unabhängige Variablen in die Regressionsgleichung aufgenommen, bis die Gleichung die ursprünglichen Daten zufriedenstellend beschreibt. Die Einbeziehung von Variablen wird anhand des F-Kriteriums bestimmt. Bei jedem Schritt werden alle Variablen durchgesehen und diejenige, die dazu beiträgt größten Beitrag in Unterscheidung zwischen Aggregaten. Diese Variable muss in diesem Schritt in das Modell aufgenommen werden, und es erfolgt der Übergang zum nächsten Schritt.

Im Feld „Abschnitt“ (freier Regressionsterm) können Sie wählen, ob Sie ihn in die Gleichung aufnehmen („In Modell aufnehmen“) oder ignorieren und gleich Null betrachten („Auf Null setzen“).

Der Parameter „Toleranz“ ist die Toleranz der Variablen. Definiert als 1 minus dem Quadrat des Koeffizienten mehrfache Korrelation diese Variable mit allen anderen unabhängigen Variablen in der Regressionsgleichung. Je kleiner also die Toleranz einer Variablen ist, desto redundanter ist ihr Beitrag zur Regressionsgleichung. Wenn die Toleranz einer der Variablen in der Regressionsgleichung gleich oder nahe Null ist, kann die Regressionsgleichung nicht ausgewertet werden. Daher ist es wünschenswert, den Toleranzparameter auf 0,05 oder 0,1 einzustellen.

Der Parameter „Ridge-Regression; Lambda:" wird verwendet, wenn die unabhängigen Variablen stark miteinander korreliert sind und robuste Schätzungen für die Koeffizienten der Regressionsgleichung nicht durch die Methode der kleinsten Quadrate erhalten werden können. Die angegebene Konstante (Lambda) wird zur Diagonale der Korrelationsmatrix addiert, die dann neu normalisiert wird (so dass alle Diagonalelemente gleich 1,0 sind). Mit anderen Worten reduziert dieser Parameter die Korrelationskoeffizienten künstlich, sodass robustere (aber voreingenommene) Schätzungen der Regressionsparameter berechnet werden können. In unserem Fall wird dieser Parameter nicht verwendet.

Die Option „Stapelverarbeitung/Drucken“ wird verwendet, wenn es notwendig ist, mehrere Tabellen für den Bericht sofort vorzubereiten, die die Ergebnisse und den Prozess der Regressionsanalyse widerspiegeln. Diese Option ist sehr nützlich, wenn Sie die Ergebnisse einer schrittweisen Regressionsanalyse bei jedem Schritt drucken oder analysieren möchten.

Auf der Registerkarte „Schrittweise“ (Abbildung 31) können Sie die Parameter der Inklusion („F to enter“)- oder Exklusion („F to remove“)-Bedingungen für Variablen beim Erstellen der Regressionsgleichung sowie die Anzahl der Variablen einstellen Schritte zum Erstellen der Gleichung („Anzahl der Schritte“).

Abbildung 31 - Registerkarte „Schrittweise“ des Fensters zum Auswählen einer Methode und Einstellen von Parametern zum Erstellen einer Regressionsgleichung

F ist der Wert des F-Kriteriums.

Wenn es während der schrittweisen Analyse mit Einbeziehung erforderlich ist, dass alle oder fast alle Variablen in die Regressionsgleichung einbezogen werden, muss der Wert „F to enter“ auf das Minimum (0,0001) und „F to remove“ gesetzt werden. Wert auch auf das Minimum.

Wenn es während der schrittweisen Analyse mit einer Ausnahme erforderlich ist, alle Variablen (eine nach der anderen) aus der Regressionsgleichung zu entfernen, muss der Wert von "F to enter" sehr groß eingestellt werden, beispielsweise 999, und die eingestellt werden Wert von "F to remove" in der Nähe von "F to enter".

Es ist zu beachten, dass der Wert des Parameters „F to remove“ immer kleiner als „F to enter“ sein muss.

Die Option "Ergebnisse anzeigen" hat zwei Optionen:

2) Bei jedem Schritt – Zeigen Sie die Ergebnisse der Analyse bei jedem Schritt an.

Nach dem Klicken auf die Schaltfläche „OK“ im Fenster zur Auswahl der Methoden der Regressionsanalyse erscheint ein Fenster mit den Analyseergebnissen (Abbildung 32).

Abbildung 32 – Fenster Analyseergebnisse

Abbildung 33 – Zusammenfassung der Ergebnisse der Regressionsanalyse

Nach den Ergebnissen der Analyse ist das Bestimmtheitsmaß . Das bedeutet, dass die konstruierte Regression 99,987 % der Streuung der Werte relativ zum Mittelwert erklärt, also erklärt fast die gesamte Variabilität der Variablen.

Sehr wichtig und ihr Signifikanzniveau zeigen, dass die konstruierte Regression hochsignifikant ist.

Um zusammenfassende Regressionsergebnisse anzuzeigen, klicken Sie auf die Schaltfläche „Zusammenfassung: Regressionsergebnis“. Auf dem Bildschirm erscheint eine Tabelle mit den Ergebnissen der Analyse (Abbildung 33).

Die dritte Spalte ("B") zeigt Schätzungen der unbekannten Parameter des Modells an, d. h. Koeffizienten der Regressionsgleichung.

Somit sieht die erforderliche Regression wie folgt aus:

Eine qualitativ konstruierte Regressionsgleichung kann wie folgt interpretiert werden:

1) Die Kosten eines PDM-Systems steigen mit einer Zunahme der Anzahl implementierter Funktionen für Änderungsmanagement, Workflow und Planung, und auch wenn die Produktmodellunterstützungsfunktion im System enthalten ist;

2) Die Kosten eines PDM-Systems sinken mit der Zunahme an implementierten Konund mit der Zunahme an Suchmöglichkeiten.

Guten Tag, liebe Leser.
In früheren Artikeln praktische Beispiele, zeigte ich die Lösung von Klassifizierungsproblemen (Bonitätsproblem) und die Grundlagen der Textinformationsanalyse (Passproblem). Heute möchte ich eine andere Klasse von Problemen ansprechen, nämlich Regressionswiederherstellung. Aufgaben dieser Klasse werden normalerweise in der Prognose verwendet.
Als Beispiel für die Lösung eines Prognoseproblems habe ich den Datensatz zur Energieeffizienz aus dem größten UCI-Repository genommen. Traditionell verwenden wir Python mit Pandas und scikit-learn-Analysepaketen als Tools.

Beschreibung des Datensatzes und Problemstellung

Es wird ein Datensatz angegeben, der die folgenden Attribute des Raums beschreibt:

Es enthält die Eigenschaften des Raums, auf deren Grundlage die Analyse durchgeführt wird, und - die Lastwerte, die vorhergesagt werden müssen.

Vorläufige Datenanalyse

Lassen Sie uns zuerst unsere Daten laden und sie uns ansehen:

Von pandas import read_csv, DataFrame von sklearn.neighbors import KNeighborsRegressor von sklearn.linear_model import LinearRegression, LogisticRegression von sklearn.svm import SVR von sklearn.ensemble import RandomForestRegressor von sklearn.metrics import r2_score von sklearn.cross_validation import train_test_split dataset = read_csvici("EnergyEfficiency /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Lassen Sie uns nun sehen, ob irgendwelche Attribute verwandt sind. Dies kann durch Berechnung der Korrelationskoeffizienten für alle Spalten erfolgen. Wie das geht, wurde in einem früheren Artikel beschrieben:

dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0,000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0,000000e+00 0.889431 0.895785
X6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0,000000e+00 -1.079129e-16 0,000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050d-01 5.052512e-02 0.975862 1.000000

Wie Sie unserer Matrix entnehmen können, korrelieren die folgenden Spalten miteinander (der Wert des Korrelationskoeffizienten ist größer als 95 %):
  • y1 -> y2
  • x1 -> x2
  • x4 -> x5
Lassen Sie uns nun auswählen, welche Spalten unserer Paare wir aus unserer Auswahl entfernen können. Dazu wählen wir in jedem Paar die Spalten aus, die einen größeren Einfluss auf die vorhergesagten Werte haben Y1 Und Y2 und lass sie und lösche den Rest.
Wie Sie sehen können, Matrizen mit eingeschalteten Korrelationskoeffizienten y1 ,y2 wichtiger X2 Und X5 als X1 und X4, also können wir die letzten Spalten entfernen, die wir können.

Datensatz = dataset.drop(["X1","X4"], Achse=1) dataset.head()
Außerdem ist zu erkennen, dass die Felder Y1 Und Y2 sehr eng miteinander korrelieren. Da wir aber beide Werte vorhersagen müssen, lassen wir sie „wie sie sind“.

Modellauswahl

Trennen Sie die Prognosewerte von unserer Stichprobe:

Trg = Datensatz[["Y1","Y2"]] trn = Datensatz.drop(["Y1","Y2"], Achse=1)
Nach der Verarbeitung der Daten können Sie mit dem Erstellen des Modells fortfahren. Um das Modell zu erstellen, verwenden wir die folgenden Methoden:

Die Theorie zu diesen Methoden kann im Rahmen der Vorlesungen von K.V. Vorontsov über maschinelles Lernen nachgelesen werden.
Wir werden mit dem Bestimmungskoeffizienten ( R Quadrat). Dieser Koeffizient ist wie folgt definiert:

Wo ist die bedingte Varianz der abhängigen Variablen bei nach Faktor X.
Der Koeffizient nimmt einen Wert im Intervall an und je näher er an 1 liegt, desto stärker ist die Abhängigkeit.
Nun, jetzt können Sie direkt zum Modellbau gehen und ein Modell auswählen. Lassen Sie uns alle unsere Modelle in einer Liste zusammenfassen, um die weitere Analyse zu vereinfachen:

Modelle=
Die Modelle sind also fertig, jetzt werden wir unsere Originaldaten in 2 Teilstichproben aufteilen: prüfen Und lehrreich. Diejenigen, die meine vorherigen Artikel gelesen haben, wissen, dass dies mit der Funktion train_test_split() aus dem Paket scikit-learn möglich ist:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
Da wir nun 2 Parameter vorhersagen müssen, müssen wir für jeden von ihnen eine Regression erstellen. Darüber hinaus können Sie zur weiteren Analyse die erhaltenen Ergebnisse in einem Provisorium aufzeichnen Datenrahmen. Sie können es so machen:

#temporäre Strukturen erstellen TestModels = DataFrame() tmp = () #für jedes Modell aus der Liste für model in models: #den Modellnamen abrufen m = str(model) tmp["Model"] = m[:m.index( "( ")] #für jede Spalte der Ergebnismenge für i in xrange(Ytrn.shape): #Modell trainieren model.fit(Xtrn, Ytrn[:,i]) #Bestimmtheitsmaß berechnen tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #Daten schreiben und finaler DataFrame TestModels = TestModels.append() #Index nach Modellname erstellen TestModels.set_index ("Modell", inplace= true)
Wie Sie dem obigen Code entnehmen können, wird die Funktion r2_score() zur Berechnung des Koeffizienten verwendet.
So werden die Daten für die Analyse empfangen. Lassen Sie uns nun Diagramme erstellen und sehen, welches Modell das beste Ergebnis zeigte:

Abb, Achsen = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analyse der Ergebnisse und Schlussfolgerungen

Aus den obigen Grafiken können wir schließen, dass die Methode die Aufgabe besser bewältigt hat als andere. Zufälliger Wald(zufälliger Wald). Seine Bestimmtheitsmaße sind in beiden Variablen höher als die anderen:
Lassen Sie uns zur weiteren Analyse unser Modell neu trainieren:

Modell = modelsmodel.fit(Xtrn, Ytrn)
Bei näherer Betrachtung stellt sich die Frage, warum die abhängige Stichprobe beim letzten Mal geteilt wurde Ytr zu Variablen (nach Spalten), und jetzt tun wir das nicht.
Tatsache ist, dass einige Methoden, wie z RandomForestRegressor, kann mit mehreren prädiktiven Variablen arbeiten, während andere (z SVR) kann nur mit einer Variablen arbeiten. Daher haben wir in der vorherigen Schulung eine Partitionierung nach Spalten verwendet, um Fehler beim Erstellen einiger Modelle zu vermeiden.
Die Wahl eines Modells ist natürlich gut, aber es wäre auch schön, Informationen darüber zu haben, wie sich jeder Faktor auf den vorhergesagten Wert auswirkt. Dazu verfügt das Modell über eine Eigenschaft feature_importances_.
Damit können Sie das Gewicht jedes Faktors in den endgültigen Modellen sehen:

Model.feature_importances_
Array([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

In unserem Fall ist ersichtlich, dass die Gesamthöhe und -fläche die Heiz- und Kühllast am stärksten beeinflussen. Ihr Gesamtbeitrag zum Vorhersagemodell beträgt etwa 72 %.
Es sollte auch beachtet werden, dass Sie gemäß dem obigen Schema den Einfluss jedes Faktors separat auf das Heizen und separat auf das Kühlen sehen können, aber da diese Faktoren sehr eng miteinander korrelieren (), haben wir eine allgemeine Schlussfolgerung zu beiden gezogen sie, die oben geschrieben wurde.

Abschluss

In dem Artikel habe ich versucht, die wichtigsten Schritte der Regressionsdatenanalyse mit Python und Analysepaketen aufzuzeigen. Pandas Und scikit-lernen.
Es ist zu beachten, dass der Datensatz gezielt so gewählt wurde, dass er möglichst formalisiert ist und die primäre Verarbeitung der Eingabedaten minimal wäre. Meiner Meinung nach wird der Artikel für diejenigen nützlich sein, die ihre Reise in die Datenanalyse gerade erst beginnen, sowie für diejenigen, die über eine gute theoretische Grundlage verfügen, aber Tools für die Arbeit wählen.

Die Regressionsanalyse ist eine statistische Forschungsmethode, mit der Sie die Abhängigkeit eines Parameters von einer oder mehreren unabhängigen Variablen zeigen können. In der Vor-Computer-Ära war die Nutzung recht schwierig, insbesondere wenn es um große Datenmengen ging. Nachdem Sie heute gelernt haben, wie man eine Regression in Excel erstellt, können Sie komplexe statistische Probleme in nur wenigen Minuten lösen. Unten sind konkrete Beispiele aus dem Bereich Wirtschaftswissenschaften.

Arten der Regression

Das Konzept selbst wurde 1886 in die Mathematik eingeführt. Regression passiert:

  • linear;
  • parabolisch;
  • Leistung;
  • exponentiell;
  • hyperbolisch;
  • demonstrativ;
  • logarithmisch.

Beispiel 1

Betrachten Sie das Problem, die Abhängigkeit der Anzahl der ausgeschiedenen Teammitglieder vom Durchschnittsgehalt in 6 Industrieunternehmen zu bestimmen.

Aufgabe. Sechs Unternehmen analysierten den monatlichen Durchschnitt Löhne und die Zahl der Mitarbeiter, die gekündigt haben eigener Wille. In tabellarischer Form haben wir:

Die Anzahl der Personen, die gegangen sind

Gehalt

30000 Rubel

35000 Rubel

40000 Rubel

45000 Rubel

50000 Rubel

55000 Rubel

60000 Rubel

Für das Problem der Bestimmung der Abhängigkeit der Zahl der Rentner vom Durchschnittsgehalt bei 6 Unternehmen hat das Regressionsmodell die Form der Gleichung Y = a 0 + a 1 x 1 +…+a k x k , wobei x i die Einflussgrößen sind , a i sind die Regressionskoeffizienten, a k ist die Anzahl der Faktoren.

Für diese Aufgabe ist Y der Indikator für Mitarbeiter, die gegangen sind, und der Einflussfaktor ist das Gehalt, das wir mit X bezeichnen.

Nutzung der Funktionen der Tabellenkalkulation "Excel"

Der Regressionsanalyse in Excel muss die Anwendung integrierter Funktionen auf die verfügbaren Tabellendaten vorausgehen. Verwenden Sie für diese Zwecke jedoch besser das sehr nützliche Add-In „Analysis Toolkit“. Um es zu aktivieren, benötigen Sie:

  • Gehen Sie auf der Registerkarte "Datei" zum Abschnitt "Optionen".
  • Wählen Sie im sich öffnenden Fenster die Zeile "Add-ons" aus;
  • Klicken Sie unten rechts neben der Zeile „Verwaltung“ auf die Schaltfläche „Los“.
  • Aktivieren Sie das Kontrollkästchen neben dem Namen "Analysepaket" und bestätigen Sie Ihre Aktionen mit einem Klick auf "OK".

Wenn alles richtig gemacht wurde, erscheint die gewünschte Schaltfläche auf der rechten Seite der Registerkarte Daten, die sich über dem Excel-Arbeitsblatt befindet.

im Excel-Format

Jetzt, da wir alle notwendigen virtuellen Werkzeuge zur Durchführung ökonometrischer Berechnungen zur Hand haben, können wir mit der Lösung unseres Problems beginnen. Dafür:

  • Klicken Sie auf die Schaltfläche „Datenanalyse“;
  • Klicken Sie im sich öffnenden Fenster auf die Schaltfläche "Regression".
  • Geben Sie auf der angezeigten Registerkarte den Wertebereich für Y (die Anzahl der gekündigten Mitarbeiter) und für X (ihre Gehälter) ein.
  • Wir bestätigen unsere Aktionen durch Drücken der Schaltfläche "Ok".

Als Ergebnis füllt das Programm automatisch ein neues Tabellenblatt mit Regressionsanalysedaten. Beachten Sie! Excel kann den für diesen Zweck bevorzugten Speicherort manuell festlegen. Beispielsweise könnte es sich um dasselbe Blatt handeln, in dem sich die Y- und X-Werte befinden, oder sogar Ein neues Buch, das speziell für die Speicherung solcher Daten entwickelt wurde.

Analyse der Regressionsergebnisse für R-Quadrat

In Excel sehen die bei der Verarbeitung der Daten des betrachteten Beispiels gewonnenen Daten so aus:

Zunächst sollten Sie auf den Wert des R-Quadrats achten. Es ist das Bestimmtheitsmaß. In diesem Beispiel ist R-Quadrat = 0,755 (75,5 %), d. h. die berechneten Parameter des Modells erklären die Beziehung zwischen den betrachteten Parametern zu 75,5 %. Je höher der Wert des Bestimmtheitsmaßes ist, desto geeigneter ist das gewählte Modell für eine bestimmte Aufgabe. Es wird angenommen, dass es die reale Situation mit einem R-Quadrat-Wert über 0,8 korrekt beschreibt. Wenn R-Quadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Verhältnis Analyse

Die Zahl 64,1428 zeigt, was der Wert von Y sein wird, wenn alle Variablen xi in dem Modell, das wir betrachten, auf Null gesetzt werden. Mit anderen Worten, es kann argumentiert werden, dass der Wert des analysierten Parameters auch von anderen Faktoren beeinflusst wird, die nicht in einem bestimmten Modell beschrieben werden.

Der nächste Koeffizient -0,16285, der sich in Zelle B18 befindet, zeigt das Gewicht des Einflusses der Variable X auf Y. Das bedeutet, dass das durchschnittliche Monatsgehalt der Arbeitnehmer innerhalb des betrachteten Modells mit einem Gewicht von -0,16285 auf die Anzahl der Aussteiger wirkt, also auf die Anzahl der Aussteiger. der Grad seines Einflusses überhaupt gering. Das "-"-Zeichen zeigt an, dass der Koeffizient einen negativen Wert hat. Das liegt auf der Hand, denn jeder weiß, dass je höher das Gehalt im Unternehmen ist, desto weniger Menschen äußern den Wunsch, den Arbeitsvertrag zu kündigen oder zu kündigen.

Mehrfache Regression

Dieser Begriff bezeichnet eine Verbindungsgleichung mit mehreren unabhängigen Variablen der Form:

y \u003d f (x 1 + x 2 + ... x m) + ε, wobei y das effektive Merkmal (abhängige Variable) und x 1 , x 2 , ... x m die Faktorfaktoren (unabhängige Variablen) sind.

Parameter Schätzung

Bei der multiplen Regression (MR) wird sie nach der Methode der kleinsten Quadrate (OLS) durchgeführt. Für lineare Gleichungen der Form Y = a + b 1 x 1 +…+b m x m + ε konstruieren wir ein System von Normalgleichungen (siehe unten)

Um das Prinzip der Methode zu verstehen, betrachten Sie den Zwei-Faktoren-Fall. Dann haben wir eine durch die Formel beschriebene Situation

Von hier erhalten wir:

wobei σ die Varianz des entsprechenden Merkmals ist, das sich im Index widerspiegelt.

LSM ist auf die MP-Gleichung auf einer standardisierbaren Skala anwendbar. In diesem Fall erhalten wir die Gleichung:

wobei t y , t x 1, … t xm standardisierte Variablen sind, für die die Mittelwerte 0 sind; β i sind die standardisierten Regressionskoeffizienten, und die Standardabweichung ist 1.

Bitte beachten Sie, dass alle β i in diesem Fall als normalisiert und zentralisiert eingestellt sind, sodass ihr Vergleich miteinander als korrekt und zulässig angesehen wird. Außerdem ist es üblich, Faktoren herauszufiltern und diejenigen mit den kleinsten Werten von βi zu verwerfen.

Problem mit linearer Regressionsgleichung

Angenommen, es gibt eine Tabelle der Preisdynamik eines bestimmten Produkts N während der letzten 8 Monate. Es muss entschieden werden, ob es ratsam ist, seine Partie zu einem Preis von 1850 Rubel/t zu kaufen.

Monatsnummer

Monatsname

Preis von Artikel N

1750 Rubel pro Tonne

1755 Rubel pro Tonne

1767 Rubel pro Tonne

1760 Rubel pro Tonne

1770 Rubel pro Tonne

1790 Rubel pro Tonne

1810 Rubel pro Tonne

1840 Rubel pro Tonne

Um dieses Problem in der Excel-Tabelle zu lösen, müssen Sie das bereits aus dem obigen Beispiel bekannte Datenanalyse-Tool verwenden. Wählen Sie als nächstes den Abschnitt "Regression" und stellen Sie die Parameter ein. Es ist zu beachten, dass im Feld "Eingabeintervall Y" ein Wertebereich für die abhängige Variable (in diesem Fall der Preis eines Produkts in bestimmten Monaten des Jahres) eingegeben werden muss und im Feld "Eingabe Intervall X" - für die unabhängige Variable (Monatsnummer). Bestätigen Sie die Aktion mit „Ok“. Auf einem neuen Blatt (wenn es so angegeben wurde) erhalten wir Daten für die Regression.

Basierend darauf erstellen wir eine lineare Gleichung der Form y=ax+b, wobei die Parameter a und b die Koeffizienten der Zeile mit dem Namen der Monatsnummer und der Koeffizienten und der Zeile „Y-Schnittpunkt“ aus der sind Blatt mit den Ergebnissen der Regressionsanalyse. Somit wird die lineare Regressionsgleichung (LE) für Problem 3 wie folgt geschrieben:

Produktpreis N = 11,714* Monatszahl + 1727,54.

oder in algebraischer Notation

y = 11,714 x + 1727,54

Analyse der Ergebnisse

Um zu entscheiden, ob die resultierende lineare Regressionsgleichung angemessen ist, werden multiple Korrelationskoeffizienten (MCC) und Bestimmungskoeffizienten sowie der Fisher-Test und der Student-Test verwendet. In der Excel-Tabelle mit Regressionsergebnissen erscheinen sie jeweils unter den Namen multiples R, R-Quadrat, F-Statistik und t-Statistik.

KMC R ermöglicht es, die Enge der probabilistischen Beziehung zwischen den unabhängigen und abhängigen Variablen zu beurteilen. Sein hoher Wert weist auf eine ziemlich starke Beziehung zwischen den Variablen "Zahl des Monats" und "Warenpreis N in Rubel pro 1 Tonne" hin. Die Art dieser Beziehung bleibt jedoch unbekannt.

Das Quadrat des Bestimmtheitsmaßes R 2 (RI) ist ein numerisches Merkmal des Anteils an der Gesamtstreuung und zeigt an, welcher Anteil der Streuung an den experimentellen Daten, d. h. Werte der abhängigen Variablen entspricht der linearen Regressionsgleichung. Bei der betrachteten Aufgabe beträgt dieser Wert 84,8 %, d. h. die statistischen Daten werden mit hoher Genauigkeit durch die erhaltene SD beschrieben.

Die F-Statistik, auch Fisher-Test genannt, wird verwendet, um die Signifikanz einer linearen Beziehung zu bewerten und die Hypothese ihrer Existenz zu widerlegen oder zu bestätigen.

(Schülerkriterium) hilft, die Signifikanz des Koeffizienten mit einem unbekannten oder freien Term einer linearen Beziehung zu bewerten. Ist der Wert des t-Kriteriums > t cr, dann gilt die Hypothese der Geringfügigkeit des freien Terms Lineargleichung abgelehnt.

In dem betrachteten Problem für das freie Mitglied wurde unter Verwendung der Excel-Tools erhalten, dass t = 169,20903 und p = 2,89E-12, d. h. wir haben eine Nullwahrscheinlichkeit, dass die richtige Hypothese über die Bedeutungslosigkeit des freien Mitglieds sein wird abgelehnt. Für den Koeffizienten bei Unbekannt t=5,79405 und p=0,001158. Mit anderen Worten, die Wahrscheinlichkeit, dass die richtige Hypothese über die Geringfügigkeit des Koeffizienten für das Unbekannte verworfen wird, beträgt 0,12 %.

Somit kann argumentiert werden, dass die resultierende lineare Regressionsgleichung angemessen ist.

Das Problem der Zweckmäßigkeit des Kaufs eines Aktienpakets

Die multiple Regression in Excel wird mit demselben Datenanalysetool durchgeführt. Betrachten Sie ein spezifisches angewandtes Problem.

Die Geschäftsführung von NNN muss entscheiden, ob es ratsam ist, eine 20 %-Beteiligung an MMM SA zu erwerben. Die Kosten für das Paket (JV) betragen 70 Millionen US-Dollar. NNN-Spezialisten sammelten Daten über ähnliche Transaktionen. Es wurde beschlossen, den Wert des Aktienpakets nach folgenden Parametern, ausgedrückt in Millionen US-Dollar, zu bewerten:

  • Kreditorenbuchhaltung (VK);
  • Jahresumsatz (VO);
  • Forderungen (VD);
  • Kosten des Anlagevermögens (SOF).

Zusätzlich wird der Parameter Lohnrückstände des Unternehmens (V3 P) in Tausend US-Dollar verwendet.

Lösung mit Excel-Tabelle

Zunächst müssen Sie eine Tabelle mit Anfangsdaten erstellen. Es sieht aus wie das:

  • Rufen Sie das Fenster "Datenanalyse" auf;
  • Wählen Sie den Abschnitt "Regression" aus.
  • Geben Sie im Feld "Eingabeintervall Y" den Wertebereich der abhängigen Variablen aus Spalte G ein.
  • Klicken Sie auf das Symbol mit dem roten Pfeil rechts neben dem Feld „Eingabeintervall X“ und wählen Sie auf dem Blatt einen Bereich aller Werte aus Spalten B,C, D, F.

Wählen Sie „Neues Arbeitsblatt“ und klicken Sie auf „Ok“.

Holen Sie sich die Regressionsanalyse für das gegebene Problem.

Prüfung der Ergebnisse und Schlussfolgerungen

„Wir erheben“ aus den oben in der Excel-Tabelle dargestellten gerundeten Daten die Regressionsgleichung:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

In einer bekannteren mathematischen Form kann es geschrieben werden als:

y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844

Daten für JSC "MMM" sind in der Tabelle dargestellt:

Setzt man sie in die Regressionsgleichung ein, erhalten sie einen Wert von 64,72 Millionen US-Dollar. Das bedeutet, dass die Aktien von JSC MMM nicht gekauft werden sollten, da ihr Wert von 70 Millionen US-Dollar eher überbewertet ist.

Wie Sie sehen, war es durch die Verwendung der Excel-Tabelle und der Regressionsgleichung möglich, eine fundierte Entscheidung über die Durchführbarkeit einer sehr spezifischen Transaktion zu treffen.

Jetzt wissen Sie, was Regression ist. Die oben diskutierten Beispiele in Excel helfen Ihnen, praktische Probleme aus dem Bereich der Ökonometrie zu lösen.



Fehler: Inhalt ist geschützt!!