Dispersionsanalyse. Einweganalyse der Varianz

Alle Menschen streben von Natur aus nach Wissen. (Aristoteles. Metaphysik)

Varianzanalyse

Einführende Übersicht

In diesem Abschnitt werden wir die grundlegenden Methoden, Annahmen und Terminologie der ANOVA besprechen.

Beachten Sie das in der englischen Literatur Varianzanalyse allgemein als Variationsanalyse bezeichnet. Aus Gründen der Kürze werden wir daher im Folgenden manchmal den Begriff verwenden ANOVA (Ein Analyse Ö f va ration) für konventionelle ANOVA und den Begriff MANOVA für die multivariate Varianzanalyse. In diesem Abschnitt werden wir nacheinander die Hauptideen der Varianzanalyse betrachten ( ANOVA), Analyse der Kovarianz ( ANCOVA), multivariate Varianzanalyse ( MANOVA) und multivariate Kovarianzanalyse ( MANKOVA). Nach einer kurzen Erörterung der Vorzüge der Kontrastanalyse und Post-Hoc-Tests wollen wir uns die Annahmen ansehen, auf denen ANOVA-Methoden basieren. Gegen Ende dieses Abschnitts werden die Vorteile des multivariaten Ansatzes für die Analyse wiederholter Messungen gegenüber dem traditionellen eindimensionalen Ansatz erläutert.

Schlüsselideen

Der Zweck der Varianzanalyse. Der Hauptzweck der Varianzanalyse besteht darin, die Signifikanz der Differenz zwischen den Mittelwerten zu untersuchen. Kapitel (Kapitel 8) bietet eine kurze Einführung in die Studie statistische Signifikanz. Wenn Sie nur die Mittelwerte zweier Stichproben vergleichen, liefert die Varianzanalyse das gleiche Ergebnis wie die normale Analyse. t- Kriterium für unabhängige Stichproben (wenn zwei unabhängige Gruppen von Objekten oder Beobachtungen verglichen werden), oder t- Kriterium für abhängige Stichproben (wenn zwei Variablen an denselben Objekten oder Beobachtungen verglichen werden). Wenn Sie mit diesen Kriterien nicht vertraut sind, empfehlen wir Ihnen, sich auf die einführende Übersicht des Kapitels zu beziehen (Kapitel 9).

Woher kommt der Name Varianzanalyse? Es mag seltsam erscheinen, dass das Verfahren zum Vergleichen von Mittelwerten als Varianzanalyse bezeichnet wird. Tatsächlich liegt dies daran, dass wir bei der Untersuchung der statistischen Signifikanz der Differenz zwischen den Mittelwerten eigentlich die Varianzen analysieren.

Aufteilen der Quadratsumme

Bei einem Stichprobenumfang von n wird die Stichprobenvarianz als Summe der quadrierten Abweichungen vom Stichprobenmittelwert dividiert durch n-1 (Stichprobenumfang minus eins) berechnet. Somit ist die Varianz für einen festen Stichprobenumfang n eine Funktion der Summe der Quadrate (Abweichungen), die der Kürze halber als SS(aus dem Englischen Summe der Quadrate - Summe der Quadrate). Die Varianzanalyse basiert auf der Teilung (oder Aufspaltung) der Varianz in Teile. Betrachten Sie den folgenden Datensatz:

Die Mittelwerte der beiden Gruppen unterscheiden sich signifikant (2 bzw. 6). Summe der quadrierten Abweichungen Innerhalb jeder Gruppe ist 2. Wenn wir sie zusammenzählen, erhalten wir 4. Wenn wir diese Berechnungen jetzt wiederholen ausschließlich Gruppenzugehörigkeit, das heißt, wenn wir rechnen SS basierend auf dem kombinierten Mittelwert der beiden Stichproben erhalten wir 28. Mit anderen Worten, die Varianz (Summe der Quadrate) basierend auf der gruppeninternen Variabilität ergibt viel kleinere Werte als wenn sie basierend auf der Gesamtvariabilität (relativ zur Gesamtvariabilität) berechnet wird gemein). Der Grund dafür ist offensichtlich der signifikante Unterschied zwischen den Mittelwerten, und dieser Unterschied zwischen den Mittelwerten erklärt den bestehenden Unterschied zwischen den Quadratsummen. In der Tat, wenn wir das Modul verwenden Varianzanalyse, werden folgende Ergebnisse erzielt:

Wie aus der Tabelle ersichtlich ist, die Gesamtsumme der Quadrate SS=28 geteilt in die Summe der Quadrate aufgrund konzernintern Variabilität ( 2+2=4 ; siehe zweite Zeile der Tabelle) und der Summe der Quadrate aufgrund der Differenz der Mittelwerte. (28-(2+2)=24; siehe erste Zeile der Tabelle).

SS Fehler uSS Wirkung. Variabilität innerhalb der Gruppe ( SS) wird üblicherweise als Varianz bezeichnet Fehler. Das bedeutet, dass es in der Regel nicht vorhersehbar oder erklärbar ist, wann ein Experiment durchgeführt wird. Andererseits, SS Wirkung(oder Intergruppenvariabilität) kann durch den Unterschied zwischen den Mittelwerten in den untersuchten Gruppen erklärt werden. Mit anderen Worten, Zugehörigkeit zu einer bestimmten Gruppe erklärt Intergruppenvariabilität, weil wir wissen, dass diese Gruppen unterschiedliche Mittel haben.

Bedeutungsprüfung. Die wichtigsten Ideen zum Testen auf statistische Signifikanz werden in diesem Kapitel erörtert Grundbegriffe der Statistik(Kapitel 8). Im selben Kapitel werden die Gründe erläutert, warum viele Tests das Verhältnis von erklärter und nicht erklärter Varianz verwenden. Ein Beispiel für diese Verwendung ist die Varianzanalyse selbst. Signifikanztests in ANOVA basieren auf dem Vergleich der Varianz aufgrund der Variation zwischen den Gruppen (genannt mittlerer quadratischer Effekt oder FRAUWirkung) und Streuung aufgrund der Streuung innerhalb der Gruppe (sog mittlerer quadratischer Fehler oder FRAUError). Wenn die Nullhypothese wahr ist (Gleichheit der Mittelwerte in den beiden Grundgesamtheiten), dann können wir aufgrund zufälliger Variabilität einen relativ kleinen Unterschied in den Mittelwerten der Stichprobe erwarten. Daher wird unter der Nullhypothese die gruppeninterne Varianz praktisch mit der ohne Berücksichtigung der Gruppenzugehörigkeit berechneten Gesamtvarianz übereinstimmen. Die resultierenden gruppeninternen Varianzen können mit verglichen werden F- Test, der prüft, ob das Verhältnis der Varianzen signifikant größer als 1 ist. Im obigen Beispiel gilt F- Der Test zeigt, dass der Unterschied zwischen den Mittelwerten statistisch signifikant ist.

Grundlegende Logik der ANOVA. Zusammenfassend können wir sagen, dass der Zweck der Varianzanalyse darin besteht, die statistische Signifikanz der Differenz zwischen den Mittelwerten (für Gruppen oder Variablen) zu testen. Diese Prüfung erfolgt mittels Varianzanalyse, d.h. durch Aufteilen der Gesamtvarianz (Variation) in Teile, von denen einer auf Zufallsfehler (d. h. Variabilität innerhalb der Gruppe) und der zweite auf die Differenz der Mittelwerte zurückzuführen ist. Die letzte Komponente der Varianz wird dann verwendet, um die statistische Signifikanz der Differenz zwischen den Mittelwerten zu analysieren. Wenn dieser Unterschied signifikant ist, wird die Nullhypothese verworfen und die Alternativhypothese akzeptiert, dass es einen Unterschied zwischen den Mittelwerten gibt.

Abhängige und unabhängige Variablen. Variablen, deren Werte durch Messungen während eines Experiments bestimmt werden (z. B. eine bei einem Test erzielte Punktzahl), werden aufgerufen abhängig Variablen. Variablen, die in einem Experiment manipuliert werden können (z. B. Trainingsmethoden oder andere Kriterien, mit denen Sie Beobachtungen in Gruppen einteilen können), werden aufgerufen Faktoren oder unabhängig Variablen. Diese Konzepte werden im Kapitel näher beschrieben Grundbegriffe der Statistik(Kapitel 8).

Multivariate Varianzanalyse

In dem einfachen Beispiel oben könnten Sie den t-Test für unabhängige Stichproben mit der entsprechenden Moduloption sofort berechnen Grundlegende Statistiken und Tabellen. Die erhaltenen Ergebnisse stimmen natürlich mit den Ergebnissen der Varianzanalyse überein. Die Varianzanalyse enthält jedoch flexible und leistungsstarke technische Mittel, die für wesentlich komplexere Studien verwendet werden kann.

Viele Faktoren. Die Welt ist von Natur aus komplex und mehrdimensional. Situationen, in denen ein Phänomen vollständig durch eine Variable beschrieben wird, sind äußerst selten. Wenn wir zum Beispiel versuchen zu lernen, wie man große Tomaten anbaut, sollten wir Faktoren berücksichtigen, die mit der genetischen Struktur der Pflanzen, der Bodenart, dem Licht, der Temperatur usw. zusammenhängen. Bei der Durchführung eines typischen Experiments müssen Sie sich also mit einer Vielzahl von Faktoren auseinandersetzen. Der Hauptgrund, warum die Verwendung von ANOVA dem erneuten Vergleich von zwei Stichproben auf verschiedenen Ebenen von Faktoren vorzuziehen ist t- Kriterium ist, dass die Varianzanalyse mehr ist Wirksam und für kleine Stichproben informativer.

Faktormanagement. Nehmen wir an, dass wir in dem oben diskutierten Beispiel der Zwei-Stichproben-Analyse einen weiteren Faktor hinzufügen, zum Beispiel Boden- Geschlecht. Lassen Sie jede Gruppe aus 3 Männern und 3 Frauen bestehen. Das Design dieses Experiments kann in Form einer 2-mal-2-Tabelle dargestellt werden:

Experiment. Gruppe 1 Experiment. Gruppe 2
Männer2 6
3 7
1 5
Durchschnitt2 6
Frauen4 8
5 9
3 7
Durchschnitt4 8

Bevor Sie die Berechnungen durchführen, können Sie sehen, dass die Gesamtvarianz in diesem Beispiel mindestens drei Quellen hat:

(1) zufälliger Fehler (innerhalb der Gruppenvarianz),

(2) Variabilität, die mit der Mitgliedschaft in der Versuchsgruppe verbunden ist, und

(3) Variabilität aufgrund des Geschlechts der beobachteten Objekte.

(Beachten Sie, dass es eine weitere mögliche Quelle der Variabilität gibt - Zusammenspiel von Faktoren, worauf wir später noch eingehen werden). Was passiert, wenn wir nicht einschließen BodenGeschlecht als Faktor in die Analyse einbeziehen und das Übliche berechnen t-Kriterium? Wenn wir Quadratsummen berechnen, ignorieren wir Boden -Geschlecht(d.h. das Kombinieren von Objekten unterschiedlichen Geschlechts zu einer Gruppe bei der Berechnung der Varianz innerhalb der Gruppe, wobei die Summe der Quadrate für jede Gruppe gleich ist SS=10 und die Gesamtsumme der Quadrate SS= 10+10 = 20), dann erhalten wir einen größeren Wert der Intragruppenstreuung als bei einer genaueren Analyse mit zusätzlicher Einteilung in Untergruppen gem halb- Geschlecht(In diesem Fall ist der Mittelwert innerhalb der Gruppe gleich 2 und die Summe der Quadrate innerhalb der Gruppe ist gleich SS = 2+2+2+2 = 8). Dieser Unterschied ist darauf zurückzuführen, dass der Mittelwert für Männer - Männchen weniger als der Durchschnitt für Frauen -weiblich, und dieser Mittelwertunterschied erhöht die gesamte Variabilität innerhalb der Gruppe, wenn das Geschlecht nicht berücksichtigt wird. Die Steuerung der Fehlervarianz erhöht die Sensitivität (Power) des Tests.

Dieses Beispiel zeigt einen weiteren Vorteil der Varianzanalyse gegenüber der konventionellen Analyse. t-Kriterium für zwei Stichproben. Die Varianzanalyse ermöglicht es Ihnen, jeden Faktor zu untersuchen, indem Sie die Werte anderer Faktoren kontrollieren. Dies ist in der Tat der Hauptgrund für seine größere statistische Aussagekraft (kleinere Stichprobenumfänge sind erforderlich, um aussagekräftige Ergebnisse zu erhalten). Aus diesem Grund liefert die Varianzanalyse selbst bei kleinen Stichproben statistisch signifikantere Ergebnisse als eine einfache. t- Kriterium.

Interaktionseffekte

Es gibt einen weiteren Vorteil der Verwendung von ANOVA gegenüber der herkömmlichen Analyse. t- Kriterium: Varianzanalyse ermöglicht es Ihnen, zu erkennen Interaktion zwischen den Faktoren und ermöglicht daher die Untersuchung komplexerer Modelle. Betrachten Sie zur Veranschaulichung ein weiteres Beispiel.

Haupteffekte, paarweise (zweifaktorielle) Wechselwirkungen. Nehmen wir an, dass es zwei Gruppen von Schülern gibt, und die Schüler der ersten Gruppe sind psychologisch auf die Erfüllung der gestellten Aufgaben eingestellt und zielstrebiger als die Schüler der zweiten Gruppe, die aus fauleren Schülern besteht. Lassen Sie uns jede Gruppe zufällig in zwei Hälften teilen und der einen Hälfte jeder Gruppe eine schwierige und der anderen eine leichte Aufgabe stellen. Danach messen wir, wie hart die Schüler an diesen Aufgaben arbeiten. Die Mittelwerte für diese (fiktive) Studie sind in der Tabelle dargestellt:

Welche Schlussfolgerung lässt sich aus diesen Ergebnissen ziehen? Kann man daraus schließen, dass: (1) die Schüler härter an einer schwierigen Aufgabe arbeiten; (2) Arbeiten motivierte Schüler härter als faule? Keine dieser Aussagen spiegelt die Essenz der systematischen Natur der in der Tabelle angegebenen Durchschnittswerte wider. Wenn man die Ergebnisse analysiert, wäre es richtiger zu sagen, dass nur motivierte Schüler härter an komplexen Aufgaben arbeiten, während nur faule Schüler härter an einfachen Aufgaben arbeiten. Mit anderen Worten, die Art der Schüler und die Komplexität der Aufgabe interagieren wirken sich gegenseitig auf den erforderlichen Aufwand aus. Dies ist ein Beispiel Paar Interaktion zwischen der Natur der Schüler und der Komplexität der Aufgabe. Beachten Sie, dass die Aussagen 1 und 2 beschreiben Haupteffekte.

Wechselwirkungen höherer Ordnung. Während paarweise Wechselwirkungen relativ einfach zu erklären sind, sind Wechselwirkungen höherer Ordnung viel schwieriger zu erklären. Stellen wir uns vor, dass in dem oben betrachteten Beispiel ein weiterer Faktor eingeführt wird Boden -Geschlecht und wir haben die folgende Durchschnittstabelle erhalten:

Welche Schlüsse lassen sich nun aus den gewonnenen Ergebnissen ziehen? Mean-Plots erleichtern die Interpretation komplexer Effekte. Mit dem Varianzanalysemodul können Sie diese Diagramme mit fast einem Klick erstellen.

Das Bild in den folgenden Grafiken repräsentiert die untersuchte Dreiwege-Wechselwirkung.

Wenn wir uns die Grafiken ansehen, können wir feststellen, dass es eine Wechselwirkung zwischen der Art und dem Schwierigkeitsgrad des Tests für Frauen gibt: Motivierte Frauen arbeiten härter an einer schwierigen Aufgabe als an einer leichten. Bei Männern ist die gleiche Wechselwirkung umgekehrt. Es ist ersichtlich, dass die Beschreibung der Wechselwirkung zwischen Faktoren verwirrender wird.

Allgemeiner Weg Beschreibungen von Wechselwirkungen. BEI Allgemeiner Fall Die Wechselwirkung zwischen Faktoren wird als Änderung eines Effekts unter dem Einfluss eines anderen beschrieben. In dem oben diskutierten Beispiel kann die Zwei-Faktoren-Interaktion als eine Änderung des Haupteffekts des Faktors beschrieben werden, der die Komplexität der Aufgabe charakterisiert, unter dem Einfluss des Faktors, der den Charakter des Schülers beschreibt. Für das Zusammenspiel der drei Faktoren aus dem vorigen Absatz können wir sagen, dass sich das Zusammenspiel zweier Faktoren (der Komplexität der Aufgabe und des Charakters des Schülers) unter dem Einfluss von verändert GeschlechtGeschlecht. Wenn das Zusammenspiel von vier Faktoren untersucht wird, können wir sagen, dass sich das Zusammenspiel von drei Faktoren unter dem Einfluss des vierten Faktors ändert, d.h. Es gibt verschiedene Arten von Wechselwirkungen auf verschiedenen Ebenen des vierten Faktors. Es zeigte sich, dass in vielen Bereichen das Zusammenspiel von fünf oder noch mehr Faktoren nicht ungewöhnlich ist.

Komplexe Pläne

Konzerninterne und konzerninterne Pläne (Neubewertungspläne)

Wenn man zwei verschiedene Gruppen vergleicht, verwendet man normalerweise t- Kriterium für unabhängige Stichproben (aus Modul Grundlegende Statistiken und Tabellen). Wenn zwei Variablen auf demselben Satz von Objekten (Beobachtungen) verglichen werden, wird es verwendet t-Kriterium für abhängige Stichproben. Für die Varianzanalyse ist es auch wichtig, ob die Stichproben abhängig sind oder nicht. Bei wiederholten Messungen derselben Variablen (at unterschiedliche Bedingungen oder hinein andere Zeit) für dieselben Objekte, dann sagen sie über die Anwesenheit Faktor für wiederholte Messungen(auch genannt ein gruppeninterner Faktor da die Summe der Quadrate innerhalb der Gruppe berechnet wird, um ihre Signifikanz zu bewerten). Werden verschiedene Gruppen von Objekten verglichen (zB Männer und Frauen, drei Bakterienstämme etc.), dann wird der Unterschied zwischen den Gruppen beschrieben Intergruppenfaktor. Die Methoden zur Berechnung der Signifikanzkriterien für die beiden beschriebenen Arten von Faktoren sind unterschiedlich, aber ihre allgemeine Logik und Interpretation sind gleich.

Gruppenübergreifende und gruppeninterne Pläne. In vielen Fällen erfordert das Experiment die Einbeziehung sowohl eines Zwischengruppenfaktors als auch eines Faktors für wiederholte Messungen in das Design. Gemessen werden beispielsweise die mathematischen Fähigkeiten von Schülerinnen und Schülern (wobei Boden -Geschlecht-Intergruppenfaktor) zu Beginn und am Ende des Semesters. Die beiden Dimensionen der Fähigkeiten jedes Schülers bilden den Faktor innerhalb der Gruppe (Faktor für wiederholte Messungen). Die Interpretation der Haupteffekte und Wechselwirkungen für Faktoren zwischen Gruppen und wiederholten Messungen ist dieselbe, und beide Arten von Faktoren können offensichtlich miteinander interagieren (z. B. erwerben Frauen während des Semesters Fähigkeiten und Männer verlieren sie).

Unvollständige (verschachtelte) Pläne

In vielen Fällen kann der Interaktionseffekt vernachlässigt werden. Dies tritt entweder auf, wenn bekannt ist, dass es keinen Interaktionseffekt in der Population gibt, oder wenn die Implementierung vollständig erfolgt Fakultät planen ist unmöglich. Untersucht wird beispielsweise die Wirkung von vier Kraftstoffadditiven auf den Kraftstoffverbrauch. Vier Autos und vier Fahrer werden ausgewählt. Voll Fakultät Das Experiment erfordert, dass jede Kombination: Beilage, Fahrer, Auto, mindestens einmal vorkommt. Dies erfordert mindestens 4 x 4 x 4 = 64 Testgruppen, was zu zeitaufwändig ist. Zudem gibt es kaum Wechselwirkungen zwischen Fahrer und Kraftstoffadditiv. In diesem Sinne können Sie den Plan verwenden lateinische Quadrate, die nur 16 Testgruppen enthält (vier Zusatzstoffe sind mit den Buchstaben A, B, C und D bezeichnet):

Lateinische Quadrate werden in den meisten experimentellen Designbüchern beschrieben (z. B. Hays, 1988; Lindman, 1974; Milliken und Johnson, 1984; Winer, 1962) und werden hier nicht im Detail diskutiert. Beachten Sie, dass lateinische Quadrate sind nichtnvoll Pläne, die nicht alle Kombinationen von Faktorstufen enthalten. Beispiel: Fahrer 1 fährt Auto 1 nur mit Additiv A, Fahrer 3 fährt Auto 1 nur mit Additiv C. Faktorstufen Additive ( A, B, C und D) in Tabellenzellen verschachtelt Automobil x Fahrer - wie Eier in einem Nest. Diese mnemonische Regel ist nützlich, um die Natur zu verstehen verschachtelt oder verschachtelt Pläne. Modul Varianzanalyse bietet einfache Wege Analyse von Plänen dieser Art.

Kovarianzanalyse

Hauptidee

Im Kapitel Schlüsselideen Es gab eine kurze Diskussion über die Idee der Kontrollfaktoren und wie die Einbeziehung additiver Faktoren die Summe der quadratischen Fehler reduzieren und die statistische Aussagekraft des Designs erhöhen kann. All dies kann auf Variablen mit einer kontinuierlichen Menge von Werten erweitert werden. Wenn solche kontinuierlichen Variablen als Faktoren in das Design aufgenommen werden, werden sie aufgerufen Kovariaten.

Feste Kovariaten

Angenommen, wir vergleichen die mathematischen Fähigkeiten von zwei Gruppen von Schülern, die aus zwei verschiedenen Lehrbüchern unterrichtet wurden. Nehmen wir außerdem an, dass wir Daten zum Intelligenzquotienten (IQ) für jeden Schüler haben. Wir können davon ausgehen, dass der IQ mit mathematischen Fähigkeiten zusammenhängt, und diese Informationen verwenden. Für jede der beiden Schülergruppen kann der Korrelationskoeffizient zwischen IQ und mathematischen Fähigkeiten berechnet werden. Anhand dieses Korrelationskoeffizienten kann zwischen dem durch den IQ-Einfluss erklärten Anteil der Varianz in Gruppen und dem nicht erklärten Anteil der Varianz unterschieden werden (siehe auch Grundbegriffe der Statistik(Kapitel 8) und Grundlegende Statistiken und Tabellen(Kapitel 9)). Der verbleibende Bruchteil der Varianz wird in der Analyse als Fehlervarianz verwendet. Besteht ein Zusammenhang zwischen IQ und mathematischen Fähigkeiten, können die Fehlervarianzen deutlich reduziert werden. SS/(n-1) .

Wirkung von Kovariaten aufF- Kriterium. F- Das Kriterium bewertet die statistische Signifikanz der Differenz zwischen den Mittelwerten in den Gruppen, während das Verhältnis der Varianz zwischen den Gruppen berechnet wird ( FRAUWirkung) zur Fehlervarianz ( FRAUError) . Wenn FRAUError sinkt beispielsweise bei Berücksichtigung des IQ-Faktors der Wert F erhöht sich.

Viele Kovariaten. Die oben für eine einzelne Kovariate (IQ) verwendete Argumentation lässt sich leicht auf mehrere Kovariaten übertragen. Beispielsweise können Sie neben dem IQ auch die Messung von Motivation, räumlichem Denken usw. einbeziehen. Anstelle des üblichen Korrelationskoeffizienten verwendet es mehrfacher Faktor Korrelationen.

Wenn der WertF -Kriterien sinkt. Manchmal verringert die Einführung von Kovariaten in das Design des Experiments den Wert F- Kriterien . Dies weist normalerweise darauf hin, dass die Kovariaten nicht nur mit der abhängigen Variablen (z. B. mathematische Fähigkeiten), sondern auch mit Faktoren (z. B. verschiedenen Lehrbüchern) korrelieren. Angenommen, der IQ wird am Ende des Semesters gemessen, nachdem zwei Studentengruppen fast ein Jahr lang zwei verschiedene Lehrbücher studiert haben. Obwohl die Schüler nach dem Zufallsprinzip in Gruppen eingeteilt wurden, kann sich herausstellen, dass der Unterschied in den Lehrbüchern so groß ist, dass sowohl der IQ als auch die mathematischen Fähigkeiten ins Gewicht fallen verschiedene Gruppen wird stark variieren. In diesem Fall reduzieren die Kovariaten nicht nur die Fehlervarianz, sondern auch die Varianz zwischen den Gruppen. Mit anderen Worten, nachdem der Unterschied im IQ zwischen den Gruppen kontrolliert wurde, ist der Unterschied in den mathematischen Fähigkeiten nicht mehr signifikant. Es kann anders gesagt werden. Nachdem der Einfluss des IQ „eliminiert“ wurde, wird der Einfluss des Lehrbuchs auf die Entwicklung mathematischer Fähigkeiten versehentlich ausgeschlossen.

Angepasste Durchschnittswerte. Wenn die Kovariate den Faktor zwischen den Gruppen beeinflusst, sollte man rechnen angepasste Durchschnittswerte, d.h. solche Mittelwerte, die nach Entfernen aller Schätzungen der Kovariaten erhalten werden.

Interaktion zwischen Kovariaten und Faktoren. So wie Wechselwirkungen zwischen Faktoren untersucht werden, können Wechselwirkungen zwischen Kovariaten und zwischen Gruppen von Faktoren untersucht werden. Angenommen, eines der Lehrbücher ist besonders für intelligente Schüler geeignet. Das zweite Lehrbuch ist für intelligente Schüler langweilig, und das gleiche Lehrbuch ist für weniger intelligente Schüler schwierig. Als Ergebnis gibt es eine positive Korrelation zwischen IQ und Lernergebnissen in der ersten Gruppe (klügere Schüler, bessere Ergebnisse) und keine oder nur eine geringe negative Korrelation in der zweiten Gruppe (je klüger der Schüler, desto unwahrscheinlicher ist es, dass er mathematische Fähigkeiten erwirbt aus dem zweiten Lehrbuch). In einigen Studien wird diese Situation als Beispiel für die Verletzung der Annahmen der Kovarianzanalyse diskutiert. Da das Modul Varianzanalyse jedoch die gebräuchlichsten Methoden zur Analyse der Kovarianz verwendet, ist es insbesondere möglich, die statistische Signifikanz der Wechselwirkung zwischen Faktoren und Kovariaten zu bewerten.

Variable Kovariaten

Während feste Kovariaten in Lehrbüchern häufig diskutiert werden, werden variable Kovariaten viel seltener erwähnt. Normalerweise interessieren uns bei der Durchführung von Experimenten mit wiederholten Messungen Unterschiede in Messungen derselben Größen zu verschiedenen Zeitpunkten. Uns interessiert nämlich die Signifikanz dieser Unterschiede. Wenn gleichzeitig mit den Messungen der abhängigen Variablen eine Kovariatenmessung durchgeführt wird, kann die Korrelation zwischen der Kovariate und der abhängigen Variablen berechnet werden.

So können Sie zum Beispiel zu Beginn und am Ende des Semesters Interesse an Mathematik und Mathematikkenntnissen studieren. Es wäre interessant zu prüfen, ob Änderungen im Interesse an Mathematik mit Änderungen in mathematischen Fähigkeiten korrelieren.

Modul Varianzanalyse in STATISTIKEN bewertet nach Möglichkeit automatisch die statistische Signifikanz von Änderungen in Kovariaten in diesen Plänen.

Multivariate Designs: Multivariate ANOVA und Kovarianzanalyse

Gruppenübergreifende Pläne

Alle zuvor betrachteten Beispiele enthielten nur eine abhängige Variable. Bei mehreren abhängigen Variablen gleichzeitig steigt nur die Komplexität der Berechnungen, Inhalt und Grundprinzipien ändern sich nicht.

Beispielsweise wird eine Studie zu zwei verschiedenen Lehrbüchern durchgeführt. Gleichzeitig wird der Erfolg der Studierenden im Studium der Physik und Mathematik untersucht. In diesem Fall gibt es zwei abhängige Variablen und Sie müssen herausfinden, wie zwei verschiedene Lehrbücher sie gleichzeitig beeinflussen. Dazu können Sie die multivariate Varianzanalyse (MANOVA) verwenden. Statt eindimensional F Kriterium, mehrdimensional F Test (Wilks l-Test) basierend auf dem Vergleich der Fehler-Kovarianz-Matrix und der Intergruppen-Kovarianz-Matrix.

Sind die abhängigen Variablen miteinander korreliert, so sollte diese Korrelation bei der Berechnung des Signifikanztests berücksichtigt werden. Wenn dieselbe Messung zweimal wiederholt wird, kann in diesem Fall natürlich nichts Neues erhalten werden. Wenn eine damit korrelierte Dimension zu einer bestehenden Dimension hinzugefügt wird, dann einige neue Informationen, aber die neue Variable enthält redundante Informationen, was sich in der Kovarianz zwischen den Variablen widerspiegelt.

Interpretation der Ergebnisse. Wenn das multivariate Gesamtkriterium signifikant ist, können wir schlussfolgern, dass der entsprechende Effekt (z. B. Lehrbuchtyp) signifikant ist. Allerdings stellen sich folgende Fragen. Beeinflusst die Art des Lehrbuchs nur die Verbesserung der mathematischen Fähigkeiten, nur der körperlichen Fähigkeiten oder beides? Tatsächlich ist nach Erhalt eines sinnvollen multivariaten Kriteriums für einen einzelnen Haupteffekt oder eine Wechselwirkung eindimensional F Kriterium. Mit anderen Worten, abhängige Variablen, die zur Signifikanz des multivariaten Tests beitragen, werden separat untersucht.

Pläne mit wiederholten Messungen

Werden die mathematischen und körperlichen Fähigkeiten der Studierenden zu Beginn und am Ende des Semesters gemessen, handelt es sich um Wiederholungsmessungen. Die Untersuchung des Signifikanzkriteriums in solchen Plänen ist eine logische Weiterentwicklung des eindimensionalen Falls. Beachten Sie, dass multivariate ANOVA-Methoden auch häufig verwendet werden, um die Signifikanz von univariaten Faktoren mit wiederholten Messungen zu untersuchen, die mehr als zwei Ebenen haben. Die entsprechenden Anwendungen werden später in diesem Teil besprochen.

Summierung von Variablenwerten und multivariate Varianzanalyse

Selbst erfahrene Benutzer der univariaten und multivariaten ANOVA sind oft verwirrt, wenn sie unterschiedliche Ergebnisse erhalten, wenn sie die multivariate ANOVA beispielsweise auf drei Variablen anwenden und wenn sie die univariate ANOVA auf die Summe der drei Variablen als einzelne Variable anwenden.

Idee Summe Variablen besteht darin, dass jede Variable eine wahre Variable enthält, die untersucht wird, sowie einen zufälligen Messfehler. Wenn Sie also die Werte der Variablen mitteln, liegt der Messfehler für alle Messungen näher bei 0 und die gemittelten Werte sind zuverlässiger. Tatsächlich ist in diesem Fall die Anwendung von ANOVA auf die Summe der Variablen sinnvoll und eine leistungsfähige Technik. Wenn die abhängigen Variablen jedoch multivariater Natur sind, ist das Summieren der Werte der Variablen ungeeignet.

Lassen Sie die abhängigen Variablen beispielsweise aus vier Maßen bestehen Erfolg in der Gesellschaft. Jeder Indikator charakterisiert eine völlig unabhängige Seite des menschlichen Handelns (z. B. beruflicher Erfolg, geschäftlicher Erfolg, familiäres Wohlbefinden usw.). Das Addieren dieser Variablen ist wie das Addieren eines Apfels und einer Orange. Die Summe dieser Variablen wäre kein geeignetes univariates Maß. Daher müssen solche Daten als multidimensionale Indikatoren behandelt werden Multivariate Varianzanalyse.

Kontrastanalyse und Post-Hoc-Tests

Warum werden einzelne Mittelwerte verglichen?

Normalerweise werden Hypothesen über experimentelle Daten nicht einfach in Bezug auf Haupteffekte oder Wechselwirkungen formuliert. Ein Beispiel ist die folgende Hypothese: Ein bestimmtes Lehrbuch verbessert die mathematischen Fähigkeiten nur bei männlichen Schülern, während ein anderes Lehrbuch für beide Geschlechter ungefähr gleich effektiv ist, aber für Männer noch weniger effektiv ist. Es kann vorhergesagt werden, dass die Schulbuchleistung mit dem Geschlecht der Schüler interagiert. Allerdings trifft auch diese Prognose zu Natur Interaktionen. Für Studierende des einen Buches wird ein signifikanter Unterschied zwischen den Geschlechtern erwartet, für Studierende des anderen Buches praktisch geschlechtsunabhängige Ergebnisse. Diese Art von Hypothese wird normalerweise mithilfe der Kontrastanalyse untersucht.

Kontrastanalyse

Kurz gesagt, die Kontrastanalyse ermöglicht es uns, die statistische Signifikanz einiger linearer Kombinationen komplexer Effekte zu bewerten. Die Kontrastanalyse ist das wichtigste und unverzichtbare Element jedes komplexen ANOVA-Plans. Modul Varianzanalyse verfügt über eine Vielzahl von Kontrastanalysefunktionen, mit denen Sie jede Art von Mittelwertvergleich auswählen und analysieren können.

A posteriori Vergleiche

Manchmal wird als Ergebnis der Verarbeitung eines Experiments ein unerwarteter Effekt entdeckt. Obwohl in den meisten Fällen ein kreativer Forscher in der Lage sein wird, jedes Ergebnis zu erklären, bietet dies keine Möglichkeiten für weitere Analysen und Schätzungen für die Prognose. Dieses Problem ist eines von denen, für die Post-hoc-Kriterien, also Kriterien, die nicht verwendet werden a priori Hypothesen. Betrachten Sie zur Veranschaulichung das folgende Experiment. Angenommen, 100 Karten enthalten Zahlen von 1 bis 10. Nachdem wir alle diese Karten in die Kopfzeile gelegt haben, wählen wir zufällig 20 mal 5 Karten aus und berechnen den Durchschnittswert für jede Stichprobe (den Durchschnitt der auf den Karten geschriebenen Zahlen). Können wir erwarten, dass es zwei Stichproben gibt, deren Mittelwerte signifikant unterschiedlich sind? Das ist sehr plausibel! Indem man zwei Abtastungen mit dem maximalen und minimalen Mittelwert wählt, kann man eine Differenz in den Mittelwerten erhalten, die sich sehr von der Differenz in den Mittelwerten beispielsweise der ersten zwei Abtastungen unterscheidet. Dieser Unterschied kann beispielsweise mittels Kontrastanalyse untersucht werden. Ohne auf Details einzugehen, gibt es mehrere sog A posteriori Kriterien, die genau auf dem ersten Szenario basieren (extreme Mittelwerte aus 20 Stichproben nehmen), d. h. diese Kriterien basieren auf der Auswahl der unterschiedlichsten Mittelwerte, um alle Mittelwerte im Design zu vergleichen. Diese Kriterien werden angewendet, um nicht rein zufällig einen künstlichen Effekt zu erzielen, beispielsweise um einen signifikanten Unterschied zwischen den Mitteln zu finden, wenn es keinen gibt. Modul Varianzanalyse bietet an breit wählen solche Kriterien. Wenn bei einem Experiment mit mehreren Gruppen unerwartete Ergebnisse auftreten, wird die A posteriori Verfahren zur Prüfung der statistischen Signifikanz der erzielten Ergebnisse.

Summe der Quadrate Typ I, II, III und IV

Multivariate Regression und Varianzanalyse

Zwischen der Methode der multivariaten Regression und der Varianzanalyse (Varianzanalyse) besteht ein enger Zusammenhang. Bei beiden Verfahren wird ein lineares Modell untersucht. Kurz gesagt, fast alle experimentellen Designs können mit multivariater Regression untersucht werden. Betrachten Sie den folgenden einfachen gruppenübergreifenden 2 x 2-Plan.

DV EIN B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Die Spalten A und B enthalten Codes, die die Ebenen der Faktoren A und B charakterisieren, die Spalte AxB enthält das Produkt zweier Spalten A und B. Wir können diese Daten mithilfe der multivariaten Regression analysieren. Variable DV definiert als abhängige Variable, Variablen aus EIN Vor AxB als unabhängige Variablen. Die Untersuchung der Signifikanz für die Regressionskoeffizienten wird mit den Berechnungen in der Varianzanalyse der Signifikanz der Haupteffekte der Faktoren zusammenfallen EIN und B und Interaktionseffekt AxB.

Unausgeglichene und ausgewogene Pläne

Bei der Berechnung der Korrelationsmatrix für alle Variablen, beispielsweise für die oben abgebildeten Daten, zeigt sich, dass die Haupteffekte der Faktoren EIN und B und Interaktionseffekt AxB unkorreliert. Diese Eigenschaft von Effekten wird auch als Orthogonalität bezeichnet. Sie sagen, dass die Auswirkungen EIN und B - senkrecht oder unabhängig voneinander. Wenn alle Effekte im Plan orthogonal zueinander sind, wie im obigen Beispiel, dann wird der Plan als orthogonal bezeichnet ausgewogen.

Ausgewogene Pläne haben die „gute Eigenschaft“. Die Berechnungen bei der Analyse solcher Pläne sind sehr einfach. Alle Berechnungen reduzieren sich auf die Berechnung der Korrelation zwischen Effekten und abhängigen Variablen. Da die Effekte orthogonal sind, sind partielle Korrelationen (wie in full mehrdimensional Regressionen) werden nicht berechnet. Allerdings hinein wahres Leben Pläne sind nicht immer ausgewogen.

Betrachten Sie reale Daten mit einer ungleichen Anzahl von Beobachtungen in Zellen.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Wenn wir diese Daten wie oben codieren und die Korrelationsmatrix für alle Variablen berechnen, dann stellt sich heraus, dass die Designfaktoren miteinander korrelieren. Faktoren im Plan sind jetzt nicht orthogonal und solche Pläne werden aufgerufen unausgeglichen. Beachten Sie, dass in diesem Beispiel die Korrelation zwischen den Faktoren vollständig mit der Differenz der Häufigkeiten von 1 und -1 in den Spalten der Datenmatrix zusammenhängt. Mit anderen Worten, experimentelle Designs mit ungleichen Zellvolumina (genauer: disproportionalen Volumina) werden unausgeglichen sein, was bedeutet, dass sich die Haupteffekte und Wechselwirkungen vermischen. In diesem Fall müssen Sie zur Berechnung der statistischen Signifikanz der Effekte die multivariate Regression vollständig berechnen. Hier gibt es mehrere Strategien.

Summe der Quadrate Typ I, II, III und IV

Typ Summe der QuadrateichundIII. Um die Signifikanz jedes Faktors in einem multivariaten Modell zu untersuchen, kann man die partielle Korrelation jedes Faktors berechnen, vorausgesetzt, dass alle anderen Faktoren bereits im Modell berücksichtigt sind. Sie können Faktoren auch schrittweise in das Modell eingeben, indem Sie alle bereits in das Modell eingegebenen Faktoren fixieren und alle anderen Faktoren ignorieren. Im Allgemeinen ist dies der Unterschied zwischen Art III und Artich Summen von Quadraten (diese Terminologie wurde in SAS eingeführt, siehe z. B. SAS, 1982; eine ausführliche Diskussion findet sich auch in Searle, 1987, S. 461; Woodward, Bonett, and Brecht, 1990, S. 216; oder Milliken and Johnson, 1984, S. 138).

Typ Summe der QuadrateII. Die nächste „Zwischen“-Modellbildungsstrategie ist: alle Haupteffekte bei der Untersuchung der Signifikanz eines einzelnen Haupteffekts zu kontrollieren; bei der Kontrolle aller Haupteffekte und aller paarweisen Wechselwirkungen, wenn die Signifikanz einer einzelnen paarweisen Wechselwirkung untersucht wird; bei der Kontrolle aller Haupteffekte aller paarweisen Wechselwirkungen und aller Wechselwirkungen von drei Faktoren; bei der Untersuchung einer getrennten Wechselwirkung von drei Faktoren usw. Die so berechneten Quadratsummen für Effekte werden aufgerufen ArtII Summen von Quadraten. So, ArtII Quadratsummen steuert alle Effekte der gleichen Ordnung und darunter, wobei alle Effekte einer höheren Ordnung ignoriert werden.

Typ Summe der QuadrateIV. Schließlich ist es für einige spezielle Pläne mit fehlenden Zellen (unvollständige Pläne) möglich, die sog Art IV Summen von Quadraten. Auf diese Methode wird später im Zusammenhang mit unvollständigen Plänen (Pläne mit fehlenden Zellen) eingegangen.

Interpretation der Quadratsummenvermutung der Typen I, II und III

Quadratsumme ArtIII am einfachsten zu interpretieren. Daran erinnern, dass die Summen der Quadrate ArtIII Untersuchen Sie die Effekte, nachdem Sie alle anderen Effekte kontrolliert haben. Zum Beispiel nach dem Auffinden eines statistisch signifikanten ArtIII Effekt für den Faktor EIN im Modul Varianzanalyse, können wir sagen, dass es einen einzigen signifikanten Effekt des Faktors gibt EIN, nach Einführung aller anderen Effekte (Faktoren) und interpretieren Sie diesen Effekt entsprechend. Wahrscheinlich in 99% aller Anwendungen der Varianzanalyse ist diese Art von Kriterium für den Forscher von Interesse. Diese Art der Quadratsumme wird normalerweise im Modul berechnet Varianzanalyse standardmäßig, unabhängig davon, ob die Option ausgewählt ist Regressionsansatz oder nicht (im Modul angenommene Standardansätze Varianzanalyse nachfolgend diskutiert).

Signifikante Effekte, die unter Verwendung von Quadratsummen erhalten werden Art oder ArtII Quadratsummen sind nicht so einfach zu interpretieren. Sie lassen sich am besten im Zusammenhang mit der schrittweisen multivariaten Regression interpretieren. Wenn Sie die Summe der Quadrate verwenden Artich der Haupteffekt von Faktor B als signifikant befunden wurde (nach Einbeziehung von Faktor A in das Modell, aber vor Hinzufügen der Wechselwirkung zwischen A und B), kann gefolgert werden, dass ein signifikanter Haupteffekt von Faktor B vorliegt, sofern vorhanden keine Wechselwirkung zwischen den Faktoren A und B. (Bei Verwendung des Kriteriums ArtIII, Faktor B ebenfalls signifikant, dann können wir auf einen signifikanten Haupteffekt von Faktor B schließen, nachdem wir alle anderen Faktoren und ihre Wechselwirkungen in das Modell aufgenommen haben).

In Bezug auf die Randmittel der Hypothese Artich und ArtII haben normalerweise keine einfache Interpretation. In diesen Fällen wird gesagt, dass man die Signifikanz der Effekte nicht interpretieren kann, indem man nur die Randmittel betrachtet. eher präsentiert p Mittelwerte beziehen sich auf eine komplexe Hypothese, die Mittelwerte und Stichprobengröße kombiniert. Zum Beispiel, ArtII Die Hypothesen für den Faktor A in dem zuvor diskutierten einfachen 2 x 2-Entwurfsbeispiel wären (siehe Woodward, Bonett und Brecht, 1990, S. 219):

nij- Anzahl der Beobachtungen in einer Zelle

uij- Durchschnittswert in einer Zelle

n. j- marginaler Durchschnitt

Ohne ins Detail zu gehen (für weitere Einzelheiten siehe Milliken und Johnson, 1984, Kapitel 10), ist klar, dass dies keine einfachen Hypothesen sind und in den meisten Fällen keine von ihnen für den Forscher von besonderem Interesse ist. Es gibt jedoch Fälle, in denen die Hypothesen Artich kann von Interesse sein.

Der standardmäßige Berechnungsansatz im Modul Varianzanalyse

Standard, wenn die Option nicht aktiviert ist Regressionsansatz, Modul Varianzanalyse Verwendet Zelldurchschnittsmodell. Charakteristisch für dieses Modell ist, dass die Quadratsummen für verschiedene Effekte für Linearkombinationen von Zellmittelwerten berechnet werden. In einem vollfaktoriellen Experiment führt dies zu Quadratsummen, die mit den zuvor besprochenen Quadratsummen identisch sind Art III. Allerdings in der Option Geplante Vergleiche(im Fenster Analyse der Varianzergebnisse) kann der Benutzer Hypothesen zu jeder linearen Kombination von gewichteten oder ungewichteten Zellenmittelwerten aufstellen. Somit kann der Nutzer nicht nur Hypothesen testen ArtIII, aber Hypothesen jeglicher Art (einschließlich ArtIV). Dieser allgemeine Ansatz ist besonders nützlich, wenn Designs mit fehlenden Zellen (sogenannte unvollständige Designs) untersucht werden.

Für vollfaktorielle Versuchspläne ist dieser Ansatz auch nützlich, wenn man gewichtete Randmittel analysieren möchte. Nehmen wir zum Beispiel an, dass wir in dem zuvor betrachteten einfachen 2 x 2-Design die gewichteten (in Bezug auf Faktorstufen) vergleichen möchten. B) marginale Mittelwerte für Faktor A. Dies ist nützlich, wenn die Verteilung der Beobachtungen über Zellen nicht vom Experimentator vorbereitet, sondern zufällig erstellt wurde und diese Zufälligkeit sich in der Verteilung der Anzahl der Beobachtungen nach Ebenen von Faktor B im Aggregat widerspiegelt .

Zum Beispiel gibt es einen Faktor - das Alter der Witwen. Eine mögliche Stichprobe von Befragten wird in zwei Gruppen eingeteilt: jünger als 40 und älter als 40 (Faktor B). Der zweite Faktor (Faktor A) im Plan ist, ob Witwen soziale Unterstützung von irgendeiner Stelle erhalten haben oder nicht (während einige Witwen nach dem Zufallsprinzip ausgewählt wurden, dienten andere als Kontrollen). In diesem Fall spiegelt die Altersverteilung der Witwen in der Stichprobe die tatsächliche Altersverteilung der Witwen in der Bevölkerung wider. Bewertung der Wirksamkeit der sozialen Unterstützungsgruppe für Witwen jedes Alter entspricht dem gewichteten Durchschnitt der beiden Altersgruppen(mit Gewichtungen, die der Anzahl der Beobachtungen in der Gruppe entsprechen).

Geplante Vergleiche

Beachten Sie, dass die Summe der eingegebenen Kontrastverhältnisse nicht unbedingt gleich 0 (Null) sein muss. Stattdessen nimmt das Programm automatisch Anpassungen vor, damit sich die entsprechenden Hypothesen nicht mit dem Gesamtdurchschnitt vermischen.

Um dies zu veranschaulichen, kehren wir zu dem einfachen 2 x 2-Plan zurück, der zuvor besprochen wurde. Erinnern Sie sich, dass die Zellenzahlen dieses unausgeglichenen Designs -1, 2, 3 und 1 sind. Angenommen, wir möchten die gewichteten marginalen Mittelwerte für Faktor A vergleichen (gewichtet mit der Häufigkeit der Faktor-B-Stufen). Sie können Kontrastverhältnisse eingeben:

Beachten Sie, dass sich diese Koeffizienten nicht zu 0 addieren. Das Programm stellt die Koeffizienten so ein, dass sie sich zu 0 addieren, während ihre relativen Werte beibehalten werden, d. h.:

1/3 2/3 -3/4 -1/4

Diese Kontraste vergleichen die gewichteten Mittelwerte für Faktor A.

Hypothesen über den Hauptmittelwert. Die Hypothese, dass der ungewichtete Hauptmittelwert 0 ist, kann mithilfe von Koeffizienten untersucht werden:

Die Hypothese, dass der gewichtete Hauptmittelwert 0 ist, wird getestet mit:

In keinem Fall korrigiert das Programm die Kontrastverhältnisse.

Analyse von Plänen mit fehlenden Zellen (unvollständige Pläne)

Faktorische Versuchspläne mit leeren Zellen (Verarbeitung von Kombinationen von Zellen, in denen keine Beobachtungen vorhanden sind) werden als unvollständig bezeichnet. In solchen Designs sind einige Faktoren normalerweise nicht orthogonal und einige Wechselwirkungen können nicht berechnet werden. Gibt es gar nicht beste Methode Analyse solcher Pläne.

Regressionsansatz

In einigen älteren Programmen, die auf der Analyse von ANOVA-Versuchsplänen mittels multivariater Regression basieren, werden die Faktoren in unvollständigen Versuchsplänen standardmäßig auf die übliche Weise gesetzt (als ob der Plan vollständig wäre). Dann multivariat Regressionsanalyse für diese fiktiv codierten Faktoren. Leider führt diese Methode zu Ergebnissen, die sehr schwierig, wenn nicht sogar unmöglich zu interpretieren sind, da nicht klar ist, wie jeder Effekt zu der linearen Kombination von Mittelwerten beiträgt. Betrachten Sie das folgende einfache Beispiel.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Verpasst

Wenn multivariate Regression des Formulars Abhängige Variable = Konstante + Faktor A + Faktor B, dann sieht die Hypothese über die Signifikanz der Faktoren A und B in Bezug auf lineare Mittelwertkombinationen so aus:

Faktor A: Zelle A1,B1 = Zelle A2,B1

Faktor B: Zelle A1, B1 = Zelle A1, B2

Dieser Fall ist einfach. Bei komplexeren Plänen lässt sich nicht genau bestimmen, was genau untersucht wird.

Mittlere Zellen, Varianzanalyse-Ansatz , Typ-IV-Hypothesen

Ein in der Literatur empfohlener und vorzugswürdig erscheinender Ansatz ist die Untersuchung sinnvoller (im Sinne von Forschungsaufgaben) a priori Hypothesen über die in den Zellen des Plans beobachteten Mittel. Eine ausführliche Diskussion dieses Ansatzes findet sich in Dodge (1985), Heiberger (1989), Milliken und Johnson (1984), Searle (1987) oder Woodward, Bonett und Brecht (1990). Quadratsummen, die mit Hypothesen über eine lineare Kombination von Mittelwerten in unvollständigen Designs verbunden sind und Schätzungen eines Teils der Effekte untersuchen, werden auch als Quadratsummen bezeichnet. IV.

Automatische Generierung von TyphypothesenIV. Wenn multivariate Designs ein komplexes fehlendes Zellmuster aufweisen, ist es wünschenswert, orthogonale (unabhängige) Hypothesen zu definieren, deren Untersuchung der Untersuchung von Haupteffekten oder Wechselwirkungen entspricht. Algorithmische (Rechen-)Strategien (basierend auf der pseudoinversen Entwurfsmatrix) wurden entwickelt, um geeignete Gewichtungen für solche Vergleiche zu erzeugen. Leider sind die endgültigen Hypothesen nicht eindeutig bestimmt. Sie hängen natürlich von der Reihenfolge ab, in der die Effekte definiert wurden, und sind selten einfach zu interpretieren. Daher wird empfohlen, die Art der fehlenden Zellen sorgfältig zu untersuchen und dann Hypothesen zu formulieren ArtIV, die für die Ziele der Studie am relevantesten sind. Untersuchen Sie diese Hypothesen dann mit der Option Geplante Vergleiche im Fenster Ergebnisse. Am meisten einfacher Weg Spezifizieren Sie in diesem Fall Vergleiche - erfordern die Einführung eines Vektors von Kontrasten für alle Faktoren zusammen im Fenster Geplante Vergleiche. Nach Aufruf des Dialogfensters Geplante Vergleiche alle Gruppen des aktuellen Plans werden angezeigt und die ausgelassenen werden markiert.

Übersprungene Zellen und spezifische Effektprüfung

Es gibt mehrere Arten von Plänen, bei denen die Position der fehlenden Zellen nicht zufällig, sondern sorgfältig geplant ist, was eine einfache Analyse der Haupteffekte ermöglicht, ohne andere Effekte zu beeinflussen. Wenn beispielsweise die erforderliche Anzahl von Zellen in einem Plan nicht verfügbar ist, werden häufig Pläne verwendet. Lateinische Quadrate um die Haupteffekte mehrerer Faktoren mit einer großen Anzahl von Ebenen abzuschätzen. Beispielsweise erfordert ein 4 x 4 x 4 x 4 faktorielles Design 256 Zellen. Gleichzeitig können Sie verwenden Griechisch-lateinisches Quadrat um die Haupteffekte abzuschätzen, mit nur 16 Zellen im Plan (Kap. Versuchsplanung, Band IV, enthält detaillierte Beschreibung solche Pläne). Unvollständige Designs, bei denen die Haupteffekte (und einige Wechselwirkungen) mit einfachen linearen Kombinationen von Mittelwerten geschätzt werden können, werden aufgerufen ausgeglichene unvollständige Pläne.

In balancierten Designs führt die standardmäßige (Standard-)Methode zur Generierung von Kontrasten (Gewichtungen) für Haupteffekte und Wechselwirkungen dann zu einer Varianztabellenanalyse, bei der sich die Quadratsummen für die jeweiligen Effekte nicht miteinander mischen. Möglichkeit Spezifische Effekte Fenster Ergebnisse erzeugt fehlende Kontraste, indem Null in die fehlenden Planzellen geschrieben wird. Unmittelbar nachdem die Option angefordert wurde Spezifische Effekte Für einen Benutzer, der eine Hypothese untersucht, erscheint eine Ergebnistabelle mit den tatsächlichen Gewichten. Beachten Sie, dass in einem ausgewogenen Design die Quadratsummen der jeweiligen Effekte nur dann berechnet werden, wenn diese Effekte orthogonal (unabhängig) zu allen anderen Haupteffekten und Wechselwirkungen sind. Verwenden Sie andernfalls die Option Geplante Vergleiche um aussagekräftige Vergleiche zwischen Mittelwerten zu untersuchen.

Fehlende Zellen und kombinierte Fehlereffekte/Mitglieder

Wenn Option Regressionsansatz im Startbereich des Moduls Varianzanalyse nicht ausgewählt ist, wird das Zellmittelwertmodell verwendet, wenn die Summe der Quadrate für die Effekte berechnet wird (Standardeinstellung). Wenn das Design nicht ausgewogen ist, dann beim Kombinieren von nicht-orthogonalen Effekten (siehe obige Diskussion der Option Fehlende Zellen und spezifische Wirkung) kann man eine Summe von Quadraten erhalten, die aus nicht-orthogonalen (oder überlappenden) Komponenten bestehen. Die so gewonnenen Ergebnisse sind in der Regel nicht interpretierbar. Daher muss man bei der Auswahl und Implementierung komplexer unvollständiger experimenteller Designs sehr vorsichtig sein.

Es gibt viele Bücher mit detaillierten Diskussionen über verschiedene Arten von Plänen. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken und Johnson, 1984; Searle, 1987; Woodward und Bonett, 1990), aber diese Art von Informationen würde den Rahmen dieses Lehrbuchs sprengen. Eine Analyse verschiedener Arten von Plänen wird jedoch später in diesem Abschnitt demonstriert.

Annahmen und Auswirkungen der Verletzung von Annahmen

Abweichung von der Annahme der Normalverteilung

Angenommen, die abhängige Variable wird auf einer numerischen Skala gemessen. Nehmen wir außerdem an, dass die abhängige Variable innerhalb jeder Gruppe normalverteilt ist. Varianzanalyse enthält eine Vielzahl von Grafiken und Statistiken, um diese Annahme zu untermauern.

Verletzungseffekte. Allgemein F das Kriterium ist sehr widerstandsfähig gegenüber Abweichungen von der Normalität (siehe Lindman, 1974 für detaillierte Ergebnisse). Wenn die Kurtosis größer als 0 ist, dann der Wert der Statistik F kann sehr klein werden. Die Nullhypothese wird akzeptiert, obwohl sie möglicherweise nicht wahr ist. Die Situation ist umgekehrt, wenn die Kurtosis kleiner als 0 ist. Die Schiefe der Verteilung hat normalerweise wenig Einfluss auf F Statistiken. Wenn die Anzahl der Beobachtungen in einer Zelle groß genug ist, dann spielt die Abweichung von der Normalität aufgrund von keine große Rolle zentraler Grenzwertsatz, wonach die Verteilung des Mittelwerts unabhängig von der Ausgangsverteilung nahezu normal ist. Ausführliche Diskussion über Nachhaltigkeit F Statistiken finden sich in Box und Anderson (1955) oder Lindman (1974).

Homogenität der Dispersion

Annahmen. Es wird angenommen, dass die Varianzen verschiedener Gruppen des Plans gleich sind. Diese Annahme wird Annahme genannt Dispersionshomogenität. Erinnern Sie sich daran, dass wir zu Beginn dieses Abschnitts bei der Beschreibung der Berechnung der Summe der quadrierten Fehler eine Summierung innerhalb jeder Gruppe durchgeführt haben. Wenn sich die Varianzen in zwei Gruppen voneinander unterscheiden, dann ist ihre Addition nicht sehr natürlich und ergibt keine Schätzung der gesamten Varianz innerhalb der Gruppe (da in diesem Fall überhaupt keine allgemeine Varianz vorliegt). Modul Ausbreitungsanalyse -ANOVA/MANOVA enthält einen großen Satz statistischer Kriterien zum Erkennen von Abweichungen von den Annahmen der Varianzhomogenität.

Verletzungseffekte. Lindman (1974, S. 33) zeigt das F das Kriterium ist ziemlich stabil in Bezug auf die Verletzung der Annahmen der Homogenität der Varianz ( Heterogenität Dispersion, siehe auch Box, 1954a, 1954b; Hsu, 1938).

Sonderfall: Korrelation von Mittelwerten und Varianzen. Es gibt Zeiten, in denen F Statistiken können irreführen. Dies geschieht, wenn die Mittelwerte in den Designzellen mit der Varianz korreliert werden. Modul Varianzanalyse können Sie Varianz- oder Standardabweichungs-Streudiagramme gegen Mittelwerte darstellen, um eine solche Korrelation zu erkennen. Der Grund, warum eine solche Korrelation gefährlich ist, ist wie folgt. Stellen wir uns vor, dass es 8 Zellen im Plan gibt, von denen 7 fast den gleichen Durchschnitt haben, und in einer Zelle ist der Durchschnitt viel größer als der Rest. Dann F Der Test kann einen statistisch signifikanten Effekt nachweisen. Aber nehmen Sie an, dass in einer Zelle mit einem großen Mittelwert und der Varianz viel größer als die anderen ist, d.h. der Mittelwert und die Varianz in den Zellen sind voneinander abhängig (je größer der Mittelwert, desto größer die Varianz). In diesem Fall ist der große Mittelwert unzuverlässig, da er durch eine große Varianz in den Daten verursacht werden kann. Jedoch F Statistiken basierend auf vereinigt Die Varianz innerhalb der Zellen erfasst einen großen Mittelwert, obwohl Kriterien, die auf der Varianz in jeder Zelle basieren, nicht alle Unterschiede in den Mittelwerten als signifikant betrachten.

Diese Art der Daten (großer Mittelwert und große Varianz) tritt häufig auf, wenn es Ausreißerbeobachtungen gibt. Ein oder zwei Ausreißerbeobachtungen verschieben den Mittelwert stark und erhöhen die Varianz stark.

Homogenität von Varianz und Kovarianz

Annahmen. In multivariaten Designs mit multivariaten abhängigen Maßen gelten auch die zuvor beschriebenen Annahmen zur Varianzhomogenität. Da es jedoch multivariate abhängige Variablen gibt, ist es auch erforderlich, dass ihre Kreuzkorrelationen (Kovarianzen) über alle Planzellen hinweg einheitlich sind. Modul Varianzanalyse bietet verschiedene Möglichkeiten, diese Annahmen zu testen.

Verletzungseffekte. Mehrdimensionales Analogon F- Kriterium - λ-Test von Wilks. Über die Stabilität (Robustheit) des Wilks-λ-Tests in Bezug auf die Verletzung der obigen Annahmen ist nicht viel bekannt. Da jedoch die Interpretation der Modulergebnisse Varianzanalyse basiert in der Regel auf der Signifikanz eindimensionaler Effekte (nach Feststellung der Signifikanz allgemeines Kriterium) betrifft die Diskussion der Robustheit hauptsächlich die eindimensionale Varianzanalyse. Daher sollte die Signifikanz eindimensionaler Effekte sorgfältig geprüft werden.

Sonderfall: Analyse der Kovarianz. Besonders schwerwiegende Verletzungen der Homogenität von Varianz/Kovarianz können auftreten, wenn Kovariaten in das Design einbezogen werden. Insbesondere wenn die Korrelation zwischen Kovariaten und abhängigen Maßen in verschiedenen Zellen des Designs unterschiedlich ist, kann es zu einer Fehlinterpretation der Ergebnisse kommen. Es sollte daran erinnert werden, dass bei der Analyse der Kovarianz im Wesentlichen eine Regressionsanalyse innerhalb jeder Zelle durchgeführt wird, um den Teil der Varianz zu isolieren, der der Kovariate entspricht. Die Annahme der Homogenität der Varianz/Kovarianz geht davon aus, dass diese Regressionsanalyse unter der folgenden Einschränkung durchgeführt wird: Alle Regressionsgleichungen (Steigungen) für alle Zellen sind gleich. Wenn dies nicht beabsichtigt ist, können große Fehler auftreten. Modul Varianzanalyse hat mehrere spezielle Kriterien, um diese Annahme zu prüfen. Es kann ratsam sein, diese Kriterien zu verwenden, um sicherzustellen, dass die Regressionsgleichungen für verschiedene Zellen ungefähr gleich sind.

Sphärizität und komplexe Symmetrie: Gründe für die Verwendung eines multivariaten Messwiederholungsansatzes bei der Varianzanalyse

In Designs, die Faktoren mit wiederholten Messungen mit mehr als zwei Ebenen enthalten, erfordert die Anwendung der univariaten Varianzanalyse zusätzliche Annahmen: komplexe Symmetrieannahmen und Sphärizitätsannahmen. Diese Annahmen sind selten erfüllt (siehe unten). Daher ein letzten Jahren Multivariate Varianzanalyse hat in solchen Plänen an Popularität gewonnen (beide Ansätze werden im Modul kombiniert Varianzanalyse).

Komplexe Symmetrieannahme Die komplexe Symmetrieannahme ist, dass die Varianzen (gesamt innerhalb der Gruppe) und Kovarianzen (nach Gruppe) für verschiedene Messwiederholungen einheitlich (gleich) sind. Dies ist eine hinreichende Bedingung dafür, dass der univariate F-Test für wiederholte Messungen gültig ist (d. h. die angegebenen F-Werte stimmen im Durchschnitt mit der F-Verteilung überein). In diesem Fall ist diese Bedingung jedoch nicht erforderlich.

Annahme der Sphärizität. Die Annahme der Sphärizität ist eine notwendige und hinreichende Bedingung für die Berechtigung des F-Kriteriums. Sie besteht darin, dass innerhalb der Gruppen alle Beobachtungen unabhängig und gleich verteilt sind. Die Art dieser Annahmen sowie die Auswirkungen ihrer Verletzungen werden in Büchern über Varianzanalysen normalerweise nicht gut beschrieben - diese wird in den folgenden Abschnitten beschrieben. Es wird auch gezeigt, dass die Ergebnisse des univariaten Ansatzes von den Ergebnissen des multivariaten Ansatzes abweichen können, und erläutern, was dies bedeutet.

Die Notwendigkeit der Unabhängigkeit von Hypothesen. Die allgemeine Methode zur Analyse von Daten in der Varianzanalyse ist Modell passt. Wenn es in Bezug auf das den Daten entsprechende Modell einige gibt a priori Hypothesen, dann wird die Varianz aufgeteilt, um diese Hypothesen zu testen (Kriterien für Haupteffekte, Wechselwirkungen). Aus rechnerischer Sicht erzeugt dieser Ansatz eine Reihe von Kontrasten (eine Reihe von Vergleichen von Mittelwerten im Design). Wenn die Kontraste jedoch nicht unabhängig voneinander sind, wird die Aufteilung der Varianzen bedeutungslos. Zum Beispiel, wenn zwei Kontraste EIN und B identisch sind und das entsprechende Teil aus der Varianz ausgewählt wird, dann wird dasselbe Teil zweimal ausgewählt. Zum Beispiel ist es dumm und sinnlos, zwei Hypothesen herauszugreifen: „Der Mittelwert in Zelle 1 ist höher als der Mittelwert in Zelle 2“ und „Der Mittelwert in Zelle 1 ist höher als der Mittelwert in Zelle 2“. Die Hypothesen müssen also unabhängig oder orthogonal sein.

Unabhängige Hypothesen bei wiederholten Messungen. Allgemeiner Algorithmus im Modul implementiert Varianzanalyse, wird versuchen, für jeden Effekt unabhängige (orthogonale) Kontraste zu erzeugen. Für den Faktor der wiederholten Messungen geben diese Kontraste Anlass zu vielen Hypothesen Unterschiede zwischen den Stufen des betrachteten Faktors. Werden diese Unterschiede jedoch innerhalb von Gruppen korreliert, dann sind die resultierenden Kontraste nicht mehr unabhängig. Beispielsweise kann es in einer Ausbildung, in der Lernende dreimal in einem Semester gemessen werden, dazu kommen, dass Wechsel zwischen 1. und 2. Dimension negativ mit dem Wechsel zwischen 2. und 3. Dimension von Fächern korrelieren. Diejenigen, die den größten Teil des Materials zwischen der 1. und 2. Dimension gemeistert haben, beherrschen einen kleineren Teil während der Zeit, die zwischen der 2. und 3. Dimension vergangen ist. Tatsächlich kann in den meisten Fällen, in denen die Varianzanalyse bei wiederholten Messungen verwendet wird, davon ausgegangen werden, dass Änderungen der Werte über die Subjekte hinweg korrelieren. Wenn dies jedoch geschieht, werden die komplexen Symmetrie- und Sphärizitätsannahmen nicht erfüllt und unabhängige Kontraste können nicht berechnet werden.

Die Auswirkungen von Verstößen und Möglichkeiten, sie zu korrigieren. Wenn komplexe Symmetrie- oder Sphärizitätsannahmen nicht erfüllt werden, kann die Varianzanalyse zu fehlerhaften Ergebnissen führen. Bevor multivariate Verfahren ausreichend entwickelt wurden, wurden mehrere Annahmen getroffen, um Verletzungen dieser Annahmen zu kompensieren. (Siehe zum Beispiel Greenhouse & Geisser, 1959 und Huynh & Feldt, 1970). Diese Methoden sind auch heute noch weit verbreitet (weshalb sie im Modul vorgestellt werden Varianzanalyse).

Multivariate Analyse des Varianzansatzes für wiederholte Messungen. Im Allgemeinen beziehen sich die Probleme der komplexen Symmetrie und Sphärizität darauf, dass die in die Untersuchung der Auswirkungen von Messwiederholungsfaktoren (mit mehr als 2 Stufen) einbezogenen Kontrastsätze nicht unabhängig voneinander sind. Sie müssen jedoch nicht unabhängig sein, wenn sie verwendet werden. mehrdimensional ein Kriterium zum gleichzeitigen Testen der statistischen Signifikanz von zwei oder mehr Faktorkontrasten mit wiederholten Messungen. Aus diesem Grund werden zunehmend Methoden der multivariaten Varianzanalyse verwendet, um die Signifikanz von univariaten Messwiederholungsfaktoren mit mehr als 2 Stufen zu testen. Dieser Ansatz ist weit verbreitet, da er im Allgemeinen nicht die Annahme einer komplexen Symmetrie und die Annahme einer Sphärizität erfordert.

Fälle, in denen der Ansatz der multivariaten Varianzanalyse nicht angewendet werden kann. Es gibt Beispiele (Pläne), bei denen der Ansatz der multivariaten Varianzanalyse nicht angewendet werden kann. Normalerweise sind dies Fälle, in denen es keine gibt große Menge Themen im Plan und viele Ebenen im Faktor für wiederholte Messungen. Dann gibt es möglicherweise zu wenige Beobachtungen, um eine multivariate Analyse durchzuführen. Wenn es beispielsweise 12 Entitäten gibt, p = 4 Faktor für wiederholte Messungen, und jeder Faktor hat k = 3 Ebenen. Dann wird das Zusammenspiel von 4 Faktoren „aufbrauchen“ (k-1)S = 2 4 = 16 Freiheitsgrade. Es gibt jedoch nur 12 Probanden, daher kann in diesem Beispiel kein multivariater Test durchgeführt werden. Modul Varianzanalyse erkennt diese Beobachtungen selbstständig und berechnet nur eindimensionale Kriterien.

Unterschiede in univariaten und multivariaten Ergebnissen. Wenn die Studie eine große Anzahl von Messwiederholungen umfasst, kann es Fälle geben, in denen der univariate Messwiederholungsansatz der ANOVA zu Ergebnissen führt, die sich stark von denen des multivariaten Ansatzes unterscheiden. Das bedeutet, dass die Unterschiede zwischen den Pegeln der jeweiligen Wiederholungsmessungen fächerübergreifend korreliert werden. Manchmal ist diese Tatsache von einem unabhängigen Interesse.

Multivariate Varianzanalyse und strukturelle Modellierung von Gleichungen

In den letzten Jahren ist die Strukturgleichungsmodellierung als Alternative zur multivariaten Dispersionsanalyse populär geworden (siehe zum Beispiel Bagozzi und Yi, 1989; Bagozzi, Yi und Singh, 1991; Cole, Maxwell, Arvey und Salas, 1993). Mit diesem Ansatz können Sie Hypothesen nicht nur über die Mittelwerte in verschiedenen Gruppen testen, sondern auch über die Korrelationsmatrizen abhängiger Variablen. Beispielsweise können Sie die Annahmen zur Homogenität der Varianz und Kovarianz lockern und Fehler explizit für jede Varianz- und Kovarianzgruppe in das Modell aufnehmen. Modul STATISTIKENStrukturgleichungsmodellierung (SEPATH) (siehe Band III) ermöglicht eine solche Analyse.

Studienarbeit in Mathematik

Einführung

Das Konzept der Varianzanalyse

Einweg-Varianzanalyse (Praktische Umsetzung in IBM SPSS Statistics 20)

Einweg-Varianzanalyse (praktische Umsetzung in Microsoft Office 2013)

Fazit

Liste der verwendeten Quellen

Einführung

Relevanz des Themas. Die Entwicklung der mathematischen Statistik beginnt mit den Arbeiten des berühmten deutschen Mathematikers Carl Friedrich Gauß im Jahr 1795 und entwickelt sich weiter. In der statistischen Analyse gibt es parametrische Methode"Einweganalyse der Varianz". Derzeit wird es in der Wirtschaftswissenschaft bei der Durchführung von Marktforschungen zur Vergleichbarkeit von Ergebnissen verwendet (z. B. bei Umfragen zum Verbrauch eines Produkts in verschiedenen Regionen des Landes müssen Rückschlüsse darauf gezogen werden, wie stark sich die Umfragedaten unterscheiden oder tun nicht voneinander unterscheiden; in der Psychologie bei der Durchführung verschiedener Arten von Forschung), bei der Erstellung wissenschaftlicher Vergleichstests oder bei der Recherche zu irgendwelchen soziale Gruppen, und zum Lösen von Problemen in der Statistik.

Zielsetzung. Machen Sie sich mit einer solchen statistischen Methode wie der Einweg-Varianzanalyse sowie mit ihrer Implementierung auf einem PC in verschiedenen Programmen vertraut und vergleichen Sie diese Programme.

Untersuchung der Theorie der Einweg-Varianzanalyse.

Studienprogramme zur Problemlösung für die Einfaktoranalyse.

Ausgeben vergleichende Analyse diese Programme.

Ergebnisse der Arbeit: Der praktische Teil der Arbeit wurde vollständig vom Autor durchgeführt: Auswahl von Programmen, Auswahl von Aufgaben, deren Lösung auf einem PC, wonach eine vergleichende Analyse durchgeführt wurde. Im theoretischen Teil wurde die Klassifikation von ANOVA-Gruppen durchgeführt. Diese Arbeit wurde als Referat im Rahmen der studentischen wissenschaftlichen Sitzung „Ausgewählte Fragen der höheren Mathematik und Methoden des Mathematikunterrichts“ erprobt.

Struktur und Umfang der Arbeit. Die Arbeit besteht aus Einleitung, Schluss, Inhalt und Literaturverzeichnis, darunter 4 Titel. Der Gesamtumfang der Arbeit beträgt 25 gedruckte Seiten. Die Arbeit enthält 1 Beispiel gelöst durch 2 Programme.

Das Konzept der Varianzanalyse

Oft besteht die Notwendigkeit, den Einfluss einer oder mehrerer unabhängiger Variablen (Faktoren) auf eine oder mehrere abhängige Variablen (resultierende Merkmale) zu untersuchen. Solche Probleme können mit Methoden der Varianzanalyse gelöst werden, die von R. Fisher verfasst wurden.

Die ANOVA-Varianzanalyse ist eine Reihe von statistischen Datenverarbeitungsmethoden, mit denen Sie die Variabilität eines oder mehrerer effektiver Merkmale unter dem Einfluss kontrollierter Faktoren (unabhängiger Variablen) analysieren können. Unter einem Faktor wird dabei ein bestimmter Wert verstanden, der die Eigenschaften des untersuchten Objekts oder Systems bestimmt, d.h. Grund für das Endergebnis. Bei der Durchführung einer Varianzanalyse ist es wichtig, die richtige Quelle und das richtige Objekt des Einflusses zu wählen, d.h. abhängige und unabhängige Variablen identifizieren.

Je nach Klassifikationszeichen werden mehrere Klassifikationsgruppen der Varianzanalyse unterschieden (Tabelle 1).

Durch die Anzahl der berücksichtigten Faktoren: Univariate Analyse - der Einfluss eines Faktors wird untersucht Multivariate Analyse - der gleichzeitige Einfluss von zwei oder mehr Faktoren wird untersucht Durch das Vorhandensein einer Verbindung zwischen Wertproben: Analyse von nicht verwandten (unterschiedlichen ) Proben - wird durchgeführt, wenn sich mehrere Gruppen von Forschungsobjekten unter unterschiedlichen Bedingungen befinden. (Die Nullhypothese H0 wird überprüft: der Mittelwert der abhängigen Variablen ist unter verschiedenen Messbedingungen gleich, d. h. hängt nicht vom untersuchten Faktor ab.) Analyse verwandter (gleicher) Stichproben – wird für zwei oder mehr durchgeführt Messungen, die an derselben Gruppe von untersuchten Objekten unter verschiedenen Bedingungen durchgeführt wurden. Hier ist der Einfluss eines nicht berücksichtigten Faktors möglich, der fälschlicherweise auf eine Änderung der Bedingungen zurückgeführt werden kann Durch die Anzahl der von Faktoren beeinflussten abhängigen Variablen Univariate Analyse (ANOVA oder AMCOVA – Kovarianzanalyse) – eine abhängige Variable wird von Faktoren beeinflusst ; Multivariate Analyse (MANOVA - multivariate Varianzanalyse oder MANCOVA - multivariate Kovarianzanalyse) - mehrere abhängige Variablen werden von Faktoren beeinflusst Je nach Zweck der Studie Deterministisch - die Höhe aller Faktoren wird im Voraus festgelegt und es ist ihr Einfluss das überprüft wird (die Hypothese H0 wird auf das Nichtvorhandensein von Unterschieden zwischen den durchschnittlichen Niveaus überprüft); Zufällig – die Niveaus jedes Faktors werden als Zufallsstichprobe aus der allgemeinen Grundgesamtheit der Faktorniveaus erhalten (die Hypothese H0 wird getestet, dass die Streuung der durchschnittlichen Antwortwerte, die für verschiedene Stufen des Faktors berechnet wurden, ist ungleich Null);

Bei der Einweg-Varianzanalyse wird die statistische Signifikanz der Unterschiede in den Stichprobenmittelwerten zweier oder mehrerer Grundgesamtheiten überprüft, dazu werden vorläufig Hypothesen gebildet.

Nullhypothese H0: die Mittelwerte des effektiven Merkmals in allen Zuständen der Faktorwirkung (bzw. Faktorabstufungen) sind gleich

Alternativhypothese H1: Die Durchschnittswerte des effektiven Merkmals in allen Zuständen des Faktors sind unterschiedlich.

ANOVA-Methoden können auf normalverteilte Populationen (multivariate Analoga parametrischer Tests) und auf Populationen ohne eindeutige Verteilungen (multivariate Analoga nichtparametrischer Tests) angewendet werden. Im ersten Fall muss zunächst festgestellt werden, dass die Verteilung des resultierenden Merkmals normal ist. Um die Normalität der Verteilung eines Merkmals zu überprüfen, können Sie die Asymmetrieindikatoren A = verwenden , , und Kurtosis E = , , wo , . - der Wert des effektiven Merkmals und sein Durchschnittswert; - Standardabweichung des resultierenden Merkmals; .

Anzahl der Beobachtungen;

Repräsentativitätsfehler für die Maßnahmen A und E

Wenn die Schiefe- und Kurtosis-Indikatoren ihre Repräsentativitätsfehler nicht um mehr als das Dreifache überschreiten, d. h. UND<3тА и Е <3тЕ, то распределение можно считать нормальным. Для нормальных распределений показатели А и Е равны нулю.

Daten, die sich auf einen Zustand des Faktors (auf eine Abstufung) beziehen, werden als Dispersionskomplex bezeichnet. Bei der Durchführung einer Varianzanalyse sollte die Gleichheit der Streuungen zwischen Komplexen beachtet werden. In diesem Fall sollte die Auswahl der Elemente zufällig erfolgen.

Im zweiten Fall, wenn Stichprobenpopulationen willkürliche Verteilungen aufweisen, werden nichtparametrische (Rang-)Analoga der Einweg-Varianzanalyse verwendet (Kruskal-Wallis-Kriterien, Friedmann).

Betrachten Sie eine grafische Darstellung der Abhängigkeit der Aktienrendite von der Wirtschaftslage des Landes (Abb. 1, a). Hier ist der untersuchte Faktor das Niveau des Zustands der Wirtschaft (genauer gesagt, drei Niveaus seines Zustands), und das effektive Merkmal ist die Rendite. Die obige Verteilung zeigt, dass dieser Faktor einen erheblichen Einfluss auf die Rentabilität hat, d.h. Wenn sich die Wirtschaft verbessert, verbessert sich auch die Aktienrendite, was dem gesunden Menschenverstand nicht widerspricht.

Beachten Sie, dass der gewählte Faktor Abstufungen hat, d.h. sein Wert änderte sich beim Übergang von einer Stufe zur anderen (von einem Wirtschaftszustand zum anderen).

Reis. 1. Das Verhältnis des Einflusses des Faktors und der Streuung innerhalb der Gruppe: a - signifikanter Einfluss des Faktors; b - unbedeutender Einfluss des Faktors

Die Abstufungsgruppe eines Faktors ist nur ein Spezialfall, außerdem kann ein Faktor Abstufungen auch in einer Nominalskala darstellen. Daher sprechen sie häufiger nicht von den Abstufungen eines Faktors, sondern von den verschiedenen Bedingungen seiner Wirkung.

Betrachten wir nun die Idee der Varianzanalyse, die auf der Regel der Addition von Varianzen basiert: Die Gesamtvarianz ist gleich der Summe der Intergruppen- und dem Durchschnitt der Intragruppen-Varianzen:

Gesamtvarianz, die sich aus dem Einfluss aller Faktoren ergibt

Streuung zwischen den Gruppen aufgrund des Einflusses aller anderen Faktoren;

Die durchschnittliche gruppeninterne Varianz, die durch den Einfluss des Gruppierungsattributs verursacht wird.

Der Einfluss des gruppierten Merkmals ist in Abb. 1a deutlich zu sehen, da der Einfluss des Faktors im Vergleich zur Streuung innerhalb der Gruppe signifikant ist und daher die Varianz zwischen den Gruppen größer sein wird als die Varianz innerhalb der Gruppe ( > ) und in Abb. 1, b zeigt sich das gegenteilige Bild: Hier überwiegt die gruppeninterne Streuung und der Einfluss des Faktors fehlt praktisch.

Die Varianzanalyse ist nach dem gleichen Prinzip aufgebaut, nur verwendet sie keine Varianzen, sondern den Mittelwert der quadrierten Abweichungen ( , , ), die unverzerrte Schätzungen der entsprechenden Varianzen sind. Sie erhält man, indem man die Summen der quadrierten Abweichungen durch die entsprechende Anzahl an Freiheitsgraden dividiert

Aggregate als Ganzes;

Durchschnitte innerhalb der Gruppe;

Durchschnitte zwischen den Gruppen;

Gesamtdurchschnitt für alle Messungen (für alle Gruppen);

Gruppendurchschnitt für die j-te Abstufung des Faktors.

Mathematische Erwartungen für die Summe der quadratischen Abweichungen innerhalb der Gruppe bzw. zwischen den Gruppen werden durch die Formeln berechnet: (Festfaktormodell),

.

E ( ) = E ( ) = , dann wird die Nullhypothese H0 über das Fehlen von Unterschieden zwischen den Mittelwerten bestätigt, daher hat der untersuchte Faktor keinen signifikanten Effekt (siehe Abb. 1, b). Wenn der tatsächliche Wert des Fisher-F-Tests F = E ( ) / E ( ) wird größer als der kritische Wert sein dann die Nullhypothese H0 auf dem Signifikanzniveau , wird die Alternativhypothese H1 verworfen und akzeptiert - über den signifikanten Einfluss des Faktors Abb. 1, ein. .

Einweganalyse der Varianz

Eine Varianzanalyse, die nur eine Variable berücksichtigt, wird als einfache ANOVA bezeichnet.

Es gibt eine Gruppe von n Beobachtungsobjekten mit Messwerten einer untersuchten Variablen . pro Variable wird von einem Qualitätsfaktor beeinflusst Mit mehreren Ebenen (Abstufungen) der Wirkung. Gemessene Variablenwerte auf verschiedenen Ebenen des Faktors sind in Tabelle 2 angegeben (sie können auch in Matrixform dargestellt werden).

Tabelle 2.

Tabellarische Form der Einstellung Anfangsdaten für Univariate Analyse

Beobachtungsobjektnummer ()Variablenwerte auf der Ebene (Abstufung) des Faktors (niedrigste) (kurz)… (höchste)1 2 … k .Hier kann jede Ebene eine unterschiedliche Anzahl von Antworten enthalten, die auf einer Ebene des Faktors gemessen werden, dann hat jede Spalte ihren eigenen Wert . Es ist erforderlich, die Signifikanz des Einflusses dieses Faktors auf die untersuchte Variable zu bewerten. Um dieses Problem zu lösen, kann ein Ein-Faktor-Modell der Varianzanalyse verwendet werden. Ein-Faktor-Streuungsmodell.

Der Wert der untersuchten Variablen für das -te Beobachtungsobjekt bei -te Stufe des Faktors;

Gruppendurchschnitt für -te Stufe des Faktors;

Die Wirkung aufgrund des Einflusses der -ten Ebene des Faktors;

Zufällige Komponente oder Störung, die durch den Einfluss unkontrollierbarer Faktoren verursacht wird. Lassen Sie uns also die Hauptbeschränkungen der Verwendung von ANOVA hervorheben:

Nullgleichheit der mathematischen Erwartung einer Zufallskomponente: = 0.

Zufällige Komponente , und damit auch haben eine Normalverteilung.

Die Anzahl der Abstufungen von Faktoren muss mindestens drei betragen.

Dieses Modell ermöglicht es Ihnen, abhängig von den Ebenen des Faktors, unter Verwendung des Fisher-F-Tests, eine der Nullhypothesen zu testen.

Bei der Durchführung einer Varianzanalyse für verwandte Stichproben ist es möglich, eine andere Nullhypothese H0(u) zu testen - individuelle Unterschiede zwischen den Beobachtungsobjekten werden nicht mehr ausgedrückt als Unterschiede aus zufälligen Gründen.

Einweganalyse der Varianz

(Praktische Umsetzung in IBM SPSS Statistics 20)

Den Forscher interessiert die Frage, wie sich ein bestimmtes Attribut unter verschiedenen Bedingungen der Wirkung einer Variablen (Faktor) verändert. Die Wirkung von nur einer Variablen (Faktor) auf das untersuchte Merkmal wird untersucht. Wir haben bereits ein Beispiel aus der Ökonomie betrachtet, nun geben wir ein Beispiel aus der Psychologie, beispielsweise wie sich die Zeit zur Lösung eines Problems bei unterschiedlichen Motivationsbedingungen der Probanden (niedrig, mittel, hoch) oder bei unterschiedlichen Motivationsarten verändert Präsentation der Aufgabe (mündlich, schriftlich oder in Form von Text mit Grafiken und Illustrationen) unter verschiedenen Bedingungen der Bearbeitung der Aufgabe (allein, in einem Raum mit einem Lehrer, in einem Klassenzimmer). Im ersten Fall ist der Faktor Motivation, im zweiten - der Grad der Sichtbarkeit, im dritten - der Faktor der Öffentlichkeit.

Bei dieser Variante des Verfahrens werden unterschiedliche Probandenproben dem Einfluss der jeweiligen Abstufung ausgesetzt. Es müssen mindestens drei Abstufungen des Faktors vorhanden sein.

Beispiel 1. Drei verschiedene Gruppen von sechs Probanden erhielten Listen mit zehn Wörtern. Wörter wurden der ersten Gruppe mit einer niedrigen Rate von 1 Wort pro 5 Sekunden präsentiert, der zweiten Gruppe mit einer durchschnittlichen Rate von 1 Wort pro 2 Sekunden und der dritten Gruppe mit einer hohen Rate von 1 Wort pro Sekunde. Es wurde vorhergesagt, dass die Reproduktionsleistung von der Geschwindigkeit der Wortpräsentation abhängt (Tabelle 3).

Tisch 3

Anzahl der wiedergegebenen Wörter

ThemaGruppe 1 niedrige GeschwindigkeitGruppe 2 mittlere GeschwindigkeitGruppe 3 hohe Geschwindigkeit

Wir formulieren Hypothesen: Unterschiede in der Lautstärke der Wortwiedergabe zwischen Gruppen sind nicht stärker ausgeprägt als zufällige Unterschiede innerhalb jeder Gruppe: Unterschiede in der Wortwiedergabe zwischen Gruppen sind stärker ausgeprägt als zufällige Unterschiede innerhalb jeder Gruppe.

Wir werden die Lösung in der SPSS-Umgebung nach folgendem Algorithmus durchführen

Lassen Sie uns das SPSS-Programm ausführen

Geben Sie Zahlenwerte in das Fenster ein Daten

Reis. 1. Werte in SPSS eingeben

Im Fenster Variablen Wir beschreiben alle Anfangsdaten, je nach Zustand

Aufgaben

Abbildung 2 Variablenfenster

Der Übersichtlichkeit halber beschreiben wir in der Spalte Beschriftung den Namen der Tabellen

In der Grafik Werte Beschreiben Sie die Anzahl der einzelnen Gruppen

Abbildung 3 Wertelabels

All dies dient der Übersichtlichkeit, d.h. diese Einstellungen können ignoriert werden.

In der Grafik Skala , in der zweiten Spalte müssen Sie den Wert des Nominals eingeben

Im Fenster Daten Bestellen Sie eine Einweg-Varianzanalyse über das Menü "Analyse". Durchschnittlicher Vergleich

Einweg-Varianzanalyse…

Abbildung 4 Einfache ANOVA-Funktion

Im geöffneten Dialogfeld Einweganalyse der Varianz Wählen Sie die abhängige Variable aus und fügen Sie sie hinzu Liste der Angehörigen , und der variable Faktor im Fensterfaktor

Abbildung 5, die die Liste der abhängigen Personen und den Faktor hervorhebt

Richten Sie einige Parameter für eine qualitativ hochwertige Datenausgabe ein

Abbildung 6 Parameter für die qualitative Dateninferenz

Die Berechnungen für den ausgewählten einfachen ANOVA-Algorithmus beginnen nach dem Klicken OK

Am Ende der Berechnungen werden die Ergebnisse der Berechnung im Sichtfenster angezeigt.

Deskriptive StatistikGruppe NDurchschnitt Std. Abweichung Std. Fehler95 % Konfidenzintervall für Mittelwert Minimum Maximum Tabelle 2. Deskriptive Statistik

Die Tabelle Deskriptive Statistik zeigt die Hauptindikatoren für Geschwindigkeiten in Gruppen und ihre Gesamtwerte.

Die Anzahl der Beobachtungen in jeder Gruppe und die Gesamtzahl

Mittelwert – arithmetisches Mittel der Beobachtungen in jeder Gruppe und für alle Gruppen zusammen

Std. Abweichung, Std. Fehler - Standardabweichung und Standardabweichungen

% Konfidenzintervall für den Mittelwert – diese Intervalle sind für jede Gruppe und für alle Gruppen zusammen genauer als Intervalle unterhalb oder oberhalb dieser Grenzen.

Minimum, Maximum - die Mindest- und Höchstwerte für jede Gruppe, die die Probanden gehört haben

Einfaktorvarianz zufällig

Kriterium für die Homogenität der Varianzgruppe Statistiken Livinast.st.1st.st.

Der Homogenitätstest nach Livin wird verwendet, um Dispersionen auf Homogenität (Homogenität) zu testen. In diesem Fall bestätigt es die Geringfügigkeit der Unterschiede zwischen den Varianzen, da der Wert = 0,915, also deutlich größer als 0,05 ist. Daher werden die Ergebnisse der Varianzanalyse als richtig anerkannt.

Tabelle 1-Weg-Varianzanalyse zeigt die Ergebnisse der 1-Weg-DA

Die Summe der Quadrate "zwischen den Gruppen" ist die Summe der Quadrate der Differenzen zwischen dem Gesamtmittelwert und den Mittelwerten in jeder Gruppe, gewichtet mit der Anzahl der Objekte in der Gruppe

"Innerhalb der Gruppen" ist die Summe der quadrierten Differenzen zwischen dem Mittelwert jeder Gruppe und jedem Wert dieser Gruppe

Spalte "St. St." enthält die Anzahl der Freiheitsgrade V:

Zwischengruppe (v=Anzahl der Gruppen - 1);

Gruppenintern (v=Anzahl Objekte – Anzahl Gruppen – 1);

"Mean Square" enthält das Verhältnis der Summe der Quadrate zur Anzahl der Freiheitsgrade.

Spalte "F" zeigt das Verhältnis des mittleren Quadrats zwischen den Gruppen zum mittleren Quadrat innerhalb der Gruppen.

Die Spalte "Wert" enthält den Wahrscheinlichkeitswert, dass die beobachteten Unterschiede zufällig sind.

Tabelle 4 Formeln

Diagramme von Durchschnittswerten

Die Grafik zeigt, dass es abnimmt. Es ist auch möglich, aus der Tabelle Fk k1=2, k2=15 zu bestimmen, der Tabellenwert der Statistik ist 3,68. In der Regel, wenn , dann wird die Nullhypothese akzeptiert, andernfalls wird die Alternativhypothese akzeptiert. Für unser Beispiel (7.45>3.68), daher wird die Alternativhypothese akzeptiert. Wenn wir also zum Zustand des Problems zurückkehren, können wir die Nullhypothese schließen abgelehnt und eine Alternative akzeptiert. : Unterschiede in der Wortlautstärke zwischen Gruppen sind ausgeprägter als zufällige Unterschiede innerhalb jeder Gruppe ). Dass. Die Geschwindigkeit der Präsentation von Wörtern beeinflusst die Lautstärke ihrer Wiedergabe.

Einweganalyse der Varianz

(Praktische Umsetzung in Microsoft Office 2013)

Betrachten Sie im selben Beispiel die einseitige Varianzanalyse in Microsoft Office 2013

Lösen eines Problems in Microsoft Excel

Lassen Sie uns Microsoft Excel öffnen.


Abbildung 1. Schreiben von Daten in Excel

Konvertieren wir die Daten in ein Zahlenformat. Dazu gibt es auf der Hauptregisterkarte ein Element Format und es hat einen Unterabsatz Zellformat . Das Fenster Zellen formatieren wird auf dem Bildschirm angezeigt. Reis. 2 Wählen Sie Zahlenformat und die eingegebenen Daten werden konvertiert. Wie in Abb. 3 gezeigt

Abbildung 2 In numerisches Format konvertieren

Abbildung 3 Ergebnis nach Konvertierung

Auf der Registerkarte Daten befindet sich ein Element Datenanalyse lass es uns anklicken.

Wählen wir Einweg-Varianzanalyse

Abbildung 6 Datenanalyse

Das Fenster Einweg-Varianzanalyse erscheint auf dem Bildschirm zur Durchführung der Streuungsanalyse der Daten (Abb. 7). Lassen Sie uns die Parameter konfigurieren

Reis. 7 Parameter für die univariate Analyse einstellen

Klicken Sie mit der Maus in das Feld Eingabeintervall. Wählen Sie den Zellbereich B2::F9, die Daten, die Sie analysieren möchten. Im Feld Eingabeabstand der Kontrollgruppe Eingaben erscheint der angegebene Bereich.

Wenn der zeilenweise Schalter in der Kontrollgruppe Eingabedaten nicht gesetzt ist, dann wählen Sie ihn aus, damit das Excel-Programm Datengruppen zeilenweise akzeptiert.

Optional Aktivieren Sie das Kontrollkästchen Labels in First Row in der Gruppe Inputs Controls, wenn die erste Spalte des ausgewählten Datenbereichs Zeilennamen enthält.

Im Eingabefeld Alpha der Kontrollgruppe Eingabedaten wird standardmäßig der Wert 0,05 angezeigt, der der Wahrscheinlichkeit eines Fehlers bei der Varianzanalyse zugeordnet ist.

Wenn der Ausgabeintervallschalter nicht in der Gruppe der Ausgabeparameter der Steuerelemente eingestellt ist, stellen Sie ihn ein oder wählen Sie den neuen Arbeitsblattschalter, damit die Daten auf ein neues Blatt übertragen werden.

Klicken Sie auf die Schaltfläche OK, um das Fenster Einfache ANOVA zu schließen. Die Ergebnisse der Varianzanalyse werden angezeigt (Abb. 8).

Abbildung 8 Datenausgabe

Der Zellbereich A4:E7 enthält die Ergebnisse der deskriptiven Statistik. Zeile 4 enthält die Namen der Parameter, Zeilen 5 - 7 - statistische Werte, die nach Chargen berechnet werden. Die Spalte „Score“ enthält die Anzahl der Messungen, die Spalte „Summe“ die Summen der Werte, die Spalte „Average“ die arithmetischen Mittelwerte und die Spalte „Streuung“ die Streuungen.

Die erhaltenen Ergebnisse zeigen, dass die höchste durchschnittliche Bruchlast in Charge Nr. 1, und größte Abweichung Bruchlast - in Chargen Nr. 2, Nr. 1.

Der Bereich der Zellen A10:G15 zeigt Informationen zur Signifikanz von Abweichungen zwischen Datengruppen an. Zeile 11 enthält die Namen der Varianzanalyse-Parameter, Zeile 12 - die Ergebnisse der gruppeninternen Verarbeitung, Zeile 13 - die Ergebnisse der gruppeninternen Verarbeitung und Zeile 15 - die Summe der Werte dieser beiden Zeilen.

Die Spalte SS enthält die Variationswerte, d. h. Summen der Quadrate über alle Abweichungen. Variation, wie Streuung, charakterisiert die Verbreitung von Daten.

Die Spalte df enthält die Werte der Anzahl der Freiheitsgrade. Diese Zahlen geben die Anzahl der unabhängigen Abweichungen an, über die die Varianz berechnet wird. Beispielsweise ist die Anzahl der Freiheitsgrade zwischen den Gruppen gleich der Differenz zwischen der Anzahl der Datengruppen und eins. Je größer die Zahl der Freiheitsgrade ist, desto höher ist die Zuverlässigkeit der Dispersionsparameter. Die Daten zu den Freiheitsgraden in der Tabelle zeigen, dass die Ergebnisse innerhalb der Gruppe zuverlässiger sind als die Parameter zwischen den Gruppen.

Die Spalte MS enthält die Streuungswerte, die durch das Variationsverhältnis und die Anzahl der Freiheitsgrade bestimmt werden. Streuung charakterisiert den Grad der Streuung von Daten, hat aber im Gegensatz zur Größe der Variation keine direkte Tendenz, mit zunehmender Anzahl von Freiheitsgraden zuzunehmen. Die Tabelle zeigt, dass die Intergruppenvarianz viel größer ist als die Intragruppenvarianz.

Spalte F enthält den Wert der F-Statistik, berechnet aus dem Verhältnis der Intergruppen- und Intragruppenvarianzen.

Die Spalte F-kritisch enthält den aus der Anzahl der Freiheitsgrade und dem Wert von Alpha berechneten F-kritischen Wert. F-Statistik und F-kritischer Wert verwenden den Fisher-Snedekor-Test.

Wenn die F-Statistik größer als der F-kritische Wert ist, kann argumentiert werden, dass die Unterschiede zwischen Datengruppen nicht zufällig sind. jene. auf Signifikanzniveau α = 0 .05 (mit einer Zuverlässigkeit von 0,95) wird die Nullhypothese verworfen und die Alternative akzeptiert, dass die Geschwindigkeit der Präsentation von Wörtern die Lautstärke ihrer Wiedergabe beeinflusst. Die Spalte P-Wert enthält die Wahrscheinlichkeit, dass der Unterschied zwischen den Gruppen zufällig ist. Da diese Wahrscheinlichkeit in der Tabelle sehr klein ist, ist die Abweichung zwischen den Gruppen nicht zufällig.

Vergleich von IBM SPSS Statistics 20 und Microsoft Office 2013

Ein-Faktor-Varianz-Zufallsprogramm

Schauen wir uns die Ausgaben der Programme an, dazu schauen wir uns nochmal die Screenshots an.

Einweganalyse der Varianzgruppe Quadratsumme St.Lm Mittelquadrat FZn Zwischen Gruppen31,444215,7227,447,006 Innerhalb von Gruppen31,667152,111Gesamt63,11117

So erzeugt das Programm IBM SPSS Statistics 20 eine bessere Punktzahl, kann Zahlen runden, ein visuelles Diagramm erstellen (siehe vollständige Lösung), anhand dessen Sie die Antwort bestimmen können, und es beschreibt detaillierter sowohl die Bedingungen des Problems als auch ihre Lösung. Microsoft Office 2013 hat seine Vorteile, erstens natürlich seine Verbreitung, da Microsoft Office 2013 auf fast jedem Computer installiert ist, es Fcritical anzeigt, was in SPSS Statistics nicht vorgesehen ist, und es dort auch einfach und bequem zu berechnen ist. Dennoch sind diese beiden Programme sehr gut geeignet, um Probleme für die einfache ANOVA zu lösen, jedes von ihnen hat seine Vor- und Nachteile, aber wenn Sie große Probleme mit großen Bedingungen betrachten, würde ich SPSS Statistics empfehlen.

Fazit

Varianzanalysen werden in allen Bereichen angewendet wissenschaftliche Forschung, wo es notwendig ist, den Einfluss zu analysieren verschiedene Faktoren auf die untersuchte Variable. BEI moderne Welt Es gibt viele Aufgaben für die Einzelfaktor-Varianzanalyse in Ökonomie, Psychologie und Biologie. Als Ergebnis des Studiums des theoretischen Materials wurde festgestellt, dass die Grundlage der Varianzanalyse das Theorem über die Addition von Varianzen ist, aus den vielen Softwarepaketen, in denen der Apparat der Varianzanalyse implementiert ist, wurden die besten ausgewählt und in sie aufgenommen die Arbeit. Dank des Aufkommens neuer Technologien kann jeder von uns mit Computern Forschung (Entscheidungen) durchführen und dabei weniger Zeit und Mühe für Berechnungen aufwenden. Im Arbeitsprozess wurden Ziele gesetzt, Aufgaben erfüllt.

Liste der Literatur

Sidorenko, E.V. Methoden der mathematischen Verarbeitung in der Psychologie [Text] / St. Petersburg. 2011. - 256 S.

Mathematische Statistik für Psychologen Ermolaev O.Yu [Text] / Moskau_2009 -336s

Vorlesung 7. Analytische Statistik [Elektronische Ressource]. , Zugriffsdatum: 14.05.14

Wahrscheinlichkeitstheorie und mathematische Statistik [Text] / Gmurman V.E. 2010 -479s

In diesem Thema wird nur die unidirektionale Varianzanalyse betrachtet, die für nicht zusammenhängende Stichproben verwendet wird. In Bezug auf das Grundkonzept der Varianz basiert diese Analyse auf der Berechnung von Varianzen dreier Arten:

Die für den gesamten Satz experimenteller Daten berechnete Gesamtvarianz;

Varianz innerhalb der Gruppe, die die Variabilität eines Merkmals in jeder Stichprobe charakterisiert;

Intergruppenstreuung, die die Variabilität der Gruppenmittelwerte charakterisiert.

Die Hauptposition der Varianzanalyse besagt: Die Gesamtvarianz ist gleich der Summe der Intragruppen- und Intergruppenvarianzen.

Diese Position kann als Gleichung geschrieben werden:

wo xij- Werte aller im Experiment erhaltenen Variablen; während der Index j variiert zwischen 1 Vor R, wo R- die Anzahl der verglichenen Proben, es können drei oder mehr sein; Index ich entspricht der Anzahl der Elemente in der Probe (es können zwei oder mehr sein);

Der Gesamtdurchschnitt des gesamten analysierten Datensatzes;

Mittel j Proben;

N- die Gesamtzahl aller Elemente im analysierten Satz experimenteller Daten;

R- Anzahl der Versuchsproben.

Lassen Sie uns diese Gleichung genauer analysieren.

Lass uns haben R Gruppen (Proben). Bei der ANOVA wird jede Probe als einzelne Spalte (oder Zeile) mit Zahlen dargestellt. Um dann auf eine bestimmte Gruppe (Probe) verweisen zu können, wird ein Index eingeführt j, die sich entsprechend ab ändert j= 1 zu j= r. Wenn wir zum Beispiel 5 Gruppen (Stichproben) haben, dann ist p=5 und der Index jändert sich entsprechend ab j= 1 zu j= 5.

Stellen wir uns der Aufgabe, ein bestimmtes Element (Messwert) einer Probe zu spezifizieren. Dazu müssen wir die Nummer dieser Probe, zum Beispiel 4, und die Position des Elements (Messwert) in dieser Probe kennen. Dieses Element kann sich in der Auswahl vom ersten Wert (erste Zeile) bis zum letzten (letzte Zeile) befinden. Lassen Sie unser erforderliches Element in der fünften Zeile liegen. Dann lautet seine Notation: x 54 . Dies bedeutet, dass das fünfte Element in der Zeile aus dem vierten Sample ausgewählt wird.

Im Allgemeinen kann in jeder Gruppe (Probe) die Anzahl ihrer Bestandteile unterschiedlich sein - daher bezeichnen wir die Anzahl der Elemente in j Gruppe (Probe) durch NJ. Die im Experiment erhaltenen Werte des Merkmals in j Gruppe bezeichnet mit xij, wo ich= 1, 2, ... n ist die laufende Nummer der Beobachtung in j Gruppe.

Es ist ratsam, weitere Überlegungen auf der Grundlage von Tabelle 35 anzustellen. Beachten Sie jedoch, dass die Proben in dieser Tabelle zur Vereinfachung der weiteren Überlegungen nicht als Spalten, sondern als Zeilen dargestellt werden (was jedoch nicht wichtig ist).

In der letzten, letzten Zeile der Tabelle ist das Gesamtvolumen der gesamten Probe angegeben - N, die Summe aller erhaltenen Werte von G und der Gesamtdurchschnitt der gesamten Probe. Dieser Gesamtdurchschnitt ergibt sich als Summe aller Elemente des analysierten Satzes experimenteller Daten, oben mit G bezeichnet, dividiert durch die Anzahl aller Elemente N.


Die rechte Spalte der Tabelle zeigt die Mittelwerte für alle Proben. Zum Beispiel im j Probe (Zeile der Tabelle mit dem Symbol j bezeichnet) Der Wert des Durchschnitts (für die gesamte j-Probe) ist wie folgt:

Die Varianzanalyse ist ein statistisches Verfahren zur Beurteilung des Zusammenhangs zwischen Faktor und Leistungsmerkmalen in verschiedene Gruppen, zufällig ausgewählt, basierend auf der Bestimmung von Unterschieden (Diversität) von Merkmalswerten. Die Varianzanalyse basiert auf der Analyse der Abweichungen aller Einheiten der untersuchten Grundgesamtheit vom arithmetischen Mittel. Als Maß für die Abweichungen wird die Streuung (B) genommen - das durchschnittliche Quadrat der Abweichungen. Abweichungen, die durch den Einfluss eines Faktorattributs (Faktor) verursacht werden, werden mit der Größe von Abweichungen verglichen, die durch zufällige Umstände verursacht werden. Wenn die durch das Faktorattribut verursachten Abweichungen signifikanter sind als zufällige Abweichungen, wird davon ausgegangen, dass der Faktor einen signifikanten Einfluss auf das resultierende Attribut hat.

Zur Berechnung der Varianz wird der Abweichungswert jeder Option (jeder eingetragene Zahlenwert des Attributs) vom arithmetischen Mittel quadriert. Dadurch werden negative Zeichen beseitigt. Dann werden diese Abweichungen (Differenzen) aufsummiert und durch die Anzahl der Beobachtungen dividiert, d.h. Abweichungen ausmitteln. So werden die Streuungswerte erhalten.

Ein wichtiger methodischer Wert für die Anwendung der Varianzanalyse ist die korrekte Bildung der Stichprobe. Je nach Ziel und Zielsetzung können zufällig voneinander unabhängige Gruppen gebildet werden (Kontroll- und Versuchsgruppen, um einen Indikator zu untersuchen, zum Beispiel die Wirkung von Bluthochdruck auf die Entwicklung eines Schlaganfalls). Solche Stichproben werden als unabhängig bezeichnet.

Oft werden die Ergebnisse der Exposition gegenüber Faktoren in derselben Stichprobengruppe (z. B. bei denselben Patienten) vor und nach der Exposition (Behandlung, Prävention, Rehabilitationsmaßnahmen) untersucht. Solche Stichproben werden als abhängig bezeichnet.

Die Varianzanalyse, bei der der Einfluss eines Faktors geprüft wird, nennt man Einfaktoranalyse (univariate Analyse). Bei der Untersuchung des Einflusses von mehr als einem Faktor wird die multivariate Varianzanalyse (multivariate Analyse) verwendet.

Faktorzeichen sind jene Zeichen, die das untersuchte Phänomen beeinflussen.

Effektive Zeichen sind solche Zeichen, die sich unter dem Einfluss von Faktorzeichen ändern.

Bedingungen für die Verwendung der Varianzanalyse:

Die Aufgabe der Studie besteht darin, die Stärke des Einflusses eines (bis zu 3) Faktors auf das Ergebnis oder die Stärke des kombinierten Einflusses verschiedener Faktoren (Geschlecht und Alter, körperliche Aktivität und Ernährung usw.) zu bestimmen.

Die untersuchten Faktoren sollten unabhängig (ohne Bezug) zueinander sein. Beispielsweise kann man nicht den kombinierten Effekt von Berufserfahrung und Alter, Größe und Gewicht der Kinder usw. untersuchen. über die Inzidenz der Bevölkerung.

Die Auswahl der Gruppen für die Studie erfolgt nach dem Zufallsprinzip (Random Selection). Die Organisation eines Dispersionskomplexes mit der Umsetzung des Prinzips der zufälligen Auswahl von Optionen wird als Randomisierung (übersetzt aus dem Englischen - zufällig) bezeichnet, d.h. zufällig gewählt.

Es können sowohl quantitative als auch qualitative (attributive) Merkmale verwendet werden.

Bei der Durchführung einer einseitigen Varianzanalyse wird empfohlen ( notwendige Bedingung Anwendungen):

1. Die Normalität der Verteilung der analysierten Gruppen bzw. die Übereinstimmung der Stichprobengruppen mit normalverteilten Grundgesamtheiten.

2. Unabhängigkeit (Unverbundenheit) der Verteilung von Beobachtungen in Gruppen.

3. Vorhandensein von Häufigkeit (Wiederholung) von Beobachtungen.

Zunächst wird eine Nullhypothese formuliert, das heißt, es wird angenommen, dass die untersuchten Faktoren keinen Einfluss auf die Werte des resultierenden Attributs haben und die resultierenden Unterschiede zufällig sind.

Dann bestimmen wir, wie hoch die Wahrscheinlichkeit ist, die beobachteten (oder stärkeren) Unterschiede zu erhalten, vorausgesetzt, dass die Nullhypothese wahr ist.

Wenn diese Wahrscheinlichkeit gering ist, weisen wir die Nullhypothese zurück und schlussfolgern, dass die Ergebnisse der Studie statistisch signifikant sind. Damit ist die Wirkung der untersuchten Faktoren noch nicht belegt (dies ist in erster Linie eine Frage der Forschungsplanung), aber es ist dennoch unwahrscheinlich, dass das Ergebnis dem Zufall geschuldet ist.

Wenn alle Bedingungen für die Anwendung der Varianzanalyse erfüllt sind, sieht die Zerlegung der Gesamtvarianz mathematisch so aus:

Punkt. = Dfakt + D rest.,

Punkt. - die Gesamtvarianz der beobachteten Werte (Variante), gekennzeichnet durch die Streuung der Variante vom Gesamtdurchschnitt. Misst die Variation eines Merkmals in der gesamten Population unter dem Einfluss aller Faktoren, die diese Variation verursacht haben. Die Gesamtdiversität setzt sich aus Intergroup und Intragroup zusammen;

Dfact - faktorielle (Intergruppen-) Streuung, gekennzeichnet durch die Differenz der Mittelwerte in jeder Gruppe und hängt vom Einfluss des untersuchten Faktors ab, nach dem jede Gruppe differenziert wird. Beispielsweise ist in Gruppen mit unterschiedlichen ätiologischen Faktoren des klinischen Verlaufs einer Lungenentzündung das durchschnittliche Niveau des verbrachten Betttages nicht gleich - es wird eine Diversität zwischen den Gruppen beobachtet.

D Ruhe. - Restvarianz (innerhalb der Gruppe), die die Streuung der Variante innerhalb der Gruppen charakterisiert. Spiegelt zufällige Schwankungen wider, d.h. Teil der Variation, der unter dem Einfluss nicht spezifizierter Faktoren auftritt und nicht von der Eigenschaft abhängt – dem Faktor, der der Gruppierung zugrunde liegt. Die Variation des untersuchten Merkmals hängt von der Stärke des Einflusses einiger nicht berücksichtigter Zufallsfaktoren ab, sowohl von organisierten (vom Forscher angegeben) als auch von zufälligen (unbekannten) Faktoren.

Daher setzt sich die Gesamtvariation (Streuung) zusammen aus der Variation, die durch organisierte (gegebene) Faktoren verursacht wird, die faktorielle Variation genannt werden, und unorganisierten Faktoren, d.h. Restvariation (zufällig, unbekannt).

Bei einem Stichprobenumfang von n wird die Stichprobenvarianz als Summe der quadrierten Abweichungen vom Stichprobenmittelwert dividiert durch n-1 (Stichprobenumfang minus eins) berechnet. Bei festem Stichprobenumfang n ist die Varianz also eine Funktion der Summe der Quadrate (Abweichungen), die der Kürze halber mit SS bezeichnet wird (vom englischen Sum of Squares – Sum of Squares). Im Folgenden verzichten wir häufig auf das Wort „selektiv“, wohl wissend, dass es sich um eine Stichprobenvarianz bzw. eine Schätzung der Varianz handelt. Die Varianzanalyse basiert auf der Aufteilung der Varianz in Teile oder Komponenten. Betrachten Sie den folgenden Datensatz:

Die Mittelwerte der beiden Gruppen unterscheiden sich signifikant (2 bzw. 6). Die Summe der quadrierten Abweichungen innerhalb jeder Gruppe ist 2. Wenn wir sie zusammenaddieren, erhalten wir 4. Wenn wir diese Berechnungen jetzt wiederholen, ohne die Gruppenzugehörigkeit zu berücksichtigen, das heißt, wenn wir SS basierend auf dem Gesamtdurchschnitt dieser beiden Stichproben berechnen, wir erhalten einen Wert von 28. Mit anderen Worten, die Varianz (Summenquadrate) basierend auf der gruppeninternen Variabilität ergibt viel niedrigere Werte als diejenigen, die basierend auf der Gesamtvariabilität (bezogen auf den Gesamtmittelwert) berechnet werden. Der Grund dafür ist offensichtlich der signifikante Unterschied zwischen den Mittelwerten, und dieser Unterschied zwischen den Mittelwerten erklärt den bestehenden Unterschied zwischen den Quadratsummen.

SS St. St. FRAU F p
Wirkung 24.0 24.0 24.0 .008
Fehler 4.0 1.0

Wie aus der Tabelle ersichtlich ist, wird die Gesamtsumme der Quadrate SS = 28 in Komponenten unterteilt: die Summe der Quadrate aufgrund der Variabilität innerhalb der Gruppe (2+2=4; siehe zweite Zeile der Tabelle) und die Summe von Quadrate aufgrund der unterschiedlichen Mittelwerte zwischen den Gruppen (28-(2+2)=24; siehe erste Zeile der Tabelle). Beachten Sie, dass MS in dieser Tabelle das mittlere Quadrat gleich SS dividiert durch die Anzahl der Freiheitsgrade (stdf) ist.

Im obigen einfachen Beispiel könnten Sie den t-Test für unabhängige Stichproben sofort berechnen. Die erhaltenen Ergebnisse stimmen natürlich mit den Ergebnissen der Varianzanalyse überein.

Situationen, in denen ein Phänomen vollständig durch eine Variable beschrieben wird, sind jedoch äußerst selten. Wenn wir zum Beispiel versuchen zu lernen, wie man große Tomaten anbaut, sollten wir Faktoren berücksichtigen, die mit der genetischen Struktur der Pflanzen, der Bodenart, dem Licht, der Temperatur usw. zusammenhängen. Bei der Durchführung eines typischen Experiments müssen Sie sich also mit einer Vielzahl von Faktoren auseinandersetzen. Der Hauptgrund, warum die Verwendung von ANOVA dem erneuten Vergleich zweier Stichproben auf unterschiedlichen Faktorniveaus unter Verwendung von t-Testreihen vorzuziehen ist, besteht darin, dass die ANOVA wesentlich effizienter und bei kleinen Stichproben informativer ist.

Angenommen, wir fügen in dem oben diskutierten Analysebeispiel mit zwei Stichproben einen weiteren Faktor hinzu, z. B. das Geschlecht. Lassen Sie nun jede Gruppe aus 3 Männern und 3 Frauen bestehen. Der Plan dieses Experiments kann in Form einer Tabelle dargestellt werden:

Bevor Sie die Berechnungen durchführen, können Sie sehen, dass in diesem Beispiel die Gesamtvarianz mindestens drei Quellen hat:

1) Zufallsfehler (Intragruppenvarianz),

2) Variabilität im Zusammenhang mit der Zugehörigkeit zur Versuchsgruppe

3) Variabilität aufgrund des Geschlechts der Beobachtungsobjekte.

Beachten Sie, dass es eine weitere mögliche Quelle der Variabilität gibt – die Wechselwirkung von Faktoren, die wir später besprechen werden). Was passiert, wenn wir das Geschlecht nicht als Faktor in unsere Analyse einbeziehen und den üblichen t-Test berechnen? Wenn wir Quadratsummen berechnen, die das Geschlecht ignorieren (d. h. Objekte unterschiedlichen Geschlechts zu einer Gruppe zusammenfassen, wenn die Varianz innerhalb der Gruppe berechnet wird, und so die Summe der Quadrate für jede Gruppe gleich SS = 10 und die Gesamtsumme der Quadrate SS = 10 + 10 erhalten = 20) , dann erhalten wir einen größeren Wert gruppeninterne Varianz als in einer genaueren Analyse mit zusätzlicher Untergruppierung nach Geschlecht (mit Mittelwerten innerhalb der Gruppe gleich 2 und der Summe der Quadrate innerhalb der Gruppe gleich SS = 2+2+2+2 = 8).

Mit der Einführung eines zusätzlichen Faktors, nämlich des Geschlechts, verringerte sich die Restvarianz. Dies liegt daran, dass der männliche Mittelwert kleiner ist als der weibliche Mittelwert, und dieser Mittelwertunterschied die Gesamtvariabilität innerhalb der Gruppe erhöht, wenn das Geschlecht nicht berücksichtigt wird. Die Steuerung der Fehlervarianz erhöht die Sensitivität (Power) des Tests.

Dieses Beispiel zeigt einen weiteren Vorteil der Varianzanalyse gegenüber dem üblichen t-Test bei zwei Stichproben. Die Varianzanalyse ermöglicht es Ihnen, jeden Faktor zu untersuchen, indem Sie die Werte anderer Faktoren kontrollieren. Dies ist in der Tat der Hauptgrund für seine größere statistische Aussagekraft (kleinere Stichprobenumfänge sind erforderlich, um aussagekräftige Ergebnisse zu erhalten). Aus diesem Grund liefert die Varianzanalyse selbst bei kleinen Stichproben statistisch signifikantere Ergebnisse als ein einfacher t-Test.

Die Varianzanalyse ist eine Reihe von statistischen Methoden, die entwickelt wurden, um Hypothesen über die Beziehung zwischen bestimmten Merkmalen und den untersuchten Faktoren zu testen, die keine quantitative Beschreibung haben, sowie um den Grad des Einflusses von Faktoren und ihrer Wechselwirkung festzustellen. In der Fachliteratur wird sie oft als ANOVA (vom englischen Namen Analysis of Variations) bezeichnet. Diese Methode wurde erstmals 1925 von R. Fischer entwickelt.

Arten und Kriterien der Varianzanalyse

Mit dieser Methode wird die Beziehung zwischen qualitativen (nominalen) Merkmalen und einer quantitativen (kontinuierlichen) Variablen untersucht. Tatsächlich testet es die Hypothese über die Gleichheit der arithmetischen Mittel mehrerer Stichproben. Daher kann es als parametrisches Kriterium zum gleichzeitigen Vergleich der Zentren mehrerer Proben betrachtet werden. Wenn Sie diese Methode für zwei Stichproben verwenden, sind die Ergebnisse der Varianzanalyse mit den Ergebnissen des Student-t-Tests identisch. Im Gegensatz zu anderen Kriterien ermöglicht Ihnen diese Studie jedoch, das Problem genauer zu untersuchen.

Die Varianzanalyse in der Statistik basiert auf dem Gesetz: Die Summe der quadrierten Abweichungen der kombinierten Stichprobe ist gleich der Summe der Quadrate der Abweichungen innerhalb der Gruppe und der Summe der Quadrate der Abweichungen zwischen den Gruppen. Für die Studie wird der Fisher-Test verwendet, um die Signifikanz des Unterschieds festzustellen Intergruppenvarianzen aus der Gruppe. Notwendige Voraussetzungen hierfür sind jedoch die Normalverteilung der Verteilung und die Homoskedastizität (Varianzgleichheit) der Stichproben. Unterscheiden Sie zwischen eindimensionaler (einfaktorieller) Varianzanalyse und multivariater (multifaktorieller) Analyse. Der erste berücksichtigt die Abhängigkeit des untersuchten Werts von einem Attribut, der zweite - von vielen gleichzeitig, und ermöglicht es Ihnen auch, die Beziehung zwischen ihnen zu identifizieren.

Faktoren

Faktoren werden als kontrollierte Umstände bezeichnet, die das Endergebnis beeinflussen. Seine Verarbeitungsstufe oder -methode wird als Wert bezeichnet, der die spezifische Manifestation dieses Zustands charakterisiert. Diese Zahlen werden normalerweise in einer nominalen oder ordinalen Messskala angegeben. Oft werden Ausgabewerte auf quantitativen oder ordinalen Skalen gemessen. Dann besteht das Problem, die Ausgabedaten in einer Reihe von Beobachtungen zu gruppieren, die ungefähr den gleichen numerischen Werten entsprechen. Wenn die Anzahl der Gruppen zu groß ist, reicht die Anzahl der Beobachtungen in ihnen möglicherweise nicht aus, um zuverlässige Ergebnisse zu erhalten. Wird die Anzahl zu klein gewählt, kann dies zum Verlust wesentlicher Einflussmerkmale auf das System führen. Die spezifische Methode der Gruppierung von Daten hängt von Umfang und Art der Wertschwankung ab. Die Anzahl und Größe der Intervalle in der univariaten Analyse werden meistens durch das Prinzip gleicher Intervalle oder durch das Prinzip gleicher Häufigkeiten bestimmt.

Aufgaben der Ausbreitungsanalyse

Es gibt also Fälle, in denen Sie zwei oder mehr Proben vergleichen müssen. Dann ist es ratsam, die Varianzanalyse zu verwenden. Der Name der Methode weist darauf hin, dass die Schlussfolgerungen auf der Grundlage der Untersuchung der Komponenten der Varianz gezogen werden. Das Wesentliche der Studie ist, dass die Gesamtänderung des Indikators in Komponenten unterteilt wird, die der Wirkung jedes einzelnen Faktors entsprechen. Betrachten Sie eine Reihe von Problemen, die eine typische Varianzanalyse löst.

Beispiel 1

Die Werkstatt verfügt über eine Reihe von Werkzeugmaschinen - automatische Maschinen, die ein bestimmtes Teil herstellen. Die Größe jedes Teils ist ein zufälliger Wert, der von den Einstellungen jeder Maschine und zufälligen Abweichungen abhängt, die während des Herstellungsprozesses der Teile auftreten. Anhand der Abmessungen der Teile muss festgestellt werden, ob die Maschinen gleich aufgebaut sind.

Beispiel 2

Bei der Herstellung eines elektrischen Geräts werden verschiedene Arten von Isolierpapier verwendet: Kondensator, Elektro usw. Das Gerät kann mit verschiedenen Substanzen imprägniert werden: Epoxidharz, Lack, ML-2-Harz usw. Lecks können unter Vakuum bei beseitigt werden Bluthochdruck, beim Erhitzen. Es kann durch Eintauchen in Lack, unter einem kontinuierlichen Lackstrom usw. imprägniert werden. Das gesamte elektrische Gerät wird mit einer bestimmten Masse gegossen, von der es mehrere Möglichkeiten gibt. Qualitätsindikatoren sind die Spannungsfestigkeit der Isolierung, die Überhitzungstemperatur der Wicklung im Betriebszustand und einige andere. Während der Entwicklung des technologischen Prozesses zur Herstellung von Geräten muss festgestellt werden, wie sich jeder der aufgeführten Faktoren auf die Leistung des Geräts auswirkt.

Beispiel 3

Das Trolleybusdepot bedient mehrere Trolleybuslinien. Sie betreiben Trolleybusse verschiedener Typen, und 125 Inspektoren sammeln Fahrpreise. Die Verwaltung des Depots interessiert sich für die Frage: Wie kann man die wirtschaftliche Leistung jedes Controllers (Einnahmen) angesichts der verschiedenen Linien, verschiedenen Arten von Trolleybussen vergleichen? Wie kann die wirtschaftliche Machbarkeit des Starts von Oberleitungsbussen eines bestimmten Typs auf einer bestimmten Strecke bestimmt werden? Wie können angemessene Anforderungen für die Höhe der Einnahmen festgelegt werden, die der Schaffner auf jeder Strecke in verschiedenen Arten von Oberleitungsbussen erzielt?

Die Aufgabe bei der Auswahl einer Methode besteht darin, maximale Informationen über die Auswirkungen auf das Endergebnis jedes Faktors zu erhalten, die numerischen Merkmale einer solchen Auswirkung und ihre Zuverlässigkeit zu minimalen Kosten und in kürzester Zeit zu bestimmen. Methoden der Dispersionsanalyse ermöglichen es, solche Probleme zu lösen.

Univariate Analyse

Die Studie zielt darauf ab, das Ausmaß der Auswirkungen eines bestimmten Falls auf die zu analysierende Überprüfung zu bewerten. Eine weitere Aufgabe der univariaten Analyse kann darin bestehen, zwei oder mehr Umstände miteinander zu vergleichen, um den Unterschied in ihrem Einfluss auf die Erinnerung zu ermitteln. Wenn die Nullhypothese abgelehnt wird, besteht der nächste Schritt darin, zu quantifizieren und zu bauen Vertrauensintervalle für die erhaltenen Eigenschaften. Falls die Nullhypothese nicht abgelehnt werden kann, wird sie normalerweise akzeptiert und es wird eine Schlussfolgerung über die Art des Einflusses gezogen.

Die Einweg-Varianzanalyse kann zu einem nichtparametrischen Analogon werden Rang Methode Kruskal-Wallis. Er wurde 1952 von dem amerikanischen Mathematiker William Kruskal und dem Ökonomen Wilson Wallis entwickelt. Dieser Test soll die Nullhypothese testen, dass die Auswirkungen von Einflüssen auf die untersuchten Stichproben bei unbekannten, aber gleichen Mittelwerten gleich sind. In diesem Fall muss die Anzahl der Proben größer als zwei sein.

Das Jonkhier-Kriterium (Jonkhier-Terpstra) wurde 1952 unabhängig vom holländischen Mathematiker T. J. Terpstrom und 1954 vom britischen Psychologen E. R. Jonkhier vorgeschlagen. Es wird verwendet, wenn im Voraus bekannt ist, dass die verfügbaren Gruppen von Ergebnissen nach einer Zunahme von geordnet sind Einfluss des untersuchten Faktors, der auf einer ordinalen Skala gemessen wird.

M - Das Bartlett-Kriterium, das 1937 vom britischen Statistiker Maurice Stevenson Bartlett vorgeschlagen wurde, wird verwendet, um die Nullhypothese über die Gleichheit der Varianzen mehrerer Normalen zu testen Bevölkerungen, aus denen die untersuchten Proben entnommen werden, im Allgemeinen mit unterschiedlichem Volumen (die Anzahl jeder Probe muss mindestens vier betragen).

G ist der Cochran-Test, der 1941 von dem Amerikaner William Gemmel Cochran entdeckt wurde. Er wird verwendet, um die Nullhypothese über die Gleichheit der Varianzen von Normalpopulationen für unabhängige Stichproben gleicher Größe zu testen.

Der nichtparametrische Levene-Test, der 1960 vom amerikanischen Mathematiker Howard Levene vorgeschlagen wurde, ist eine Alternative zum Bartlett-Test unter Bedingungen, bei denen es keine Gewissheit gibt, dass die untersuchten Stichproben gehorchen Normalverteilung.

1974 schlugen die amerikanischen Statistiker Morton B. Brown und Alan B. Forsythe einen Test vor (den Brown-Forsyth-Test), der sich etwas vom Levene-Test unterscheidet.

Zwei-Wege-Analyse

Die Zweiweg-Varianzanalyse wird für verknüpfte normalverteilte Stichproben verwendet. In der Praxis werden häufig komplexe Tabellen dieses Verfahrens verwendet, insbesondere solche, bei denen jede Zelle einen Datensatz (Wiederholungsmessungen) enthält, der festen Pegelwerten entspricht. Sind die für die Anwendung der zweifachen Varianzanalyse notwendigen Annahmen nicht erfüllt, wird der nichtparametrische Friedman-Rangtest (Friedman, Kendall und Smith) verwendet, der Ende 1930 von dem amerikanischen Ökonomen Milton Friedman entwickelt wurde Das Kriterium hängt nicht von der Art der Verteilung ab.

Es wird lediglich angenommen, dass die Verteilung der Größen gleich und stetig ist und dass sie selbst unabhängig voneinander sind. Beim Testen der Nullhypothese werden die Ausgabedaten in Form einer rechteckigen Matrix dargestellt, in der die Zeilen den Stufen von Faktor B und die Spalten den Stufen A entsprechen. Jede Zelle der Tabelle (Block) kann die sein Ergebnis von Messungen von Parametern an einem Objekt oder an einer Gruppe von Objekten mit konstanten Werten der Ebenen beider Faktoren . In diesem Fall werden die entsprechenden Daten als Durchschnittswerte eines bestimmten Parameters für alle Messungen oder Objekte der untersuchten Probe dargestellt. Um das Ausgabekriterium anzuwenden, ist es notwendig, von den direkten Ergebnissen der Messungen zu ihrem Rang überzugehen. Das Ranking wird für jede Zeile separat durchgeführt, das heißt, die Werte werden für jeden festen Wert geordnet.

Der Page-Test (L-Test), der 1963 vom amerikanischen Statistiker E. B. Page vorgeschlagen wurde, dient der Prüfung der Nullhypothese. Für große Stichproben wird die Page-Näherung verwendet. Sie gehorchen, vorbehaltlich der Realität der entsprechenden Nullhypothesen, der Standardnormalverteilung. Falls die Zeilen der Quelltabelle dieselben Werte haben, müssen die durchschnittlichen Ränge verwendet werden. In diesem Fall ist die Genauigkeit der Schlussfolgerungen umso schlechter, je größer die Anzahl solcher Zufälle ist.

Q - Cochran-Kriterium, vorgeschlagen von V. Cochran im Jahr 1937. Es wird in Fällen verwendet, in denen Gruppen homogener Probanden mehr als zwei Einflüssen ausgesetzt sind und für die zwei Antwortoptionen möglich sind - bedingt negativ (0) und bedingt positiv (1) . Die Nullhypothese besteht in der Gleichheit der Einflusseffekte. Die Zwei-Wege-Varianzanalyse ermöglicht es, das Vorhandensein von Verarbeitungseffekten zu bestimmen, ermöglicht es jedoch nicht, zu bestimmen, für welche Spalten dieser Effekt existiert. Um dieses Problem zu lösen, wurde das Verfahren mehrere Gleichungen Scheffe für verlinkte Muster.

Multivariate Analyse

Das Problem der multivariaten Varianzanalyse entsteht, wenn es gilt, den Einfluss von zwei oder mehr Bedingungen auf eine bestimmte Zufallsvariable zu bestimmen. Die Studie sieht die Anwesenheit eines Angehörigen vor zufällige Variable, gemessen in einer Skala von Differenzen oder Verhältnissen, und mehreren unabhängigen Werten, von denen jeder in einer Namensskala oder in einem Rang ausgedrückt wird. Die Streuungsanalyse von Daten ist ein ziemlich entwickelter Zweig der mathematischen Statistik, der viele Optionen bietet. Das Konzept der Studie ist sowohl für univariate als auch für multivariate Studien üblich. Das ist seine Essenz Gesamtvarianz in Komponenten unterteilt, was einer bestimmten Gruppierung von Daten entspricht. Jede Gruppierung von Daten hat ihr eigenes Modell. Hier werden wir nur die wichtigsten Bestimmungen betrachten, die zum Verständnis und notwendig sind praktischer Nutzen die am häufigsten verwendeten Optionen.

Die Faktorenvarianzanalyse erfordert sorgfältige Aufmerksamkeit bei der Erhebung und Präsentation von Eingabedaten und insbesondere bei der Interpretation der Ergebnisse. Im Gegensatz zum Einfaktor, dessen Ergebnisse bedingt in eine bestimmte Reihenfolge gebracht werden können, erfordern die Ergebnisse des Zweifaktors eine komplexere Darstellung. Eine noch schwierigere Situation entsteht, wenn drei, vier oder mehr Umstände vorliegen. Aus diesem Grund enthält das Modell selten mehr als drei (vier) Bedingungen. Ein Beispiel wäre das Auftreten von Resonanz bei einem bestimmten Wert von Kapazität und Induktivität des elektrischen Kreises; Manifestation chemische Reaktion mit einem bestimmten Satz von Elementen, aus denen das System aufgebaut ist; das Auftreten anomaler Effekte in komplexen Systemen unter einem bestimmten Zusammentreffen von Umständen. Das Vorhandensein von Wechselwirkungen kann das Modell des Systems radikal verändern und manchmal dazu führen, dass die Natur der Phänomene, mit denen sich der Experimentator befasst, neu überdacht wird.

Multivariate Varianzanalyse mit wiederholten Experimenten

Messdaten können oft nicht nach zwei, sondern nach mehr Faktoren gruppiert werden. Wenn wir also die Streuungsanalyse der Lebensdauer von Reifen für Trolleybusräder unter Berücksichtigung der Umstände (Hersteller und Strecke, auf der Reifen verwendet werden) betrachten, können wir die Jahreszeit, in der Reifen verwendet werden, als separate Bedingung herausgreifen genutzt (nämlich: Winter- und Sommerbetrieb). Als Ergebnis haben wir das Problem der Drei-Faktoren-Methode.

Bei Vorliegen weiterer Bedingungen ist der Ansatz derselbe wie bei der Zwei-Wege-Analyse. In allen Fällen versucht das Modell zu vereinfachen. Das Phänomen der Wechselwirkung zweier Faktoren tritt nicht so oft auf, und die dreifache Wechselwirkung tritt nur in Ausnahmefällen auf. Nehmen Sie diejenigen Interaktionen auf, für die es vorherige Informationen und gute Gründe gibt, diese in das Modell einzubeziehen. Der Prozess, einzelne Faktoren zu isolieren und zu berücksichtigen, ist relativ einfach. Daher besteht häufig der Wunsch, weitere Umstände hervorzuheben. Davon sollte man sich nicht mitreißen lassen. Wie mehr Bedingungen, je unzuverlässiger das Modell wird und desto größer die Fehlerwahrscheinlichkeit. Das Modell selbst, das eine große Anzahl unabhängiger Variablen enthält, wird ziemlich schwierig zu interpretieren und für die praktische Verwendung unbequem.

Allgemeine Idee der Varianzanalyse

Die Varianzanalyse in der Statistik ist eine Methode, um Beobachtungsergebnisse zu erhalten, die von verschiedenen gleichzeitigen Umständen abhängen, und deren Einfluss zu bewerten. Als Faktor wird eine Regelgröße bezeichnet, die der Art der Beeinflussung des Untersuchungsgegenstandes entspricht und in einem bestimmten Zeitraum einen bestimmten Wert annimmt. Sie können qualitativ und quantitativ sein. Niveaus quantitativer Bedingungen erhalten einen bestimmten Wert auf einer numerischen Skala. Beispiele sind Temperatur, Pressdruck, Stoffmenge. Qualitative Faktoren sind unterschiedliche Stoffe, unterschiedliche technologische Verfahren, Apparate, Füllstoffe. Ihre Ebenen entsprechen der Namensskala.

Zur Qualität gehören auch die Art des Verpackungsmaterials, die Lagerbedingungen der Darreichungsform. Es ist auch sinnvoll, den Mahlgrad von Rohstoffen, die fraktionierte Zusammensetzung von Granulaten, die einen quantitativen Wert haben, aber schwer zu regulieren sind, einzubeziehen, wenn eine quantitative Skala verwendet wird. Die Anzahl der Qualitätsfaktoren hängt von der Art der Darreichungsform sowie den physikalischen und technologischen Eigenschaften von Arzneistoffen ab. Beispielsweise können Tabletten aus kristallinen Substanzen durch direktes Verpressen erhalten werden. In diesem Fall genügt es, die Auswahl der Gleit- und Schmiermittel vorzunehmen.

Beispiele für Qualitätsfaktoren für verschiedene Arten von Darreichungsformen

  • Tinkturen. Extraktionsmittelzusammensetzung, Art des Extraktors, Rohstoffaufbereitungsverfahren, Produktionsverfahren, Filtrationsverfahren.
  • Extrakte (flüssig, dickflüssig, trocken). Die Zusammensetzung des Extraktionsmittels, das Extraktionsverfahren, die Anlagenart, das Verfahren zur Entfernung der Extraktionsmittel und Ballaststoffe.
  • Tablets. Zusammensetzung aus Hilfsstoffen, Füllstoffen, Sprengmitteln, Bindemitteln, Gleit- und Gleitmitteln. Die Methode zur Herstellung von Tabletten, die Art der technologischen Ausrüstung. Art der Hülle und ihrer Bestandteile, Filmbildner, Pigmente, Farbstoffe, Weichmacher, Lösungsmittel.
  • Injektionslösungen. Art des Lösungsmittels, Filtrationsverfahren, Art der Stabilisatoren und Konservierungsmittel, Sterilisationsbedingungen, Art der Ampullenabfüllung.
  • Zäpfchen. Die Zusammensetzung der Zäpfchenbasis, das Verfahren zur Herstellung von Zäpfchen, Füllstoffen, Verpackung.
  • Salben. Zusammensetzung der Basis, Strukturbestandteile, Herstellungsverfahren der Salbe, Art der Ausrüstung, Verpackung.
  • Kapseln. Art des Hüllmaterials, Art der Kapselgewinnung, Art des Weichmachers, Konservierungsmittel, Farbstoff.
  • Einreibungen. Herstellungsverfahren, Zusammensetzung, Art der Ausrüstung, Art des Emulgators.
  • Aussetzungen. Art des Lösungsmittels, Art des Stabilisators, Dispergiermethode.

Beispiele für Qualitätsfaktoren und deren Niveaus, die im Herstellungsprozess von Tabletten untersucht wurden

  • Backpulver. Kartoffelstärke, weißer Ton, eine Mischung aus Natriumbicarbonat mit Zitronensäure, basisches Magnesiumcarbonat.
  • Bindungslösung. Wasser, Stärkepaste, Zuckersirup, Methylcelluloselösung, Hydroxypropylmethylcelluloselösung, Polyvinylpyrrolidonlösung, Polyvinylalkohollösung.
  • Gleitsubstanz. Aerosil, Stärke, Talk.
  • Füllstoff. Zucker, Glucose, Lactose, Natriumchlorid, Calciumphosphat.
  • Schmiermittel. Stearinsäure, Polyethylenglycol, Paraffin.

Modelle der Streuungsanalyse bei der Untersuchung des Wettbewerbsniveaus des Staates

Eines der wichtigsten Kriterien für die Beurteilung des Zustands des Staates, anhand dessen das Niveau seines Wohlstands und seiner sozioökonomischen Entwicklung beurteilt wird, ist die Wettbewerbsfähigkeit, dh eine Reihe von Eigenschaften, die ihm innewohnen nationale Wirtschaft, die die Wettbewerbsfähigkeit des Staates gegenüber anderen Ländern bestimmen. Nachdem der Platz und die Rolle des Staates auf dem Weltmarkt bestimmt wurden, ist es möglich, eine klare Strategie zur Gewährleistung der wirtschaftlichen Sicherheit auf internationaler Ebene festzulegen, da dies der Schlüssel zu positiven Beziehungen zwischen Russland und allen Akteuren auf dem Weltmarkt ist: Investoren , Gläubiger, Landesregierungen.

Um das Niveau der Wettbewerbsfähigkeit von Staaten zu vergleichen, werden die Länder anhand komplexer Indizes eingestuft, die verschiedene gewichtete Indikatoren enthalten. Diese Indizes basieren auf Schlüsselfaktoren die sich auf die wirtschaftliche, politische usw. Situation auswirken. Der Modellkomplex zur Untersuchung der Wettbewerbsfähigkeit des Staates sieht die Verwendung von Methoden der multivariaten statistischen Analyse vor (insbesondere Varianzanalyse (Statistik), ökonometrische Modellierung, Entscheidungsfindung) und umfasst die folgenden Hauptphasen:

  1. Bildung eines Systems von Indikatoren-Indikatoren.
  2. Auswertung und Prognose von Indikatoren der Wettbewerbsfähigkeit des Staates.
  3. Vergleich der Indikatoren-Indikatoren der Wettbewerbsfähigkeit der Staaten.

Betrachten wir nun den Inhalt der Modelle der einzelnen Stufen dieses Komplexes.

In der ersten Phase Mit Hilfe von Expertenstudienmethoden wird ein angemessener Satz von Wirtschaftsindikatoren-Indikatoren zur Bewertung der Wettbewerbsfähigkeit des Staates gebildet, wobei die Besonderheiten seiner Entwicklung auf der Grundlage internationaler Ratings und Daten aus Statistikabteilungen berücksichtigt werden, die den Zustand widerspiegeln das System als Ganzes und seine Prozesse. Die Wahl dieser Indikatoren ist durch die Notwendigkeit gerechtfertigt, diejenigen auszuwählen, die es aus praktischer Sicht am besten ermöglichen, das Niveau des Staates, seine Investitionsattraktivität und die Möglichkeit einer relativen Lokalisierung bestehender potenzieller und tatsächlicher Bedrohungen zu bestimmen.

Die Hauptindikatoren der internationalen Ratingsysteme sind Indizes:

  1. Globale Wettbewerbsfähigkeit (GCC).
  2. Wirtschaftsfreiheit (IES).
  3. Menschliche Entwicklung (HDI).
  4. Wahrnehmung von Korruption (CPI).
  5. Interne und externe Bedrohungen (IVZZ).
  6. Potenzial für internationalen Einfluss (IPIP).

Zweite Phase sieht die Bewertung und Prognose von Indikatoren der Wettbewerbsfähigkeit des Staates nach internationalen Ratings für die untersuchten 139 Staaten der Welt vor.

Dritter Abschnitt sieht einen Vergleich der Bedingungen für die Wettbewerbsfähigkeit von Staaten mit den Methoden der Korrelations- und Regressionsanalyse vor.

Anhand der Ergebnisse der Studie kann die Art der Prozesse allgemein und für einzelne Komponenten der Wettbewerbsfähigkeit des Staates bestimmt werden; Testen Sie die Hypothese über den Einfluss von Faktoren und ihre Beziehung auf dem entsprechenden Signifikanzniveau.

Die Umsetzung der vorgeschlagenen Reihe von Modellen ermöglicht nicht nur die Bewertung der aktuellen Situation des Niveaus der Wettbewerbsfähigkeit und Investitionsattraktivität Staaten, sondern auch um die Mängel des Managements zu analysieren, um Fehlentscheidungen vorzubeugen, um die Entwicklung einer Staatskrise zu verhindern.



Error: Inhalt ist geschützt!!