Eine Varianzanalyse wird durchgeführt, wenn. Kursarbeit: Varianzanalyse

Die Varianzanalyse ist eine statistische Methode zur Bewertung des Einflusses verschiedene Faktorenüber das Ergebnis des Experiments sowie für die spätere Planung ähnlicher Experimente.

Ursprünglich (1918) Varianzanalyse wurde vom englischen Mathematiker und Statistiker R.A. entwickelt. Fischer, um die Ergebnisse agronomischer Experimente zu verarbeiten, um die Bedingungen für die Erzielung des maximalen Ertrags verschiedener Sorten landwirtschaftlicher Nutzpflanzen zu ermitteln.

Beim Aufbau eines Experiments müssen folgende Bedingungen erfüllt sein:

    Jede Versuchsvariante muss an mehreren Beobachtungseinheiten durchgeführt werden ( Gruppen von Tieren, Feldflächen usw.)

    Die Verteilung der Beobachtungseinheiten zwischen experimentellen Varianten sollte zufällig und nicht absichtlich erfolgen.

ANOVA verwendet F-Kriterium(R.A. Fisher-Kriterium), das das Verhältnis zweier Varianzen darstellt:

Dabei sind d fact und d Residual faktorielle (Intergruppen-) bzw. Residual-(Intragruppen-)Varianzen pro Freiheitsgrad.

Faktor- und Restvarianzen sind Schätzungen der Populationsvarianz, die aus Stichprobendaten unter Berücksichtigung der Anzahl der Variationsfreiheitsgrade berechnet werden.

Die faktorielle (Intergruppen-)Dispersion erklärt die Variation des effektiven Merkmals unter dem Einfluss des untersuchten Faktors.

Die Restvarianz (innerhalb der Gruppe) erklärt die Variation des effektiven Merkmals aufgrund des Einflusses anderer Faktoren (mit Ausnahme des Einflusses des untersuchten Faktors).

Zusammenfassend ergeben die Faktor- und Restvarianzen die Gesamtvarianz, die den Einfluss aller Faktormerkmale auf die resultierende Varianz ausdrückt.

Vorgehensweise zur Durchführung der Varianzanalyse:

1. Experimentelle Daten werden in eine Berechnungstabelle eingegeben und die Mengen und Durchschnittswerte in jeder Gruppe der untersuchten Population sowie die Gesamtmenge und der Durchschnittswert für die gesamte Population ermittelt (Tabelle 1).

Tabelle 1

Der Wert des resultierenden Merkmals für die i-te Einheit

in der j-ten Gruppe, x ij

Anzahl der Beobachtungen, f j

Durchschnitt (Gruppe und Gesamt), x j

x 11, x 12, …, x 1 n

x 21, x 22, …, x 2 n

x m 1, x m 2, …, x mn

Gesamtzahl der Beobachtungen N berechnet als Summe der Anzahl der Beobachtungen F J in jeder Gruppe:

Wenn alle Gruppen die gleiche Anzahl an Elementen haben, dann der Gesamtdurchschnitt wird aus Gruppenmitteln als einfaches arithmetisches Mittel ermittelt:

Wenn die Anzahl der Elemente in Gruppen unterschiedlich ist, dann der Gesamtdurchschnitt berechnet nach der gewichteten arithmetischen Mittelformel:

2. Die Gesamtvarianz wird bestimmt D allgemein als Summe der quadrierten Abweichungen einzelner Werte des resultierenden Merkmals vom Gesamtdurchschnitt :

3. Die faktorielle (Intergruppen-)Varianz wird berechnet D Tatsache als Summe der quadrierten Abweichungen der Gruppenmittelwerte vom Gesamtdurchschnitt , multipliziert mit der Anzahl der Beobachtungen:

4. Der Wert der Restvarianz (innerhalb der Gruppe) wird bestimmt D Ost als Differenz zwischen der Summe D allgemein und faktoriell D Tatsache Abweichungen:

5. Berechnen Sie die Anzahl der Freiheitsgrade des Faktors
Varianz als Differenz zwischen der Anzahl der Gruppen M und Einheit:

6. Die Anzahl der Freiheitsgrade für die Restdispersion wird bestimmt
als Differenz der Anzahl der Einzelwerte eines Merkmals N und Anzahl der Gruppen M:

7. Der Wert der Faktorstreuung pro Freiheitsgrad wird berechnet D Tatsache als Faktor-Varianz-Verhältnis D Tatsache zur Anzahl der Freiheitsgrade der Faktordispersion
:

8. Der Wert der Restdispersion pro Freiheitsgrad wird bestimmt D Ost als Restvarianzverhältnis D Ost zur Anzahl der Freiheitsgrade der Restdispersion
:

9. Der berechnete Wert des F-Kriteriums wird ermittelt F-Berechnung als Verhältnis der Faktorvarianz pro Freiheitsgrad D Tatsache zur Restvarianz pro Freiheitsgrad D Ost :

10. Unter Verwendung der Fisher-F-Testtabelle wird unter Berücksichtigung des in der Studie angenommenen Signifikanzniveaus sowie unter Berücksichtigung der Freiheitsgrade für Faktor- und Restvarianzen der theoretische Wert ermittelt F Tisch .

Ein Signifikanzniveau von 5 % entspricht einem Wahrscheinlichkeitsniveau von 95 %, und ein Signifikanzniveau von 1 % entspricht einem Wahrscheinlichkeitsniveau von 99 %. In den meisten Fällen wird ein Signifikanzniveau von 5 % verwendet.

Theoretischer Wert F Tisch bei einem bestimmten Signifikanzniveau wird aus Tabellen am Schnittpunkt einer Zeile und einer Spalte bestimmt, was zwei Freiheitsgraden der Varianzen entspricht:

nach Zeile – Rest;

nach Spalte – Fakultät.

11. Die Berechnungsergebnisse werden in einer Tabelle dargestellt (Tabelle 2).

Varianzanalyse - Hierbei handelt es sich um eine statistische Methode zur Bewertung des Einflusses verschiedener Faktoren auf das Ergebnis eines Experiments sowie zur anschließenden Planung eines ähnlichen Experiments. Mit dieser Methode können Sie mehrere (mehr als zwei) Stichproben anhand eines auf einer metrischen Skala gemessenen Merkmals vergleichen. Die allgemein anerkannte Abkürzung für Varianzanalyse ist ANOVA (aus dem Englischen ANalysis Of VAriance).

Der Schöpfer der Varianzanalyse ist der herausragende englische Forscher Ronald Fisher, der den Grundstein für die moderne Statistik legte.

Der Hauptzweck dieser Methode besteht darin, die Bedeutung der Differenz zwischen den Mittelwerten zu untersuchen. Es mag seltsam erscheinen, dass das Verfahren zum Vergleichen von Mittelwerten Varianzanalyse genannt wird. Tatsächlich liegt das daran, dass beim Lernen statistische Signifikanz Unterschiede zwischen den Mittelwerten von zwei (oder mehr) Gruppen vergleichen (d. h. analysieren) tatsächlich Stichprobenvarianzen. Vielleicht wäre der natürlichere Begriff Analyse der Quadratsumme oder Analyse der Variation, aber aus Tradition wird der Begriff Analyse der Varianz verwendet.

Als Variablen werden Variablen bezeichnet, deren Werte durch Messungen während eines Experiments ermittelt werden (zum Beispiel ein Testergebnis). abhängig Variablen. Als Variablen werden Variablen bezeichnet, die in einem Experiment kontrolliert werden können (z. B. Lehrmethoden oder andere Kriterien, die es ermöglichen, Beobachtungen in Gruppen einzuteilen oder zu klassifizieren). Faktoren oder unabhängige Variablen.

Basierend auf der Anzahl der Faktoren, deren Einfluss untersucht wird, wird zwischen einfaktorieller und multifaktorieller Varianzanalyse unterschieden. Wir werden eine einseitige Varianzanalyse betrachten.

Grundannahmen der Varianzanalyse:

  • 1) Die Verteilung der abhängigen Variablen für jede Faktorgruppe entspricht dem Normalgesetz (ein Verstoß gegen diese Annahme hat, wie zahlreiche Studien gezeigt haben, keinen wesentlichen Einfluss auf die Ergebnisse der Varianzanalyse);
  • 2) die Varianzen der Stichproben, die unterschiedlichen Abstufungen des Faktors entsprechen, sind einander gleich (diese Annahme ist für die Ergebnisse der Varianzanalyse von wesentlicher Bedeutung, wenn die verglichenen Stichproben unterschiedlich groß sind);
  • 3) Den Faktorabstufungen entsprechende Stichproben müssen unabhängig sein (die Erfüllung dieser Annahme ist in jedem Fall zwingend erforderlich). Unabhängige Stichproben sind Stichproben, in denen die Probanden der Studie unabhängig voneinander rekrutiert wurden, d. h. die Wahrscheinlichkeit, einen Probanden in einer Stichprobe auszuwählen, hängt nicht von der Auswahl eines Probanden in der anderen Stichprobe ab. Im Gegensatz dazu zeichnen sich abhängige Stichproben dadurch aus, dass jedem Probanden einer Stichprobe nach einem bestimmten Kriterium ein Proband einer anderen Stichprobe zugeordnet wird (ein typisches Beispiel für abhängige Stichproben ist die Messung einer Eigenschaft an derselben Stichprobe vorher und nachher). In diesem Fall sind die Stichproben abhängig, da sie aus denselben Probanden bestehen. Ein weiteres Beispiel für abhängige Stichproben: Ehemänner sind eine Stichprobe, ihre Ehefrauen eine andere Stichprobe.

Algorithmus zur Durchführung einer Varianzanalyse:

  • 1. Wir stellen eine Hypothese auf H 0- Der Gruppierungsfaktor hat keinen Einfluss auf das Ergebnis.
  • 2. Finden Sie die Intergruppen- (Fakultäts-) und Intragruppen-(Rest-)Varianzen (th ftt Und Docm).
  • 3. Berechnen Sie den beobachteten Wert des Fisher-Snedecor-Kriteriums:

4. Unter Verwendung der Tabelle der kritischen Punkte der Fisher-Snedecor-Verteilung oder unter Verwendung der Standard-MS-Excel-Funktion „ERASPOBR“ finden wir

Wo: A- spezifiziertes Signifikanzniveau, k x Und bis 2- Anzahl der Freiheitsgrade des Faktors bzw. der Restdispersion.

5. Wenn F Ha6ji> F Kp, dann wird die Hypothese I 0 abgelehnt. Das bedeutet, dass es einen Einfluss des Gruppierungsfaktors auf das Ergebnis gibt.

Wenn FHa6jlF Kp, dann wird Hypothese Nr. 0 akzeptiert. Dies bedeutet, dass der Gruppierungsfaktor keinen Einfluss auf das Ergebnis hat.

Ziel der Varianzanalyse ist es daher festzustellen, ob ein bestimmter Faktor einen signifikanten Einfluss hat F, was hat R Ebenen: F X, F 2 ,..., Fp, zum untersuchten Wert.

  • Gmurman V.E. Wahrscheinlichkeitstheorie und mathematische Statistik. S. 467.

In der praktischen Tätigkeit von Ärzten bei der Durchführung biomedizinischer, soziologischer und experimenteller Forschung besteht die Notwendigkeit, den Einfluss von Faktoren auf die Ergebnisse der Untersuchung des Gesundheitszustands der Bevölkerung, bei der Beurteilung der beruflichen Tätigkeit und der Wirksamkeit von Innovationen zu ermitteln.

Es gibt eine Reihe statistischer Methoden, die es ermöglichen, Stärke, Richtung und Einflussmuster von Faktoren auf das Ergebnis in einer Gesamt- oder Stichprobenpopulation zu bestimmen (Berechnung von Kriterium I, Korrelationsanalyse, Regression, Χ 2 - (Anpassungstest nach Pearson usw.). Die Varianzanalyse wurde in den 20er Jahren des 20. Jahrhunderts vom englischen Wissenschaftler, Mathematiker und Genetiker Ronald Fisher entwickelt und vorgeschlagen.

Die Varianzanalyse wird häufiger in der wissenschaftlichen und praktischen Forschung im öffentlichen Gesundheitswesen und im Gesundheitswesen eingesetzt, um den Einfluss eines oder mehrerer Faktoren auf ein Ergebnismerkmal zu untersuchen. Es basiert auf dem Prinzip, „die Wertevielfalt des Faktors/der Faktoren auf die Wertevielfalt des resultierenden Merkmals abzubilden“ und ermittelt die Einflussstärke des Faktors/der Faktoren in Stichprobenpopulationen.

Der Kern der Varianzanalysemethode besteht darin, individuelle Varianzen (Gesamt-, Faktor-, Restvarianz) zu messen und anschließend die Stärke (den Anteil) des Einflusses der untersuchten Faktoren zu bestimmen (Bewertung der Rolle jedes Faktors oder ihres gemeinsamen Einflusses). die resultierenden Attribute.

Varianzanalyse ist eine statistische Methode zur Bewertung des Zusammenhangs zwischen Faktor- und Leistungsmerkmalen in verschiedenen, zufällig ausgewählten Gruppen, basierend auf der Bestimmung der Unterschiede (Diversität) in den Werten der Merkmale. Die Varianzanalyse basiert auf der Analyse der Abweichungen aller Einheiten der untersuchten Grundgesamtheit vom arithmetischen Mittel. Als Maß für Abweichungen wird die Streuung (B) herangezogen – das durchschnittliche Quadrat der Abweichungen. Abweichungen, die durch den Einfluss eines Faktorattributs (Faktor) verursacht werden, werden mit der Größe von Abweichungen verglichen, die durch zufällige Umstände verursacht werden. Wenn durch ein Faktormerkmal verursachte Abweichungen signifikanter sind als zufällige Abweichungen, wird davon ausgegangen, dass der Faktor einen signifikanten Einfluss auf das resultierende Merkmal hat.

Zur Berechnung der Streuung werden die Abweichungswerte jeder Option (jeder erfasste Zahlenwert des Merkmals) vom arithmetischen Mittel quadriert. Dadurch werden negative Vorzeichen beseitigt. Anschließend werden diese Abweichungen (Differenzen) aufsummiert und durch die Anzahl der Beobachtungen dividiert, d.h. durchschnittliche Abweichungen. Somit werden die Varianzwerte erhalten.

Eine wichtige methodische Bedeutung für den Einsatz der Varianzanalyse ist die richtige Auswahl der Stichprobe. Je nach Ziel und Zielsetzung können Stichprobengruppen unabhängig voneinander zufällig gebildet werden (Kontroll- und Versuchsgruppen zur Untersuchung eines Indikators, beispielsweise der Auswirkung von Bluthochdruck auf die Entstehung eines Schlaganfalls). Solche Proben werden als unabhängig bezeichnet.

Oft werden die Ergebnisse der Exposition gegenüber Faktoren in derselben Stichprobengruppe (z. B. denselben Patienten) vor und nach der Exposition (Behandlung, Prävention, Rehabilitationsmaßnahmen) untersucht; solche Stichproben werden als abhängig bezeichnet.

Die Varianzanalyse, die den Einfluss eines Faktors testet, wird als Ein-Faktor-Analyse (univariate Analyse) bezeichnet. Bei der Untersuchung des Einflusses von mehr als einem Faktor wird die multivariate Varianzanalyse (multivariate Analyse) verwendet.

Faktormerkmale sind jene Merkmale, die das untersuchte Phänomen beeinflussen.
Effektive Merkmale sind solche Merkmale, die sich unter dem Einfluss von Faktormerkmalen verändern.

Zur Durchführung der Varianzanalyse können sowohl qualitative (Geschlecht, Beruf) als auch quantitative Merkmale (Anzahl der Injektionen, Patienten auf der Station, Anzahl der Betttage) herangezogen werden.

Methoden der Varianzanalyse:

  1. Fisher-Methode – F-Kriterium (für F-Werte siehe Anhang Nr. 1);
    Die Methode wird in der einseitigen Varianzanalyse verwendet, bei der die Gesamtvarianz aller beobachteten Werte in Varianz innerhalb einzelner Gruppen und Varianz zwischen Gruppen zerlegt wird.
  2. Die Methode des „allgemeinen linearen Modells“.
    Es basiert auf Korrelation oder Regressionsanalyse, wird in der multivariaten Analyse verwendet.

Typischerweise werden in der biomedizinischen Forschung nur Ein-Faktor- oder höchstens Zwei-Faktor-Dispersionskomplexe verwendet. Multifaktorkomplexe können durch sequentielle Analyse von Ein- oder Zweifaktorkomplexen untersucht werden, die aus der gesamten beobachteten Population isoliert wurden.

Bedingungen für die Verwendung der Varianzanalyse:

  1. Ziel der Studie ist es, die Stärke des Einflusses eines (bis zu 3) Faktors auf das Ergebnis oder die Stärke des kombinierten Einflusses verschiedener Faktoren (Geschlecht und Alter, körperliche Aktivität und Ernährung etc.) zu bestimmen.
  2. Die untersuchten Faktoren müssen unabhängig (ohne Zusammenhang) zueinander sein. Es ist beispielsweise unmöglich, den gemeinsamen Einfluss von Berufserfahrung und Alter, Größe und Gewicht von Kindern usw. zu untersuchen. über die Morbidität der Bevölkerung.
  3. Die Auswahl der Gruppen für die Studie erfolgt zufällig (Zufallsauswahl). Die Organisation eines Dispersionskomplexes unter Umsetzung des Zufallsprinzips bei der Auswahl von Optionen wird als Randomisierung (übersetzt aus dem Englischen – random) bezeichnet, d.h. zufällig ausgewählt.
  4. Es können sowohl quantitative als auch qualitative (attributive) Merkmale verwendet werden.

Bei der Durchführung einer einseitigen Varianzanalyse wird empfohlen ( notwendige Bedingung Anwendungen):

  1. Normalität der Verteilung der analysierten Gruppen oder Korrespondenz der Stichprobengruppen allgemeine Bevölkerung mit Normalverteilung.
  2. Unabhängigkeit (nicht Zusammenhang) der Verteilung der Beobachtungen in Gruppen.
  3. Verfügbarkeit der Häufigkeit (Wiederholung) von Beobachtungen.

Die Normalität der Verteilung wird durch die Gauß-Kurve (De Mavoor) bestimmt, die durch die Funktion y = f(x) beschrieben werden kann, da es sich um eines der Verteilungsgesetze handelt, die zur Annäherung an die Beschreibung zufälliger, probabilistischer Phänomene verwendet werden in der Natur. Gegenstand der biomedizinischen Forschung sind Wahrscheinlichkeitsphänomene; Normalverteilungen kommen in solchen Forschungen häufig vor.

Prinzip der Anwendung der Varianzanalysemethode

Zunächst wird eine Nullhypothese formuliert, das heißt, es wird davon ausgegangen, dass die untersuchten Faktoren keinen Einfluss auf die Werte des resultierenden Merkmals haben und die erhaltenen Unterschiede zufällig sind.

Dann bestimmen wir, wie hoch die Wahrscheinlichkeit ist, die beobachteten (oder stärkeren) Unterschiede zu erhalten, vorausgesetzt, die Nullhypothese ist wahr.

Wenn diese Wahrscheinlichkeit klein ist*, lehnen wir die Nullhypothese ab und kommen zu dem Schluss, dass die Studienergebnisse statistisch signifikant sind. Dies bedeutet nicht, dass die Wirkung der untersuchten Faktoren nachgewiesen ist (dies ist in erster Linie eine Frage der Forschungsplanung), aber es ist dennoch unwahrscheinlich, dass das Ergebnis auf Zufall zurückzuführen ist.
__________________________________
* Die maximal akzeptable Wahrscheinlichkeit, eine echte Nullhypothese abzulehnen, wird als Signifikanzniveau bezeichnet und mit α = 0,05 bezeichnet.

Wenn alle Bedingungen für die Anwendung der Varianzanalyse erfüllt sind, sieht die Zerlegung der Gesamtvarianz mathematisch wie folgt aus:

D insgesamt = D Tatsache + D Rest. ,

D insgesamt - die Gesamtstreuung der beobachteten Werte (Variante), gekennzeichnet durch die Streuung der Variante vom allgemeinen Durchschnitt. Misst die Variation eines Merkmals in seiner Gesamtheit unter dem Einfluss aller Faktoren, die diese Variation bestimmen. Die Gesamtvielfalt besteht aus Intergruppen- und Intragruppen-Diversität;

D Tatsache - faktorielle (Intergruppen-)Streuung, gekennzeichnet durch den Mittelwertunterschied in jeder Gruppe und hängt vom Einfluss des untersuchten Faktors ab, durch den sich jede Gruppe unterscheidet. Beispielsweise ist in Gruppen, die sich im ätiologischen Faktor des klinischen Verlaufs einer Lungenentzündung unterscheiden, die durchschnittliche Menge an Schlafenstagen nicht gleich – es wird eine Diversität zwischen den Gruppen beobachtet.

D Ruhe. - Restvarianz (innerhalb der Gruppe), die die Streuung der Variante innerhalb von Gruppen charakterisiert. Spiegelt zufällige Variationen wider, d. h. Teil der Variation, der unter dem Einfluss nicht näher bezeichneter Faktoren auftritt und nicht vom Merkmal abhängt – dem Faktor, der die Grundlage der Gruppe bildet. Die Variation des untersuchten Merkmals hängt von der Stärke des Einflusses einiger nicht berücksichtigter Zufallsfaktoren ab, sowohl organisierter (vom Forscher festgelegter) als auch zufälliger (unbekannter) Faktoren.

Daher besteht die Gesamtvariation (Varianz) aus der Variation, die durch organisierte (gegebene) Faktoren, sogenannte faktorielle Variation, und unorganisierte Faktoren, d. h. Restvariation (zufällig, unbekannt).

Die klassische Varianzanalyse erfolgt in folgenden Schritten:

  1. Bau eines Dispersionskomplexes.
  2. Berechnung der durchschnittlichen quadratischen Abweichungen.
  3. Berechnung der Varianz.
  4. Vergleich von Faktor- und Restvarianzen.
  5. Auswertung der Ergebnisse anhand theoretischer Werte der Fisher-Snedecor-Verteilung (Anhang Nr. 1).

Algorithmus zur Durchführung einer Varianzanalyse unter Verwendung einer vereinfachten Option

Der Algorithmus zur Durchführung der Varianzanalyse mit einer vereinfachten Methode ermöglicht es Ihnen, die gleichen Ergebnisse zu erhalten, die Berechnungen sind jedoch viel einfacher:

Stufe I. Bau eines Dispersionskomplexes

Die Konstruktion eines Dispersionskomplexes bedeutet, eine Tabelle zu erstellen, in der die Faktoren, das effektive Vorzeichen und die Auswahl der Beobachtungen (Patienten) in jeder Gruppe klar unterschieden werden.

Ein Einfaktorkomplex besteht aus mehreren Abstufungen eines Faktors (A). Bei den Abstufungen handelt es sich um Stichproben aus unterschiedlichen Grundgesamtheiten (A1, A2, AZ).

Zwei-Faktor-Komplex – besteht aus mehreren Abstufungen zweier Faktoren in Kombination miteinander. Die ätiologischen Faktoren für das Auftreten einer Lungenentzündung sind die gleichen (A1, A2, AD) in Kombination mit unterschiedlichen Formen des klinischen Verlaufs einer Lungenentzündung (H1 – akut, H2 – chronisch).

Output-Indikator (Anzahl der Betttage im Durchschnitt) Ätiologische Faktoren für die Entstehung einer Lungenentzündung
A1 A2 A3
H1 H2 H1 H2 H1 H2
M = 14 Tage

Stufe II. Berechnung des Havariedurchschnitts (M gesamt)

Berechnung der Summenoption für jede Faktorabstufung: Σ Vj = V 1 + V 2 + V 3

Berechnung des Gesamtbetrags der Option (Σ V gesamt) für alle Abstufungen des Faktormerkmals: Σ V gesamt = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Berechnung des Gruppendurchschnitts (M gr.) Faktormerkmal: M gr. = Σ Vj / N,
Dabei ist N die Summe der Anzahl der Beobachtungen für alle Abstufungen des Faktor-I-Merkmals (Σn nach Gruppe).

Stufe III. Berechnung der Varianzen:

Wenn alle Bedingungen für den Einsatz der Varianzanalyse erfüllt sind, lautet die mathematische Formel wie folgt:

D insgesamt = D Tatsache + D Rest.

D insgesamt - allgemeine Streuung, gekennzeichnet durch die Streuung von Varianten (beobachteten Werten) vom allgemeinen Durchschnitt;
D Tatsache. - faktorielle (intergruppenweite) Streuung, charakterisiert die Streuung der Gruppendurchschnitte vom Gesamtdurchschnitt;
D Ruhe. - Restvarianz (innerhalb der Gruppe), charakterisiert die Streuung der Variante innerhalb von Gruppen.

  1. Berechnung der faktoriellen Varianz (D-Fakt): D Tatsache. = Σ h - H
  2. Die Berechnung von h erfolgt nach der Formel: h = (Σ Vj) / N
  3. Die Berechnung von N erfolgt nach der Formel: H = (ΣV)2/N
  4. Berechnung der Restvarianz: D Ruhe. = (Σ V) 2 - Σ h
  5. Berechnung der Gesamtvarianz: D insgesamt = (Σ V) 2 - Σ H

Stufe IV. Berechnung des Hauptindikators für die Einflussstärke des untersuchten Faktors Der Indikator für die Stärke des Einflusses (η 2) eines Faktormerkmals auf das Ergebnis wird durch den Anteil der faktoriellen Varianz (D Fakt.) an der Gesamtvarianz (D Gesamt) bestimmt, η 2 (eta) – zeigt an, welchen Anteil die Der Einfluss des untersuchten Faktors nimmt unter allen anderen Faktoren einen Platz ein und wird durch die Formel bestimmt:

V-Stufe. Die Bestimmung der Zuverlässigkeit von Forschungsergebnissen nach der Fisher-Methode erfolgt nach folgender Formel:


F – Fisher-Test;
F st. - Tabellenwert (siehe Anlage 1).
σ 2 Tatsache, σ 2 Ruhe. - Faktor- und Restabweichungen (von lateinisch de – von, via – Straße) – Abweichung von der Mittellinie, bestimmt durch die Formeln:


r ist die Anzahl der Abstufungen des Faktormerkmals.

Ein Vergleich des Fisher-Kriteriums (F) mit dem Standard-(tabellarischen) F erfolgt entsprechend den Spalten der Tabelle unter Berücksichtigung der Freiheitsgrade:

v 1 = n - 1
v 2 = N - 1

Bestimmen Sie horizontal v 1 vertikal - v 2 , bestimmen Sie an ihrem Schnittpunkt den Tabellenwert F, wobei der obere Tabellenwert p ≥ 0,05 und der untere p > 0,01 entspricht, und vergleichen Sie ihn mit dem berechneten Kriterium F. Wenn der Wert des berechneten Wenn das Kriterium F gleich oder größer als die Tabelle ist, sind die Ergebnisse zuverlässig und H 0 wird nicht abgelehnt.

Problemzustand:

Im Betrieb von N. nahm die Verletzungsrate zu, weshalb der Arzt eine Untersuchung einzelner Faktoren durchführte, unter anderem auch die Berufserfahrung der in den Werkstätten Beschäftigten. Die Proben wurden im Unternehmen N. in 4 Werkstätten mit ähnlichen Bedingungen und Art der Arbeit hergestellt. Die Verletzungsraten werden pro 100 Arbeitnehmer im vergangenen Jahr berechnet.

Bei der Untersuchung des Faktors Berufserfahrung wurden folgende Daten ermittelt:

Basierend auf den Daten der Studie wurde eine Nullhypothese (H 0) über den Einfluss der Berufserfahrung auf das Verletzungsniveau der Mitarbeiter des Unternehmens A aufgestellt.

Übung
Bestätigen oder widerlegen Sie die Nullhypothese mithilfe der einseitigen Varianzanalyse:

  1. bestimmen Sie die Stärke des Einflusses;
  2. Bewerten Sie die Zuverlässigkeit des Einflusses des Faktors.

Schritte zur Anwendung der ANOVA
den Einfluss eines Faktors (Berufserfahrung) auf das Ergebnis (Verletzungsrate) ermitteln

Abschluss. Im Stichprobenkomplex zeigte sich, dass der Einfluss der Berufserfahrung auf die Verletzungsrate 80 % der Gesamtzahl der anderen Faktoren ausmacht. Für alle Werkstätten des Werks kann mit einer Wahrscheinlichkeit von 99,7 % (13,3 > 8,7) angegeben werden, dass die Berufserfahrung einen Einfluss auf die Verletzungshäufigkeit hat.

Damit wird die Nullhypothese (H 0) nicht verworfen und der Einfluss der Berufserfahrung auf die Verletzungshäufigkeit in den Werkstätten des Werks A gilt als bewiesen.

F-Wert (Fisher-Test) Standard bei p ≥ 0,05 (oberer Wert) bei p ≥ 0,01 (unterer Wert)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Wlassow V.V. Epidemiologie. - M.: GEOTAR-MED, 2004. 464 S.
  2. Arkhipova G.L., Lavrova I.G., Troshina I.M. Manche moderne Methoden Statistische Analyse in der Medizin. - M.: Metrosnab, 1971. - 75 S.
  3. Zaitsev V.M., Liflyandsky V.G., Marinkin V.I. Angewandte medizinische Statistik. - St. Petersburg: FOLIANT Publishing House LLC, 2003. - 432 S.
  4. Platonow A.E. Statistische Analyse in Medizin und Biologie: Aufgaben, Terminologie, Logik, Computermethoden. - M.: Verlag der Russischen Akademie der Medizinischen Wissenschaften, 2000. - 52 S.
  5. Plokhinsky N.A. Biometrie. - Verlag der Sibirischen Abteilung der Akademie der Wissenschaften der UdSSR Nowosibirsk. - 1961. - 364 S.

5.1. Was ist Varianzanalyse?

Die Dispersionsanalyse wurde in den 20er Jahren des 20. Jahrhunderts vom englischen Mathematiker und Genetiker Ronald Fisher entwickelt. Laut einer Umfrage unter Wissenschaftlern, die herausfand, wer den größten Einfluss auf die Biologie des 20. Jahrhunderts hatte, war es Sir Fisher, der die Meisterschaft erhielt (für seine Verdienste wurde ihm der Ritterorden verliehen – eine der höchsten Auszeichnungen in Großbritannien). ; In dieser Hinsicht ist Fischer mit Charles Darwin vergleichbar, der größten Einfluss zur Biologie des 19. Jahrhunderts.

Die Varianzanalyse ist heute ein eigenständiger Zweig der Statistik. Es basiert auf der von Fisher entdeckten Tatsache, dass das Maß der Variabilität der untersuchten Größe in Teile zerlegt werden kann, die den Faktoren entsprechen, die diese Größe beeinflussen, und zufälligen Abweichungen.

Um das Wesen der Varianzanalyse zu verstehen, führen wir dieselbe Art von Berechnungen zweimal durch: „manuell“ (mit einem Taschenrechner) und mit dem Statistica-Programm. Um unsere Aufgabe zu vereinfachen, werden wir nicht mit den Ergebnissen einer tatsächlichen Beschreibung der Vielfalt grüner Frösche arbeiten, sondern mit einem fiktiven Beispiel, das den Vergleich von Weibchen und Männchen beim Menschen betrifft. Betrachten Sie die unterschiedlichen Körpergrößen von 12 Erwachsenen: 7 Frauen und 5 Männern.

Tabelle 5.1.1. Beispiel für eine einfaktorielle ANOVA: Daten zu Geschlecht und Größe von 12 Personen

Führen wir eine einseitige Varianzanalyse durch: Vergleichen Sie, ob sich Männer und Frauen in der charakterisierten Gruppe statistisch signifikant in der Körpergröße unterscheiden oder nicht.

5.2. Testen Sie auf Normalverteilung

Weitere Überlegungen basieren auf der Tatsache, dass die Verteilung in der betrachteten Stichprobe normal oder nahezu normal ist. Wenn die Verteilung weit von der Normalverteilung entfernt ist, ist die Streuung (Varianz) kein geeignetes Maß für ihre Variabilität. Allerdings ist die Varianzanalyse relativ resistent gegenüber Verteilungsabweichungen von der Normalität.

Der Normalitätstest dieser Daten kann auf zwei verschiedene Arten durchgeführt werden. Zuerst: Statistik / Basisstatistik / Tabellen / Beschreibende Statistik / Registerkarte Normalität. In der Registerkarte Normalität Sie können auswählen, welche Normalitätstests verwendet werden sollen. Wenn Sie auf die Schaltfläche „Häufigkeitstabellen“ klicken, wird eine Häufigkeitstabelle angezeigt, und die Schaltfläche „Histogramme“ zeigt ein Histogramm an. Die Tabelle und das Histogramm zeigen die Ergebnisse verschiedener Tests.

Die zweite Methode ist mit der Verwendung geeigneter Funktionen bei der Erstellung von Histogrammen verbunden. Wählen Sie im Dialog zum Erstellen von Histogrammen (Grafs / Histogramme...) die Registerkarte Erweitert. Unten befindet sich ein Statistikblock. Markieren wir Shapiro-Wilk darauf T est- und Kolmogorov-Smirnov-Test, wie in der Abbildung dargestellt.

Reis. 5.2.1. Statistische Tests zur Normalität der Verteilung im Histogrammkonstruktionsdialog

Wie aus dem Histogramm ersichtlich ist, weicht die Wachstumsverteilung in unserer Stichprobe vom Normalwert ab (in der Mitte liegt ein „Fehler“) vor.


Reis. 5.2.2. Histogramm, erstellt mit den in der vorherigen Abbildung angegebenen Parametern

Die dritte Zeile im Diagrammtitel gibt die Parameter der Normalverteilung an, denen die beobachtete Verteilung am nächsten kam. Der allgemeine Durchschnitt liegt bei 173, der allgemeine Standardabweichung- 10.4. Der Einschub unten in der Grafik zeigt die Ergebnisse der Normalitätstests. D ist der Kolmogorov-Smirnov-Test und SW-W ist der Shapiro-Wilk-Test. Wie man sieht, erwiesen sich die Unterschiede zwischen der Höhenverteilung und der Normalverteilung bei allen verwendeten Tests als statistisch unbedeutend ( P in allen Fällen größer als 0,05).

Formal gesehen haben uns Tests zur Einhaltung der Normalverteilung also nicht „verboten“, sie zu verwenden parametrische Methode, basierend auf der Annahme einer Normalverteilung. Wie bereits erwähnt, ist die Varianzanalyse relativ resistent gegenüber Abweichungen von der Normalität, daher werden wir sie weiterhin verwenden.

5.3. Einseitige Varianzanalyse: manuelle Berechnungen

Um die Variabilität der Körpergröße von Menschen im gegebenen Beispiel zu charakterisieren, berechnen wir die Summe der quadratischen Abweichungen (im Englischen als bezeichnet). SS , Quadratsumme oder ) Einzelwerte aus dem Durchschnitt: . Der Durchschnittswert für die Körpergröße im obigen Beispiel beträgt 173 Zentimeter. Basierend darauf,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Der resultierende Wert (1192) ist ein Maß für die Variabilität des gesamten Datensatzes. Sie bestehen jedoch aus zwei Gruppen, von denen jede ihren eigenen Durchschnitt haben kann. In den angegebenen Daten beträgt die durchschnittliche Körpergröße der Frauen 168 cm und die der Männer 180 cm.

Berechnen wir die Summe der quadratischen Abweichungen für Frauen:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Wir berechnen auch die Summe der quadratischen Abweichungen für Männer:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Wovon hängt der untersuchte Wert gemäß der Logik der Varianzanalyse ab?

Zwei berechnete Werte, SS f Und SS m charakterisieren die gruppeninterne Variation, die in der Varianzanalyse üblicherweise als „Fehler“ bezeichnet wird. Der Ursprung dieses Namens hängt mit der folgenden Logik zusammen.

Was bestimmt in diesem Beispiel die Körpergröße einer Person? Zunächst einmal zur durchschnittlichen Körpergröße von Menschen im Allgemeinen, unabhängig von ihrem Geschlecht. Zweitens - vom Boden. Wenn Menschen eines Geschlechts (männlich) größer sind als das andere (weiblich), kann dies als Addition zum „universellen“ Durchschnitt eines bestimmten Wertes, dem Geschlechtereffekt, dargestellt werden. Schließlich unterscheiden sich Menschen des gleichen Geschlechts aufgrund individueller Unterschiede in der Körpergröße. In einem Modell, das die Körpergröße als Summe des menschlichen Durchschnitts plus Anpassungen für das Geschlecht beschreibt, sind individuelle Unterschiede unerklärt und können als „Fehler“ betrachtet werden.

Gemäß der Logik der Varianzanalyse wird der untersuchte Wert also wie folgt bestimmt: , Wo x ij - i-ter Wert der untersuchten Größe beim j-ten Wert des untersuchten Faktors; - allgemeiner Durchschnitt; F j - Einfluss des j-ten Werts des untersuchten Faktors; - „Fehler“, der Beitrag der Individualität des Objekts, auf das sich der Wert beziehtx ij .

Summe der Quadrate zwischen Gruppen

Also, SS Fehler = SS f + SS m = 212 + 560 = 772. Mit diesem Wert haben wir die gruppeninterne Variabilität beschrieben (bei der Unterscheidung von Gruppen nach Geschlecht). Es gibt aber auch einen zweiten Teil der Variabilität – die Variabilität zwischen Gruppen, die wir nennen werdenSS-Effekt (da es sich um den Effekt der Aufteilung der Gesamtheit der betrachteten Objekte in Frauen und Männer handelt).

Der Mittelwert jeder Gruppe weicht vom Gesamtmittel ab. Um den Beitrag dieser Differenz zum Gesamtmaß der Variabilität zu berechnen, müssen wir die Differenz zwischen der Gruppe und dem Gesamtdurchschnitt mit der Anzahl der Objekte in jeder Gruppe multiplizieren.

SS-Effekt = = 7×(168–173) 2 + 5×(180–173) 2 = 7×52 + 5×72 = 7×25 + 5×49 = 175 + 245 = 420.

Hier manifestierte sich das von Fischer entdeckte Prinzip der Konstanz der Quadratsumme: SS = Effekt-SS + Fehler-SS , d.h. für dieses Beispiel 1192 = 440 + 722.

Durchschnittliche Quadrate

Beim Vergleich der Intergruppen- und Intragruppen-Quadratsummen in unserem Beispiel können wir sehen, dass die erste mit der Variation zweier Gruppen und die zweite mit 12 Werten in zwei Gruppen verbunden ist. Anzahl der Freiheitsgrade ( df ) für einen Parameter kann als Differenz zwischen der Anzahl der Objekte in der Gruppe und der Anzahl der Abhängigkeiten (Gleichungen) definiert werden, die diese Größen verbinden.

In unserem Beispiel df-Effekt = 2–1 = 1, A df-Fehler = 12–2 = 10.

Wir können die Summen der Quadrate durch ihre Anzahl an Freiheitsgraden teilen und erhalten so den Mittelwert der Quadrate ( MS , Mittelwerte der Quadrate). Nachdem wir dies getan haben, können wir das feststellen MS - nichts weiter als Variationen („Varianzen“, das Ergebnis der Division der Summe der Quadrate durch die Anzahl der Freiheitsgrade). Nach dieser Entdeckung können wir die Struktur der ANOVA-Tabelle verstehen. Für unser Beispiel wird es so aussehen.

Wirkung

Fehler

MS-Effekt Und MS-Fehler sind Schätzungen der Intergruppen- und Intragruppenvarianz und können daher entsprechend dem Kriterium verglichen werdenF (Snedecor-Kriterium, benannt nach Fischer) zum Vergleich von Variationen. Dieses Kriterium ist einfach der Quotient aus der Division der größeren Variation durch die kleinere. In unserem Fall ist es 420 / 77,2 = 5,440.

Bestimmung der statistischen Signifikanz des Fisher-Tests anhand von Tabellen

Wenn wir die statistische Signifikanz des Effekts manuell anhand von Tabellen ermitteln würden, müssten wir den resultierenden Kriteriumswert vergleichen F mit einem kritischen Wert, der einem bestimmten Grad an statistischer Signifikanz für gegebene Freiheitsgrade entspricht.


Reis. 5.3.1. Fragment einer Tabelle mit kritischen Kriteriumswerten F

Wie Sie sehen, beträgt der kritische Wert des Kriteriums für das statistische Signifikanzniveau p=0,05F ist 4,96. Dies bedeutet, dass in unserem Beispiel der Effekt des untersuchten Geschlechts mit einem statistischen Signifikanzniveau von 0,05 erfasst wurde.

Das erhaltene Ergebnis kann wie folgt interpretiert werden. Die Wahrscheinlichkeit der Nullhypothese, dass die durchschnittliche Körpergröße von Frauen und Männern gleich ist und der festgestellte Unterschied in ihrer Körpergröße auf Zufälligkeit bei der Auswahl der Stichproben zurückzuführen ist, beträgt weniger als 5 %. Das bedeutet, dass wir uns für die Alternativhypothese entscheiden müssen, dass die durchschnittliche Körpergröße von Frauen und Männern unterschiedlich ist.

5.4. Einwegvarianzanalyse ( ANOVA) im Statistica-Paket

In Fällen, in denen Berechnungen nicht manuell, sondern mit entsprechenden Programmen (z. B. dem Statistica-Paket) durchgeführt werden, ist der Wert P automatisch ermittelt. Sie können überprüfen, ob der Wert geringfügig über dem kritischen Wert liegt.

Um das besprochene Beispiel mit der einfachsten Version der Varianzanalyse zu analysieren, müssen Sie das Verfahren „Statistik/ANOVA“ für die Datei mit den entsprechenden Daten ausführen und im Fenster „Typ der Analyse“ und im Dialogfeld „Schnellspezifikationen“ die Option „Einfaktorielle ANOVA“ auswählen Option im Fenster Spezifikationsmethode.


Reis. 5.4.1. Dialog Allgemeine ANOVA/MANOVA (Varianzanalyse)

Im sich öffnenden Schnelldialogfenster müssen Sie im Feld „Variablen“ die Spalten angeben, die die Daten enthalten, deren Variabilität wir untersuchen (Liste der abhängigen Variablen; in unserem Fall die Spalte „Wachstum“), sowie eine Spalte mit Werten ​die den untersuchten Wert in Gruppen unterteilen (katigorischer Prädiktor (Faktor); in unserem Fall die Spalte „Geschlecht“). In dieser Version der Analyse anders Multivariate Analyse Es kann nur ein Faktor berücksichtigt werden.


Reis. 5.4.2. Dialogue One-Way ANOVA (Einfaktorielle Varianzanalyse)

Im Fenster Faktorcodes sollten Sie die Werte des betreffenden Faktors angeben, die bei dieser Analyse verarbeitet werden müssen. Alle verfügbaren Werte können über die Zoom-Taste angezeigt werden; Wenn Sie wie in unserem Beispiel alle Werte des Faktors berücksichtigen müssen (und für das Geschlecht in unserem Beispiel sind es nur zwei), können Sie auf die Schaltfläche „Alle“ klicken. Wenn die zu verarbeitenden Spalten und Faktorcodes angegeben sind, können Sie auf „OK“ klicken und zum Fenster „Schnellergebnisanalyse“ wechseln: ANOVA-Ergebnisse 1, zur Registerkarte „Schnell“.

Reis. 5.4.3. Schnellregisterkarte des ANOVA-Ergebnisfensters

Mit der Schaltfläche „Alle Effekte/Grafiken“ können Sie sehen, wie die Mittelwerte zweier Gruppen verglichen werden. Oberhalb der Grafik sind die Anzahl der Freiheitsgrade sowie die F- und p-Werte für den betreffenden Faktor angegeben.


Reis. 5.4.4. Grafische Darstellung der ANOVA-Ergebnisse

Mit der Schaltfläche „Alle Effekte“ erhalten Sie eine Varianzanalysetabelle ähnlich der oben beschriebenen (mit einigen erheblichen Unterschieden).


Reis. 5.4.5. Tabelle mit den Ergebnissen der Varianzanalyse (vergleichen Sie sie mit einer ähnlichen, „manuell“ erstellten Tabelle).

Die untere Zeile der Tabelle zeigt die Summe der Quadrate, die Anzahl der Freiheitsgrade und die mittleren Quadrate für den Fehler (Variabilität innerhalb der Gruppe). In der Zeile darüber stehen ähnliche Indikatoren für den untersuchten Faktor (in diesem Fall das Zeichen Geschlecht) sowie das Kriterium F (das Verhältnis der mittleren Quadrate des Effekts zu den mittleren Quadraten des Fehlers) und die Höhe seiner statistischen Signifikanz. Die Tatsache, dass sich der Effekt des betrachteten Faktors als statistisch signifikant herausstellte, wird durch die rote Farbe angezeigt.

Und die erste Zeile zeigt Daten zum Indikator „Intercept“. Das Die Tabellenzeile stellt für Benutzer, die Statistica in der 6. oder späteren Version beitreten, ein Rätsel dar. Der Intercept-Wert hängt wahrscheinlich mit der Zerlegung der Quadratsumme aller Datenwerte zusammen (d. h. 1862 + 1692 ... = 360340). Der dafür angegebene F-Kriteriumswert wurde durch Division ermittelt MS Intercept/MS-Fehler = 353220 / 77,2 = 4575,389 und ergibt natürlich einen sehr niedrigen Wert P . Interessant ist, dass dieser Wert in Statistica-5 überhaupt nicht berechnet wurde und die Handbücher zur Verwendung späterer Versionen des Pakets in keiner Weise auf seine Einführung eingehen. Das Beste, was ein Biologe, der Statistica-6 und höher verwendet, wahrscheinlich tun kann, ist, die Intercept-Zeile in der ANOVA-Tabelle einfach zu ignorieren.

5.5. ANOVA und Student- und Fisher-T-Tests: Was ist besser?

Wie Sie vielleicht bemerkt haben, konnten wir die Daten, die wir mithilfe einer einseitigen Varianzanalyse verglichen haben, auch mithilfe der Student- und Fisher-Tests untersuchen. Vergleichen wir diese beiden Methoden. Berechnen wir dazu anhand dieser Kriterien den Größenunterschied zwischen Männern und Frauen. Dazu müssen wir dem Pfad Statistik / Basisstatistik / T-Test folgen, unabhängig, nach Gruppen. Natürlich sind die abhängigen Variablen die Wachstumsvariable und die Gruppierungsvariable die Geschlechtsvariable.


Reis. 5.5.1. Vergleich der mit ANOVA verarbeiteten Daten unter Verwendung der Student- und Fisher-Tests

Wie Sie sehen, ist das Ergebnis das gleiche wie bei der Verwendung der ANOVA. P = 0,041874 in beiden Fällen, wie in Abb. 5.4.5 und in Abb. 5.5.2 (Sehen Sie es selbst!).


Reis. 5.5.2. Ergebnisse der Analyse (ausführliche Erläuterung der Ergebnistabelle – im Abschnitt über den Studententest)

Es ist wichtig zu betonen, dass das F-Kriterium zwar aus mathematischer Sicht in der betrachteten Analyse nach den Student- und Fisher-Tests das gleiche ist wie in der ANOVA (und das Varianzverhältnis ausdrückt), seine Bedeutung jedoch in den Analyseergebnissen in dargestellt ist Der Finaltisch ist völlig anders. Beim Vergleich mit Student- und Fisher-Tests erfolgt der Vergleich der Stichprobenmittelwerte mit dem Student-Test und der Vergleich ihrer Variabilität mit dem Fisher-Test. Die Ergebnisse der Analyse zeigen nicht die Variation selbst, sondern ihre Quadratwurzel- Standardabweichung.

Bei der ANOVA hingegen wird der Fisher-Test verwendet, um die Mittelwerte verschiedener Stichproben zu vergleichen (wie wir besprochen haben, geschieht dies durch Teilen der Summe der Quadrate in Teile und Vergleichen der mittleren Summe der Quadrate, die zwischen und innerhalb der Gruppe entspricht). Variabilität).

Der obige Unterschied betrifft jedoch eher die Darstellung der Ergebnisse einer statistischen Studie als deren Wesen. Wie Glantz (1999, S. 99) beispielsweise hervorhebt, kann der Vergleich von Gruppen mithilfe des Student-t-Tests als Sonderfall der Varianzanalyse für zwei Stichproben betrachtet werden.

Daher hat der Vergleich von Proben mithilfe der Student- und Fisher-Tests einen wichtigen Vorteil gegenüber der Varianzanalyse: Er ermöglicht den Vergleich von Proben hinsichtlich ihrer Variabilität. Aber die Vorteile der Varianzanalyse sind noch bedeutender. Dazu gehört beispielsweise die Möglichkeit, mehrere Proben gleichzeitig zu vergleichen.

Die Ergebnisse von Experimenten und Tests können von einigen Faktoren abhängen, die die Variabilität der Durchschnittswerte einer Zufallsvariablen beeinflussen. Die Werte der Faktoren werden als Faktorstufen bezeichnet, die Größe als resultierendes Merkmal. Beispielsweise kann der Arbeitsaufwand auf einer Baustelle vom Arbeitsteam abhängen. In diesem Fall ist die Besatzungszahl die Stufe des Faktors und das Arbeitsvolumen pro Schicht das effektive Attribut.

Methode der Varianzanalyse, oder ANOVA(Varianzanalyse – Varianzanalyse) dient der Untersuchung der statistischen Signifikanz der Differenz zwischen den Mittelwerten für drei oder mehr Stichproben (Faktorstufen). Um Mittelwerte in zwei Stichproben zu vergleichen, verwenden Sie T-Kriterium

Das Verfahren zum Mittelwertvergleich wird als Varianzanalyse bezeichnet, da bei der Untersuchung der statistischen Signifikanz der Differenz zwischen den Mittelwerten mehrerer Beobachtungsgruppen eine Analyse der Stichprobenvarianzen durchgeführt wird. Das grundlegende Konzept der Varianzanalyse wurde von Fisher vorgeschlagen.

Der Kern der Methode besteht darin, die Gesamtvarianz in zwei Teile zu unterteilen, von denen einer auf zufällige Fehler (d. h. gruppeninterne Variabilität) zurückzuführen ist und der zweite mit der Differenz der Mittelwerte verbunden ist. Die letzte Varianzkomponente wird dann verwendet, um die statistische Signifikanz der Differenz zwischen den Mittelwerten zu analysieren. Wenn dieser Unterschied signifikant ist, wird die Nullhypothese verworfen und die Alternativhypothese, dass es einen Unterschied zwischen den Mittelwerten gibt, akzeptiert.

Variablen, deren Werte durch Messungen während eines Experiments ermittelt werden (z. B. Wirtschaftlichkeit, Ertrag, Testergebnis) werden abhängige Variablen oder Merkmale genannt. Variablen, die in einem Experiment kontrolliert werden können (z. B. Bewirtschaftungsniveau, Bodentyp, Lehrmethoden), werden Faktoren oder unabhängige Variablen genannt.

Bei der klassischen Varianzanalyse wird davon ausgegangen, dass die untersuchten Werte eine Normalverteilung mit konstanter Varianz und Mittelwerten aufweisen, die für verschiedene Stichprobenpopulationen unterschiedlich sein können. Als Kriterium zum Testen von Nullhypothesen wird das Verhältnis der Varianz der Gruppenmittelwerte zur Restvarianz verwendet. Es hat sich jedoch gezeigt, dass die Varianzanalyse auch für nicht-Gaußsche Zufallsvariablen gültig ist und bei einer Stichprobengröße von n > 4 für jede Faktorstufe der Fehler nicht hoch ist. Wenn eine hohe Genauigkeit der Schlussfolgerungen erforderlich ist und die Verteilung unbekannt ist, sollten nichtparametrische Tests verwendet werden, beispielsweise mithilfe der Rangvarianzanalyse.

Einfaktorielle ANOVA

Lass es ausgeführt werden M Gruppen von Messungen zufälliger Variablenwerte Y auf unterschiedlichen Wertniveaus eines Faktors und a 1 , a 2 , a m- mathematische Erwartung des effektiven Merkmals auf Faktorebenen A (1) , A (2) , A(M) ( ich=1, 2, M) jeweils.


Die Annahme, dass das effektive Merkmal unabhängig vom Faktor ist, läuft darauf hinaus, die Nullhypothese über die Gruppengleichheit zu testen mathematische Erwartungen

H 0: a 1 = a 2 = a m (6.12)

Hypothesentests sind möglich, wenn für jede Faktorstufe die folgenden Anforderungen erfüllt sind:

1) Beobachtungen sind unabhängig und werden unter den gleichen Bedingungen durchgeführt;

2) messbar Zufallsvariable hat ein Normalverteilungsgesetz mit einer konstanten allgemeinen Streuung für verschiedene Stufen des Faktors σ 2. Das heißt, die Hypothese ist wahr

H 0: σ 1 2 = σ 2 2 = σ m 2.

Um die Hypothese der Varianzgleichheit von drei oder mehr zu testen Normalverteilungen Es wird das Bartlett-Kriterium angewendet.

Wenn die Hypothese H 0: σ 1 2 = σ 2 2 = σ m 2 bestätigt wird, beginnen wir mit der Prüfung der Hypothese über die Gleichheit der mathematischen Gruppenerwartungen H 0: a 1 = a 2 = a m, also zur Varianzanalyse selbst. Grundlage der Varianzanalyse ist die Position, dass die Variabilität des resultierenden Merkmals sowohl durch Änderungen der Faktor-A-Werte als auch durch Variabilität der Werte zufälliger unkontrollierter Faktoren verursacht wird. Zufällige Faktoren werden als Residuum bezeichnet.

Es kann nachgewiesen werden, dass die gesamte Stichprobenvarianz als Summe der Varianz der Gruppenmittelwerte und des Durchschnitts der Gruppenvarianzen dargestellt werden kann

, Wo

Gesamtstichprobenvarianz;

Varianz der Gruppenmittelwerte (), berechnet für jede Faktorstufe;

Durchschnitt von Gruppenvarianzen(), berechnet für jede Faktorstufe. verbunden mit der Auswirkung auf Y Restfaktoren (zufällige Faktoren).

Wenn wir von der Erweiterung für die allgemeine Varianz zu den Stichprobenwerten übergehen, erhalten wir:

, (6.13)

Stellt die gewichtete Summe der quadratischen Abweichungen der Stichprobenmittelwerte für jede Ebene dar A(i) aus dem allgemeinen Stichprobenmittelwert,

Der Durchschnittswert der quadratischen Abweichungen innerhalb der Ebenen.

Zufallsvariablen haben jeweils die folgenden Werte für die Freiheitsgrade: N - 1, M - 1, n - m. Hier N - Gesamtzahl Beispielwerte, M- Anzahl der Faktorstufen.

In der mathematischen Statistik ist bewiesen, dass, wenn die Nullhypothese der Mittelwertgleichheit (10.8) wahr ist, die Menge

hat F-Verteilung mit der Anzahl der Freiheitsgrade k = M- 1 und l = n-m, das ist

(6.14)

Wenn die Nullhypothese erfüllt ist, stimmt die Varianz innerhalb der Gruppe praktisch mit überein Gesamtvarianz, berechnet ohne Berücksichtigung der Gruppenzugehörigkeit. Bei der Varianzanalyse ist in der Regel der Zähler größer als der Nenner. Andernfalls wird davon ausgegangen, dass die Beobachtungen den Einfluss des Faktors auf das resultierende Merkmal nicht bestätigen, und es wird keine weitere Analyse durchgeführt. Erhalten Varianzen innerhalb der Gruppe kann mit verglichen werden F-Kriterium, das prüft, ob das Verhältnis der Varianzen deutlich größer als 1 ist.

In diesem Zusammenhang wird die Hypothese (6.12) getestet F-kriterium analysiert den rechtsseitigen kritischen Bereich .

Wenn der berechnete Wert F in das angegebene Intervall fällt, wird die Nullhypothese verworfen und der Einfluss des Faktors gilt als nachgewiesen A zum wirksamen Zeichen Y.

Lassen Sie uns ein Beispiel für die Berechnung von Quadratsummen und Stichprobenvarianzen geben. Betrachten Sie den in Tabelle 6.2 dargestellten Datensatz. In diesem Beispiel wollen wir feststellen, ob es einen signifikanten Unterschied in der Leistung der Teams gibt.

Tabelle 6.2. Beispiel für die Berechnung von Quadratsummen





Fehler: Inhalt geschützt!!