Rangkorrelationsmethode nach Spearman online. Korrelationsanalyse nach der Spearman-Methode (Spearman-Ränge)

Koeffizient Rangkorrelation Spearman ist eine nicht-parametrische Methode, die verwendet wird statistische Studie Verbindungen zwischen Phänomenen. In diesem Fall wird der tatsächliche Grad der Parallelität zwischen den beiden quantitativen Reihen der untersuchten Merkmale bestimmt und die Enge der festgestellten Beziehung unter Verwendung eines quantitativ ausgedrückten Koeffizienten geschätzt.

1. Geschichte der Entwicklung des Rangkorrelationskoeffizienten

Dieses Kriterium wurde 1904 entwickelt und für die Korrelationsanalyse vorgeschlagen Charles Edward Spearmann, englischer Psychologe, Professor an den Universitäten London und Chesterfield.

2. Wofür wird das Spearman-Verhältnis verwendet?

Der Rangkorrelationskoeffizient nach Spearman wird verwendet, um die Nähe der Beziehung zwischen zwei Vergleichsreihen zu identifizieren und zu bewerten quantitative Indikatoren. Für den Fall, dass die Reihen der Indikatoren, sortiert nach Anstiegs- oder Rückgangsgrad, in den meisten Fällen übereinstimmen (ein größerer Wert eines Indikators entspricht einem größeren Wert eines anderen Indikators - z. beim Vergleich der Größe des Patienten und seines Körpergewichts), wird daraus geschlossen, dass dort gerade Korrelation. Wenn die Reihen der Indikatoren die entgegengesetzte Richtung haben (ein höherer Wert eines Indikators entspricht einem niedrigeren Wert eines anderen - zum Beispiel beim Vergleich von Alter und Herzfrequenz), dann reden sie darüber umkehren Verbindungen zwischen Indikatoren.

    Der Spearman-Korrelationskoeffizient hat die folgenden Eigenschaften:
  1. Der Korrelationskoeffizient kann Werte von minus eins bis eins annehmen, und bei rs=1 besteht eine streng direkte Beziehung und bei rs= -1 - streng Rückkopplung.
  2. Ist der Korrelationskoeffizient negativ, besteht ein umgekehrter Zusammenhang, ist er positiv, besteht ein direkter Zusammenhang.
  3. Wenn der Korrelationskoeffizient gleich Null ist, fehlt praktisch der Zusammenhang zwischen den Größen.
  4. Je näher der Modul des Korrelationskoeffizienten an Eins liegt, desto stärker ist die Beziehung zwischen den gemessenen Werten.

3. In welchen Fällen kann der Spearman-Koeffizient verwendet werden?

Aufgrund der Tatsache, dass der Koeffizient eine Methode ist Nichtparametrische Analyse, ist keine Prüfung auf Normalverteilung erforderlich.

Vergleichbare Indikatoren können wie in gemessen werden kontinuierliche Skala(zum Beispiel die Anzahl der Erythrozyten in 1 µl Blut) und in Ordinal-(z. B. Peer-Review-Ergebnisse von 1 bis 5).

Die Effektivität und Qualität der Spearman-Schätzung wird verringert, wenn die Differenz zwischen den verschiedenen Werten einer der gemessenen Größen groß genug ist. Es wird nicht empfohlen, den Spearman-Koeffizienten zu verwenden, wenn eine ungleichmäßige Verteilung der Werte des Messwerts vorliegt.

4. Wie berechnet man das Spearman-Verhältnis?

Die Berechnung des Spearman-Rangkorrelationskoeffizienten umfasst die folgenden Schritte:

5. Wie ist der Wert des Spearman-Koeffizienten zu interpretieren?

Bei Verwendung des Rangkorrelationskoeffizienten wird die Nähe der Verbindung zwischen den Zeichen bedingt geschätzt, wobei die Werte des Koeffizienten gleich 0,3 oder weniger sind - Indikatoren für eine schwache Nähe der Verbindung; Werte größer als 0,4, aber kleiner als 0,7 sind Indikatoren für eine mäßige Verbundenheit, und Werte von 0,7 und mehr sind Indikatoren für eine hohe Kommunikationsnähe.

Die statistische Signifikanz des erhaltenen Koeffizienten wird unter Verwendung des Student-t-Tests bewertet. Wenn der berechnete Wert des t-Kriteriums kleiner als der Tabellenwert für eine gegebene Anzahl von Freiheitsgraden ist, fehlt die statistische Signifikanz des beobachteten Zusammenhangs. Wenn mehr, dann wird die Korrelation als statistisch signifikant betrachtet.

37. Rangkorrelationskoeffizient nach Spearman.

S. 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Der Rangkorrelationskoeffizient nach Spearman wird verwendet, wenn:
- Variablen haben Rangordnung Messungen;
- Datenverteilung ist zu unterschiedlich aus normal oder gar nicht bekannt
- Proben sind klein (N< 30).

Die Interpretation des Rangkorrelationskoeffizienten nach Spearman unterscheidet sich nicht von der des Pearson-Koeffizienten, aber seine Bedeutung ist etwas anders. Um den Unterschied zwischen diesen Methoden zu verstehen und ihre Anwendungsbereiche logisch zu begründen, vergleichen wir ihre Formeln.

Korrelationskoeffizient nach Pearson:

Korrelationskoeffizient nach Spearman:

Wie Sie sehen können, unterscheiden sich die Formeln erheblich. Formeln vergleichen

Die Pearson-Korrelationsformel verwendet das arithmetische Mittel und die Standardabweichung der korrelierten Reihen, während dies bei der Spearman-Formel nicht der Fall ist. Um ein angemessenes Ergebnis nach der Pearson-Formel zu erhalten, ist es daher erforderlich, dass die korrelierten Reihen nahe an der Normalverteilung liegen (Mittelwert und Standardabweichung sind Parameter Normalverteilung ). Für die Spearman-Formel ist dies nicht relevant.

Ein Element der Pearson-Formel ist die Standardisierung jeder Reihe in z-Score.

Wie Sie sehen können, ist die Umwandlung von Variablen in die Z-Skala in der Pearson-Korrelationskoeffizientenformel enthalten. Dementsprechend ist für den Pearson-Koeffizienten die Skalierung der Daten völlig irrelevant: Wir können beispielsweise zwei Variablen korrelieren, von denen eine einen min. = 0 und max. = 1, und die zweite min. = 100 und max. = 1000. Unabhängig davon, wie sich der Wertebereich unterscheidet, werden alle konvertiert Standard-Z-Scores im Maßstab identisch.

Es gibt also keine solche Normalisierung im Spearman-Koeffizienten

EINE ZWINGENDE BEDINGUNG FÜR DIE VERWENDUNG DES SPEERMAN-KOEFFIZIENT IST DIE GLEICHHEIT DES BEREICHS ZWEI VARIABLEN.

Bevor Sie den Spearman-Koeffizienten für Datenreihen mit unterschiedlichen Bereichen verwenden, müssen Sie dies tun Rang. Das Ranking führt dazu, dass die Werte dieser Reihen das gleiche Minimum = 1 (minimaler Rang) und ein Maximum gleich der Anzahl der Werte (Maximum, letzter Rang = N, d.h. die maximale Anzahl von Fällen in der Probe).

In welchen Fällen kann auf ein Ranking verzichtet werden?

Dies sind Fälle, in denen die Daten ursprünglich sind Rangordnung. Zum Beispiel der Wertorientierungstest von Rokeach.

Dies sind auch Fälle, in denen die Anzahl der Wertoptionen klein ist und es in der Stichprobe feste Mindest- und Höchstwerte gibt. Zum Beispiel ist im semantischen Differential Minimum = 1, Maximum = 7.

Ein Beispiel für die Berechnung des Spearman-Rangkorrelationskoeffizienten

Der Wertorientierungstest von Rokeach wurde an zwei Stichproben X und Y durchgeführt. Aufgabe: herauszufinden, wie eng die Wertehierarchien dieser Stichproben sind (buchstäblich, wie ähnlich sie sich sind).

Der resultierende Wert r = 0,747 wird gegengeprüft Tabelle kritischer Werte. Gemäß der Tabelle ist bei N = 18 der erhaltene Wert auf der Ebene von p zuverlässig<=0,005

Rangkorrelationskoeffizienten nach Spearman und Kendal

Für Variablen, die der Ordinalskala angehören oder keiner Normalverteilung folgen, sowie für Variablen, die der Intervallskala angehören, wird anstelle des Pearson-Koeffizienten die Rangkorrelation nach Spearman berechnet. Dazu werden einzelnen Werten von Variablen Rangplätze zugeordnet, die anschließend mit den entsprechenden Formeln verarbeitet werden. Um die Rangkorrelation anzuzeigen, deaktivieren Sie das standardmäßige Kontrollkästchen Pearson-Korrelation im Dialogfeld „Bivariate Korrelationen...“. Aktivieren Sie stattdessen die Spearman-Korrelationsberechnung. Diese Berechnung ergibt die folgenden Ergebnisse. Die Rangkorrelationskoeffizienten liegen sehr nahe an den entsprechenden Werten der Pearson-Koeffizienten (die ursprünglichen Variablen sind normalverteilt).

titkova-matmetody.pdf p. 45

Mit der Rangkorrelationsmethode von Spearman können Sie die Enge (Stärke) und Richtung bestimmen

Zusammenhang zwischen zwei Zeichen oder zwei Profile (Hierarchien) Zeichen.

Um die Rangkorrelation zu berechnen, sind zwei Wertereihen erforderlich,

die eingeordnet werden können. Diese Wertebereiche können sein:

1) zwei Zeichen gleich gemessen Gruppe Test Objekte;

2) zwei individuelle Merkmalshierarchien, in zwei Themen für das gleiche identifiziert

eine Reihe von Funktionen;

3) zwei Gruppenhierarchien von Merkmalen,

4) Einzelperson und Gruppe Feature-Hierarchie.

Zunächst werden die Indikatoren für jedes der Merkmale separat eingestuft.

In der Regel wird einem niedrigeren Wert eines Merkmals ein niedrigerer Rang zugeordnet.

Im ersten Fall (zwei Merkmale) werden einzelne Werte nach dem ersten gereiht

Merkmal, das von verschiedenen Probanden erhalten wurde, und dann individuelle Werte für das zweite

Schild.

Wenn zwei Zeichen in positiver Beziehung stehen, dann rangieren die Subjekte mit den niedrigen Rängen

Einer von ihnen wird im anderen niedrige Ränge haben, und die Untertanen mit hohen Rängen hinein

Eines der Merkmale hat auch hohe Ränge gegenüber dem anderen Merkmal. Zum Zählen von rs

Es ist notwendig, die Unterschiede zu bestimmen (d) zwischen den Rängen, die diese Fächer auf beiden erreichten

Zeichen. Dann werden diese Indikatoren d auf eine bestimmte Weise transformiert und von 1 subtrahiert. Than

Je kleiner der Unterschied zwischen den Rängen ist, desto größer wird rs sein, desto näher wird es an +1 sein.

Wenn es keine Korrelation gibt, werden alle Ränge gemischt und es gibt keine

keine Übereinstimmung. Die Formel ist so ausgelegt, dass in diesem Fall rs nahe 0 ist.

Bei negativer Korrelation niedrige Reihen von Themen auf einer Basis

wird hohen Rängen auf einem anderen Attribut entsprechen und umgekehrt. Je mehr Missverhältnis

zwischen den Reihen der Probanden in zwei Variablen, je näher rs an -1 liegt.

Im zweiten Fall (zwei individuelle Profile), Individuell

Werte, die von jedem der 2 Probanden nach einem bestimmten (für sie gleich) erhalten wurden

beide) eine Reihe von Funktionen. Der erste Rang erhält die Eigenschaft mit dem niedrigsten Wert; zweiter Rang -

ein Zeichen mit einem höheren Wert usw. Natürlich müssen alle Merkmale eingemessen werden

die gleichen Einheiten, sonst ist eine Rangfolge nicht möglich. Es ist zum Beispiel unmöglich

Ordnen Sie die Indikatoren gemäß dem Cattell Personality Questionnaire (16PF), wenn sie in ausgedrückt werden

"rohe" Ergebnisse, da die Wertebereiche für verschiedene Faktoren unterschiedlich sind: von 0 bis 13, von 0 bis

20 und von 0 bis 26. Wir können nicht sagen, welcher der Faktoren in Bezug auf den ersten Platz einnehmen wird

Schweregrad, bis wir alle Werte auf eine einzige Skala bringen (meistens ist dies die Skala der Wände).

Stehen die einzelnen Hierarchien zweier Subjekte positiv in Beziehung, dann die Vorzeichen

niedrige Ränge in einem von ihnen haben niedrige Ränge in dem anderen und umgekehrt.

Wenn zum Beispiel für ein Fach der Faktor E (Dominanz) den niedrigsten Rang hat, dann für

einem anderen Fach, sollte es einen niedrigen Rang haben, wenn ein Fach Faktor C hat

(emotionale Stabilität) den höchsten Rang hat, dann muss das andere Subjekt auch einen haben

dieser Faktor hat einen hohen Rang, und so weiter.

Im dritten Fall (zwei Gruppenprofile) werden die durchschnittlichen Gruppenwerte gerankt,

erhalten in 2 Probandengruppen nach einem bestimmten, für zwei Gruppen identischen, Satz

Zeichen. Im Folgenden ist die Argumentation dieselbe wie in den beiden vorangegangenen Fällen.

Im Fall des 4. (Einzel- und Gruppenprofile) werden sie getrennt gewertet

Einzelwerte des Probanden und durchschnittliche Gruppenwerte für denselben Satz

Zeichen, die in der Regel unter Ausschluss dieses einzelnen Subjekts erhalten werden - er

nimmt nicht am durchschnittlichen Gruppenprofil teil, mit dem sein Individuum verglichen wird

Profil. Mit der Rangkorrelation können Sie überprüfen, wie konsistent die einzelnen und

Gruppenprofile.

In allen vier Fällen wird die Signifikanz des erhaltenen Korrelationskoeffizienten durch bestimmt

nach Anzahl der Rangwerte N. Im ersten Fall stimmt diese Nummer mit überein

Stichprobenumfang n. Im zweiten Fall entspricht die Anzahl der Beobachtungen der Anzahl der Merkmale.

eine Hierarchie bilden. Im dritten und vierten Fall ist N auch die Anzahl der Übereinstimmungen

Zeichen, nicht die Anzahl der Probanden in Gruppen. Detaillierte Erläuterungen finden sich in den Beispielen. Wenn ein

der Absolutwert von rs einen kritischen Wert erreicht oder überschreitet, die Korrelation

zuverlässig.

Hypothesen.

Es gibt zwei mögliche Hypothesen. Der erste bezieht sich auf Fall 1, der zweite auf die anderen drei

Die erste Version von Hypothesen

H0: Die Korrelation zwischen den Variablen A und B ist nicht von Null verschieden.

H2: Die Korrelation zwischen den Variablen A und B ist signifikant von Null verschieden.

Die zweite Version der Hypothesen

H0: Die Korrelation zwischen den Hierarchien A und B ist nicht von Null verschieden.

H2: Die Korrelation zwischen den Hierarchien A und B ist signifikant von Null verschieden.

Einschränkungen des Rangkorrelationskoeffizienten

1. Für jede Variable müssen mindestens 5 Beobachtungen eingereicht werden. Oberer, höher

die Probenahmegrenze wird durch die verfügbaren Grenzwerttabellen bestimmt .

2. Rangkorrelationskoeffizient nach Spearman rs mit einer großen Anzahl von identischen

Ränge für eine oder beide übereinstimmenden Variablen ergeben grobe Werte. Im Idealfall

beide korrelierten Serien müssen zwei nicht übereinstimmende Sequenzen sein

Werte. Ist diese Bedingung nicht erfüllt, muss eine Anpassung vorgenommen werden

die gleichen Ränge.

Der Rangkorrelationskoeffizient nach Spearman wird nach folgender Formel berechnet:

Wenn es in beiden verglichenen Ranglisten Gruppen mit gleichen Rängen gibt,

vor der Berechnung des Rangkorrelationskoeffizienten muss dieser korrigiert werden

Ränge Ta und TV:

Ta \u003d Σ (a3 - a) / 12,

Fernseher \u003d Σ (v3 - c) / 12,

wo a - das Volumen jeder Gruppe identischer Ränge in der Rangreihe A, in Volumen von jedem

Gruppen gleicher Ränge in der Rangreihe B.

Um den empirischen Wert von rs zu berechnen, verwenden Sie die Formel:

38. Gepunkteter biserialer Korrelationskoeffizient.

Zum Zusammenhang allgemein siehe Frage Nr. 36 Mit. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Die Variable X soll auf einer starken Skala und die Variable Y auf einer dichotomen Skala gemessen werden. Der punktbiseriale Korrelationskoeffizient rpb wird nach folgender Formel berechnet:

Dabei ist x 1 der Mittelwert für X Objekte mit dem Wert „eins“ für Y;

x 0 - der Durchschnittswert für X-Objekte mit einem Wert von "Null" für Y;

s x - Standardabweichung aller Werte für X;

n 1 - die Anzahl der Objekte "eins" in Y, n 0 - die Anzahl der Objekte "null" in Y;

n = n 1 + n 0 ist die Stichprobengröße.

Der punktbiseriale Korrelationskoeffizient kann auch mit anderen äquivalenten Ausdrücken berechnet werden:

Hier X ist der Gesamtmittelwert für die Variable X.

Punkt-biserialer Korrelationskoeffizient Rpb variiert von –1 bis +1. Sein Wert ist gleich Null für den Fall, dass Variablen mit einer Einheit für Y einen Durchschnitt haben Y, gleich dem Mittelwert der Variablen mit Null darüber Y.

Untersuchung Signifikanzhypothesen Punkt biserielle Korrelationskoeffizient ist zu überprüfen Nullhypotheseh 0 über die Gleichheit des allgemeinen Korrelationskoeffizienten mit Null: ρ = 0, was mit dem Student-Kriterium durchgeführt wird. Empirischer Wert

mit kritischen Werten verglichen t a (df) für die Anzahl der Freiheitsgrade df = n– 2

Wenn die Bedingung | t| ≤ ta(df) wird die Nullhypothese ρ = 0 nicht verworfen. Der punktbiseriale Korrelationskoeffizient weicht signifikant von Null ab, wenn der Erfahrungswert | t| in den kritischen Bereich fällt, das heißt, wenn die Bedingung | t| > ta(n– 2). Zuverlässigkeit der Beziehung, berechnet unter Verwendung des punktbiserialen Korrelationskoeffizienten Rpb, kann ebenfalls anhand des Kriteriums bestimmt werden χ 2 für die Anzahl der Freiheitsgrade df= 2.

Punkt-Biserial-Korrelation

Die anschließende Modifikation des Korrelationskoeffizienten des Momentenprodukts spiegelte sich in der gepunkteten biserialen Linie wider r. Diese Statistik. zeigt den Zusammenhang zwischen zwei Variablen, von denen die eine vermeintlich stetig und normalverteilt ist, während die andere im genauen Sinne des Wortes diskret ist. Der Punkt-Biserial-Korrelationskoeffizient wird mit bezeichnet r pbis Weil in r pbis Die Dichotomie spiegelt die wahre Natur der diskreten Variablen wider und ist nicht künstlich, wie im Fall r bis, sein Vorzeichen wird willkürlich bestimmt. Daher für alle Praxen Tore r pbis im Bereich von 0,00 bis +1,00 berücksichtigt.

Es gibt auch einen solchen Fall, wenn zwei Variablen als stetig und normalverteilt angesehen werden, aber beide künstlich dichotomisiert sind, wie im Fall der biserialen Korrelation. Um die Beziehung zwischen solchen Variablen zu beurteilen, wird der tetrachorische Korrelationskoeffizient verwendet r tet, die ebenfalls von Pearson gezüchtet wurde. Hauptsächlich (genaue) Formeln und Verfahren zur Berechnung r tet sind ziemlich komplex. Daher mit Übung. diese Methode verwendet die Näherungen r tet auf der Grundlage verkürzter Verfahren und Tabellen erhalten.

/online/lexikon/lexikon.php?term=511

DOTTED BISERIAL KOEFFIZIENT DER KORRELATION ist der Korrelationskoeffizient zwischen zwei Variablen, von denen eine auf einer dichotomen Skala und die andere auf einer Intervallskala gemessen wird. Es wird in der klassischen und modernen Testologie als Qualitätsindikator verwendet. Testaufgabe– Zuverlässigkeit-Konsistenz mit dem Gesamttestergebnis.

Um gemessene Variablen zu korrelieren dichotome und Intervallskala verwenden Punkt-Biserial-Korrelationskoeffizient.
Der Punkt-Biserial-Korrelationskoeffizient ist eine Methode zur Korrelationsanalyse des Verhältnisses von Variablen, von denen eine in der Namensskala gemessen wird und nur 2 Werte annimmt (z. B. Männer / Frauen, die Antwort ist richtig / die Antwort ist falsch, es gibt ein Vorzeichen / es gibt kein Vorzeichen), und die zweite in den Skalenverhältnissen oder Intervallskalen. Die Formel zur Berechnung des Koeffizienten der punktbiserialen Korrelation:

Wo:
m1 und m0 sind die Durchschnittswerte von X mit einem Wert von 1 oder 0 in Y.
σx ist die Standardabweichung aller Werte für X
n1 ,n0 – Anzahl der X-Werte von 1 oder 0 bis Y.
n ist die Gesamtzahl der Wertepaare

Am häufigsten wird diese Art von Korrelationskoeffizient verwendet, um die Beziehung von Testaufgaben mit einer Summenskala zu berechnen. Dies ist eine Art von Validierungsprüfung.

39. Rang-Biserial-Korrelationskoeffizient.

Zum Zusammenhang allgemein siehe Frage Nr. 36 Mit. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

Der Rang-Biserial-Korrelationskoeffizient, der verwendet wird, wenn eine der Variablen ( X) wird in einer Ordinalskala dargestellt, und die andere ( Y) - dichotom, berechnet nach der Formel

.

Hier ist der durchschnittliche Rang von Objekten mit Einheit in Y; ist der durchschnittliche Rang von Objekten mit Null in Y, n ist die Stichprobengröße.

Untersuchung Signifikanzhypothesen Der rang-biseriale Korrelationskoeffizient wird ähnlich wie der punkt-biseriale Korrelationskoeffizient unter Verwendung des Student's t-Tests mit Ersatz in den Formeln durchgeführt rpb auf der rrb.

Wenn eine Variable auf einer dichotomen Skala gemessen wird (Variable x), und die andere in der Rangskala (Variable Y) unter Verwendung des Rang-Biserial-Korrelationskoeffizienten. Wir erinnern uns, dass die Variable x, gemessen in einer dichotomen Skala, nimmt nur zwei Werte (Codes) 0 und 1 an. Lassen Sie uns besonders betonen, dass trotz der Tatsache, dass dieser Koeffizient im Bereich von –1 bis +1 variiert, sein Vorzeichen für die Interpretation nicht von Bedeutung ist Ergebnisse. Dies ist eine weitere Ausnahme von der allgemeinen Regel.

Die Berechnung dieses Koeffizienten erfolgt nach folgender Formel:

wo ` X 1 durchschnittlicher Rang über diesen Elementen der Variablen Y, was dem Code (Merkmal) 1 in der Variablen entspricht X;

„X 0 – durchschnittlicher Rang für diese Elemente der Variablen Ja, was dem Code (Merkmal) 0 in der Variablen entspricht X\

N- die Gesamtzahl der Elemente in der Variablen x.

Um den Rang-Biserial-Korrelationskoeffizienten anzuwenden, müssen die folgenden Bedingungen erfüllt sein:

1. Die zu vergleichenden Variablen müssen auf verschiedenen Skalen gemessen werden: eine X- in einer dichotomen Skala; Ein weiterer J– in der Rangordnung.

2. Die Anzahl unterschiedlicher Merkmale in den verglichenen Variablen X und Y sollte gleich sein.

3. Um das Zuverlässigkeitsniveau des Rang-Biserial-Korrelationskoeffizienten zu beurteilen, sollte man die Formel (11.9) und die Tabelle der kritischen Werte für den Student-Test verwenden, wenn k = n - 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Fälle, in denen eine der Variablen in vorhanden ist dichotome Skala, und der andere hinein Rang (Ordnungszahl), erfordern die Verwendung Rang-Biserial-Korrelationskoeffizient:

rpb=2 / n * (m1 - m0)

wo:
n ist die Anzahl der Messobjekte
m1 und m0 - der durchschnittliche Rang von Objekten mit 1 oder 0 in der zweiten Variablen.
Dieser Koeffizient wird auch bei der Überprüfung der Validität von Tests verwendet.

40. Linearer Korrelationskoeffizient.

Zur Korrelation im Allgemeinen (und zur linearen Korrelation im Besonderen) siehe Frage Nr. 36 Mit. 56 (64) 063.JPG

Mr. PEARSON'S KORRELATIONSKOEFFIZIENT

r-Pearson (Pearson r) wird verwendet, um die Beziehung zwischen zwei Metriken zu untersuchenandere Variablen, die an derselben Probe gemessen wurden. Es gibt viele Situationen, in denen es angebracht ist, es zu verwenden. Beeinflusst Intelligenz die Leistung in höheren Universitätsjahren? Hängt die Höhe des Gehalts eines Mitarbeiters mit seinem Wohlwollen gegenüber Kollegen zusammen? Beeinflusst die Stimmung eines Schülers den Erfolg beim Lösen einer komplexen Rechenaufgabe? Um solche Fragen zu beantworten, muss der Forscher zwei Indikatoren messen, die für jedes Mitglied der Stichprobe von Interesse sind. Die Daten zum Untersuchen der Beziehung werden dann wie im Beispiel unten tabelliert.

BEISPIEL 6.1

Die Tabelle zeigt beispielhaft die ersten Messdaten für zwei Intelligenzindikatoren (verbal und nonverbal) bei 20 Schülern der 8. Klasse.

Die Beziehung zwischen diesen Variablen kann mithilfe eines Streudiagramms dargestellt werden (siehe Abbildung 6.3). Das Diagramm zeigt, dass es einen Zusammenhang zwischen den gemessenen Indikatoren gibt: Je größer der Wert der verbalen Intelligenz, desto größer (hauptsächlich) der Wert der nonverbalen Intelligenz.

Bevor wir die Formel für den Korrelationskoeffizienten angeben, wollen wir versuchen, die Logik seines Auftretens anhand der Daten aus Beispiel 6.1 nachzuvollziehen. Die Position jedes /-Punktes (Subjekt mit der Nummer /) auf dem Streudiagramm relativ zu den anderen Punkten (Abb. 6.3) kann durch die Größen und Vorzeichen der Abweichungen der entsprechenden Werte der Variablen von ihren angegeben werden durchschnittliche Werte: (xj - MJ und (Geist bei ). Wenn die Vorzeichen dieser Abweichungen übereinstimmen, spricht dies für eine positive Beziehung (große Werte für X entsprechen großen Werten bei oder kleinere Werte für X entsprechen kleineren Werten y).

Für Proband Nr. 1 die Abweichung vom Durchschnitt X und von bei positiv, und für Proband Nr. 3 sind beide Abweichungen negativ. Folglich weisen die Daten von beiden auf eine positive Beziehung zwischen den untersuchten Merkmalen hin. Im Gegenteil, wenn sich Abweichungen vom Durchschnitt abzeichnen X und von bei unterscheiden, weist dies auf eine negative Beziehung zwischen den Zeichen hin. Also für Proband Nr. 4 die Abweichung vom Durchschnitt X ist negativ, gem ja - positiv und für Thema Nr. 9 - umgekehrt.

Wenn also das Produkt der Abweichungen (x, - M X ) X (Geist bei ) positiv, dann weisen die Daten des /-Subjekts auf eine direkte (positive) Beziehung hin, und wenn negativ, dann auf eine inverse (negative) Beziehung. Dementsprechend, wenn Xwj meistens direkt proportional sind, dann sind die meisten Produkte der Abweichungen positiv, und wenn sie umgekehrt zusammenhängen, sind die meisten Produkte negativ. Daher kann die Summe aller Abweichungsprodukte für eine bestimmte Stichprobe als allgemeiner Indikator für die Stärke und Richtung des Zusammenhangs dienen:

Bei einer direkt proportionalen Beziehung zwischen den Variablen ist dieser Wert groß und positiv - bei den meisten Probanden stimmen die Abweichungen im Vorzeichen überein (große Werte einer Variablen entsprechen großen Werten der anderen Variablen und umgekehrt). Wenn X und bei Feedback haben, dann entsprechen bei den meisten Probanden große Werte einer Variablen kleineren Werten einer anderen Variablen, d. H. Die Vorzeichen der Produkte sind negativ und die Summe der Produkte insgesamt wird ebenfalls groß sein im absoluten Wert, aber mit negativem Vorzeichen. Wenn zwischen den Variablen keine systematische Beziehung besteht, werden die positiven Terme (Produkte von Abweichungen) durch negative Terme ausgeglichen, und die Summe aller Produkte von Abweichungen wird nahe Null sein.

Damit die Summe der Produkte nicht von der Stichprobengröße abhängt, reicht es aus, sie zu mitteln. Aber wir interessieren uns für das Maß der Beziehung nicht als allgemeinen Parameter, sondern als berechnete Schätzung davon - Statistik. Daher werden wir in diesem Fall wie bei der Dispersionsformel dasselbe tun und die Summe der Produkte der Abweichungen nicht durch dividieren N, und im Fernsehen - 1. Es stellt sich heraus, dass es sich um eine in Physik und technischen Wissenschaften weit verbreitete Kommunikationsmaßnahme handelt, die aufgerufen wird Kovarianz (Covahance):


BEI In der Psychologie werden im Gegensatz zur Physik die meisten Variablen auf willkürlichen Skalen gemessen, da Psychologen nicht am absoluten Wert des Attributs interessiert sind, sondern gegenseitiges Einverständnis Testpersonen in der Gruppe. Außerdem ist die Kovarianz sehr empfindlich gegenüber der Skala (Streuung), in der die Merkmale gemessen werden. Um das Kommunikationsmaß von den Maßeinheiten der beiden Attribute unabhängig zu machen, genügt es, die Kovarianz in die entsprechenden Standardabweichungen zu unterteilen. So wurde es erhalten zum-K. Pearsons Korrelationskoeffizienten-Mule:

oder nach Ersetzen der Ausdrücke für o x und


Wenn die Werte beider Variablen mithilfe der Formel in r-Werte umgewandelt wurden


dann sieht die Formel für den r-Pearson-Korrelationskoeffizienten einfacher aus (071.JPG):

/dict/sociology/article/soc/soc-0525.htm

ZUSAMMENHANG LINEAR- statistische nichtkausale lineare Beziehung zwischen zwei quantitativen Variablen X und bei. Gemessen mit dem „Faktor K.L.“ Pearson, die das Ergebnis der Division der Kovarianz durch die Standardabweichungen beider Variablen ist:

,

wo s xy- Kovarianz zwischen Variablen X und bei;

s x , s j- Standardabweichungen für Variablen X und bei;

x ich , j ich- variable Werte X und bei für Objektnummer ich;

x, j- arithmetische Mittelwerte für Variablen X und bei.

Pearsons Verhältnis r kann Werte aus dem Intervall [-1; +1]. Bedeutung r = 0 bedeutet keine lineare Beziehung zwischen Variablen X und bei(schließt aber einen nichtlinearen statistischen Zusammenhang nicht aus). Positive Koeffizientenwerte ( r> 0) weisen auf eine direkte lineare Beziehung hin; je näher sein Wert an +1 liegt, desto stärker ist die statistische direkte Beziehung. Negative Koeffizientenwerte ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 bedeutet das Vorhandensein einer vollständigen linearen Verbindung, direkt oder umgekehrt. Bei einer vollständigen Verbindung sind alle Punkte mit Koordinaten ( x ich , j ich) liegen auf einer geraden Linie j = a + bx.

"Koeffizient K.L." Pearson wird auch verwendet, um die Enge der Beziehung im Regressionsmodell für lineare Paare zu messen.

41. Korrelationsmatrix und Korrelationsgraph.

Zum Zusammenhang allgemein siehe Frage Nr. 36 Mit. 56 (64) 063.JPG

Korrelationsmatrix. Häufig umfasst die Korrelationsanalyse die Untersuchung der Beziehung nicht von zwei, sondern von vielen Variablen, die auf einer quantitativen Skala an einer einzigen Probe gemessen werden. In diesem Fall werden Korrelationen für jedes Paar dieses Satzes von Variablen berechnet. Berechnungen werden in der Regel auf einem Computer durchgeführt und das Ergebnis ist eine Korrelationsmatrix.

Korrelationsmatrix(Korrelation Matrix) ist das Ergebnis der Berechnung gleichartiger Korrelationen für jedes Paar aus der Menge R Variablen, die in einer quantitativen Skala an einer Probe gemessen werden.

BEISPIEL

Angenommen, wir untersuchen Beziehungen zwischen 5 Variablen (vl, v2,..., v5; P= 5), gemessen an einer Probe von N = 30 Mensch. Nachfolgend finden Sie eine Tabelle mit Anfangsdaten und eine Korrelationsmatrix.

Und
zusammenhängende Daten:

Korrelationsmatrix:

Es ist leicht zu sehen, dass die Korrelationsmatrix quadratisch ist, symmetrisch in Bezug auf die Hauptdiagonale (takkakg, y = /) y), mit Einheiten auf der Hauptdiagonale (seit G und = Gu = 1).

Die Korrelationsmatrix ist Quadrat: die Anzahl der Zeilen und Spalten ist gleich der Anzahl der Variablen. Sie ist symmetrisch relativ zur Hauptdiagonale, da die Korrelation X Mit bei gleich Korrelation bei Mit X. Einheiten befinden sich auf seiner Hauptdiagonalen, da die Korrelation eines Merkmals mit sich selbst gleich eins ist. Folglich werden nicht alle Elemente der Korrelationsmatrix analysiert, sondern diejenigen, die über oder unter der Hauptdiagonale liegen.

Anzahl der Korrelationskoeffizienten, Die bei der Untersuchung von Beziehungen zu analysierenden P-Merkmale werden durch die Formel bestimmt: P(P- 1)/2. Im obigen Beispiel beträgt die Anzahl solcher Korrelationskoeffizienten 5(5 - 1)/2 = 10.

Die Hauptaufgabe der Analyse der Korrelationsmatrix ist Aufdecken der Struktur von Wechselbeziehungen einer Reihe von Merkmalen. Dies ermöglicht eine visuelle Analyse Korrelationsplejaden- grafisches Bild Strukturen statistischbedeutende Verbindungen wenn es nicht sehr viele solcher Verbindungen gibt (bis zu 10-15). Eine andere Möglichkeit ist der Einsatz multivariater Methoden: Multiple Regression, Faktor- oder Clusteranalyse (siehe Abschnitt "Multivariate Methoden..."). Mittels Faktor- oder Clusteranalyse ist es möglich, Gruppierungen von Variablen zu identifizieren, die enger miteinander verwandt sind als mit anderen Variablen. Auch eine Kombination dieser Methoden ist sehr effektiv, wenn beispielsweise viele Zeichen vorhanden sind und diese nicht homogen sind.

Vergleich von Korrelationen - eine zusätzliche Aufgabe der Analyse der Korrelationsmatrix, die zwei Optionen hat. Wenn Korrelationen in einer der Zeilen der Korrelationsmatrix (für eine der Variablen) verglichen werden müssen, wird die Vergleichsmethode für abhängige Stichproben angewendet (S. 148-149). Beim Vergleich gleichnamiger Korrelationen, die für verschiedene Stichproben berechnet wurden, wird die Vergleichsmethode für unabhängige Stichproben verwendet (S. 147-148).

Vergleichsmethoden Korrelationen in Diagonalen Korrelationsmatrix (zur Beurteilung der Stationarität eines Zufallsprozesses) und Vergleich mehrere Korrelationsmatrizen, die für verschiedene Proben (wegen ihrer Homogenität) erhalten wurden, sind zeitaufwändig und würden den Rahmen dieses Buches sprengen. Sie können sich mit diesen Methoden aus dem Buch von GV Sukhodolsky 1 vertraut machen.

Problem statistische Signifikanz Korrelationen. Das Problem ist, dass das Verfahren statistische Prüfung Hypothese suggeriert eines-mehrere Test an einer Probe durchgeführt. Wenn die gleiche Methode angewendet wird viele Male, selbst wenn in Bezug auf verschiedene Variablen, dann steigt die Wahrscheinlichkeit, rein zufällig ein Ergebnis zu erhalten. BEI Allgemeiner Fall wenn wir dieselbe Hypothesentestmethode wiederholen zu Zeiten in Bezug auf verschiedene Variablen oder Stichproben, dann erhalten wir mit dem festgestellten Wert von a garantiert eine Bestätigung der Hypothese in äh die Zahl der Fälle.

Nehmen wir an, dass die Korrelationsmatrix für 15 Variablen analysiert wird, dh es werden 15(15-1)/2 = 105 Korrelationskoeffizienten berechnet. Um die Hypothesen zu testen, wird das Niveau a = 0,05 gesetzt.Durch 105-maliges Testen der Hypothese erhalten wir ihre Bestätigung fünfmal (!), unabhängig davon, ob der Zusammenhang tatsächlich besteht. Können wir mit diesem Wissen und nachdem wir beispielsweise 15 „statistisch signifikante“ Korrelationskoeffizienten erhalten haben, sagen, welche davon zufällig erhalten wurden und welche eine echte Beziehung widerspiegeln?

Genau genommen zu akzeptieren Statistische Lösung es ist notwendig, das Niveau a so oft zu reduzieren, wie die Hypothesen getestet werden. Dies ist jedoch kaum ratsam, da die Wahrscheinlichkeit, eine wirklich bestehende Verbindung zu ignorieren (einen Typ-II-Fehler zu begehen) in unvorhersehbarer Weise zunimmt.

Die Korrelationsmatrix allein reicht nicht ausfür statistische Rückschlüsse auf die darin enthaltenen einzelnen KoeffizientenZusammenhänge!

Um dieses Problem zu lösen, gibt es nur einen wirklich überzeugenden Weg: Teilen Sie die Stichprobe zufällig in zwei Teile und berücksichtigen Sie nur die Korrelationen, die in beiden Teilen der Stichprobe statistisch signifikant sind. Eine Alternative kann der Einsatz multivariater Verfahren (faktorielle, Cluster- oder multiple Regressionsanalyse) sein – zur Auswahl und anschließenden Interpretation von Gruppen statistisch signifikant verwandter Variablen.

Das Problem der fehlenden Werte. Bei fehlenden Werten in den Daten sind zwei Möglichkeiten zur Berechnung der Korrelationsmatrix möglich: a) Zeilenweises Löschen von Werten (ausschließenFällelistweise); b) paarweises Löschen von Werten (ausschließenFällepaarweise). Bei Zeile für Zeile löschen Beobachtungen mit Lücken, wird die gesamte Zeile für das Objekt (Subjekt) gelöscht, das mindestens einen fehlenden Wert für eine der Variablen hat. Dieses Verfahren führt zu einer "korrekten" Korrelationsmatrix in dem Sinne, dass alle Koeffizienten aus derselben Menge von Objekten berechnet werden. Wenn die fehlenden Werte jedoch zufällig in den Variablen verteilt sind, dann kann diese Methode dazu führen, dass im betrachteten Datensatz kein Objekt mehr vorhanden ist (jede Zeile wird mindestens einen fehlenden Wert enthalten). Um diese Situation zu vermeiden, verwenden Sie eine andere aufgerufene Methode paarweise Entfernung. Dieses Verfahren berücksichtigt nur Lücken in jedem ausgewählten Paar von Variablenspalten und ignoriert Lücken in anderen Variablen. Die Korrelation für ein Variablenpaar wird für die Objekte berechnet, bei denen es keine Lücken gibt. In vielen Situationen, insbesondere wenn die Anzahl der Lücken relativ klein ist, sagen wir 10 %, und die Lücken ziemlich zufällig verteilt sind, führt dieses Verfahren nicht zu ernsthaften Fehlern. Manchmal ist dies jedoch nicht der Fall. Beispielsweise kann bei der systematischen Verzerrung (Verschiebung) der Schätzung die systematische Lage der Lücken „versteckt“ werden, was der Grund für die Unterschiede in den Korrelationskoeffizienten ist, die auf verschiedenen Teilmengen (z. B. für verschiedene Untergruppen von Objekten) aufgebaut sind ). Ein weiteres Problem hängt mit der mit berechneten Korrelationsmatrix zusammen in Paaren Lücken werden entfernt, wenn diese Matrix in anderen Analysearten verwendet wird (z. B. in multipler Regression oder Faktorenanalyse). Sie gehen davon aus, dass eine „korrekte“ Korrelationsmatrix mit einer gewissen Konsistenz und „Übereinstimmung“ verschiedener Koeffizienten verwendet wird. Die Verwendung einer Matrix mit "schlechten" (voreingenommenen) Schätzungen führt dazu, dass das Programm eine solche Matrix entweder nicht analysieren kann oder die Ergebnisse fehlerhaft sind. Wenn daher ein paarweises Verfahren zum Eliminieren fehlender Daten verwendet wird, muss überprüft werden, ob es systematische Muster in der Verteilung von Lücken gibt oder nicht.

Wenn die paarweise Eliminierung fehlender Daten zu keiner systematischen Verschiebung der Mittelwerte und Varianzen (Standardabweichungen) führt, ähneln diese Statistiken denen, die mit der zeilenweisen Methode zum Entfernen von Lücken berechnet wurden. Liegt ein signifikanter Unterschied vor, so ist von einer Verschiebung der Schätzungen auszugehen. Zum Beispiel, wenn der Mittelwert (oder die Standardabweichung) der Werte der Variablen ABER, die bei der Berechnung seiner Korrelation mit der Variablen verwendet wurde BEI, viel weniger als der Mittelwert (oder die Standardabweichung) der gleichen Werte der Variablen ABER, die bei der Berechnung ihrer Korrelation mit der Variablen C verwendet wurden, dann gibt es allen Grund zu erwarten, dass diese beiden Korrelationen (A-Buns) basierend auf verschiedenen Untergruppen von Daten. Es wird eine Verschiebung der Korrelationen geben, die durch die nicht zufällige Lage der Lücken in den Werten der Variablen verursacht wird.

Analyse von Korrelationsplejaden. Nach Lösung des Problems der statistischen Signifikanz der Elemente der Korrelationsmatrix können statistisch signifikante Korrelationen grafisch in Form einer Korrelationsplejade oder -plejaden dargestellt werden. Korrelationsgalaxie - es ist eine Figur, die aus Scheitelpunkten und Verbindungslinien besteht. Die Scheitelpunkte entsprechen den Merkmalen und werden normalerweise mit Zahlen bezeichnet - den Nummern der Variablen. Die Linien entsprechen statistisch signifikanten Beziehungen und drücken grafisch das Vorzeichen und manchmal das /j-Signifikanzniveau der Beziehung aus.

Die Korrelationsgalaxie kann reflektieren alle statistisch signifikante Beziehungen der Korrelationsmatrix (manchmal auch als Korrelationsdiagramm ) oder nur deren sinnvoll ausgewählter Teil (z. B. entsprechend einem Faktor nach den Ergebnissen der Faktorenanalyse).

BEISPIEL FÜR DIE KONSTRUKTION EINER KORRELATION PLEIADI


Vorbereitung auf die staatliche (Abschluss-)Zertifizierung der Absolventen: Aufbau der USE-Datenbank (allgemeine Liste der USE-Teilnehmer aller Kategorien mit Fächerangabe) - Berücksichtigung von Reservetagen bei Fächerüberschneidung;

  • Arbeitsplan (27)

    Lösung

    2. Die Aktivitäten der Bildungseinrichtung zur Verbesserung des Inhalts und zur Bewertung der Qualität in den Fächern Natur- und Mathematikunterricht MOU-Sekundarschule Nr. 4, Litvinovskaya, Chapaevskaya,

  • Mit der Rangkorrelationsmethode von Spearman können Sie die Enge (Stärke) und Richtung der Korrelation zwischen zwei Merkmalen oder zwei Profilen (Hierarchien) von Merkmalen bestimmen.

    Um die Rangkorrelation zu berechnen, sind zwei Wertereihen erforderlich,

    die eingeordnet werden können. Diese Wertebereiche können sein:

    1) zwei Zeichen, die in derselben Probandengruppe gemessen wurden;

    2) zwei individuelle Merkmalshierarchien, die in zwei Subjekten für denselben Satz von Merkmalen identifiziert wurden;

    3) zwei Gruppenhierarchien von Merkmalen,

    4) Einzel- und Gruppenhierarchien von Merkmalen.

    Zunächst werden die Indikatoren für jedes der Merkmale separat eingestuft.

    In der Regel wird einem niedrigeren Wert eines Merkmals ein niedrigerer Rang zugeordnet.

    Im ersten Fall (zwei Merkmale) werden die Einzelwerte für das erste Merkmal, die von verschiedenen Probanden erhalten wurden, gereiht, und dann die Einzelwerte für das zweite Merkmal.

    Wenn zwei Attribute in einem positiven Zusammenhang stehen, dann haben Subjekte mit niedrigen Rängen in einem von ihnen niedrige Ränge in dem anderen und Subjekte mit hohen Rängen in

    Eines der Merkmale hat auch hohe Ränge gegenüber dem anderen Merkmal. Um rs zu berechnen, ist es notwendig, die Differenz (d) zwischen den Rängen zu bestimmen, die das gegebene Subjekt auf beiden Gründen erreicht hat. Dann werden diese Indikatoren d auf eine bestimmte Weise transformiert und von 1 subtrahiert. Than

    Je kleiner der Unterschied zwischen den Rängen ist, desto größer wird rs sein, desto näher wird es an +1 sein.

    Wenn es keine Korrelation gibt, werden alle Ränge gemischt und es gibt keine

    keine Übereinstimmung. Die Formel ist so ausgelegt, dass in diesem Fall rs nahe 0 ist.

    Bei negativer Korrelation die niedrigen Ränge der Probanden bei einem Attribut

    wird hohen Rängen auf einem anderen Attribut entsprechen und umgekehrt. Je größer die Diskrepanz zwischen den Rängen der Probanden bei zwei Variablen ist, desto näher liegt rs bei -1.

    Im zweiten Fall (zwei individuelle Profile) individuell

    die Werte, die von jedem der 2 Probanden gemäß einem bestimmten (für beide gleichen) Satz von Merkmalen erhalten wurden. Der erste Rang erhält die Eigenschaft mit dem niedrigsten Wert; der zweite Rang ist ein Merkmal mit einem höheren Wert und so weiter. Offensichtlich müssen alle Merkmale in denselben Einheiten gemessen werden, sonst ist eine Rangfolge nicht möglich. Beispielsweise ist es unmöglich, Indikatoren gemäß dem Cattell Personality Questionnaire (16PF) einzustufen, wenn sie in „rohen“ Werten ausgedrückt werden, da die Wertebereiche für verschiedene Faktoren unterschiedlich sind: von 0 bis 13, von 0 bis

    20 und von 0 bis 26. Wir können nicht sagen, welcher der Faktoren in Bezug auf die Schwere den ersten Platz einnehmen wird, bis wir alle Werte auf eine einzige Skala bringen (meistens ist dies die Wandskala).

    Wenn die individuellen Hierarchien zweier Subjekte positiv miteinander verbunden sind, dann haben die Merkmale, die für eines von ihnen niedrige Ränge haben, niedrige Ränge für das andere und umgekehrt. Wenn zum Beispiel bei einem Fach der Faktor E (Dominanz) den niedrigsten Rang hat, dann sollte er bei einem anderen Fach einen niedrigen Rang haben, wenn ein Fach den Faktor C hat

    (emotionale Stabilität) den höchsten Rang hat, dann muss das andere Subjekt auch einen haben

    dieser Faktor hat einen hohen Rang, und so weiter.

    Im dritten Fall (zwei Gruppenprofile) werden die in 2 Probandengruppen erhaltenen durchschnittlichen Gruppenwerte nach einem bestimmten, für zwei Gruppen identischen Merkmalssatz gereiht. Im Folgenden ist die Argumentation dieselbe wie in den beiden vorangegangenen Fällen.

    Beim 4. (Einzel- und Gruppenprofil) werden die Einzelwerte des Probanden und die Gruppenmittelwerte getrennt nach denselben Merkmalen gereiht, die man in der Regel durch Ausschluss dieses Individuums erhält Thema - er nimmt nicht am mittleren Gruppenprofil teil, mit dem er verglichen wird. individuelles Profil. Mit der Rangkorrelation können Sie überprüfen, wie konsistent die Einzel- und Gruppenprofile sind.

    In allen vier Fällen wird die Signifikanz des erhaltenen Korrelationskoeffizienten durch die Anzahl der Rangwerte N bestimmt. Im ersten Fall fällt diese Anzahl mit der Stichprobengröße n zusammen. Im zweiten Fall entspricht die Anzahl der Beobachtungen der Anzahl der Merkmale, aus denen die Hierarchie besteht. Im dritten und vierten Fall ist N auch die Anzahl der verglichenen Merkmale und nicht die Anzahl der Subjekte in den Gruppen. Detaillierte Erläuterungen finden sich in den Beispielen. Wenn der Absolutwert von rs einen kritischen Wert erreicht oder überschreitet, ist die Korrelation signifikant.

    Hypothesen.

    Es gibt zwei mögliche Hypothesen. Der erste bezieht sich auf Fall 1, der zweite auf die anderen drei Fälle.

    Die erste Version von Hypothesen

    H0: Die Korrelation zwischen den Variablen A und B ist nicht von Null verschieden.

    H1: Die Korrelation zwischen den Variablen A und B ist signifikant von Null verschieden.

    Die zweite Version der Hypothesen

    H0: Die Korrelation zwischen den Hierarchien A und B ist nicht von Null verschieden.

    H1: Die Korrelation zwischen den Hierarchien A und B ist signifikant von Null verschieden.

    Einschränkungen des Rangkorrelationskoeffizienten

    1. Für jede Variable müssen mindestens 5 Beobachtungen eingereicht werden. Die Obergrenze der Probe wird durch die verfügbaren Tabellen mit kritischen Werten bestimmt.

    2. Spearmans Rangkorrelationskoeffizient rs bei einer großen Anzahl identischer Ränge für eine oder beide verglichenen Variablen ergibt vergröberte Werte. Idealerweise sollten beide korrelierten Reihen zwei Folgen von nicht übereinstimmenden Werten sein. Wenn diese Bedingung nicht erfüllt ist, muss eine Anpassung für die gleichen Ränge vorgenommen werden.

    Der Rangkorrelationskoeffizient nach Spearman wird nach folgender Formel berechnet:

    Wenn in beiden verglichenen Rangreihen Gruppen mit gleichen Rängen vorhanden sind, müssen vor der Berechnung des Rangkorrelationskoeffizienten Korrekturen für die gleichen Ränge Ta und Tv vorgenommen werden:

    Ta \u003d Σ (a3 - a) / 12,

    Fernseher \u003d Σ (v3 - c) / 12,

    wobei a das Volumen jeder Gruppe identischer Ränge in der Rangreihe A ist, c das Volumen von jedem ist

    Gruppen gleicher Ränge in der Rangreihe B.

    Um den empirischen Wert von rs zu berechnen, verwenden Sie die Formel:

    Berechnung des Rangkorrelationskoeffizienten rs nach Spearman

    1. Legen Sie fest, an welchen zwei Merkmalen oder zwei Merkmalshierarchien beteiligt werden

    Vergleich als Variablen A und B.

    2. Ordnen Sie die Werte der Variablen A, indem Sie dem kleinsten Wert Rang 1 zuweisen, gemäß den Rangordnungsregeln (siehe A.2.3). Tragen Sie die Ränge in der ersten Spalte der Tabelle in der Reihenfolge der Nummern der Fächer oder Zeichen ein.

    3. Ordnen Sie die Werte der Variablen B nach denselben Regeln. Tragen Sie die Ränge in der zweiten Spalte der Tabelle in der Reihenfolge der Nummern der Fächer oder Zeichen ein.

    5. Quadriere jede Differenz: d2. Tragen Sie diese Werte in die vierte Spalte der Tabelle ein.

    Ta \u003d Σ (a3 - a) / 12,

    Fernseher \u003d Σ (v3 - c) / 12,

    wobei a das Volumen jeder Gruppe identischer Ränge in der Rangreihe A ist; c - das Volumen jeder Gruppe

    die gleichen Ränge in der Rangfolge B.

    a) in Ermangelung identischer Ränge

    rs  1 − 6 ⋅

    b) in Anwesenheit der gleichen Reihen

    Σd 2  T  T

    r  1 − 6 ⋅ ein hinein,

    wobei Σd2 die Summe der quadrierten Differenzen zwischen den Rängen ist; Ta und TV sind Korrekturen dafür

    N ist die Anzahl der Fächer oder Merkmale, die an der Rangliste teilgenommen haben.

    9. Bestimmen Sie aus der Tabelle (siehe Anhang 4.3) die kritischen Werte von rs für ein gegebenes N. Wenn rs größer oder mindestens gleich dem kritischen Wert ist, ist die Korrelation signifikant verschieden von 0.

    Beispiel 4.1 Bei der Bestimmung des Grades der Abhängigkeit der Reaktion des Alkoholkonsums von der okulomotorischen Reaktion in der Testgruppe wurden Daten vor dem Alkoholkonsum und nach dem Alkoholkonsum erhalten. Hängt die Reaktion des Probanden vom Rauschzustand ab?

    Versuchsergebnisse:

    Vorher: 16, 13, 14, 9, 10, 13, 14, 14, 18, 20, 15, 10, 9, 10, 16, 17, 18. Nachher: ​​24, 9, 10, 23, 20, 11, 12, 19, 18, 13, 14, 12, 14, 7, 9, 14. Formulieren wir Hypothesen:

    H0: Die Korrelation zwischen dem Grad der Abhängigkeit der Reaktion vor dem Alkoholkonsum und nach dem Alkoholkonsum weicht nicht von Null ab.

    H1: Die Korrelation zwischen dem Grad der Abhängigkeit der Reaktion vor dem Alkoholkonsum und nach dem Alkoholkonsum ist signifikant von Null verschieden.

    Tabelle 4.1. Berechnung von d2 für den Spearman-Rangkorrelationskoeffizienten rs beim Vergleich der Parameter der okulomotorischen Reaktion vor und nach dem Experiment (N=17)

    Werte

    Werte

    Da wir doppelte Ränge haben, wenden wir in diesem Fall die für die gleichen Ränge angepasste Formel an:

    Ta = ((23-2)+(33-3)+(23-2)+(33-3)+(23-2)+(23-2))/12=6

    Tb = ((23-2)+(23-2)+(33-3))/12=3

    Finden Sie den empirischen Wert des Spearman-Koeffizienten:

    rs = 1-6*((767,75+6+3)/(17*(172-1)))=0,05

    Gemäß der Tabelle (Anhang 4.3) finden wir die kritischen Werte des Korrelationskoeffizienten

    0,48 (p ≤ 0,05)

    0,62 (p ≤ 0,01)

    Wir bekommen

    rs=0.05∠rcr(0.05)=0.48

    Schlussfolgerung: H1-Hypothese wird verworfen und H0 akzeptiert. Diese. Zusammenhang zwischen Grad

    Abhängigkeit der Reaktion vor Alkoholkonsum und danach nicht von Null verschieden.

    Disziplin" höhere Mathematik"erregt einige Ablehnung, da es wirklich nicht jeder verstehen kann. Aber diejenigen, die das Glück haben, dieses Thema zu studieren und Probleme mit verschiedenen Gleichungen und Koeffizienten zu lösen, können sich eines fast vollständigen Wissens darüber rühmen. In psychologische Wissenschaft Es gibt nicht nur eine humanitäre Ausrichtung, sondern auch bestimmte Formeln und Methoden zur mathematischen Überprüfung der im Laufe der Forschung aufgestellten Hypothese. Hierfür werden verschiedene Koeffizienten verwendet.

    Korrelationskoeffizient nach Spearman

    Dies ist ein übliches Maß zur Bestimmung der Nähe der Beziehung zwischen zwei beliebigen Merkmalen. Der Koeffizient wird auch als nichtparametrische Methode bezeichnet. Es zeigt Verbindungsstatistiken. Das heißt, wir wissen zum Beispiel, dass bei einem Kind Aggression und Reizbarkeit zusammenhängen, und der Spearman-Rangkorrelationskoeffizient zeigt die statistische mathematische Beziehung dieser beiden Merkmale.

    Wie wird der Ranking-Koeffizient berechnet?

    Natürlich haben alle mathematischen Definitionen oder Größen ihre eigenen Formeln, nach denen sie berechnet werden. Es hat auch den Spearman-Korrelationskoeffizienten. Seine Formel lautet wie folgt:

    Auf den ersten Blick ist die Formel nicht ganz klar, aber wenn man hinschaut, ist alles ganz einfach zu berechnen:

    • n ist die Anzahl der Merkmale oder Indikatoren, die in eine Rangfolge gebracht werden.
    • d ist die Differenz zwischen bestimmten zwei Rängen, die den zwei spezifischen Variablen jedes Subjekts entsprechen.
    • ∑d 2 ist die Summe aller quadrierten Differenzen der Merkmalsränge, deren Quadrate für jeden Rang separat berechnet werden.

    Umfang des mathematischen Zusammenhangsmaßes

    Um den Rangkoeffizienten anwenden zu können, müssen die quantitativen Daten des Merkmals in eine Rangfolge gebracht werden, dh ihnen wurde eine bestimmte Nummer zugewiesen, abhängig von dem Ort, an dem sich das Merkmal befindet, und von seinem Wert. Es ist bewiesen, dass zwei Zeichenreihen, ausgedrückt in numerischer Form, einigermaßen parallel zueinander sind. Der Rangkorrelationskoeffizient von Spearman bestimmt den Grad dieser Parallelität, die Enge der Beziehung von Merkmalen.

    Für eine mathematische Operation zum Berechnen und Bestimmen der Beziehung von Merkmalen unter Verwendung des angegebenen Koeffizienten müssen Sie einige Aktionen ausführen:

    1. Jedem Wert eines Themas oder Phänomens wird der Reihe nach eine Nummer zugewiesen – ein Rang. Er kann dem Wert des Phänomens in aufsteigender und absteigender Reihenfolge entsprechen.
    2. Als nächstes werden die Ränge der Werte der Vorzeichen zweier quantitativer Reihen verglichen, um den Unterschied zwischen ihnen zu bestimmen.
    3. In einer separaten Spalte der Tabelle wird für jede erhaltene Differenz ihr Quadrat geschrieben, und die Ergebnisse werden unten zusammengefasst.
    4. Nach diesen Schritten wird eine Formel angewendet, mit der der Spearman-Korrelationskoeffizient berechnet wird.

    Eigenschaften des Korrelationskoeffizienten

    Zu den Haupteigenschaften des Spearman-Koeffizienten gehören:

    • Messwerte zwischen -1 und 1.
    • Das Vorzeichen des Interpretationskoeffizienten hat keine.
    • Die Nähe der Verbindung wird durch das Prinzip bestimmt: Je höher der Wert, desto enger die Verbindung.

    Wie überprüfe ich den empfangenen Wert?

    Um die Beziehung zwischen Zeichen zu überprüfen, müssen Sie bestimmte Aktionen ausführen:

    1. Die Nullhypothese (H0), die auch die Haupthypothese ist, wird aufgestellt, dann wird eine Alternative zur ersten (H 1) formuliert. Die erste Hypothese wäre, dass der Spearman-Korrelationskoeffizient 0 ist, was bedeutet, dass es keine Verbindung geben wird. Die zweite hingegen besagt, dass der Koeffizient ungleich 0 ist, dann besteht eine Verbindung.
    2. Der nächste Schritt besteht darin, den beobachteten Wert des Kriteriums zu finden. Es wird durch die Grundformel des Spearman-Koeffizienten gefunden.
    3. Als nächstes werden die kritischen Werte des angegebenen Kriteriums gefunden. Dies ist nur mit Hilfe einer speziellen Tabelle möglich, die verschiedene Werte für die angegebenen Indikatoren anzeigt: das Signifikanzniveau (l) und die Zahl, die (n) bestimmt.
    4. Jetzt müssen wir die beiden erhaltenen Werte vergleichen: die etablierte Observable sowie die kritische. Dazu müssen Sie eine kritische Region aufbauen. Es ist notwendig, eine gerade Linie zu zeichnen und darauf die Punkte des kritischen Werts des Koeffizienten mit dem Zeichen "-" und mit dem Zeichen "+" zu markieren. Links und rechts von den kritischen Werten sind die kritischen Bereiche in Halbkreisen von den Punkten eingezeichnet. In der Mitte, die zwei Werte kombiniert, ist es mit einem Halbkreis des OPG gekennzeichnet.
    5. Danach wird eine Schlussfolgerung über die Enge der Beziehung zwischen den beiden Merkmalen gezogen.

    Wo ist der beste Ort, um diesen Wert zu verwenden?

    Die allererste Wissenschaft, in der dieser Koeffizient aktiv verwendet wurde, war die Psychologie. Schließlich ist dies eine Wissenschaft, die nicht auf Zahlen basiert, aber um wichtige Hypothesen über die Entwicklung von Beziehungen, Charaktereigenschaften von Menschen, das Wissen der Schüler zu beweisen, ist eine statistische Bestätigung der Schlussfolgerungen erforderlich. Es wird auch in der Wirtschaft verwendet, insbesondere bei Devisengeschäften. Hier werden Merkmale ohne Statistik ausgewertet. Der Rangkorrelationskoeffizient nach Spearman ist in diesem Anwendungsbereich insofern sehr praktisch, als die Bewertung unabhängig von der Verteilung von Variablen erfolgt, da diese durch eine Rangzahl ersetzt werden. Der Spearman-Koeffizient wird aktiv verwendet Banken. Auch Soziologie, Politikwissenschaft, Demographie und andere Wissenschaften nutzen es in ihrer Forschung. Ergebnisse werden schnell und so genau wie möglich erzielt.

    Bequem und schnell verwendeter Korrelationskoeffizient von Spearman in Excel. Hier gibt es spezielle Funktionen, die Ihnen helfen, schnell an die notwendigen Werte zu kommen.

    Welche anderen Korrelationskoeffizienten gibt es?

    Zusätzlich zu dem, was wir über den Spearman-Korrelationskoeffizienten gelernt haben, gibt es auch verschiedene Korrelationskoeffizienten, die es ermöglicht, qualitative Merkmale, die Beziehung zwischen quantitativen Merkmalen und die Nähe der Beziehung zwischen ihnen zu messen und zu bewerten, dargestellt in einer Rangskala. Dies sind solche Koeffizienten wie bis-seriell, Rang-bis-seriell, Inhalt, Assoziationen und so weiter. Der Spearman-Koeffizient zeigt im Gegensatz zu allen anderen Methoden seiner mathematischen Bestimmung die Festigkeit der Verbindung sehr genau an.

    Rangkorrelation nach Spearman(Rangkorrelation). Die Rangkorrelation nach Spearman ist die einfachste Methode, um den Grad der Assoziation zwischen Faktoren zu bestimmen. Der Name der Methode gibt an, dass die Beziehung zwischen den Rängen bestimmt wird, dh der Reihe der erhaltenen quantitativen Werte, die in absteigender oder aufsteigender Reihenfolge geordnet sind. Es sollte berücksichtigt werden, dass erstens die Rangkorrelation nicht empfohlen wird, wenn die Verbindung von Paaren weniger als vier und mehr als zwanzig beträgt; Zweitens können Sie mit der Rangkorrelation die Beziehung in einem anderen Fall bestimmen. Wenn die Werte halbquantitativ sind, dh keinen numerischen Ausdruck haben, spiegeln sie eine klare Abfolge dieser Werte wider. Drittens ist es ratsam, die Rangkorrelation in Fällen zu verwenden, in denen es ausreicht, ungefähre Daten zu erhalten. Ein Beispiel für die Berechnung des Rangkorrelationskoeffizienten zur Bestimmung der Frage: Der Fragebogen misst X und Y ähnliche persönliche Eigenschaften der Probanden. Mit Hilfe von zwei Fragebögen (X und Y), die alternative Antworten "ja" oder "nein" erfordern, wurden die primären Ergebnisse gewonnen - die Antworten von 15 Probanden (N = 10). Die Ergebnisse wurden als Summe der positiven Antworten getrennt für Fragebogen X und Fragebogen B dargestellt. Diese Ergebnisse sind in Tabelle 1 zusammengefasst. 5.19.

    Tabelle 5.19. Tabellarische Darstellung der Primärergebnisse zur Berechnung des Spearman-Rangkorrelationskoeffizienten (p) *

    Analyse der zusammenfassenden Korrelationsmatrix. Methode der Korrelationsplejaden.

    Beispiel. Im Tisch. 6.18 zeigt die Interpretation von elf Variablen, die nach der Wechsler-Methode getestet werden. Die Daten wurden an einer homogenen Stichprobe im Alter von 18 bis 25 Jahren (n = 800) erhoben.

    Vor der Stratifizierung empfiehlt es sich, die Korrelationsmatrix zu ordnen. Dazu werden in der Originalmatrix die Mittelwerte der Korrelationskoeffizienten jeder Variablen mit allen anderen berechnet.

    Dann laut Tabelle. 5.20 Bestimmen Sie die zulässigen Schichtungsebenen der Korrelationsmatrix für gegeben Vertrauensstufe 0,95 und n - Mengen

    Tabelle 6.20. Aufsteigende Korrelationsmatrix

    Variablen 1 2 3 4 möchten 0 7 8 0 10 11 M (rij) Rang
    1 1 0,637 0,488 0,623 0,282 0,647 0,371 0,485 0,371 0,365 0,336 0,454 1
    2 1 0,810 0,557 0,291 0,508 0,173 0,486 0,371 0,273 0,273 0,363 4
    3 1 0,346 0,291 0,406 0,360 0,818 0,346 0,291 0,282 0,336 7
    4 1 0,273 0,572 0,318 0,442 0,310 0,318 0,291 0,414 3
    5 1 0,354 0,254 0,216 0,236 0,207 0,149 0,264 11
    6 1 0,365 0,405 0,336 0,345 0,282 0,430 2
    7 1 0,310 0,388 0,264 0,266 0,310 9
    8 1 0,897 0,363 0,388 0,363 5
    9 1 0,388 0,430 0,846 6
    10 1 0,336 0,310 8
    11 1 0,300 10

    Bezeichnungen: 1 - allgemeines Bewusstsein; 2 - Begrifflichkeit; 3 - Aufmerksamkeit; 4 - vdatnist K Verallgemeinerung; b - direktes Auswendiglernen (in Zahlen) 6 - Entwicklungsstand Muttersprache; 7 - Geschwindigkeit der Beherrschung sensomotorischer Fähigkeiten (Codierung durch Symbole) 8 - Beobachtung; 9 - kombinatorische Fähigkeiten (für Analyse und Synthese) 10 - Fähigkeit, Teile zu einem sinnvollen Ganzen zu organisieren; 11 - Fähigkeit zur heuristischen Synthese; M (rij) - der Durchschnittswert der Korrelationskoeffizienten der Variablen mit den übrigen Beobachtungsvariablen (in unserem Fall n = 800): r (0) - der Wert der Null-"Schnittebene" - das minimal signifikante Absolut Wert des Korrelationskoeffizienten (n - 120, r (0) = 0,236, n = 40, r(0) = 0,407) | Δr | - zulässiger Trennschritt (n = 40, | Δr | = 0,558) c - zulässige Anzahl Trennstufen (n = 40, s = 1; n = 120, s = 2); r(1), r(2), ..., r(9) ist der Absolutwert der Schnittebene (n=40, r(1)=0,965).

    Für n = 800 finden wir den Wert von rtype und der Grenzen ri, wonach die Stratifizierung die Korrelationsmatrix anordnete und die Korrelationsplejaden innerhalb der Schichten hervorhebt, oder wir trennen die Teile der Korrelationsmatrix und zeichnen die Vereinigungen der Korrelationsplejaden für die darüber liegenden Schichten (Abb. 5.5).

    Eine sinnvolle Analyse der gewonnenen Plejaden geht über die Grenzen der mathematischen Statistik hinaus. Es sollten zwei formale Indikatoren beachtet werden, die bei der sinnvollen Interpretation der Plejaden helfen. Ein wichtiger Indikator ist der Grad eines Scheitelpunkts, d. h. die Anzahl der an den Scheitelpunkt angrenzenden Kanten. Variabel mit die größte Zahl Kanten ist der "Kern" der Galaxie und kann als Indikator für den Rest der Variablen dieser Galaxie angesehen werden. Ein weiterer wichtiger Indikator ist die Kommunikationsdichte. Eine Variable kann in einer Galaxie weniger Verbindungen haben, aber enger, und mehr Verbindungen in einer anderen Galaxie, aber weniger nahe.

    Vorhersagen und Schätzungen. Die Gleichung y \u003d b1x + b0 wird als allgemeine Gleichung einer geraden Linie bezeichnet. Es zeigt an, dass Paare von Punkten (x, y), die

    Reis. 5.5. Korrelationsplejaden, erhalten durch Matrixspaltung

    liegen auf einer geraden Linie, die so verbunden ist, dass für jeden Wert von x der Wert in in der Paarung gefunden werden kann, indem x mit einer Zahl b1 multipliziert wird, indem die zweite, die Zahl b0, zu diesem Produkt hinzugefügt wird.

    Mit dem Regressionskoeffizienten können Sie den Grad der Änderung des Untersuchungsfaktors bestimmen, wenn sich der Kausalfaktor um eine Einheit ändert. Absolute Werte charakterisieren die Beziehung zwischen variablen Faktoren durch ihre absoluten Werte. Der Regressionskoeffizient wird nach folgender Formel berechnet:

    Planung und Analyse von Experimenten. Das Design und die Analyse von Experimenten ist der dritte große Zweig statistischer Methoden, die entwickelt wurden, um kausale Beziehungen zwischen Variablen zu finden und zu testen.

    Zur Untersuchung multifaktorieller Abhängigkeiten werden in den letzten Jahren zunehmend Methoden der mathematischen Versuchsplanung eingesetzt.

    Die Möglichkeit der gleichzeitigen Variation durch alle Faktoren ermöglicht: a) die Anzahl der Experimente zu reduzieren;

    b) den experimentellen Fehler auf ein Minimum reduzieren;

    c) die Verarbeitung der empfangenen Daten zu vereinfachen;

    d) für Klarheit und Vergleichbarkeit der Ergebnisse sorgen.

    Jeder Faktor kann eine entsprechende Menge erwerben unterschiedliche Bedeutungen, die Stufen genannt werden und -1, 0 und 1 bezeichnen. Ein fester Satz von Faktorstufen bestimmt die Bedingungen eines der möglichen Experimente.

    Die Gesamtheit aller möglichen Kombinationen errechnet sich nach der Formel:

    Ein vollständiges faktorielles Experiment ist ein Experiment, bei dem alle möglichen Kombinationen von Faktorstufen implementiert sind. Vollfaktorielle Experimente können die Eigenschaft der Orthogonalität haben. Bei der orthogonalen Planung sind die Faktoren im Experiment unkorreliert, die daraus berechneten Regressionskoeffizienten werden unabhängig voneinander bestimmt.

    Ein wichtiger Vorteil der Methode der mathematischen Versuchsplanung ist ihre Vielseitigkeit und Eignung für viele Forschungsgebiete.

    Betrachten wir ein Beispiel für den Vergleich des Einflusses bestimmter Faktoren auf die Bildung des psychischen Stressniveaus bei Farbfernsehcontrollern.

    Das Experiment basiert auf dem orthogonalen Plan 2 drei (drei Faktoren ändern sich auf zwei Ebenen).

    Der Versuch wurde mit einem kompletten Teil 2+3 mit dreifacher Wiederholung durchgeführt.

    Orthogonale Planung basiert auf der Konstruktion einer Regressionsgleichung. Für drei Faktoren sieht es so aus:

    Die Verarbeitung der Ergebnisse in diesem Beispiel umfasst:

    a) Konstruktion eines orthogonalen Plans 2 +3 Tabelle zur Berechnung;

    b) Berechnung von Regressionskoeffizienten;

    c) Überprüfung ihrer Bedeutung;

    d) Interpretation der empfangenen Daten.

    Für die Regressionskoeffizienten der genannten Gleichung war es notwendig, N = 2 3 = 8 Optionen einzusetzen, um die Signifikanz der Koeffizienten bewerten zu können, wobei die Anzahl der Wiederholungen K 3 war.

    Zusammengestellt eine Experimentplanungsmatrix, wie sie aussah.



    Error: Inhalt ist geschützt!!