Konstruieren Sie diskrete und Intervallverteilungsreihen. Aufbau einer diskreten Variationsreihe

Was die Gruppierung statistischer Daten ist und wie sie mit Verteilungsreihen zusammenhängt, wurde in dieser Vorlesung besprochen, in der Sie auch erfahren, was eine diskrete und Variationsverteilungsreihe ist.

Verbreitungsserie eine der Sorten statistische Reihen(außerhalb von ihnen werden Dynamikreihen in der Statistik verwendet), werden verwendet, um Daten zu Phänomenen zu analysieren öffentliches Leben... Der Bau der Variationsreihe ist für jeden eine durchaus machbare Aufgabe. Allerdings gibt es Regeln zu beachten.

So zeichnen Sie eine diskrete Variationsverteilungsreihe

Beispiel 1. Es liegen Daten zur Anzahl der Kinder in 20 befragten Familien vor. Konstruieren Sie eine diskrete Variationsreihe Verteilung der Familien nach der Anzahl der Kinder.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Lösung:

  1. Wir beginnen mit einem Layout für die Tabelle, in das wir dann die Daten eingeben. Da die Verteilungszeilen aus zwei Elementen bestehen, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer eine Option - was wir studieren - wir nehmen ihren Namen von der Aufgabe (das Ende des Satzes mit der Aufgabe in den Bedingungen) - nach der Anzahl der Kinder- Unsere Option ist also die Anzahl der Kinder.

Die zweite Spalte ist die Häufigkeit - wie oft unsere Variante im untersuchten Phänomen vorkommt - den Namen der Spalte entnehmen wir auch der Aufgabe - Verteilung der Familien - unsere Häufigkeit ist also die Anzahl der Familien mit der entsprechenden Anzahl von Kindern.

  1. Wählen Sie nun aus den Ausgangsdaten diejenigen Werte aus, die mindestens einmal vorkommen. In unserem Fall ist es

Und wir werden diese Daten in der ersten Spalte unserer Tabelle in einer logischen Reihenfolge anordnen, in diesem Fall von 0 auf 4 steigend. Wir erhalten

Abschließend lassen Sie uns zählen, wie oft jeder Wert der Optionen vorkommt.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Als Ergebnis erhalten wir eine vollständige Tabelle bzw. die erforderliche Reihenverteilung der Familien nach der Anzahl der Kinder.

Übung . Es liegen Daten zu den Lohnkategorien von 30 Arbeitnehmern des Unternehmens vor. Konstruieren Sie eine diskrete Variationsreihe für die Verteilung der Arbeiter nach Lohnkategorie. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

So zeichnen Sie eine Intervallvariationsreihe einer Verteilung

Lass uns bauen Intervallserie Verteilung, und sehen wir uns an, wie sich ihre Konstruktion von einer diskreten Reihe unterscheidet.

Beispiel 2. Es gibt Daten über die Höhe des Gewinns von 16 Unternehmen, Mio. Rubel. - 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Konstruieren Sie eine Intervallvariationsreihe der Verteilung der Unternehmen in Bezug auf den Gewinn, wobei Sie 3 Gruppen in gleichen Intervallen hervorheben.

Das allgemeine Prinzip der Reihenkonstruktion wird natürlich beibehalten, die gleichen zwei Spalten, die gleichen Optionen und die gleiche Häufigkeit, aber hier wird die Option im Intervall angeordnet und die Häufigkeiten werden anders gezählt.

Lösung:

  1. Beginnen wir ähnlich wie bei der vorherigen Aufgabe mit dem Erstellen eines Layouts für eine Tabelle, in die wir dann die Daten eingeben. Da die Verteilungszeilen aus zwei Elementen bestehen, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer die Option - was wir studieren - wir nehmen ihren Namen von der Zuweisung (das Ende des Satzes mit der Zuweisung in den Bedingungen) - nach der Höhe des Gewinns - was bedeutet, dass unsere Option die Höhe des Gewinns ist gemacht.

Die zweite Spalte ist die Häufigkeit - da unsere Variante in dem untersuchten Phänomen häufig vorkommt - den Namen der Spalte nehmen wir auch aus der Zuordnung - Verteilung der Unternehmen - unsere Häufigkeit ist also die Anzahl der Unternehmen mit dem entsprechenden Gewinn, in diesem Fall fallend ins Intervall.

Als Ergebnis sieht das Layout unserer Tabelle wie folgt aus:

wobei i der Wert oder die Länge des Intervalls ist,

Xmax und Xmin - der maximale und minimale Wert des Merkmals,

n ist die erforderliche Anzahl von Gruppen gemäß der Problemstellung.

Lassen Sie uns die Größe des Intervalls für unser Beispiel berechnen. Dazu finden wir unter den Ausgangsdaten das größte und das kleinste

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - Der Höchstwert beträgt 118 Millionen Rubel und der Mindestwert 9 Millionen Rubel. Rechnen wir mit der Formel.

Bei der Berechnung haben wir die Zahl 36, (3) drei in der Periode erhalten, in solchen Situationen muss der Wert des Intervalls auf einen größeren aufgerundet werden, damit nach den Berechnungen die maximalen Daten nicht verloren gehen, weshalb in der Berechnung beträgt der Wert des Intervalls 36,4 Millionen Rubel.

  1. Lassen Sie uns nun die Intervalle erstellen - unsere Optionen in diesem Problem. Das erste Intervall beginnt sich ab dem Minimalwert aufzubauen, der Wert des Intervalls wird dazu addiert und die Obergrenze des ersten Intervalls wird erhalten. Dann wird die obere Grenze des ersten Intervalls zur unteren Grenze des zweiten Intervalls, der Wert des Intervalls wird dazu addiert und das zweite Intervall wird erhalten. Und so weiter, so oft wie nötig, um Intervalle nach Bedingung darzustellen.

Passen wir auf, wenn wir den Wert des Intervalls nicht auf 36,4 gerundet, sondern bei 36,3 belassen hätten, dann wäre der letzte Wert 117,9 gewesen. Gerade um Datenverlust zu vermeiden, ist es notwendig, den Wert des Intervalls auf einen größeren Wert zu runden.

  1. Lassen Sie uns die Anzahl der Unternehmen berechnen, die in jedes bestimmte Intervall fielen. Denken Sie bei der Datenverarbeitung daran, dass der obere Wert des Intervalls in diesem Intervall nicht berücksichtigt wird (nicht in diesem Intervall enthalten), sondern im nächsten Intervall berücksichtigt wird (die Untergrenze des Intervalls ist in diesem Intervall enthalten, und die Obergrenze ist nicht enthalten), mit Ausnahme des letzten Intervalls.

Bei der Verarbeitung von Daten ist es am besten, die ausgewählten Daten mit herkömmlichen Symbolen oder Farbe zu markieren, um die Verarbeitung zu vereinfachen.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Wir bezeichnen das erste Intervall gelb - und bestimmen, wie viele Daten in das Intervall von 9 bis 45,4 fallen, während diese 45,4 im zweiten Intervall berücksichtigt werden (vorausgesetzt, es ist in den Daten enthalten) - als Ergebnis erhalten wir 7 Unternehmen im ersten Intervall. Und so weiter in allen Abständen.

  1. (zusätzliche Aktion) Berechnen wir den Gesamtgewinn der Unternehmen für jedes Intervall und im Allgemeinen. Fügen Sie dazu die markierten Daten hinzu verschiedene Farben und erhalte den Gesamtwert des Gewinns.

Im ersten Intervall - 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 Millionen Rubel.

Für das zweite Intervall - 48 + 57 + 48 + 56 + 63 = 272 Millionen Rubel.

Für das dritte Intervall - 118 + 87 + 98 + 88 = 391 Millionen Rubel.

Übung . Es gibt Daten über die Höhe der Einlage in der Bank von 30 Einlegern, Tausend Rubel. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Bauen Intervallvariationsserien Verteilung der Einleger nach Höhe des Beitrags, Hervorhebung von 4 Gruppen in gleichen Abständen. Berechnen Sie den Gesamtbetrag der Einzahlungen für jede Gruppe.

Statistische Verteilungsreihen- Dies ist eine geordnete Verteilung von Bevölkerungseinheiten in Gruppen nach einem bestimmten unterschiedlichen Merkmal.
Abhängig von dem Merkmal, das der Bildung einer Verteilungsreihe zugrunde liegt, gibt es Attributive und Variationsreihen der Verteilung.

Das Vorhandensein eines gemeinsamen Merkmals ist die Grundlage für die Bildung einer statistischen Population, die das Ergebnis einer Beschreibung oder Messung ist Gemeinsamkeiten Forschungsobjekte.

Das Fach des Statistikstudiums sind wechselnde (wechselnde) Vorzeichen oder statistische Vorzeichen.

Arten von statistischen Zeichen.

Verteilungsreihen werden als attributiv bezeichnet nach Qualitätskriterien. Attributiv Ist ein Zeichen, das einen Namen hat (zB Beruf: Näherin, Lehrerin etc.).
Es ist üblich, mehrere Verteilungen in Form von Tabellen anzuordnen. Tabelle 2.8 zeigt die attributive Verteilungsreihe.
Tabelle 2.8 - Verteilung der Arten der Rechtshilfe durch Rechtsanwälte für Bürger einer der Regionen der Russischen Föderation.

Variationsserie Sind die Werte des Merkmals (oder Werteintervalle) und deren Häufigkeiten.
Die Verteilungsreihen heißen Variationsreihen quantitativ aufgebaut. Jede Variationsserie besteht aus zwei Elementen: Optionen und Frequenzen.
Als Varianten gelten die einzelnen Werte des Merkmals, die es in der Variantenreihe einnimmt.
Häufigkeiten sind die Anzahl der einzelnen Varianten oder jeder Gruppe. Variationsserie, d.h. das sind Zahlen, die zeigen, wie oft die eine oder andere Variante in einer Verteilungsreihe vorkommt. Die Summe aller Häufigkeiten bestimmt die Anzahl der Gesamtbevölkerung, ihr Volumen.
Häufigkeiten sind Häufigkeiten, die in Bruchteilen von 1 oder als Prozentsatz der Gesamtzahl ausgedrückt werden. Dementsprechend beträgt die Summe der Häufigkeiten 1 oder 100 %. Die Variationsreihe ermöglicht es uns, die Form des Verteilungsgesetzes anhand von tatsächlichen Daten abzuschätzen.

Je nach Art der Variation des Merkmals werden sie unterschieden diskrete und intervallartige Variationsreihen.
Ein Beispiel für eine diskrete Variationsreihe ist in der Tabelle angegeben. 2.9.
Tabelle 2.9 - Verteilung der Familien nach der Anzahl der belegten Zimmer in einzelnen Wohnungen im Jahr 1989 in der Russischen Föderation.

Die erste Spalte der Tabelle zeigt die Varianten der diskreten Variationsreihe, die zweite - die Häufigkeiten der Variationsreihe, die dritte - die Häufigkeitsindikatoren.

Variationsserie

V die allgemeine Bevölkerung ein quantitatives Merkmal wird untersucht. Eine Volumenprobe wird zufällig daraus gezogen n, d. h. die Anzahl der Elemente in der Stichprobe ist n... In der ersten Phase der statistischen Verarbeitung, Reichweite Probenahme, d.h. Nummern Ordnen x 1, x 2, ..., x n Aufsteigend. Jeder beobachtete Wert x ich namens Variante... Frequenz ich bin Ist die Anzahl der Beobachtungen des Wertes x ich in der Probe. Relative Häufigkeit (Häufigkeit) ich bin Ist das Frequenzverhältnis ich bin zur Stichprobengröße n: .
Beim Studium der Variationsreihen werden auch die Konzepte der akkumulierten Häufigkeit und der akkumulierten Häufigkeit verwendet. Lassen x irgendeine Zahl. Dann die Anzahl der Optionen , deren Werte kleiner sind x, heißt akkumulierte Frequenz: für x i n heißt die akkumulierte Frequenz w i max.
Ein Merkmal wird als diskret variiert bezeichnet, wenn sich seine einzelnen Werte (Varianten) um einen endlichen Wert (meist eine ganze Zahl) voneinander unterscheiden. Die Variationsreihe eines solchen Merkmals wird als diskrete Variationsreihe bezeichnet.

Tabelle 1. Gesamtansicht der diskreten Variationsreihen von Frequenzen

Charakteristische Wertex ich x 1 x 2 x nein
Frequenzenich bin m 1 m2 m n

Ein Merkmal wird als kontinuierlich variierend bezeichnet, wenn seine Werte um einen beliebig kleinen Betrag voneinander abweichen, d.h. das Attribut kann in einem bestimmten Intervall beliebige Werte annehmen. Eine kontinuierliche Variationsreihe für ein solches Merkmal wird Intervall genannt.

Tabelle 2. Allgemeine Ansicht der Intervallvariationsreihen von Frequenzen

Tabelle 3. Grafische Darstellungen der Variationsserien

ReihePolygon oder HistogrammEmpirische Verteilungsfunktion
Diskret
Intervall
Betrachtet man die Ergebnisse der Beobachtungen, bestimmen sie, wie viele Werte der Optionen in jedes bestimmte Intervall fielen. Es wird davon ausgegangen, dass jedes Intervall zu einem seiner Enden gehört: entweder ist es in allen Fällen links (häufiger) oder in allen Fällen rechts, und die Häufigkeiten oder Häufigkeiten zeigen die Anzahl der Optionen, die in den angegebenen Grenzen enthalten sind. Unterschiede a i - a i +1 werden Teilintervalle genannt. Um spätere Berechnungen zu vereinfachen, kann die Intervallvariationsreihe durch eine herkömmlich diskrete ersetzt werden. In diesem Fall ist der Medianwert ich-tes Intervall wird als Variante genommen x ich, und die entsprechende Intervallfrequenz ich bin- für die Häufigkeit dieses Intervalls.
Zur grafischen Darstellung von Variationsreihen werden am häufigsten Polygone, Histogramme, Summenkurven und empirische Verteilungsfunktionen verwendet.

Tabelle 2.3 (Gruppierung der Bevölkerung Russlands nach durchschnittlichem Pro-Kopf-Einkommen im April 1994) wird vorgestellt Intervallvariationsserien.
Es ist bequem, Verteilungsreihen mit Hilfe einer grafischen Darstellung zu analysieren, die es ermöglicht, die Form der Verteilung zu beurteilen. Eine klare Vorstellung von der Art der Änderung der Frequenzen der Variationsreihe ist gegeben durch Polygon und Histogramm.
Das Polygon wird verwendet, wenn diskrete Variationsreihen angezeigt werden.
Stellen wir uns beispielsweise die Verteilung des Wohnungsbestandes nach Wohnungstypen grafisch dar (Tabelle 2.10).
Tabelle 2.10 - Verteilung des Wohnungsbestandes des Stadtgebiets nach Wohnungstypen (beliebige Nummern).


Reis. Wohnungsbestandsverteilungspolygon


Auf der Ordinatenachse können nicht nur die Werte von Frequenzen, sondern auch die Frequenzen der Variationsreihen aufgetragen werden.
Das Histogramm wird für das Bild der Intervallvariationsreihe erstellt... Beim Erstellen eines Histogramms werden die Werte der Intervalle auf der Abszissenachse aufgetragen und die Häufigkeiten werden durch Rechtecke dargestellt, die in den entsprechenden Intervallen gebildet werden. Die Höhe der Balken sollte bei gleichem Abstand proportional zu den Frequenzen sein. Ein Histogramm ist ein Diagramm, in dem eine Reihe in Form von nebeneinander liegenden Balken dargestellt wird.
Lassen Sie uns die in der Tabelle angegebenen Intervallverteilungsreihen grafisch darstellen. 2.11.
Tabelle 2.11 - Verteilung der Familien nach Wohnfläche pro Person (willkürliche Zahlen).
N p / p Familiengruppen nach Wohnfläche pro Person Die Anzahl der Familien mit einer bestimmten Wohnfläche Kumulierte Anzahl von Familien
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
GESAMT 115 ----


Reis. 2.2. Histogramm der Verteilung der Familien nach Wohnfläche pro Person


Unter Verwendung der Daten der akkumulierten Reihe (Tabelle 2.11) konstruieren wir kumulative Verteilung.


Reis. 2.3. Kumulierte Verteilung der Familien nach Wohnfläche pro Person


Die Darstellung der Variationsreihen in Form von Kumulaten ist besonders effektiv für Variationsreihen, deren Häufigkeiten in Bruchteilen oder Prozentsätzen zur Summe der Häufigkeiten der Reihe ausgedrückt werden.
Wenn wir bei der grafischen Darstellung der Variationsreihen in Form von Kumulaten die Achsen ändern, erhalten wir spitz... In Abb. 2.4 zeigt die auf der Grundlage der Daten in Tabelle gebaute Ogive. 2.11.
Ein Histogramm kann in ein Verteilungspolygon umgewandelt werden, indem die Mittelpunkte der Seiten der Rechtecke ermittelt und diese Punkte dann mit geraden Linien verbunden werden. Das resultierende Verteilungspolygon ist in Abb. 2.2 mit gestrichelter Linie.
Beim Erstellen eines Histogramms der Verteilung der Variationsreihen mit ungleichen Intervallen auf der Ordinatenachse werden nicht die Häufigkeiten aufgetragen, sondern die Dichte der Merkmalsverteilung in den entsprechenden Intervallen.
Die Verteilungsdichte ist die pro Einheitsintervallbreite berechnete Häufigkeit, d.h. wie viele Einheiten sich in jeder Gruppe pro Einheit des Intervalls befinden. Ein Beispiel für die Berechnung der Verteilungsdichte ist in der Tabelle dargestellt. 2.12.
Tabelle 2.12 - Verteilung der Unternehmen nach Anzahl der Beschäftigten (bedingte Zahlen)
N p / p Unternehmensgruppen nach Anzahl der Beschäftigten, Personen Anzahl Unternehmen Intervallgröße, Personen Verteilungsdichte
EIN 1 2 3=1/2
1 Bis zu 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
GESAMT 147 ---- ----

Zur grafischen Darstellung der Variationsreihen auch verwendbar Summenkurve... Mit Hilfe von Kumulaten (Summenkurve) wird eine Reihe von kumulierten Häufigkeiten angezeigt. Die akkumulierten Häufigkeiten werden durch sequentielles Aufsummieren der Häufigkeiten nach Gruppen bestimmt und zeigen, wie viele Einheiten der Grundgesamtheit einen charakteristischen Wert haben, der nicht größer als der betrachtete Wert ist.


Reis. 2.4. Verteilung der Familien nach Wohnfläche pro Person

Bei der Bildung der Kumulate der Intervallvariationsserie werden die Varianten der Serie entlang der Abszissenachse aufgetragen und die akkumulierten Häufigkeiten werden entlang der Ordinatenachse aufgetragen.

Die von der Statistik untersuchten Merkmale variieren (unterscheiden sich) in verschiedenen Bevölkerungseinheiten zur gleichen Zeit oder zum gleichen Zeitpunkt. Beispielsweise variiert der Wert des Außenhandelsumsatzes je nach Abteilung des FCS; der Wert der Exporte (Importe) variiert je nach Exportrichtung (nach verschiedenen Partnerländern im Außenhandel), nach Warenarten usw.

Der Grund Variationen sind unterschiedliche Bedingungen für die Existenz verschiedener Einheiten des Aggregats. Zum Beispiel beeinflusst eine Vielzahl von Gründen das Ausmaß des Außenhandels verschiedener Länder der Welt.

Um die Variation statistisch zu steuern und zu untersuchen, wurden spezielle Methoden zur Untersuchung der Variation entwickelt, ein Indikatorensystem, mit dessen Hilfe die Variation gemessen und deren Eigenschaften charakterisiert werden.

Die erste Stufe der statistischen Variationsstudie ist die Konstruktion Vertriebsserien(oder Variationsserie) - eine geordnete Verteilung der Bevölkerungseinheiten durch Erhöhen (häufiger) oder Verringern (seltener) der Werte des Attributs und Zählen der Anzahl der Einheiten mit dem einen oder anderen Wert des Attributs.

Es gibt 3 von der Art Distributionsserie:

1) Rangliste- Dies ist eine Liste der einzelnen Bevölkerungseinheiten in aufsteigender Reihenfolge des untersuchten Attributs (zB Tabelle 11); Wenn die Anzahl der Bevölkerungseinheiten groß genug ist, wird die Rangfolge umständlich, und in solchen Fällen wird die Verteilungsreihe erstellt, indem die Bevölkerungseinheiten nach den Werten des untersuchten Attributs gruppiert werden (wenn das Attribut eine kleine Anzahl von Werte, dann wird eine diskrete Reihe konstruiert und ansonsten - eine Intervallreihe);

2) diskrete Reihen Ist eine Tabelle bestehend aus zwei Spalten (Zeilen) - spezifische Werte eines variablen Attributs Xi und die Anzahl der Einheiten der Bevölkerung mit einem gegebenen Wert des Attributs fi- Frequenzen; die Anzahl der Gruppen in einer diskreten Zeile wird durch die Anzahl der tatsächlich vorhandenen Werte des variierenden Attributs bestimmt;

3) Intervallserie Ist eine Tabelle bestehend aus zwei Spalten (Zeilen) - Intervalle eines variablen Attributs Xi und die Anzahl der Bevölkerungseinheiten, die in ein gegebenes Intervall fallen (Häufigkeiten), oder die Anteile dieser Zahl an der Gesamtzahl der Bevölkerungen (Häufigkeiten).

Lassen Sie uns eine Reihe von Verteilungen des Außenhandelsumsatzes (VO) nach Zollstellen in Russland konstruieren, für die eine statistische Beobachtung durchgeführt werden muss, d.

Die Ergebnisse der VO-Beobachtung an 35 Zollstellen in der Region für den Berichtszeitraum werden in Form einer VO-Verteilung in aufsteigender Reihenfolge dargestellt (Tabelle 11).

Tabelle 11. Außenhandelsumsatz (VO) für 35 Zollstellen, Mio.

Postleitzahl

Postleitzahl

Postleitzahl

Bestimmen wir die durchschnittliche Größe des AO nach der Formel (10), wobei für x der Wert von VO und für n- Anzahl der Beiträge:

= = 2100/35 = 60 (Millionen Dollar)

Die Varianz (wird etwas später diskutiert - in der 4. Stufe der Analyse der Variation in diesem Thema) wird durch die Formel (28) bestimmt:

= = 445,778 (2 Millionen US-Dollar)

Lassen Sie uns eine Intervallreihe der VO-Verteilung durch Zollposten konstruieren, für die es notwendig ist, die optimale Anzahl von Gruppen (Merkmalsintervalle) zu wählen und die Länge (Bereich) des Intervalls festzulegen. Da die Analyse einer Reihe von Verteilungen die Häufigkeiten in verschiedenen Intervallen vergleicht, ist es notwendig, dass die Länge der Intervalle konstant ist. Die optimale Anzahl von Gruppen wird so gewählt, dass die Vielfalt der Werte des Merkmals im Aggregat ausreichend widergespiegelt wird und gleichzeitig die Regelmäßigkeit der Verteilung, ihre Form nicht durch zufällige Frequenzschwankungen verzerrt wird. Wenn zu wenige Gruppen vorhanden sind, wird das Variationsmuster nicht angezeigt; Wenn zu viele Gruppen vorhanden sind, verzerren zufällige Frequenzsprünge die Form der Verteilung.

Am häufigsten wird die Anzahl der Gruppen in einer Verteilungsreihe durch die Sterjdess-Formel (19) oder (20) bestimmt:

(19) oder ,(20)

wo k- Anzahl der Gruppen (auf die nächste ganze Zahl gerundet); n- die Größe der Bevölkerung.

Aus der Sturgess-Formel ist ersichtlich, dass die Anzahl der Gruppen eine Funktion der Datenmenge ist ( n).

Bei Kenntnis der Anzahl der Gruppen wird die Länge (Span) des Intervalls mit der Formel (21) berechnet:

,(21)

wo x max und x min - die maximalen und minimalen Werte im Aggregat.

In unserem Beispiel zu VO bestimmen wir mit der Sterjdess-Formel (19) die Anzahl der Gruppen:

k = 1 + 3,322lg 35 = 1+ 3,322*1,544 = 6,129 ≈ 6.

Berechnen wir die Länge (Spanne) des Intervalls mit der Formel (21):

h= (111,16 - 24,16) / 6 = 87/6 = 14,5 (Millionen Dollar).

Lassen Sie uns nun eine Intervallserie mit 6 Gruppen mit einem Intervall von 14,5 Millionen US-Dollar erstellen. (siehe die ersten 3 Spalten von Tabelle 12).

Tabelle 12. Intervallreihen der VO-Verteilung nach Zollstellen, Mio.

Gruppen von Beiträgen nach VO-Größe

Anzahl der Beiträge

Mitte des Intervalls

x ich ' fi

Kumuliert Frequenz

| Xi- |fi

(xich- )2 fi

(xich- )3 fi

(xich- )4 fi

96,66 – 111,16

Eine grafische Darstellung bietet eine wesentliche Hilfestellung bei der Analyse einer Reihe von Verteilungen und deren Eigenschaften. Die Intervallreihe wird durch ein Balkendiagramm dargestellt, in dem die Basen der entlang der Abszissenachse liegenden Balken die Intervalle der Werte des variierenden Attributs sind und die Höhen der Balken die Häufigkeiten sind, die der Skala entlang der entsprechen Ordinatenachse. Eine grafische Darstellung der Verteilung der Zollposten in der Stichprobe nach dem Wert von VO ist in Abb. 4. Ein solches Diagramm heißt Histogramm .

Reis. 4. Histogramm der Verteilung Abb. 5. Verteilungspolygon

Tabellendaten. 12 und Abb. 4 zeigen die für viele Merkmale charakteristische Verteilungsform: Die Werte der durchschnittlichen Intervalle des Merkmals sind häufiger, seltener - die extremen (kleinen und großen) Werte des Merkmals. Die Form dieser Verteilung ist nahe am Normalverteilungsgesetz, das sich bildet, wenn eine variable Variable von einer Vielzahl von Faktoren beeinflusst wird, von denen keiner einen vorherrschenden Wert hat.

Liegt eine diskrete Verteilungsreihe vor oder werden die Mittelpunkte der Intervalle verwendet (wie in unserem Beispiel zu VO - in Tabelle 12 in der 4. Spalte werden die Mittelpunkte der Intervalle als Halbsumme der Werte der Anfang und Ende des Intervalls), dann heißt das grafische Bild einer solchen Reihe Polygon(siehe Abb. 5), die man erhält, indem man gerade Punkte mit Koordinaten verbindet Xi und fi.

In vielen Fällen umfasst die statistische Grundgesamtheit eine große oder sogar unendliche Anzahl von Optionen, die am häufigsten mit kontinuierlicher Variation angetroffen werden, es ist fast unmöglich und unpraktisch, für jede Option eine Gruppe von Einheiten zu bilden. In solchen Fällen ist die Zusammenfassung von statistischen Einheiten zu Gruppen nur auf der Grundlage eines Intervalls möglich, d.h. eine solche Gruppe, die bestimmte Grenzen für die Werte des Variablenattributs hat. Diese Grenzen werden durch zwei Zahlen angezeigt, die die oberen und unteren Grenzen jeder Gruppe angeben. Die Verwendung von Intervallen führt zur Bildung einer Intervallverteilungsreihe.

Intervall froh ist eine Variationsreihe, deren Varianten in Form von Intervallen dargestellt werden.

Die Intervallreihen können mit gleichen und ungleichen Intervallen gebildet werden, während die Wahl des Konstruktionsprinzips dieser Reihe hauptsächlich vom Grad der Repräsentativität und Zweckmäßigkeit der statistischen Grundgesamtheit abhängt. Ist die Grundgesamtheit von der Anzahl der Einheiten her ausreichend (repräsentativ) und in ihrer Zusammensetzung vollkommen homogen, so empfiehlt es sich, die Intervallgleichheit als Grundlage für die Bildung der Intervallreihen zu verwenden. Üblicherweise wird nach diesem Prinzip eine Intervallreihe für diejenigen Populationen gebildet, bei denen die Variationsbreite relativ klein ist, d.h. die maximalen und minimalen Optionen unterscheiden sich in der Regel mehrmals. In diesem Fall wird der Wert gleicher Intervalle durch das Verhältnis des Variationsbereichs des Merkmals zu der angegebenen Anzahl gebildeter Intervalle berechnet. Um das Gleiche zu bestimmen und Im Intervall kann die Sturgess-Formel verwendet werden (normalerweise mit einer kleinen Variation der Intervallmerkmale und einer großen Anzahl von Einheiten in der statistischen Grundgesamtheit):

wo x i . ist - der Wert des gleichen Intervalls; X max, X min – maximale und minimale Optionen in der statistischen Grundgesamtheit; n . - die Anzahl der Einheiten insgesamt.

Beispiel. Es ist ratsam, die Größe eines gleichen Intervalls in Bezug auf die Dichte der radioaktiven Kontamination mit Cäsium - 137 in 100 Siedlungen des Bezirks Krasnopolsky der Region Mogilew zu berechnen, wenn bekannt ist, dass die anfängliche (minimale) Option gleich I . ist km / km 2, das Finale ( maximal) - 65 ki / km 2. Mit Formel 5.1. wir bekommen:

Um eine Intervallreihe mit gleichen Intervallen in Bezug auf die Dichte der Cäsiumverschmutzung zu bilden - 137 Siedlungen der Region Krasnopolsk - kann die Größe eines gleichen Intervalls 8 cu / km 2 betragen.

Bei ungleichmäßiger Verteilung, d.h. wenn die maximalen und minimalen Varianten Hunderte Male sind, kann bei der Bildung einer Intervallreihe das Prinzip angewendet werden ungleich Intervalle. Ungleiche Intervalle nehmen in der Regel zu, wenn Sie zu größeren Merkmalswerten wechseln.

Die Intervalle können geschlossen oder offen sein. Abgeschlossen es ist üblich, Intervalle zu nennen, für die sowohl die untere als auch die obere Grenze angegeben ist. Offen Intervalle haben nur einen Rand: im ersten Intervall - den oberen, im letzten - den unteren Rand.

Es empfiehlt sich, Intervallreihen, insbesondere bei ungleichen Intervallen, unter Berücksichtigung von Verteilungsdichte, der einfachste Weg, um zu berechnen, welches das Verhältnis der lokalen Frequenz (oder Frequenz) zur Größe des Intervalls ist.

Für die praktische Bildung der Intervallreihen können Sie das Layout der Tabelle verwenden. 5.3.

Tabelle 5.3. Das Verfahren zur Bildung der Intervallreihen von Siedlungen in der Region Krasnopolsk nach der Dichte der radioaktiven Kontamination mit Cäsium -137

Der Hauptvorteil der Intervallserie ist ihre extreme Kompaktheit. gleichzeitig werden in der Intervallreihe der Verteilung die einzelnen Varianten des Merkmals in den entsprechenden Intervallen ausgeblendet

Bei der grafischen Darstellung einer Intervallreihe in einem rechtwinkligen Koordinatensystem sind auf der Abszissenachse die oberen Grenzen der Intervalle und auf der Ordinatenachse die Ortsfrequenzen der Reihe aufgetragen. Die grafische Konstruktion einer Intervallserie unterscheidet sich von der Konstruktion eines Verteilungspolygons darin, dass jedes Intervall eine untere und eine obere Grenze hat und zwei Abszissen einem beliebigen Wert der Ordinate entsprechen. Daher wird im Diagramm der Intervallreihe kein Punkt wie bei einem Polygon markiert, sondern eine Linie, die zwei Punkte verbindet. Diese horizontalen Linien werden durch vertikale Linien miteinander verbunden und man erhält die Form eines abgestuften Polygons, das üblicherweise als bezeichnet wird Histogramm Verteilung (Abbildung 5.3).

Bei der grafischen Darstellung einer Intervallreihe für eine ausreichend große statistische Grundgesamtheit nähert sich das Histogramm symmetrisch Verteilungsformular. In den Fällen, in denen die statistische Grundgesamtheit in der Regel klein ist, asymmetrisch Balkendiagramm.

In manchen Fällen empfiehlt es sich, mehrere akkumulierte Frequenzen zu bilden, d.h. kumulativ Reihe. Eine kumulative Reihe kann auf der Grundlage einer diskreten oder Intervallverteilungsreihe gebildet werden. Bei der grafischen Darstellung einer kumulierten Reihe in einem rechtwinkligen Koordinatensystem werden die Optionen auf der Abszissenachse und die akkumulierten Frequenzen (Frequenzen) auf der Ordinatenachse aufgetragen. Die resultierende gekrümmte Linie heißt normalerweise kumulativ Verteilung (Abbildung 5.4).

Die Bildung und grafische Darstellung verschiedener Typen von Variationsreihen trägt zu einer vereinfachten Berechnung der wichtigsten statistischen Merkmale bei, die in Thema 6 ausführlich behandelt werden, und hilft, das Wesen der Verteilungsgesetze der statistischen Grundgesamtheit besser zu verstehen. Die Analyse der Variationsreihen ist dann von besonderer Bedeutung, wenn es notwendig ist, den Zusammenhang zwischen den Optionen und Häufigkeiten (Häufigkeiten) zu identifizieren und nachzuvollziehen. Diese Abhängigkeit zeigt sich darin, dass die Anzahl der Fälle, die auf jede Option fallen, in gewisser Weise mit der Größe dieser Option zusammenhängt, d.h. mit einer Zunahme der Werte des variablen Attributs unterliegt die Häufigkeit (Häufigkeit) dieser Werte bestimmten, systematischen Änderungen. Das bedeutet, dass die Zahlen in der Spalte der Frequenzen (Frequenzen) keinen chaotischen Schwingungen unterliegen, sondern sich in eine bestimmte Richtung, in einer bestimmten Reihenfolge und Reihenfolge ändern.

Wenn die Häufigkeiten in ihren Veränderungen eine gewisse Systematik aufweisen, dann sind wir auf dem Weg, Muster zu erkennen. Das System, die Reihenfolge, die Reihenfolge in wechselnden Frequenzen ist ein Spiegelbild der gemeinsamen Ursachen, der allgemeinen Bedingungen, die für die gesamte Menge charakteristisch sind.

Es sollte nicht davon ausgegangen werden, dass das Verteilungsmuster immer vorgefertigt ist. Es gibt etliche Variationsreihen, bei denen die Frequenzen skurril springen, mal ansteigend, mal abfallend. In solchen Fällen ist es ratsam, herauszufinden, mit welcher Verteilung der Forscher es zu tun hat: Entweder ist diese Verteilung gar nicht den Gesetzmäßigkeiten innewohnend, dann ist ihre Natur noch nicht aufgeklärt: Der erste Fall ist selten, der zweite, der zweite Fall ist ein ziemlich häufiges und sehr weit verbreitetes Phänomen.

Bei der Bildung einer Intervallreihe kann die Gesamtzahl der statistischen Einheiten also klein sein, und jedes Intervall enthält eine kleine Anzahl von Varianten (z. B. 1-3 Einheiten). In solchen Fällen ist es nicht erforderlich, mit der Manifestation einer Regelmäßigkeit zu rechnen. Damit aus zufälligen Beobachtungen ein logisches Ergebnis gewonnen werden kann, muss das Gesetz der großen Zahlen in Kraft treten, d.h. so dass es für jedes Intervall nicht wenige, sondern Dutzende und Hunderte von statistischen Einheiten gäbe. Zu diesem Zweck sollte man versuchen, die Anzahl der Beobachtungen so weit wie möglich zu erhöhen. Dies ist der sicherste Weg, Muster in Massenprozessen zu erkennen. Wenn es keine wirkliche Möglichkeit gibt, die Anzahl der Beobachtungen zu erhöhen, kann die Identifizierung eines Musters durch eine Verringerung der Anzahl der Intervalle in der Verteilungsreihe erreicht werden. Verringern der Anzahl der Intervalle in der Variationsreihe, wodurch die Anzahl der Häufigkeiten in jedem Intervall erhöht wird. Das bedeutet, dass zufällige Schwankungen jeder statistischen Einheit einander überlagert, "geglättet" werden und zu einer Regelmäßigkeit werden.

Die Bildung und Konstruktion von Variationsreihen ermöglicht nur ein allgemeines, ungefähres Bild der Verteilung der statistischen Grundgesamtheit. Zum Beispiel drückt das Histogramm nur grob den Zusammenhang zwischen den Werten eines Merkmals und seinen Häufigkeiten (Frequenzen) aus. Daher sind die Variationsreihen im Wesentlichen nur die Grundlage für weitere, eingehende Untersuchungen der internen Gesetze der statischen Verteilung.

KONTROLLFRAGEN ZU THEMA 5

1. Was ist eine Variation? Was verursacht die Variation eines Merkmals in einer statistischen Population?

2. Welche unterschiedlichen Merkmale können in der Statistik vorkommen?

3. Was ist eine Variationsserie? Welche Arten von Variationsreihen kann es geben?

4. Was ist die Rangfolge? Was sind seine Vor- und Nachteile?

5. Was ist eine diskrete Reihe und was sind ihre Vor- und Nachteile?

6. Wie ist die Reihenfolge der Bildung der Intervallreihen, was sind ihre Vor- und Nachteile?

7. Was ist eine grafische Darstellung einer Reihe von diskreten Intervallverteilungen mit Entfernungen?

8. Was ist die kumulative Verteilung und was charakterisiert sie?

Höhere Berufsausbildung

"RUSSISCHE AKADEMIE DER VOLKSWIRTSCHAFT UND

ÖFFENTLICHER DIENST UNTER DEM PRÄSIDENT

RUSSISCHE FÖDERATION"

(Niederlassung Kaluga)

Fachbereich Naturwissenschaften und Mathematik

PRÜFUNG

Nach Disziplin "Statistik"

Studentin ___ Mayboroda Galina Yurievna ______

Korrespondenzabteilung, Fakultät für Staats- und Gemeindeverwaltung, Gruppe G-12-V

Lehrer ____________________ Hamer G.V.

Ph.D., außerordentlicher Professor

Kaluga-2013

Ziel 1.

Aufgabe 1.1. 4

Aufgabe 1.2. Sechszehn

Aufgabe 1.3. 24

Aufgabe 1.4. 33

Ziel 2.

Aufgabe 2.1. 43

Aufgabe 2.2. 48

Aufgabe 2.3. 53

Aufgabe 2.4. 58

Ziel 3.

Aufgabe 3.1. 63

Aufgabe 3.2. 68

Aufgabe 3.3. 73

Aufgabe 3.4. 79

Aufgabe 4.

Aufgabe 4.1. 85

Aufgabe 4.2. 88

Aufgabe 4.3. 90

Aufgabe 4.4. 93

Liste der verwendeten Quellen. 96

Ziel 1.

Aufgabe 1.1.

Es gibt folgende Daten über die Produktion und die Höhe des Gewinns der Unternehmen der Region (Tabelle 1).

Tabelle 1

Daten zum Output und zur Höhe der Gewinne der Unternehmen

Firmennummer Produktionsleistung, Mio. Rub. Gewinn, Millionen Rubel Firmennummer Produktionsleistung, Mio. Rub. Gewinn, Millionen Rubel
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

Nach den Ausgangsdaten:

1. Erstellen Sie eine statistische Reihe zur Verteilung der Unternehmen nach Leistung, indem Sie in gleichen Abständen fünf Gruppen bilden.

Zeichnen Sie die Diagramme der Verteilungsreihen: Polygon, Histogramm, kumulativ. Bestimmen Sie den Wert der Mode und des Medians grafisch.

2. Berechnen Sie die Merkmale der Verteilung der Unternehmen nach Output: arithmetisches Mittel, Varianz, Standardabweichung, Variationskoeffizient.

Machen Sie eine Schlussfolgerung.

3. Stellen Sie mit der Methode der analytischen Gruppierung das Vorhandensein und die Art der Korrelation zwischen dem Wert der hergestellten Produkte und der Höhe des Gewinns pro Unternehmen fest.

4. Messen Sie die Enge der Korrelation zwischen den Produktionskosten und der Höhe des Gewinns durch das empirische Korrelationsverhältnis.

Ziehen Sie allgemeine Schlussfolgerungen.

Lösung:

Lassen Sie uns eine statistische Verteilungsreihe konstruieren

Um eine Intervallvariationsreihe zu erstellen, die die Verteilung der Unternehmen in Bezug auf die Produktion charakterisiert, müssen der Wert und die Grenzen der Intervalle der Reihen berechnet werden.

Beim Konstruieren einer Reihe mit gleichen Intervallen ist der Wert des Intervalls h bestimmt durch die Formel:

x max und x min- die größten und kleinsten Werte des Attributs in der untersuchten Gruppe von Unternehmen;

k- die Anzahl der Gruppen in der Intervallserie.

Anzahl Gruppen k in der Aufgabenbedingung angegeben. k= 5.

x max= 81 Millionen Rubel, x min= 21 Millionen Rubel.

Berechnung der Intervallgröße:

Millionen Rubel

Durch sukzessives Addieren des Wertes des Intervalls h = 12 Millionen Rubel. bis zur unteren Grenze des Intervalls erhalten wir folgende Gruppen:

Gruppe 1: 21 - 33 Millionen Rubel.

Gruppe 2: 33 - 45 Millionen Rubel;

Gruppe 3: 45 - 57 Millionen Rubel.

Gruppe 4: 57 - 69 Millionen Rubel.

Gruppe 5: 69 - 81 Millionen Rubel.

Um eine Intervallreihe zu erstellen, muss die Anzahl der Unternehmen berechnet werden, die in jeder Gruppe enthalten sind ( Gruppenfrequenzen).

Der Prozess der Gruppierung von Unternehmen nach Produktionsvolumen ist in Hilfstabelle 2 dargestellt. Spalte 4 dieser Tabelle ist erforderlich, um eine analytische Gruppierung zu bilden (Punkt 3 der Aufgabe).

Tabelle 2

Tabelle zum Zeichnen einer Intervallverteilungsreihe und

analytische Gruppe

Unternehmensgruppen nach Produktionsvolumen, Mio. Rub. Firmennummer Produktionsleistung, Mio. Rub. Gewinn, Millionen Rubel
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Gesamt 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Gesamt 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Gesamt 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Gesamt 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Gesamt 229,0 26,9
Gesamt 183,1

Auf Basis der Gruppenzusammenfassungszeilen "Gesamt" der Tabelle 3 wird eine zusammenfassende Tabelle 3 gebildet, die die Intervallreihen der Verteilung der Unternehmen nach der Produktionsmenge darstellt.

Tisch 3

Eine Reihe von Verteilungen der Unternehmen nach dem Produktionsvolumen

Fazit. Die konstruierte Gruppierung zeigt, dass die Verteilung der Unternehmen in Bezug auf die Produktion nicht einheitlich ist. Am häufigsten sind Unternehmen mit einem Produktionsvolumen von 45 bis 57 Millionen Rubel. (12 Unternehmen). Am seltensten sind Unternehmen mit einem Produktionsvolumen von 69 bis 81 Millionen Rubel. (3 Unternehmen).

Lassen Sie uns die Diagramme der Verteilungsreihe erstellen.

Polygon häufiger verwendet, um diskrete Reihen darzustellen. Um ein Polygon in einem rechteckigen Koordinatensystem zu konstruieren, werden die Werte des Arguments auf der Abszissenachse aufgetragen, dh die Optionen (bei Intervallvariationsreihen wird die Mitte des Intervalls als Argument genommen) und die Häufigkeit Werte sind auf der Ordinatenachse. Weiterhin werden in diesem Koordinatensystem Punkte eingezeichnet, deren Koordinaten Paare der entsprechenden Zahlen aus der Variationsreihe sind. Die resultierenden Punkte werden sequentiell durch gerade Liniensegmente verbunden. Das Polygon ist in Abbildung 1 dargestellt.

Balkendiagramm - Balkendiagramm. Es ermöglicht Ihnen, die Symmetrie der Verteilung zu bewerten. Das Histogramm ist in Abbildung 2 dargestellt.

Abbildung 1 - Polygon der Unternehmensverteilung nach Volumen

Produktionsleistung

Mode

Abbildung 2 - Histogramm der Verteilung der Unternehmen nach Volumen

Produktionsleistung

Mode- der Wert eines Merkmals, das in der untersuchten Population am häufigsten vorkommt.

Für die Intervallserie kann der Modus grafisch durch das Histogramm bestimmt werden (Abbildung 2). Dazu wird das höchste Rechteck ausgewählt, das in diesem Fall modal ist (45 - 57 Millionen Rubel). Dann wird der rechte Scheitelpunkt des modalen Rechtecks ​​mit der oberen rechten Ecke des vorherigen Rechtecks ​​verbunden. Und der linke Scheitelpunkt des modalen Rechtecks ​​ist mit der oberen linken Ecke des nachfolgenden Rechtecks. Ferner wird von ihrem Schnittpunkt eine Senkrechte auf die Abszissenachse abgesenkt. Die Abszisse des Schnittpunkts dieser Geraden ist der Verteilungsmodus.

Mln. reiben.

Fazit. Unter den betrachteten Unternehmen sind am häufigsten Unternehmen mit einer Produktionsleistung von 52 Millionen Rubel anzutreffen.

Cumulata - gebrochene Kurve. Es wird nach den akkumulierten Frequenzen gebaut (berechnet in Tabelle 4). Die kumulative beginnt an der unteren Grenze des ersten Intervalls (21 Millionen Rubel), die kumulierte Häufigkeit wird an der oberen Grenze des Intervalls hinterlegt. Die Kumulation ist in Abbildung 3 dargestellt.

Median

Abbildung 3 - Kumulative Verteilung der Unternehmen nach Volumen

Produktionsleistung

Median Me- Dies ist der Wert des Merkmals, das in die Mitte der Rangfolge fällt. Auf beiden Seiten des Medians befindet sich die gleiche Anzahl von Bevölkerungseinheiten.

In einer Intervallserie kann der Median aus der Summenkurve grafisch ermittelt werden. Um den Median von einem Punkt auf der Skala der akkumulierten Häufigkeiten entsprechend 50% (30: 2 = 15) zu bestimmen, wird eine Gerade parallel zur Abszissenachse gezogen, bis sie die Summe schneidet. Dann wird vom Schnittpunkt der angegebenen Geraden mit der Summe eine Senkrechte auf die Abszissenachse abgesenkt. Die Abszisse des Schnittpunktes ist der Median.

Mln. reiben.

Fazit. In der betrachteten Gruppe von Unternehmen hat die Hälfte der Unternehmen ein Produktionsvolumen von nicht mehr als 52 Millionen Rubel und die andere Hälfte - mindestens 52 Millionen Rubel.


Ähnliche Informationen.




Error: Inhalt ist geschützt !!