Wybierz stronę

Pojęcie szeregów rozkładów statystycznych i ich rodzaje. Statystyczne szeregi dystrybucyjne w badaniu struktury rynku

Najprostszym sposobem uogólnienia materiału statystycznego jest zbudowanie szeregu. Wynikiem podsumowania badania statystycznego może być szereg rozkładów.

Po ustaleniu atrybutu grupującego, liczby grup i przedziałów grupowania, dane podsumowujące i grupujące prezentowane są w postaci szeregów rozkładowych i sporządzane w postaci tabel statystycznych.

Seria dystrybucyjna to rodzaj grupowania.

Bliska dystrybucja w statystyce uporządkowany rozkład jednostek populacji na grupy nazywa się według dowolnego kryterium: jakościowego lub ilościowego.

  1. Rodzaje rzędów dystrybucyjnych

W zależności od cechy leżącej u podstaw tworzenia szeregów rozdzielczych rozróżnia się szeregi rozkładów atrybutowych i zmienności:

    szeregi dystrybucyjne, budowane według cech jakościowych, nazywamy atrybutywnymi;

    szeregi dystrybucyjne nazywane są wariacyjnymi, zbudowanymi w porządku rosnącym lub malejącym wartości cechy ilościowej.

Seria odmian rozkładu składa się z dwóch kolumn. Pierwsza kolumna zawiera wartości ilościowe o zmiennej charakterystyce, które nazywane są wariantami i są oznaczone. Opcja Discrete - wyrażona jako liczba całkowita. Opcja interwału waha się od i do. W zależności od rodzaju wariantów można zbudować serię wariacji dyskretnych lub interwałowych. Druga kolumna zawiera liczbę konkretnych wariantów wyrażoną w częstotliwościach lub częstotliwościach:

    częstotliwości są liczbami bezwzględnymi pokazującymi, ile razy dana wartość cechy występuje łącznie; suma wszystkich częstotliwości powinna być równa liczbie jednostek całej populacji;

    częstotliwości to częstotliwości wyrażone jako procent całości; suma wszystkich części wyrażona w procentach musi być równa 100% w ułamku jeden.

Seria wariacyjna charakteryzuje się dwoma elementami: wariantem (X) i częstotliwością (f). Wariant to indywidualna wartość cechy jednostki lub grupy populacji. Liczba pokazująca, ile razy występuje dana wartość cechy, nazywa się częstotliwość. Jeśli częstotliwość jest wyrażona jako liczba względna, nazywa się ją częstotliwością.

Seria odmian może być:

    przedział, gdy granice „od” i „do” są zdefiniowane, szeregi rozkładu przedziałów można przedstawić graficznie w postaci histogramu;

    dyskretny, gdy badana cecha charakteryzuje się określoną liczbą.

  1. Graficzna reprezentacja szeregów dystrybucyjnych

Serie dystrybucji są wyraźnie przedstawione za pomocą obrazów graficznych.

Serie dystrybucji są przedstawione jako:

    wielokąt;

    histogramy;

    kumuluje się;

Podczas budowania wielokąt na osi poziomej (odcięta) wykreślane są wartości zmiennej cechy, a na osi pionowej (rzędnej) - częstotliwości lub częstotliwości.

Do budowy histogramy odcięta wskazuje wartości granic przedziałów i na ich podstawie konstruowane są prostokąty, których wysokość jest proporcjonalna do częstotliwości (lub części).

Rozkład cechy w szeregu wariacji według skumulowanych częstotliwości (części) jest przedstawiony za pomocą kumulacji.

Cumulata lub krzywa skumulowana, w przeciwieństwie do wielokąta, jest zbudowana z zakumulowanych częstotliwości lub części. W tym przypadku wartości atrybutu są umieszczone na osi odciętych, a skumulowane częstotliwości lub częstotliwości są umieszczone na osi rzędnych.

Ogiwa jest skonstruowany podobnie do kumulatywnego, z tą różnicą, że skumulowane częstotliwości są umieszczone na osi odciętej, a wartości atrybutów na osi rzędnych.

Różnorodnością kumulacji jest krzywa stężenia lub wykres Lorentza. Aby wykreślić krzywą stężenia, do obu osi prostokątnego układu współrzędnych stosuje się skalę skali w procentach od 0 do 100. Skumulowane częstotliwości są wskazane na odciętej, a skumulowane wartości ułamka (w procentach) przez objętość cechy jest wskazana na rzędnej.

Szczególną formę grupowania danych reprezentuje tzw szeregi statystyczne, lub wartości liczbowe cechy w określonej kolejności. W zależności od tego, jakie cechy są badane, szeregi statystyczne dzieli się na szeregi atrybutowe, wariacyjne, dynamiczne, regresyjne, szeregi wartości rangowanych cech oraz szeregi skumulowanych częstości. Najczęściej stosowany w psychologii wariacja szeregi, szeregi regresje i szeregi uszeregowane wartości charakterystyczne.

Seria wariacji rozkłady nazywane są podwójnym rzędem liczb, pokazującym jak wartości liczbowe cechy są powiązane z ich powtarzalnością w danej próbce. Na przykład, psycholog testował inteligencję w teście Wechslera na 25 uczniach, a surowe wyniki w drugim podteście były następujące: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11, 9, 12 , 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 10, 9, 11. Jak widać, niektóre liczby pojawiają się w tym wierszu kilka razy. W związku z tym, biorąc pod uwagę liczbę powtórzeń, serie te można przedstawić w wygodniejszej, zwartej formie:

To jest seria wariacji. Liczby pokazujące, ile razy poszczególne warianty występują w danej populacji, nazywamy licznościami lub wagami wariantu. Są one oznaczone małą literą alfabetu łacińskiego. f ja i mają indeks „i” odpowiadający numerowi zmiennej w serii odmian.

Procenty częstotliwości są przydatne, gdy trzeba porównać serie zmienności, które znacznie różnią się objętością. Na przykład podczas testowania gotowości szkolnej dzieci w mieście, osadzie typu miejskiego i na wsi zbadano próbki dzieci odpowiednio 1000, 300 i 100 osób. Różnica w wielkościach próbek jest oczywista. Dlatego porównanie wyników testu najlepiej przeprowadzać, stosując procenty częstotliwości.

Powyższy szereg (3.1) można przedstawić w inny sposób. Jeżeli elementy serii ułożone są w porządku rosnącym, to otrzymamy tak zwaną szeregową serię wariacyjną:

Ta forma reprezentacji (3.3) jest bardziej preferowana niż (3.1), ponieważ lepiej ilustruje wzór zmienności cechy.

Częstotliwości charakteryzujące szeregi wariacji rankingowych mogą być dodawane lub akumulowane. Skumulowane częstotliwości uzyskuje się poprzez sekwencyjne sumowanie wartości częstotliwości od pierwszej do ostatniej częstotliwości.

Jako przykład przejdźmy ponownie do wiersza 3.3. Przekształćmy go w wiersz 3.4, w którym wprowadzamy dodatkowy wiersz i nazywamy go „kumulacjami częstotliwości”:

Przyjrzyjmy się bliżej, jak powstała ostatnia linia. Na początku rzędu częstotliwości jest 1. W rzędzie skumulowanym 2 jest na drugim miejscu - jest to suma częstotliwości pierwszej i drugiej, tj. 1 + 1, na trzecim miejscu jest 4 to jest suma drugiej (już zakumulowanej częstotliwości) i trzeciej częstotliwości, czyli 2 + 2, na czwartym 8 = 4 + 4 itd.


Huśtać się(czasami ta wartość nazywa się rozpraszać) pobieranie próbek jest oznaczone literą R. To najprostszy wskaźnik, jaki można uzyskać dla próbki - różnica między wartościami maksymalnymi i minimalnymi danego specyfiku seria odmian, tj.

Oczywiste jest, że im bardziej zmierzona charakterystyka się zmienia, tym większa wartość R, i wzajemnie.

Może się jednak zdarzyć, że dla dwóch szeregów prób zarówno średnia, jak i zakres pokrywają się, ale charakter zmienności tych szeregów będzie inny. Na przykład podano dwie próbki:

Przy równości średnich i rozrzutu dla tych dwóch serii próbek charakter ich zmienności jest inny. Aby lepiej zrozumieć naturę zmienności próbek, należy odwołać się do ich rozkładów.

Tabele i wykresy rozkładu częstotliwości

Z reguły analiza danych rozpoczyna się od zbadania, jak często w dostępnym zbiorze obserwacji występują określone wartości interesującego badacza atrybutu (zmiennej). Do tego są zbudowane tabele i wykresy rozkładu częstotliwości. Często są podstawą do uzyskania cennych spostrzeżeń z badań.

Jeżeli cecha przyjmuje tylko kilka możliwych wartości (do 10-15), to tabela rozkładu częstości pokazuje częstotliwość występowania każdej wartości cechy. Jeśli wskażesz, ile razy występuje każda wartość atrybutu, to jest to tabela absolutny częstości rozkładów, jeśli wskazany jest udział obserwacji przypadających na konkretną wartość cechy, to mówią o względny częstotliwości dystrybucji.

W wielu przypadkach znak może zająć wiele różne znaczenia, na przykład, jeśli mierzymy czas rozwiązania problemu testowego. W tym przypadku rozkład funkcji pozwala na ocenę zgrupowana tabela częstotliwości, w którym częstotliwości są pogrupowane według cyfr lub przedziałów wartości charakterystycznych.

Innym rodzajem stołów rozdzielczych są stoły rozdzielcze skumulowany częstotliwości. Pokazują, jak częstotliwości kumulują się wraz ze wzrostem wartości cechy. Naprzeciw każdej wartości (przedziału) wskazano sumę częstości występowania wszystkich tych obserwacji, której wartość cechy nie przekracza podana wartość(mniej niż górna granica tego przedziału). Skumulowane częstotliwości znajdują się w prawej kolumnie tabeli. 3.2 i 3.3.

Aby uzyskać bardziej wizualną reprezentację, budowany jest wykres rozkładu częstotliwości lub wykres skumulowanych częstotliwości - histogram lub wygładzona krzywa rozkładu.

Histogram rozkładu częstotliwości to wykres słupkowy, którego każdy słupek jest oparty na określonej wartości cechy lub interwale bitowym (dla zgrupowanych częstotliwości). Wysokość słupka jest proporcjonalna do częstotliwości występowania odpowiedniej wartości. Na ryc. 3.1 pokazuje histogram rozkładu częstotliwości dla przykładu z tabeli. 3.2.

Histogram częstotliwości skośnej różni się od histogramu rozkładu tym, że wysokość każdego słupka jest proporcjonalna do częstotliwości skumulowanej dla danej wartości (przedziału). Na ryc. 3.2 pokazuje histogram skumulowanych częstotliwości dla danych w tabeli. 3.2.

Budynek obszar dystrybucji częstotliwości przypomina budowanie histogramu. Na histogramie wierzchołek każdej kolumny odpowiadającej częstości występowania danej wartości (przedziału) cechy jest odcinkiem linii prostej. A dla wielokąta zaznaczono punkt odpowiadający środkowi tego segmentu. Ponadto wszystkie punkty są połączone linią przerywaną (ryc. 3.3). Zamiast histogramu lub wielokąta często przedstawiana jest wygładzona krzywa rozkładu częstotliwości. Na ryc. 3.4 pokazuje histogram rozkładu dla przykładu z tabeli. 3,3 (słupki) i wygładzoną krzywą o tym samym rozkładzie częstotliwości.

Tabele i wykresy alokacji częstotliwości dostarczają ważnych wstępnych informacji na temat: forma dystrybucji cech: o tym, które wartości są mniej powszechne, a które częściej, jak wyraźna jest zmienność cechy. Zwykle wyróżnia się następujące typowe formy dystrybucji. Równa dystrybucja - gdy wszystkie wartości często występują takie same (lub prawie takie same). Rozkład symetryczny - gdy wartości ekstremalne są równie powszechne. Normalna dystrybucja- rozkład symetryczny, w którym wartości skrajne są rzadkie, a częstotliwość stopniowo wzrasta od wartości skrajnych do średnich cechy. Rozkłady asymetryczne- leworęczny(z przewagą częstości małych wartości), praworęczny(z przewagą częstotliwości o dużych wartościach).

Już same tabele i wykresy rozkładu cechy pozwalają na wyciągnięcie sensownych wniosków przy porównywaniu grup badanych ze sobą. Porównując rozkłady możemy nie tylko ocenić, które wartości są częstsze w danej grupie, ale także porównać grupy według nasilenia różnic indywidualnych – zmienność na tej podstawie.

Tabele i wykresy skumulowanych częstości pozwalają szybko uzyskać dodatkowe informacje o tym, ile osób (lub jaka ich część) ma nasilenie cechy nie wyższe niż określona wartość.

Sekcja 4. Statystyki opisowe
(Rozkład statystyczny i jego cechy liczbowe)

Zmienna może przyjmować wiele wartości. Na etap początkowy przetwarzania danych, zamiast brać pod uwagę wszystkie wartości zmiennej, zaleca się analizę statystyk opisowych. Dają ogólne pojęcie o wartościach lub rozkładzie wartości, które przyjmuje zmienna.

Do podstawowych statystyk opisowych ( Opisowe statystyki) zwykle odnoszą się do liczbowych charakterystyk rozkładu charakterystyki mierzonej na próbce. Każda taka cecha odzwierciedla… w jednej wartości liczbowej nieruchomość dystrybucyjna wiele wyników pomiarów: pod względem ich Lokalizacja na osi liczbowej lub pod względem ich zmienność. Głównym celem każdej z podstawowych statystyk opisowych jest zastąpienie zbioru wartości atrybutu mierzonego na próbie jedną liczbą (na przykład średnią jako miarą tendencji centralnej). Zwięzły opis grupy za pomocą statystyk pierwotnych pozwala na interpretację wyników pomiarów, w szczególności poprzez porównanie statystyk pierwotnych różnych grup.

Wyniki podsumowania i grupowania, materiały obserwacji statystycznych sporządzane są w postaci szeregów rozkładowych i tablic statystycznych.

Szeregi rozkładu statystycznego to uporządkowany układ jednostek badanej populacji w grupy według cech grupowania. Charakteryzują kompozycję, pozwalają ocenić jednorodność agregatu, granice jego zmiany oraz prawa rządzące rozwojem obserwowanego obiektu.

W zależności od cechy leżącej u podstaw szeregów rozdzielczych rozróżnia się szeregi atrybutywne i szeregi wariacyjne.

Warianty to indywidualne wartości cechy, które przyjmuje w serii wariacyjnej, tj. specyficzne znaczenie zmiennej funkcji.

Częstotliwości - liczbę poszczególnych wariantów lub każdą grupę serii wariacji nazywa się, tj. jest to liczba, która pokazuje, jak często w szeregu dystrybucyjnym występują określone warianty.

Suma wszystkich częstotliwości określa wielkość całej populacji lub jej wielkość. Szeregi wariacyjne składają się z dwóch elementów: wariantów i częstotliwości. Częstotliwości są wyrażane w ułamkach jednej lub jako procent całości (tzw. częstotliwości). W związku z tym suma częstotliwości wynosi 1 lub 100%.

W zależności od charakteru zmienności cechy rozróżnia się serie dyskretne i interwałowe.

Szeregi dyskretne charakteryzują rozkład jednostek populacji według cechy dyskretnej, która przyjmuje tylko stałą wartość, najczęściej całość.

Serie zmienności interwałowej to serie, w których wartości wariantów podane są jako interwały.

Szeregi dyskretne są przedstawiane graficznie jako wielokąt rozkładu. Szeregi interwałowe - w postaci histogramu rozkładu.

Tabele statystyczne

Wyniki podsumowania i grupowania materiałów obserwacyjnych z reguły prezentowane są w postaci tabel statystycznych. Jest to najskuteczniejszy sposób prezentacji wyników podsumowania. Wartość tabel statystycznych polega na tym, że pozwalają one objąć materiały podsumowania statystycznego całością.

Za pomocą wygląd zewnętrzny Tabele statystyczne to seria przecinających się linii pionowych i poziomych. Pionowo - wiersze, poziomo - kolumny.

Skompilowana, ale nieukończona tabela nazywana jest układem tabeli. Tabela statystyczna składa się z dwóch elementów: podmiotu i predykatu. Przedmiot - przedmiot badań - jednostki populacji, które charakteryzują wskaźniki liczbowe. Przewidywane - lista wskaźników liczbowych charakteryzujących przedmiot badań, tj. temat tabeli.

Po lewej stronie tabeli w nagłówkach wierszy podana jest nazwa jednostek lub grup tworzących przedmiot, a nazwy wskaźników, które one charakteryzują, tj. predykat, u góry tabeli w nagłówkach kolumn.

W zależności od konstrukcji przedmiot tabeli statystycznej dzieli się na trzy typy:

1. Prosty

2. Grupa

3. Połączenie

1) Prosty - w temacie którego nie ma ugrupowań. Ze względu na charakter prezentowanego materiału proste tabele to:

· Brązowy;

· Terytorialny;

· Chronologia.

2) Grupa - w której badany obiekt jest podzielony w przedmiocie na grupy według jednego lub drugiego atrybutu.

3) Kombinowane - tablice, w których przedmiotach podano grupowanie jednostek ludności według dwóch lub więcej cech wziętych łącznie.

Gdy predykat ma wiele metryk, opracowywanie predykatu może być proste i złożone. Proste rozwinięcie predykatu zakłada równoległe ułożenie wskaźników, a złożone – kombinację.

Wykresy statystyczne

Uzyskany w wyniku opracowania materiał statystyczny, umieszczony w tabelach, często wymaga wizualnej reprezentacji za pomocą konstrukcji wykresów statystycznych.

Wykres w statystyce to wizualna reprezentacja danych statystycznych za pomocą linii i kształtów geometrycznych lub schematów map geograficznych (kartogram).

Na każdym wykresie wyróżnia się następujące elementy:

1. Obraz graficzny - podstawa wykresu - znaki geometryczne, zestaw punktów, linii, cyfr, za pomocą których przedstawiane są informacje statystyczne.

2. Poligrafia – miejsce, w którym znajduje się obraz graficzny.

3. Punkty orientacyjne przestrzenne – opracowywane za pomocą układu współrzędnych.

4. Punkty odniesienia skali - zależne od skali i skali wykresu.

5. Eksploatacja wykresu to nazwa i odpowiadające jej pola poszczególnych jej części.

W zależności od zastosowania znaków geometrycznych wykresy różnią się punktowym, liniowym, paskowym, kwadratowym i kołowym. Wykresy mają postać niegeometrycznych kształtów, nazywane są kręconymi.

Wykresy statystyczne są podzielone według metody budowy i zadań:

1. Schematy:

a) porównania;

b) prelegenci;

c) strukturalne.

2. Mapy statystyczne:

a) kartogramy;

b) kartodiagramy.

Diagram jest najczęstszym sposobem obrazów graficznych, służy do wizualnego porównywania wartości różniących się od siebie.

Wykres to wykres zależności ilościowych.

Mapy statystyczne to wykresy rozkładu ilościowego na powierzchni. W swoim głównym celu są one zbliżone do diagramów, ale różnią się tym, że reprezentują konwencjonalne obrazy danych statystycznych na konturowej mapie geograficznej.

Mapy statystyczne pokazują rozkład przestrzenny lub rozkład przestrzenny statystyk.

1. Mapy statystyczne zawierają kartogramy - jest to mapa schematyczna lub plan terenu, na którym poszczególne terytoria, w zależności od wartości wyświetlanego wskaźnika, są wskazywane za pomocą symboli graficznych.

2. Kartogram - połączenie kartogramu z diagramem.

W szczególnych przypadkach, gdy konieczne jest zobrazowanie dowolnego wskaźnika statystycznego, który uzyskuje się przez pomnożenie dwóch innych wielkości i muszą one być przedstawione na wykresie, stosuje się specjalne znaki graficzne, nazywane są znakami Varzala.


Podobne informacje.


Niesystematyczne dane zebrane w trakcie obserwacji statystycznych tworzą szeregi danych pierwotnych. Przy wystarczająco dużej objętości populacji, seria danych pierwotnych staje się trudna do zauważenia, a jej bezpośrednie uwzględnienie nie może dać wyobrażenia o rozkładzie jednostek populacji według wielkości atrybutu.

Pierwszym krokiem w uporządkowaniu pierwszego rzędu jest uszeregowanie go, tj. uporządkowanie wszystkich wariantów serii (wartości cech) w porządku rosnącym lub malejącym. Ranking danych pozwala na:

  • natychmiast zobaczyć maksymalną i minimalną wartość atrybutu łącznie i odgrodzić różnicę między nimi (X max - X min);
  • określić liczbę powtórzeń poszczególnych wariantów serii (częstotliwość).

W rezultacie główna nieuporządkowana seria danych jest przekształcana w szereg uporządkowany, który będzie odzwierciedlał liczbę powtórzeń każdego wariantu:

Szereg ten nazywa się szeregiem rozkładu statystycznego. Charakteryzuje skład i strukturę badanego zjawiska, pozwala ocenić stopień jednorodności badanej populacji, wzorce i granice zmienności analizowanej cechy.

Elementami szeregu rozkładów statystycznych są warianty X oraz liczności / (wartość bezwzględna liczby powtórzenia rd opcje).

Do scharakteryzowania struktury populacji stosuje się wskaźnik, który nazywa się częstością (4) i jest określony wzorem

Z definicji częstotliwości i częstotliwości wynikają następujące równości: gdzie n - wielkość populacji.

Serie dystrybucji można uzyskać przez grupowanie. Szeregi dystrybucyjne mogą być atrybutywne i wariacyjne.

Szeregi atrybutowe to statystyczne szeregi dystrybucyjne, które są budowane na podstawie atrybutów. Jako przykład takiego szeregu można rozważyć w szczególności rozkład pracowników w sklepie przedsiębiorstwa według zawodów (tabela 3.2).

Podział pracowników sklepów według profesji

Szeregi zmienności to szeregi rozkładu statystycznego budowane na podstawie ilościowej. Szereg wariacyjny można uznać za szereg dyskretny, jeśli cecha, na której jest budowany, jest odpowiednio dyskretny. Szereg wariacyjny rozkładu może być również przedziałem, jeśli cecha, na której jest konstruowany, jest ciągła. Przykładem takiego szeregu jest rozkład pracowników warsztatu lub przedsiębiorstwa według poziomu umiejętności (tabela 3.3).

Tabela 3.3

Rozkład pracowników warsztatowych według poziomu umiejętności

Jako przykład serie interwałowe dystrybucji, możesz podać przykład dystrybucji przedsiębiorstw według wielkości produkcji (patrz punkt 3.3). W tym przypadku rozkład przedziałowy jest wykonywany w procesie konstruowania odpowiedniego grupowania analitycznego, przedstawionego w tabeli. 3.4.

Szeregi rozkładów przedziałowych, wraz z szeregami rozkładów dyskretnych, pozwalają zidentyfikować i zbadać strukturę badanego zjawiska (obiektu obserwacji).

Tabela 3.4

Rozkład przedsiębiorstw według wielkości produkcji

Grupy przedsiębiorstw według wielkości produkcji, mln RUB

Ilość

przedsiębiorstwa

(częstotliwość)

Udział w ogólnej liczbie przedsiębiorstw

Skumulowane

/O

Xi

A

A

D,

Szeregi statystyczne rozkładu można uznać za obowiązkowy wynik dowolnego grupowania statystycznego. Podczas konstruowania szeregów dystrybucyjnych liczba grup i długość przedziału są określane zgodnie z zasadami stosowanymi podczas wykonywania grupowania statystyczne(patrz punkt 3.2).

Dla jasności i lepszego zrozumienia szeregi rozkładów statystycznych mogą być prezentowane nie w formie tabelarycznej, ale w formie graficznej.

Najczęściej widok graficzny szeregów rozkładów jest używany do wyświetlania wariacyjnych szeregów statystycznych rozkładów.

Do wyświetlania serii dyskretnych używane są wykresy liniowe, zwane wielokątami rozkładu. Przy konstruowaniu wielokąta rozkładu w prostokątnym układzie współrzędnych, warianty (wartości) analizowanej cechy układane są na osi odciętej. Na osi rzędnych kreślona jest częstotliwość rozkładu opcji lub wartości cechy. Celowość wyświetlania częstotliwości na osi rzędnych wyjaśniono w następujący sposób:

  • jest to najwygodniejsza metoda dla dużej ilości badanej populacji statystycznej;
  • umożliwia to, w ramach jednego wykresu, zobrazowanie szeregów rozkładu statystycznego dwóch lub więcej cech o różnej liczbie jednostek populacji.

Przecięcie punktów wzdłuż odciętej i rzędnej tworzy linię łamaną, będącą wielokątem rozkładu (rys. 3.1 – na podstawie danych w tab. 3.3).

Do graficznego wyświetlenia serii interwałów używa się z reguły wykresów słupkowych, które w tym przypadku są zwykle nazywane histogramami.

Możliwe jest skonstruowanie histogramu szeregów przedziałowych rozkładu przedsiębiorstw według wielkości produkcji (patrz tabela 3.4). Oś odciętych w tym przypadku reprezentuje odcinki równe wielkości przedziałów szeregu rozkładów (w przyjętej skali). Następnie na tych segmentach budowane są prostokąty, które na wysokości ułożone wzdłuż osi rzędnych są równe częstotliwości lub częstotliwości każdego interwału (ryc. 3.2).


Ryż. 3.1.


Ryż. 3.2.

Aby rozwiązać problemy takie jak wyznaczanie średnich strukturalnych, obserwowanie procesu koncentracji badanego zjawiska itp., zwyczajowo przekształca się szeregi dystrybucyjne w szeregi skumulowane, które są budowane w zależności od skumulowanych częstotliwości lub częstotliwości. Zasada obliczania akumulacji częstości (częstotliwości) dla każdego przedziału szeregu rozkładów jest dość prosta. Kumulacja częstotliwości (częstotliwości) jest obliczana jako suma częstotliwości (częstotliwości) danego przedziału i częstotliwości (częstotliwości) wszystkich przedziałów poprzedzających ten przedział.

Jako przykład konstrukcji szeregu skumulowanego przyjmiemy dane z tabeli. 3.4 z ostatniej kolumny (patrz skumulowana częstotliwość s,) i zbuduj odpowiedni schemat (rys. 3.3).

Podczas konstruowania serii skumulowanej w prostokątnym układzie współrzędnych, górne granice przedziałów szeregu rozkładu są wykreślane na osi odciętej, a skumulowane częstotliwości (częstotliwości), które odpowiadają tym przedziałom, są wykreślane na osi rzędnych.


Ryż. 3.3.

Za pomocą kumulacji można zilustrować proces koncentracji, gdzie obok kumulacji częstości (częstotliwości) występują rozkłady i sumy kumulowanych grupowań (lub innych ważnych) znaków badanego zjawiska w szeregach statystycznych. Takie krzywe, które odzwierciedlają proces koncentracji, nazywane są krzywymi Lorentza.

Jeśli więc odwołamy się do danych w tabeli. 3.4 i rys. 3.3 można zauważyć, że skumulowana częstotliwość drugiego przedziału wskazuje, że siedem z 25 przedsiębiorstw wytwarza około 19% całkowitej produkcji, podczas gdy każde z siedmiu przedsiębiorstw ma wielkość produkcji nie większą niż 8,2 mln rubli. a te siedem przedsiębiorstw stanowi 28% całkowitej liczby badanych przedsiębiorstw.

Najważniejszym wymogiem, jaki można nałożyć na konstrukcję szeregów rozkładów statystycznych, jest wymóg porównywalności w czasie i przestrzeni danych na przedziałach. Jednocześnie widać wyraźnie, że w szeregach z w równych odstępach to wymaganie jest spełnione automatycznie. W tych szeregach rozkładów, których przedziały nie są równe, zwyczajowo oblicza się gęstość rozkładu jako iloraz dzielenia częstości przedziału przez jego długość. W graficznym wyświetlaniu szeregów rozkładu o nierównych odstępach na osi rzędnych zwyczajowo odkłada się ns częstotliwości (częstotliwości) i wartości gęstości rozkładu.

W celu ułatwienia budowy grupowań i graficznych prezentacji szeregów statystycznych można wykorzystać edytory arkuszy kalkulacyjnych (np. Excel).

  • Patrz: N. V. Makarova, V. S. Trofimets Statistics in Excel. Moskwa: Finanse i statystyka, 2009; i inne podobne publikacje.

Seria dystrybucyjna w statystyce jest to najprostsze grupowanie, które jest uporządkowanym rozkładem jednostek populacji na grupy według badanej cechy zmiennej.

Ze względu na charakter badanej cechy serie są podzielone na: atrybutywny(gdy zmienna cecha jest jakościowa, tj. nie ma wyrażenia ilościowego) oraz wariacja(jeśli badana cecha jest mierzona ilościowo).

W każdym rzędzie dystrybucji rozróżnia się dwa główne elementy:

Warianty - określone wartości cechy;

Częstotliwości to liczby wskazujące, jak często występuje dana odmiana.

Jeżeli warianty są reprezentowane przez wartości całkowite cechy, to takie szeregi rozkładu zmienności są nazywane oddzielny, a jeśli opcje są reprezentowane przez przedziały liczbowe, to takie szeregi nazywamy interwał.

Szeregi dystrybucyjne uzupełniane są częstotliwościami oraz częstotliwościami skumulowanymi (skumulowanymi).

Częstotliwość- względna częstotliwość, określona przez stosunek liczby jednostek grupowych do całkowitej wielkości populacji.

Zakumulowane częstotliwości pokazać, ile jednostek populacji ma charakterystyczną wartość nie większą niż podana wartość. Określa się ją przez kolejne dodawanie do częstotliwości w pierwszym przedziale kolejnych częstotliwości szeregu.

Wartość przedziału grupowania szeregu zmienności przedziałowej określa wzór

gdzie to maksymalna wartość cechy, to minimalna wartość cechy, to liczba wybranych grup.

Decydując o tym, ile grup należy utworzyć, należy wziąć pod uwagę zakres zmienności oraz liczbę jednostek badanej populacji. Im większy zakres zmienności cechy leżącej u podstaw grupowania, tym z reguły więcej grup może powstać.

Zależność między liczbą grup a liczbą jednostek w populacji n można wyrazić wzorem amerykańskiego naukowca Sturgess:

Ta zależność może służyć jako orientacja w określaniu liczby grup w przypadku, gdy rozkład jednostek populacji dla danego atrybutu jest bliski normalnemu.

Jeśli na przykład wymagane jest grupowanie w równych odstępach zgodnie z danymi o wartości środków trwałych przedsiębiorstw, których maksymalna wartość wynosi 7 milionów rubli, minimalna wartość to 1 milion rubli. i należy w tym przypadku wybrać 4 grupy, wtedy wartość przedziału określa się następująco

W naszym przykładzie grupowanie w równych odstępach będzie wyglądało tak

Przy takim zapisie należy pamiętać, że lewa cyfra zawiera wskazaną wartość, a prawa nie. W konsekwencji przedsiębiorstwa o majątku trwałym 2,5 miliona rubli. należy przypisać do drugiej grupy.

Zilustrujmy budowę szeregu dystrybucyjnego na przykładzie warunkowym.

Przykład 2.1... Dostępne są następujące dane dotyczące doświadczenia produkcyjnego pracowników małego przedsiębiorstwa, lata.

9, 3, 7, 2, 5, 3, 11, 6, 5, 4, 7

Konieczne jest zbudowanie serii rozkładu pracowników według stażu pracy, przetwarzając 3 grupy w równych odstępach czasu.

Wartość przedziału dla grupowania pracowników według stażu pracy określa wzór

Wtedy odstępy będą wyglądać następująco:

2 - 5, 5 - 8, 8 - 11

Obliczmy liczności i przedstawmy wyniki w tabeli, którą uzupełniamy o liczności i liczności skumulowane

Tabela 2.1. Liczba rozmieszczenia pracowników według stażu pracy

Szeregi dystrybucji dla przejrzystości i wygody analizy można przedstawić graficznie. Główne typy wykresów szeregów dystrybucyjnych: wielokąt częstości (ryc. 1), histogram (ryc. 2), skumulowany (ryc. 3).

Aby zobrazować skonstruowany szereg przedziałowy pracowników zgodnie z doświadczeniem produkcyjnym w postaci wielokąta częstości, należy go przekształcić w dyskretna seria... Aby to zrobić, określ punkty środkowe (środki) przedziałów -

(3, 5; 6,5; 9,5). Z tych punktów środkowych przywróć prostopadłe równe częstotliwościom i połącz ich wierzchołki z segmentami.

Podczas konstruowania histogramu serii rozkładu pracowników według stażu pracy, przedziały serii są wykreślane na osi odciętej, której wysokość jest równa częstotliwościom wykreślonym wzdłuż osi rzędnych. Powyżej osi odciętej zbudowane są prostokąty, których powierzchnia odpowiada wartościom iloczynów przedziałów według ich częstotliwości.

Ryż. 2.

Podczas graficznego przedstawiania kumulacji skumulowane częstotliwości są wykreślane na polu wykresu w postaci prostopadłych do osi odciętych w górnych granicach przedziałów, czyli 5, 8, 11. Prostopadłe są następnie połączone segmentami, w wyniku z czego uzyskuje się linię przerywaną, która zaczyna się cały czas od zera i rośnie aż do osiągnięcia wysokości równej sumie częstotliwości.


Ryż. 3.

Analiza szeregów i wykresów pokazuje, że rozkład pracowników według stażu pracy nie jest jednorodny, im bardziej staż pracy pracowników odbiega od przeciętnego stażu pracy, tym rzadziej spotykamy takich pracowników.

Uogólnienie danych pierwotnych w postaci szeregu rozkładów pozwala zobaczyć zmienność i skład populacji dla badanego atrybutu, porównać grupy ze sobą, zbadać ich dynamikę i ustalić charakter rozkładu jednostek według określonego atrybutu .

Szeregi dystrybucji nie zapewniają jednak wyczerpującej charakterystyki wybranych grup. Aby rozwiązać szereg konkretnych problemów, zidentyfikować cechy w rozwoju zjawisk, wykryć trendy, ustalić zależności, konieczne jest pogrupowanie danych statystycznych.

W kolejnym pytaniu zastanowimy się, jak przebiega określone grupowanie.



błąd: Treść jest chroniona !!