Válassza az Oldal lehetőséget

Csoportosítsa az adatokat egy oszlopból egy diszkrét sorozatba. Diákok és iskolások – segítség a tanulásban

Elosztási sorozatok formájában jelennek meg, és formában jelennek meg.

Az elosztási sorozat a csoportosítások egyik fajtája.

Elosztási tartomány- a vizsgált sokaság egységeinek csoportokba rendezett eloszlását jelenti egy bizonyos változó jellemző szerint.

Az eloszlási sorozat kialakulásának hátterében álló jellemzőtől függően megkülönböztetjük őket attribúciós és variációs elosztási sorok:

  • Jelző- minőségi jellemzők szerint felépített eloszlási sorozatoknak nevezzük.
  • Egy mennyiségi jellemző értékeinek növekvő vagy csökkenő sorrendjében felépített eloszlási sorozatokat ún. variációs.
Az eloszlási variációs sorozat két oszlopból áll:

Az első oszlop a változó jellemző mennyiségi értékeit tartalmazza, amelyeket ún lehetőségekés ki vannak jelölve. Diszkrét opció – egész számként kifejezve. Az intervallum opció tól és -ig terjed. Az opciók típusától függően diszkrét vagy intervallumváltozat-sorozatot hozhat létre.
A második oszlop tartalmazza konkrét opciók száma, frekvenciákban vagy frekvenciákban kifejezve:

Frekvenciák- ezek abszolút számok, amelyek azt mutatják, hogy összesen hányszor fordul elő adott értéket jelek, amelyek jelölik. Az összes gyakoriság összegének meg kell egyeznie a teljes sokaság egységeinek számával.

Frekvenciák() a gyakoriságok az összérték százalékában kifejezve. Az összes gyakoriság százalékban kifejezett összegének egyenlőnek kell lennie 100%-kal az egy törtrészében.

Eloszlási sorozatok grafikus ábrázolása

A disztribúciós sorozatok vizuálisan, grafikus képek segítségével kerülnek bemutatásra.

A terjesztési sorozatok a következők:
  • Poligon
  • Hisztogramok
  • Halmozódik
  • Ogives

Poligon

Sokszög megalkotásakor a változó karakterisztika értékeit a vízszintes tengelyen (x-tengely), a frekvenciákat vagy a frekvenciákat a függőleges tengelyen (y-tengely) ábrázoljuk.

ábrán látható sokszög. A 6.1 Oroszország lakosságának 1994-es mikrocenzusának adatain alapul.

6.1. Háztartás méret szerinti megoszlása

Feltétel: Az egyik vállalkozás 25 fős díjszabási kategóriák szerinti megoszlására vonatkozó adatok:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Feladat: Konstruáljon egy diszkrét variációs sorozatot, és ábrázolja grafikusan eloszlási sokszögként.
Megoldás:
Ebben a példában az opciók a munkavállaló fizetési osztálya. A gyakoriság meghatározásához ki kell számítani az alkalmazottak számát a megfelelő tarifakategóriával.

A sokszög diszkrét variációs sorozatokhoz használatos.

Egy eloszlási sokszög megalkotásához (1. ábra) az abszcissza (X) tengelyen ábrázoljuk a változó jellemzők – opciók – mennyiségi értékeit, az ordináta tengelyen pedig a frekvenciákat vagy frekvenciákat.

Ha egy jellemző értékeit intervallumok formájában fejezzük ki, akkor egy ilyen sorozatot intervallumnak nevezünk.
Intervallum sorozat az eloszlásokat grafikusan ábrázolják hisztogram, kumulátum vagy ogive formájában.

Statisztikai táblázat

Feltétel: A betétek nagyságára vonatkozó adatok 20 magánszemélyek egy bankban (ezer rubel) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Feladat: Egyenlő intervallumú intervallumváltozat-sorozat készítése.
Megoldás:

  1. A kezdeti sokaság 20 egységből áll (N = 20).
  2. A Sturgess-képlet segítségével meghatározzuk a szükséges csoportok számát: n=1+3,322*lg20=5
  3. Számítsuk ki az egyenlő intervallum értékét: i=(152 - 2) /5 = 30 ezer rubel
  4. Osszuk fel a kezdeti populációt 5 csoportra, 30 ezer rubel intervallummal.
  5. A csoportosítás eredményeit a táblázatban mutatjuk be:

Egy folytonos karakterisztika ilyen rögzítésekor, amikor ugyanaz az érték kétszer fordul elő (egy intervallum felső határaként és egy másik intervallum alsó határaként), akkor ez az érték abba a csoportba tartozik, ahol ez az érték felső határként működik.

oszlopdiagram

A hisztogram elkészítéséhez az intervallumok határainak értékeit az abszcissza tengelyen jelzik, és ezek alapján téglalapokat készítenek, amelyek magassága arányos a frekvenciákkal (vagy frekvenciákkal).

ábrán. 6.2. hisztogramja mutatja az orosz lakosság 1997. évi korcsoportonkénti megoszlását.

Rizs. 6.2. Az orosz lakosság korcsoportok szerinti megoszlása

Feltétel: Meg van adva a cég 30 dolgozójának havi fizetés szerinti megoszlása

Feladat: Az intervallumvariáció-sorozat grafikus megjelenítése hisztogram formájában, és kumulálható.
Megoldás:

  1. A nyitott (első) intervallum ismeretlen határát a második intervallum értéke határozza meg: 7000 - 5000 = 2000 rubel. Ugyanezzel az értékkel találjuk meg az első intervallum alsó határát: 5000 - 2000 = 3000 rubel.
  2. A hisztogram téglalap alakú koordinátarendszerben történő felépítéséhez az abszcissza tengely mentén ábrázoljuk azokat a szegmenseket, amelyek értékei megfelelnek a varikózus sorozat intervallumainak.
    Ezek a szegmensek az alsó alapként szolgálnak, a megfelelő frekvencia (frekvencia) pedig a kialakított téglalapok magasságaként szolgál.
  3. Készítsünk hisztogramot:

A kumulátumok létrehozásához ki kell számítani a felhalmozott frekvenciákat (frekvenciákat). Meghatározásuk az előző intervallumok gyakoriságának (frekvenciáinak) szekvenciális összegzésével történik, és S-nek jelöljük. A halmozott gyakoriságok azt mutatják meg, hogy a sokaság hány egységének jellemző értéke nem nagyobb, mint a vizsgált.

Halmozódik

Egy variációs sorozatban szereplő karakterisztika halmozott frekvenciákon (frekvenciákon) való eloszlását kumulátum segítségével ábrázoljuk.

Halmozódik vagy egy kumulatív görbe, ellentétben a sokszöggel, felhalmozott frekvenciákból vagy frekvenciákból épül fel. Ebben az esetben a karakterisztika értékei az abszcissza tengelyre, a halmozott frekvenciák vagy frekvenciák pedig az ordináta tengelyre kerülnek (6.3. ábra).

Rizs. 6.3. A háztartásméret-eloszlás kumulátumai

4. Számítsuk ki a felhalmozott frekvenciákat:
Az első intervallum kumulatív gyakoriságát a következőképpen számítjuk ki: 0 + 4 = 4, a második esetében: 4 + 12 = 16; a harmadiknál: 4 + 12 + 8 = 24 stb.

A kumulátum összeállításakor a megfelelő intervallum felhalmozott frekvenciáját (frekvenciáját) a felső határához rendeljük:

Ogiva

Ogiva A kumulátumhoz hasonlóan épül fel azzal a különbséggel, hogy a felhalmozott frekvenciák az abszcissza tengelyre, a karakterisztikus értékek pedig az ordináta tengelyre kerülnek.

A kumulátum egy típusa a koncentrációs görbe vagy a Lorentz-görbe. Koncentrációs görbe felépítéséhez a szögletes koordináta-rendszer mindkét tengelyén egy skála jelenik meg százalékos arányban 0-tól 100-ig. Ugyanakkor az abszcissza tengelyen a felhalmozott frekvenciák és a részesedés halmozott értékei láthatók. (százalékban) az ordináta tengelyen vannak feltüntetve.

A karakterisztika egyenletes eloszlása ​​megfelel a grafikonon látható négyzet átlójának (6.4. ábra). Egyenetlen eloszlás esetén a grafikon egy homorú görbét ábrázol a tulajdonság koncentrációjának szintjétől függően.

6.4. Koncentrációs görbe

Csoportok száma (intervallumok) hozzávetőlegesen a Sturgess-képlet határozza meg:

m = 1 + 3,322 × log(n)

ahol n - teljes szám megfigyelési egységek (a sokaság elemeinek teljes száma stb.), lg(n) – n decimális logaritmusa.

Megkapta a Sturgess-képlet szerint az értéket általában a legközelebbi egész számra kerekítik számok, mivel a csoportok száma nem lehet törtszám.

Ha egy ilyen sok csoportot tartalmazó intervallumsor bizonyos kritériumok szerint nem kielégítő, akkor kerekítéssel létrehozhat egy másik intervallumsorozatot. m egy kisebb egész számra, és válassza ki a megfelelőt a két sorból.

A csoportok száma nem lehet több 15-nél.

A következő táblázatot is használhatja, ha egyáltalán nem lehetséges a decimális logaritmus kiszámítása.

    Az intervallum szélességének meghatározása

Intervallum szélessége intervallumhoz variációs sorozat egyenlő időközönként a következő képlet határozza meg:

ahol X max az x i értékeinek maximuma, X min az x i értékeinek minimuma; m - csoportok száma (intervallum).

Az intervallum mérete (én ) általában a legközelebbi egész számra kerekítve, kivételt képeznek azok az esetek, amikor egy jellemző legkisebb ingadozásait tanulmányozzák (például amikor az alkatrészeket a névleges értéktől való eltérések nagysága szerint csoportosítják, milliméter törtrészében mérve).

A következő szabályt gyakran használják:

Tizedesjegyek száma

Számos szimbólum a vessző után

Példa intervallumszélességre a képlet segítségével

Milyen jelre kerekedjünk?

Példa lekerekített térközszélességre

    Az intervallumok határainak meghatározása

Alsó határ első intervallum az attribútum minimális értékével egyenlőnek számít (leggyakrabban először egy kisebb egész számra kerekítik, amelynek számjegye megegyezik az intervallum szélességével). Például x min = 15, i=130, az első intervallum x n = 10.

x n1 ≈ x min

Felső határ az első intervallum az (Xmin +.) értéknek felel meg én).

A második intervallum alsó határa mindig egyenlő az első intervallum felső határával. A következő csoportok esetében a határokat hasonlóan határozzuk meg, azaz az intervallumértéket egymás után hozzáadjuk.

x V én = x n én +i

x n én = x V i-1

    Határozza meg az intervallumok gyakoriságát!

Megszámoljuk, hogy hány érték esik az egyes intervallumokba. Ugyanakkor ne felejtsük el, hogy ha egy egység jellemző értéke megegyezik az intervallum felső határának értékével, akkor azt a következő intervallumhoz kell hozzárendelni.

    Egy intervallum sorozatot készítünk táblázat formájában.

    Határozza meg az intervallumok felezőpontját!

Az intervallumsorozat további elemzéséhez minden intervallumhoz ki kell választani egy jellemző értéket. Ez az attribútumérték közös lesz az ebbe az intervallumba tartozó összes megfigyelési egységnél. Azok. az egyes elemek „elveszítik” egyedi attribútumértékeiket, és egyetlen közös attribútumértéket kapnak. Így általános jelentése van az intervallum közepe, amelyet jelölünk x" én .

A gyerekek növekedésének példáján nézzük meg, hogyan lehet egyenlő intervallumú intervallumsort felépíteni.

A kezdeti adatok rendelkezésre állnak.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

A nagy mennyiségű információ feldolgozása során, ami különösen fontos a modern tudományos fejlesztések során, a kutató komoly feladat előtt áll a forrásadatok helyes csoportosítása. Ha az adatok diszkrét jellegűek, akkor, mint láttuk, nem merül fel probléma - csak ki kell számítani az egyes jellemzők gyakoriságát. Ha a vizsgált jellemző rendelkezik folyamatos karakter (ami a gyakorlatban gyakoribb), akkor a jellemzőcsoportosítási intervallumok optimális számának megválasztása semmiképpen sem triviális feladat.

A folytonos valószínűségi változók csoportosításához a jellemző teljes variációs tartományát meghatározott számú intervallumra osztjuk Nak nek.

Csoportos intervallum (folyamatos) variációs sorozat Az attribútum (attribútum) értékével rangsorolt ​​intervallumoknak nevezzük, ahol az r"-edik intervallumba eső megfigyelések száma vagy a relatív gyakoriságok () a megfelelő gyakoriságokkal () együtt vannak feltüntetve:

Jellemző értékintervallumok

mi frekvencia

oszlopdiagramÉs kumulálódik (ogiva), Az általunk már részletesen tárgyalt adatok kiváló eszközei az adatvizualizációnak, lehetővé téve, hogy elsődleges képet kapjon az adatszerkezetről. Az ilyen grafikonokat (1.15. ábra) a folytonos adatokra ugyanúgy készítjük, mint a diszkrét adatokat, csak azt figyelembe véve, hogy a folytonos adatok teljes mértékben kitöltik a lehetséges értékeik tartományát, bármilyen értéket felvesznek.

Rizs. 1.15.

Ezért a hisztogram és a kumulátum oszlopainak érintkezniük kell egymással, és nem lehetnek olyan területek, ahol az attribútumértékek nem esnek az összes lehetséges érték közé(azaz a hisztogramon és a kumulátumokon nem lehetnek „lyukak” az abszcissza tengely mentén, amelyek nem tartalmazzák a vizsgált változó értékeit, mint az 1.16. ábra). A sáv magassága megfelel a gyakoriságnak – az adott intervallumba eső megfigyelések számának, vagy relatív gyakoriságnak – a megfigyelések arányának. Intervallumok nem metszhetik egymástés általában azonos szélességűek.

Rizs. 1.16.

A hisztogram és a sokszög a valószínűségi sűrűséggörbe (differenciálfüggvény) közelítései. f(x) a valószínűségszámítás során figyelembe vett elméleti eloszlás. Ezért konstrukciójuk olyan fontos a kvantitatív folytonos adatok elsődleges statisztikai feldolgozásában - megjelenésük alapján megítélhető a hipotetikus eloszlási törvény.

Kumulátum – egy intervallum-változat-sorozat halmozott frekvenciáinak (frekvenciáinak) görbéje. A kumulatív eloszlásfüggvény grafikonját összehasonlítjuk a kumulátummal F(x), szintén a valószínűségszámítási tanfolyamon tárgyaljuk.

Alapvetően a hisztogram és a kumuláció fogalma kifejezetten a folytonos adatokhoz és azok intervallumvariáció-soraihoz kapcsolódik, mivel grafikonjaik a valószínűségi sűrűségfüggvény, illetve az eloszlásfüggvény empirikus becslései.

Az intervallumvariációs sorozat felépítése az intervallumok számának meghatározásával kezdődik k. Ez a feladat pedig talán a legnehezebb, legfontosabb és legvitatottabb a vizsgált kérdésben.

Az intervallumok száma ne legyen túl kicsi, mert így túl sima lesz a hisztogram ( túlsimítva), elveszíti az eredeti adatok változékonyságának minden jellemzőjét - az ábrán. 1.17 láthatja, hogy ugyanazok az adatok, amelyeken a grafikonok az ábrán. 1.15, kisebb számú intervallumú hisztogram készítésére szolgál (bal oldali grafikon).

Ugyanakkor az intervallumok száma ne legyen túl nagy - különben nem tudjuk megbecsülni a vizsgált adatok numerikus tengely menti eloszlási sűrűségét: a hisztogram alulsimodik (alulsimított),üres intervallumokkal, egyenetlen (lásd 1.17. ábra, jobb oldali grafikon).

Rizs. 1.17.

Hogyan határozzuk meg az intervallumok legelőnyösebb számát?

1926-ban Herbert Sturges egy képletet javasolt azoknak az intervallumoknak a kiszámítására, amelyekre fel kell osztani a vizsgált jellemző eredeti értékkészletét. Ez a képlet valóban rendkívül népszerűvé vált – a legtöbb statisztikai tankönyv kínálja, és sok statisztikai csomag alapértelmezés szerint használja. Az, hogy ez mennyire indokolt, és minden esetben nagyon komoly kérdés.

Szóval, mire épül a Sturges-képlet?

Mérlegeljük binomiális eloszlás }



hiba: A tartalom védett!!