Grupați datele dintr-o coloană într-o serie discretă. Elevi și școlari - asistență la studii

Ele sunt prezentate sub formă de serii de distribuție și sunt prezentate sub formă.

O serie de distribuție este unul dintre tipurile de grupări.

Domeniul de distribuție- reprezintă o distribuție ordonată a unităților populației studiate în grupuri în funcție de o anumită caracteristică variabilă.

În funcție de caracteristica care stă la baza formării seriei de distribuție, acestea se disting atributiv și variațional rânduri de distribuție:

  • Atributiv- se numesc serii de distributie construite dupa caracteristici calitative.
  • Se numesc serii de distribuție construite în ordine crescătoare sau descrescătoare a valorilor unei caracteristici cantitative variațională.
Seria de variații a distribuției constă din două coloane:

Prima coloană oferă valori cantitative ale caracteristicii diferite, care sunt numite opțiuniși sunt desemnate . Opțiune discretă - exprimată ca număr întreg. Opțiunea interval variază de la și până la. În funcție de tipul de opțiuni, puteți construi o serie de variații discrete sau pe intervale.
A doua coloană conține numărul de opțiuni specifice, exprimat în termeni de frecvențe sau frecvențe:

Frecvențele- acestea sunt numere absolute care arată de câte ori apare în total valoare dată semne care denotă . Suma tuturor frecvențelor trebuie să fie egală cu numărul de unități din întreaga populație.

Frecvențele() sunt frecvențe exprimate ca procent din total. Suma tuturor frecvențelor exprimată în procente trebuie să fie egală cu 100% în fracțiuni de unu.

Reprezentarea grafică a seriilor de distribuție

Serii de distribuție sunt prezentate vizual folosind imagini grafice.

Seriile de distribuție sunt prezentate astfel:
  • Poligon
  • Histograme
  • Se cumulează
  • Ogive

Poligon

Când se construiește un poligon, valorile caracteristicii variabile sunt reprezentate pe axa orizontală (axa x), iar frecvențele sau frecvențele sunt reprezentate pe axa verticală (axa y).

Poligonul din fig. 6.1 se bazează pe datele de la micro-recensământul populației Rusiei din 1994.

6.1. Distribuția dimensiunii gospodăriei

Stare: Sunt furnizate date privind repartizarea a 25 de salariați ai uneia dintre întreprinderi pe categorii tarifare:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Sarcină: Construiți o serie de variații discrete și descrieți-o grafic ca un poligon de distribuție.
Soluţie:
În acest exemplu, opțiunile sunt gradul de salariu al angajatului. Pentru a determina frecvențele, este necesar să se calculeze numărul de angajați cu categoria tarifară corespunzătoare.

Poligonul este utilizat pentru serii de variații discrete.

Pentru a construi un poligon de distribuție (Fig. 1), graficăm valorile cantitative ale caracteristicii variabile - opțiuni - pe axa absciselor (X) și frecvențele sau frecvențele pe axa ordonatelor.

Dacă valorile unei caracteristici sunt exprimate sub formă de intervale, atunci o astfel de serie se numește interval.
Serii de intervale distribuțiile sunt reprezentate grafic sub forma unei histograme, cumulate sau ogive.

Tabel statistic

Stare: Datele despre mărimea depozitelor sunt date 20 indiviziiîntr-o bancă (mii de ruble) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Sarcină: Construiți o serie de variații de interval cu intervale egale.
Soluţie:

  1. Populația inițială este formată din 20 de unități (N = 20).
  2. Folosind formula Sturgess, determinăm numărul necesar de grupuri utilizate: n=1+3.322*lg20=5
  3. Să calculăm valoarea intervalului egal: i=(152 - 2) /5 = 30 mii de ruble
  4. Să împărțim populația inițială în 5 grupuri cu un interval de 30 de mii de ruble.
  5. Prezentăm rezultatele grupării în tabel:

Cu o astfel de înregistrare a unei caracteristici continue, atunci când aceeași valoare apare de două ori (ca limită superioară a unui interval și limita inferioară a altui interval), atunci această valoare aparține grupului în care această valoare acționează ca limită superioară.

Histogramă

Pentru a construi o histogramă, valorile limitelor intervalelor sunt indicate de-a lungul axei absciselor și, pe baza acestora, se construiesc dreptunghiuri, a căror înălțime este proporțională cu frecvențele (sau frecvențele).

În fig. 6.2. prezintă o histogramă a distribuției populației ruse în 1997 pe grupe de vârstă.

Orez. 6.2. Distribuția populației ruse pe grupe de vârstă

Stare: Se da repartizarea a 30 de angajati ai firmei pe salariu lunar

Sarcină: Afișează grafic seria de variații de interval sub forma unei histograme și cumulează.
Soluţie:

  1. Limita necunoscută a intervalului deschis (primul) este determinată de valoarea celui de-al doilea interval: 7000 - 5000 = 2000 ruble. Cu aceeași valoare găsim limita inferioară a primului interval: 5000 - 2000 = 3000 ruble.
  2. Pentru a construi o histogramă într-un sistem de coordonate dreptunghiular, trasăm de-a lungul axei absciselor segmentele ale căror valori corespund intervalelor seriei varicoase.
    Aceste segmente servesc ca bază inferioară, iar frecvența corespunzătoare (frecvența) servește ca înălțime a dreptunghiurilor formate.
  3. Să construim o histogramă:

Pentru a construi cumulate, este necesar să se calculeze frecvențele (frecvențele) acumulate. Ele sunt determinate prin însumarea secvenţială a frecvenţelor (frecvenţelor) intervalelor anterioare şi sunt desemnate S. Frecvenţele acumulate arată câte unităţi ale populaţiei au o valoare caracteristică nu mai mare decât cea luată în considerare.

Se cumulează

Distribuția unei caracteristici într-o serie de variații pe frecvențele (frecvențele) acumulate este reprezentată folosind un cumulat.

Se cumulează sau o curbă cumulată, spre deosebire de un poligon, este construită din frecvențe sau frecvențe acumulate. În acest caz, valorile caracteristicii sunt plasate pe axa absciselor, iar frecvențele sau frecvențele acumulate sunt plasate pe axa ordonatelor (Fig. 6.3).

Orez. 6.3. Cumulate ale distribuției mărimii gospodăriilor

4. Să calculăm frecvențele acumulate:
Frecvența cumulativă a primului interval se calculează astfel: 0 + 4 = 4, pentru al doilea: 4 + 12 = 16; pentru al treilea: 4 + 12 + 8 = 24 etc.

La construirea unui cumulat, frecvența (frecvența) acumulată a intervalului corespunzător este atribuită limitei sale superioare:

Ogiva

Ogiva este construit similar cu cumulul, singura diferență fiind că frecvențele acumulate sunt plasate pe axa absciselor, iar valorile caracteristice sunt plasate pe axa ordonatelor.

Un tip de cumulat este o curbă de concentrație sau un diagramă Lorentz. Pentru a construi o curbă de concentrație, pe ambele axe ale sistemului de coordonate dreptunghiulare este reprezentată o scară de scară în procente de la 0 la 100. În același timp, frecvențele acumulate sunt indicate pe axa absciselor, iar valorile acumulate ale cotei. (în procente) în volum al caracteristicii sunt indicate pe axa ordonatelor.

Distribuția uniformă a caracteristicii corespunde diagonalei pătratului de pe grafic (Fig. 6.4). Cu o distribuție neuniformă, graficul reprezintă o curbă concavă în funcție de nivelul de concentrare al trăsăturii.

6.4. Curba de concentrare

Număr de grupuri (intervale) este determinată aproximativ de formula Sturgess:

m = 1 + 3,322 × log(n)

unde n - numărul total unități de observație (numărul total de elemente din populație etc.), lg(n) – logaritmul zecimal al lui n.

Primit conform formulei Sturgess, valoarea este de obicei rotunjită la cel mai apropiat număr întreg numere, deoarece numărul de grupuri nu poate fi un număr fracționar.

Dacă o serie de intervale cu atât de multe grupuri nu este satisfăcătoare pentru anumite criterii, atunci puteți construi o altă serie de intervale prin rotunjire m la un întreg mai mic și alegeți-l pe cel mai potrivit din cele două rânduri.

Numărul de grupuri nu trebuie să fie mai mare de 15.

De asemenea, puteți utiliza următorul tabel dacă nu este deloc posibil să calculați logaritmul zecimal.

    Determinarea lățimii intervalului

Lățimea intervalului pentru interval serie de variații la intervale egale este determinată de formula:

unde X max este maximul valorilor lui x i, X min este minimul valorilor lui x i; m - numărul de grupuri (intervale).

Dimensiunea intervalului (i ) este de obicei rotunjită la cel mai apropiat număr întreg, Singurele excepții sunt cazurile în care sunt studiate cele mai mici fluctuații ale unei caracteristici (de exemplu, la gruparea pieselor în funcție de dimensiunea abaterilor de la valoarea nominală, măsurată în fracțiuni de milimetru).

Următoarea regulă este adesea folosită:

Numărul de zecimale

Numărul de zecimale

Exemplu de lățime a intervalului folosind formula

La ce semn ne rotunjim?

Exemplu de lățime de spațiere rotunjită

    Determinarea limitelor intervalelor

Limită inferioară primul interval este luată egală cu valoarea minimă a atributului (cel mai adesea este mai întâi rotunjit la un număr întreg mai mic cu aceeași cifră ca lățimea intervalului). De exemplu, x min = 15, i=130, x n din primul interval = 10.

x n1 ≈ x min

Limita superioara primul interval corespunde valorii (Xmin + i).

Limita inferioară a celui de-al doilea interval este întotdeauna egală cu limita superioară a primului interval. Pentru grupurile ulterioare, limitele sunt determinate în mod similar, adică valoarea intervalului este adăugată succesiv.

x V i = x n i +i

x n i = x V i-1

    Determinați frecvențele intervalelor.

Numărăm câte valori cad în fiecare interval. În același timp, ne amintim că, dacă o unitate are o valoare caracteristică egală cu valoarea limitei superioare a intervalului, atunci ar trebui să fie atribuită următorului interval.

    Construim o serie de intervale sub forma unui tabel.

    Determinați punctele de mijloc ale intervalelor.

Pentru o analiză ulterioară a seriei de intervale, va trebui să selectați o valoare caracteristică pentru fiecare interval. Această valoare a atributului va fi comună tuturor unităților de observare care se încadrează în acest interval. Aceste. elementele individuale „își pierd” valorile atributelor individuale și li se atribuie o valoare de atribut comună. Aşa sens general este mijlocul intervalului, care este notat x" i .

Folosind exemplul creșterii copiilor, să vedem cum să construim o serie de intervale cu intervale egale.

Datele inițiale disponibile.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

Atunci când procesează cantități mari de informații, ceea ce este deosebit de important în realizarea dezvoltărilor științifice moderne, cercetătorul se confruntă cu sarcina serioasă de a grupa corect datele sursă. Dacă datele sunt de natură discretă, atunci, după cum am văzut, nu apar probleme - trebuie doar să calculați frecvența fiecărei caracteristici. Dacă caracteristica studiată are continuu caracter (ceea ce este mai comun în practică), atunci alegerea numărului optim de intervale de grupare a caracteristicilor nu este deloc o sarcină banală.

Pentru a grupa variabile aleatoare continue, întregul interval variațional al caracteristicii este împărțit într-un anumit număr de intervale La.

Interval grupat (continuu) serie de variații se numesc intervale ordonate după valoarea atributului (), unde numărul de observații care se încadrează în intervalul i, sau frecvențele relative (), sunt indicate împreună cu frecvențele corespunzătoare ():

Intervalele valorice caracteristice

frecvența mea

HistogramăŞi cumulate (ogiva), deja discutate în detaliu de noi, sunt un mijloc excelent de vizualizare a datelor, permițându-vă să vă faceți o idee principală despre structura datelor. Astfel de grafice (Fig. 1.15) sunt construite pentru date continue în același mod ca și pentru datele discrete, ținând cont doar de faptul că datele continue umple complet regiunea valorilor lor posibile, luând orice valoare.

Orez. 1.15.

De aceea coloanele de pe histogramă și cumulat trebuie să se atingă și să nu aibă zone în care valorile atributelor să nu se încadreze în toate posibilele(adică, histograma și cumulatele nu ar trebui să aibă „găuri” de-a lungul axei absciselor, care nu conțin valorile variabilei studiate, ca în Fig. 1.16). Înălțimea barei corespunde frecvenței – numărul de observații care se încadrează într-un interval dat, sau frecvența relativă – proporția de observații. Intervale nu trebuie să se intersectezeși au de obicei aceeași lățime.

Orez. 1.16.

Histograma și poligonul sunt aproximări ale curbei densității probabilității (funcția diferențială) f(x) distribuția teoretică, luată în considerare în cursul teoriei probabilităților. Prin urmare, construcția lor este atât de importantă în prelucrarea statistică primară a datelor cantitative continue - după apariția lor se poate judeca legea distribuției ipotetice.

Cumulat – o curbă de frecvențe (frecvențe) acumulate dintr-o serie de variații de interval. Graficul funcției de distribuție cumulativă este comparat cu cumulul F(x), discutat și în cursul de teoria probabilității.

Practic, conceptele de histogramă și cumulat sunt asociate în mod specific cu datele continue și cu seriile lor de variație de interval, deoarece graficele lor sunt estimări empirice ale funcției de densitate a probabilității și, respectiv, funcției de distribuție.

Construcția unei serii de variații de interval începe cu determinarea numărului de intervale k.Și această sarcină este poate cea mai dificilă, importantă și controversată din problema studiată.

Numărul de intervale nu trebuie să fie prea mic, deoarece acest lucru va face histograma prea netedă ( exagerat), pierde toate caracteristicile de variabilitate ale datelor originale - în Fig. 1.17 puteți vedea cum aceleași date pe care graficele din Fig. 1.15, folosit pentru a construi o histogramă cu un număr mai mic de intervale (graficul din stânga).

În același timp, numărul de intervale nu trebuie să fie prea mare - altfel nu vom putea estima densitatea de distribuție a datelor studiate de-a lungul axei numerice: histograma va fi sub-netezită (subnetezit), cu intervale goale, neuniforme (vezi Fig. 1.17, graficul din dreapta).

Orez. 1.17.

Cum se determină cel mai preferat număr de intervale?

În 1926, Herbert Sturges a propus o formulă pentru calcularea numărului de intervale în care este necesar să se împartă setul original de valori ale caracteristicii studiate. Această formulă a devenit cu adevărat extrem de populară - majoritatea manualelor de statistică o oferă și multe pachete de statistică o folosesc implicit. Cât de justificat este acest lucru și, în toate cazurile, este o întrebare foarte serioasă.

Deci, pe ce se bazează formula Sturges?

Să luăm în considerare distribuție binomială }



eroare: Continut protejat!!