Estimare mediană. Caracteristicile structurale ale seriei de distribuție a variațiilor

Să presupunem că doriți să determinați media într-o distribuție a scorurilor studenților sau într-un eșantion de date de asigurare a calității. Pentru a face acest lucru, va trebui să calculați mediana unui set de numere folosind funcția MEDIAN.

Această funcție este o modalitate de a măsura tendința centrală, adică locația centrului unui set de numere în distributie statistica. Există trei modalități cele mai comune de a determina tendința centrală.

    Valoarea medie- aceasta este o valoare care este o medie aritmetică, adică se calculează adunând un set de numere și apoi împărțind suma rezultată la numărul acestora. De exemplu, media numerelor 2, 3, 3, 5, 7 și 10 este 5 (rezultatul împărțirii sumei acestor numere, care este 30, la numărul lor, care este 6).

    Median- un număr care este mijlocul unui set de numere: jumătate dintre numere au valori mai mari decât mediana, iar jumătate dintre numere au valori mai mici. De exemplu, mediana numerelor 2, 3, 3, 5, 7 și 10 ar fi 4.

    Modă- numărul cel mai des întâlnit într-un anumit set de numere. De exemplu, modul pentru numerele 2, 3, 3, 5, 7 și 10 ar fi 3.

Cu o distribuție simetrică a unui set de numere, toate cele trei valori ale tendinței centrale vor coincide. Când distribuția multor numere este părtinitoare, valorile pot fi diferite.

Capturile de ecran din acest articol au fost făcute în Excel 2016. Dacă utilizați o versiune diferită, interfața poate fi ușor diferită, dar caracteristicile vor fi aceleași.

Exemplu

Pentru a face acest exemplu mai ușor de înțeles, copiați-l pe o coală goală de hârtie.

Sfat: Pentru a comuta între vizualizarea rezultatelor și vizualizarea formulelor care returnează acele rezultate, apăsați CTRL+` (apostrof) sau pe fila Formuleîn grup Dependențe de formule faceți clic pe butonul Afișați formule.

LECȚIA PRACTICĂ Nr. 4 .

Calculul caracteristicilor structurale serie de variații distribuţiile.

Studentul trebuie:

stiu:

- domeniul de aplicare și metodologia de calcul al mediilor structurale;

a putea:

- calcula mediile structurale;

- formulați o concluzie pe baza rezultatelor obținute.

Orientări

În statistici, se calculează modul și mediana, care se referă la medii structurale, deci care valoare depinde de cladiri populaţia statistică.

Calcul modei

Modă valoarea atributului (variantei) se numește, mai des cele mai frecventeîn populaţia studiată. Într-o serie de distribuție discretă, modul va fi varianta cu cea mai mare frecvență.

De exemplu: Distribuția încălțămintei de damă vândute după mărime se caracterizează după cum urmează:

Mărimea pantofilor

Numărul de perechi vândute

În acest rând de distribuție, mărimea 37 este la modă, adică. Mărimea Mo=37.

Pentru serie de intervale Distribuția modului este determinată de formula:

Unde X lu - limita inferioară a intervalului modal;

hMo - valoarea intervalului modal;

f Mo – frecvența intervalului modal;

f Mo -1Şi f Mo +1 – frecvența intervalului, respectiv

precedând şi urmând modalul.

De exemplu: Distribuția lucrătorilor după vechimea în muncă este caracterizată de următoarele date.

Experienta in munca, ani

pana la 2

8-10

10 sau mai mult

Număr de muncitori, oameni

Determinați modul seriei de distribuție a intervalelor.

Modul seriei de intervale este

Moda este întotdeauna oarecum incertă, pentru că... depinde de mărimea grupurilor și de poziția exactă a limitelor grupului. Moda este utilizată pe scară largă în practica comercială la studierea cererii consumatorilor, la înregistrarea prețurilor etc.

Calculul medianei

Median în statistică se numește o variantă, situată în mijlocul unei serii ordonate de date, și care împarte populația statistică în două părți egale astfel încât o jumătate să aibă o valoare mai mică decât mediana, iar cealaltă jumătate să aibă o valoare mai mare decât ea. Pentru a determina mediana, este necesar să construiți o serie clasificată, adică serie în ordine crescătoare sau descrescătoare a valorilor individuale ale unei caracteristici.

Într-o serie ordonată discretă cu un număr impar de termeni, mediana va fi opțiunea situată în centrul seriei.

De exemplu: Experiența celor cinci muncitori a fost de 2, 4, 7, 9 și 10 ani. Într-o astfel de serie mediana este de 7 ani, adică. Eu=7 ani

Dacă o serie ordonată discretă constă dintr-un număr par de termeni, atunci mediana va fi media aritmetică a două opțiuni adiacente situate în centrul seriei.

De exemplu: Experiența de muncă a șase lucrători a fost de 1, 3, 4, 5, 10 și 11 ani. În acest rând există două opțiuni, stând în centrul rândului. Acestea sunt opțiunile 4 și 5. Media aritmetică a acestor valori va fi mediana seriei

Pentru a determina mediana pentru datele grupate, este necesar să se numără frecvențele acumulate.

De exemplu:Pe baza datelor disponibile, vom determina mărimea medie a pantofului

Mărimea pantofilor

Numărul de perechi vândute

Suma frecvențelor acumulate

8+19=27

27+34=61

61+108=169

Total

Pentru a determina mediana, trebuie să calculați suma frecvențelor acumulate ale seriei. Acumularea totalului continuă până când suma acumulată de frecvențe depășește jumătate din suma frecvențelor seriei. În exemplul nostru, suma frecvențelor a fost 300, jumătate din aceasta a fost 150. Suma acumulată a frecvențelor s-a dovedit a fi egală cu 169. Opțiunea corespunzătoare acestei sume, adică. 37 este mediana seriei.

Dacă suma frecvențelor acumulate față de una dintre opțiuni este egală cu exact jumătate din suma frecvențelor seriei, atunci mediana este definită ca media aritmetică a acestei opțiuni și a următoarei.

De exemplu: Pe baza datelor disponibile, determinăm mediana salariile muncitori

Salariu lunar, mii de ruble.

Număr de muncitori, oameni

Suma frecvențelor acumulate

14,0

14,2

2+6=8

16,0

8+12=20

16,8

18,0

Total:

Mediana va fi egală cu:

Mediana seriei de variație a intervalului a distribuției este determinată de formula:

Unde X Eu – limita inferioară a intervalului median;

h Eu – valoarea intervalului median;

f- suma frecvențelor seriei;

f Meh – frecvența intervalului median;

De exemplu:Pe baza datelor disponibile privind distribuția întreprinderilor în funcție de numărul de personal industrial și de producție, calculați mediana în seria de variații de interval

Numărul de întreprinderi

Suma frecvențelor acumulate

100-200

200-300

1+3=4

300-400

4+7=11

400-500

11+30=41

500-600

600-700

700-800

Total:

Să determinăm mai întâi intervalul median. În acest exemplu, suma frecvențelor acumulate care depășește jumătate din suma tuturor valorilor din serie corespunde intervalului 400-500 Acesta este intervalul median, adică. intervalul în care se află mediana seriei. Să-i determinăm valoarea

Dacă suma frecvențelor acumulate față de unul dintre intervale este egală cu exact jumătate din suma frecvențelor seriei, atunci mediana este determinată de formula:

Unde n– numărul de unități în agregat.

De exemplu:Pe baza datelor disponibile privind distribuția întreprinderilor în funcție de numărul de personal industrial și de producție, calculați mediana în seria de variații de interval

Grupuri de întreprinderi după numărul de angajați, oameni.

Numărul de întreprinderi

Suma frecvențelor acumulate

100-200

200-300

1+3=4

300-400

4+6=10

400-500

10+30=40

500-600

40+20=60

600-700

700-800

Total:

oameni

Modul și mediana într-o serie de intervale pot fi determina grafic:

moda in serie discretă- după poligonul de distribuţie, modul în serie de intervale - după histograma de distribuţie, iar mediana - după cumul.

Modul de distribuție a intervalelor serii determinată de histograma de distribuţie determinată după cum urmează. Pentru a face acest lucru, selectați cel mai înalt dreptunghi, care în acest caz este modal. Apoi conectăm vârful drept al dreptunghiului modal la colțul din dreapta sus al dreptunghiului anterior. Și vârful din stânga dreptunghiului modal - cu colțul din stânga sus al dreptunghiului următor. Apoi, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Abscisa punctului de intersecție al acestor linii va fi modul de distribuție.

Mediana se calculează din cumulat. Pentru determinarea acestuia, dintr-un punct de pe scara frecvențelor (frecvențe) acumulate corespunzător la 50%, se trasează o dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. Apoi, din punctul de intersecție a dreptei indicate cu cumulul, se coboară o perpendiculară pe axa absciselor. Abscisa punctului de intersecție este mediana.

Pe lângă mod și mediană, în seria de variante pot fi determinate și alte caracteristici structurale - cuantile. Quantilele sunt destinate unui studiu mai profund al structurii seriei de distribuție.

Quantile– aceasta este valoarea unei caracteristici care ocupă un anumit loc într-o populație ordonată după această caracteristică. Se disting următoarele tipuri de cuantile:

- quartiles – valori caracteristice care împart populația ordonată în patru părți egale;

- decile – valori caracteristice care împart setul ordonat în zece părți egale;

- procentele - valorile unei caracteristici care împart o mulțime ordonată în o sută de părți egale.

Astfel, pentru a caracteriza poziția centrului seriei de distribuție, pot fi utilizați 3 indicatori: valoare medie caracteristică, mod, mediană. Atunci când alegeți tipul și forma unui indicator specific al centrului de distribuție, trebuie să procedați de la următoarele recomandări:

- pentru procesele socio-economice stabile, media aritmetică este folosită ca indicator al centrului. Astfel de procese sunt caracterizate prin distribuții simetrice în care;

- pentru procesele instabile se caracterizează poziția centrului de distribuție folosind lu sau eu. Pentru procesele asimetrice, caracteristica preferată a centrului de distribuție este mediana, deoarece ocupă o poziție între media aritmetică și mod.

În 1906, marele om de știință și celebrul eugenic Francis Galton a vizitat expoziția anuală de realizări în creșterea animalelor și a păsărilor din vestul Angliei, unde, din întâmplare, a efectuat un experiment interesant.

După cum notează James Surowiecki, autorul cărții The Wisdom of Crowds, la târg, Galton a fost interesat de o competiție în care oamenii trebuiau să ghicească greutatea unui bou sacrificat. Cel care a numit numărul cel mai apropiat de cel adevărat a fost declarat câștigător.

Galton era cunoscut pentru disprețul său față de capacitatea intelectuală oameni obișnuiți. El credea că numai experții adevărați ar fi capabili să facă declarații exacte despre greutatea unui bou. Și 787 de participanți la competiție nu erau experți.

Omul de știință urma să demonstreze incompetența mulțimii calculând media răspunsurilor participanților. Imaginează-ți surpriza când s-a dovedit că rezultatul pe care l-a obținut corespundea aproape exact cu greutatea reală a taurului!

Medie - Invenție târzie

Desigur, acuratețea răspunsului l-a uimit pe cercetător. Dar și mai remarcabil este faptul că Galton s-a gândit chiar să folosească valoarea medie.

ÎN lumea de azi mediile și așa-numiții indicatori mediani se găsesc la fiecare pas: temperatura medieîn New York în aprilie sunt 52 de grade Fahrenheit; Stephen Curry are o medie de 30 de puncte pe joc; Venitul mediu al familiei în SUA este de 51.939 USD/an.

Cu toate acestea, ideea că multe rezultate diferite pot fi reprezentate printr-un singur număr este destul de nouă. Până în secolul al XVII-lea, mediile nu au fost folosite deloc.

Cum a apărut și s-a dezvoltat conceptul de medii și mediane? Și cum a reușit să devină principala tehnică de măsurare în timpul nostru?

Dominanța mediilor asupra mediilor a avut consecințe de amploare asupra înțelegerii noastre a informațiilor. Și de multe ori i-a dus pe oameni în rătăcire.

Valorile medii și mediane

Imaginează-ți că spui o poveste despre patru persoane care au luat cina cu tine la un restaurant aseară. I-ai da unuia dintre ei 20 de ani, altul 30, al treilea 40 și al patrulea 50. Ce ai spune despre vârsta lor în povestea ta?

Cel mai probabil le-ai numi vârstă mijlocie.

O medie este adesea folosită pentru a transmite informații despre ceva, precum și pentru a descrie un set de măsurători. Din punct de vedere tehnic, media este ceea ce matematicienii numesc „media aritmetică” - suma tuturor măsurătorilor împărțită la numărul de măsurători.

Deși cuvântul medie este adesea folosit ca sinonim pentru mediană, acesta din urmă se referă mai des la mijlocul a ceva. Acest cuvânt provine din latinescul „medianus”, care înseamnă „mijloc”.

Valoarea mediană în Grecia antică

Istoria valorii medii începe cu învățăturile matematicianului grec antic Pitagora. Pentru Pitagora și școala sa, mediana avea o definiție clară și era foarte diferită de modul în care înțelegem media astăzi. A fost folosit doar în matematică, nu în analiza datelor.

La școala pitagoreică valoarea mediană a fost numărul mijlociu într-o succesiune de numere de trei termeni, fiind într-o relație de „egalitate” cu membrii vecini. O relație „egale” ar putea însemna distanță egală. De exemplu, numărul 4 din seria 2,4,6. Cu toate acestea, ar putea exprima și o progresie geometrică, cum ar fi 10 în secvența 1,10,100.

Statisticianul Churchill Eisenhart explică că în Grecia antică, valoarea mediană nu era folosită pentru a reprezenta sau înlocui niciun set de numere. Pur și simplu a indicat mijlocul și a fost adesea folosit în dovezile matematice.

Eisenhart a petrecut zece ani studiind media și mediana. Inițial, el a încercat să găsească funcția reprezentativă a medianei în construcțiile științifice timpurii. Ceea ce a descoperit în schimb a fost că majoritatea fizicienilor și astronomilor timpurii se bazau pe măsurători unice, realizate cu pricepere și nu aveau o metodologie care să-i ajute să aleagă cel mai bun rezultat printre multe observații.

Cercetătorii moderni își bazează concluziile pe colectarea unor cantități mari de date, cum ar fi biologii care studiază genomul uman. Oamenii de știință antici puteau să facă mai multe măsurători, dar au ales doar cele mai bune pentru a-și construi teoriile.

După cum a scris istoricul astronomiei Otto Neugebauer, „Acest lucru este în concordanță cu dorința conștientă a oamenilor antici de a minimiza cantitatea de date empirice din știință, deoarece ei nu credeau în acuratețea observațiilor directe”.

De exemplu, matematicianul și astronomul grec Ptolemeu a calculat diametrul unghiular al Lunii folosind metode de observație și teoria mișcării Pământului. Rezultatul lui a fost 31'20. Astăzi știm că diametrul Lunii variază de la 29’20 la 34’6, în funcție de distanța sa de Pământ. Ptolemeu a folosit puține date în calculele sale, dar avea toate motivele să creadă că acestea erau exacte.

Eisenhart scrie: „Trebuie să ținem cont de faptul că relația dintre observație și teorie era diferită în antichitate decât este astăzi. Rezultatele observațiilor au fost înțelese nu ca fapte la care teoria trebuie adaptată, ci ca cazuri specifice care pot fi utile doar ca exemple ilustrative ale adevărului teoriei.”

Oamenii de știință se vor îndrepta în cele din urmă către măsurile reprezentative ale datelor, dar inițial nu au fost folosite nici mijloacele, nici medianele în acest rol. Din antichitate până în zilele noastre, un alt concept matematic a fost folosit ca mijloc reprezentativ: jumătatea sumei valorilor extreme.

Jumătate de suma valorilor extreme

Noile instrumente științifice apar aproape întotdeauna din necesitatea de a rezolva o problemă specifică într-o anumită disciplină. Necesitatea de a găsi cea mai bună valoare dintre măsurătorile multiple a apărut din necesitatea de a determina cu exactitate locația geografică.

Gigantul intelectual al secolului al XI-lea Al-Biruni este cunoscut ca unul dintre primii oameni care au folosit metodologia semnificațiilor reprezentative. Al-Biruni a scris că, atunci când a avut multe măsurători la dispoziție și a vrut să găsească cele mai bune dintre ele, a folosit următoarea „regulă”: trebuie să găsiți numărul corespunzător mijlocului dintre două valori extreme. La calcularea semisumei valorilor extreme, toate numerele dintre valorile maxime și minime nu sunt luate în considerare, dar se găsește doar media acestor două numere.

Al-Biruni a folosit această metodă în diferite domenii, inclusiv în calcularea longitudinei orașului Ghazni, care se află în Afganistanul modern, precum și în studiile sale asupra proprietăților metalelor.

Cu toate acestea, în ultimele secole, jumătatea sumei valorilor extreme a fost folosită din ce în ce mai puțin. De fapt, în stiinta moderna nu este deloc relevant. Jumătatea sumei a fost înlocuită cu valoarea mediană.

Trecerea la medii

Până la începutul secolului al XIX-lea, utilizarea valorii medii/medie a devenit o metodă comună de a găsi cea mai precisă valoare reprezentativă dintr-un grup de date. Friedrich von Gauss, un matematician remarcabil al timpului său, scria în 1809: „Se credea că, dacă un anumit număr a fost determinat de mai multe observații directe făcute în aceleași condiții, atunci media aritmetică este cea mai adevărată valoare. Dacă nu este în întregime strict, atunci cel puțin este aproape de realitate și, prin urmare, te poți baza întotdeauna pe ea.”

De ce a avut loc această schimbare a metodologiei?

La această întrebare este destul de greu de răspuns. În studiul său, Churchill Eisenhart sugerează că metoda de găsire a mediei aritmetice s-ar putea să fi avut originea în domeniul măsurării deviației magnetice, adică în găsirea diferenței dintre direcția acului busolei îndreptată spre nord și nordul real. Această dimensiune a fost extrem de importantă în timpul Epocii Marii Descoperiri Geografice.

Eisenhart a descoperit că până la sfârșitul secolului al XVI-lea, majoritatea oamenilor de știință care măsurau deviația magnetică foloseau metoda ad-hoc (în latină pentru „asta, pentru această ocazie, în acest scop”) în alegerea celei mai precise măsurători.

Dar în 1580, omul de știință William Borough a abordat problema diferit. El a luat opt ​​măsurători diferite ale deflexiunii și, după ce le-a comparat, a concluzionat că cea mai precisă valoare era între 11 ⅓ și 11 ¼ de grade. Probabil a calculat o medie aritmetică care se afla în acest interval. Cu toate acestea, Boro însuși nu a numit în mod deschis abordarea sa o nouă metodă.

Înainte de 1635, nu existau cazuri clare de utilizare a mediei ca număr reprezentativ. Cu toate acestea, atunci astronomul englez Henry Gellibrand a luat două măsurători diferite ale deviației magnetice. Unul dintre ei a fost luat dimineața (11 grade), iar celălalt după-amiaza (11 grade și 32 de minute). Calculând cea mai adevărată valoare, el a scris:

„Dacă găsim media aritmetică, putem spune cu mare probabilitate că rezultatul unei măsurători precise ar trebui să fie de aproximativ 11 grade 16 minute.”

Este probabil că aceasta a fost prima dată când valoarea medie a fost folosită ca fiind cea mai apropiată de valoarea adevărată!

Cuvântul „medie” a fost folosit în engleză la începutul secolului al XVI-lea pentru a indica pierderea financiară din daunele suferite de o navă sau încărcătură transportată în timpul unei călătorii. În următoarea sută de ani, a desemnat tocmai aceste pierderi, care au fost calculate ca medie aritmetică. De exemplu, dacă o navă a fost avariată în timpul unei călătorii și echipajul ar trebui să arunce unele mărfuri peste bord pentru a menține greutatea navei, investitorii ar suferi pierderi financiare echivalente cu valoarea investiției lor - aceste pierderi au fost calculate în același mod ca și media aritmetică. Deci, treptat, valorile mediei și ale mediei aritmetice s-au apropiat.

Valoarea mediană

În zilele noastre, media sau media aritmetică este utilizată ca metodă principală pentru selectarea unei valori reprezentative pentru un set de măsurători. Cum sa întâmplat asta? De ce nu a fost dat acest rol valorii medii?

Francis Galton a fost campionul medianei

Termenul „mediană” – termenul de mijloc dintr-o serie de numere care împarte seria în jumătate – a apărut aproximativ în același timp cu media aritmetică. În 1599, matematicianul Edward Wright, lucrând la problema deviației normale a busolei, a propus pentru prima dată utilizarea valorii medii.

„...Să presupunem că mulți arcași trag la o anumită țintă. Ținta este eliminată ulterior. Cum poți afla unde a fost ținta? Trebuie să găsiți locul de mijloc între toate săgețile. La fel, dintre multe rezultate observaționale, cel din mijloc va fi cel mai aproape de adevăr.”

Mediana a fost utilizată pe scară largă în secolul al XIX-lea, devenind o parte necesară a oricărei analize a datelor la acea vreme. A fost folosit și de Francis Galton, un analist remarcabil al secolului al XIX-lea. În povestea cântăririi bouului spusă la începutul acestui articol, Galton a folosit inițial valoarea mediană ca reprezentând opinia mulțimii.

Mulți analiști, inclusiv Galton, au preferat mediana, deoarece este mai ușor de calculat pentru seturi mici de date.

Cu toate acestea, mediana nu a fost niciodată mai populară decât media. Acest lucru sa datorat cel mai probabil proprietăților statistice speciale inerente mediei, precum și relației sale cu distribuția normală.

Relația dintre distribuția medie și normală

Când luăm multe măsurători, rezultatele sunt, după cum spun statisticienii, „distribuite în mod normal”. Aceasta înseamnă că, dacă aceste date sunt reprezentate pe un grafic, punctele de pe el vor reprezenta ceva similar cu un clopot. Dacă le conectați, obțineți o curbă „în formă de clopot”. Multe statistici corespund unei distribuții normale, cum ar fi înălțimea oamenilor, inteligența și cea mai ridicată temperatură anuală.

Când datele sunt distribuite în mod normal, media va fi foarte aproape de cel mai înalt punct al curbei clopot, iar un număr foarte mare de măsurători va fi aproape de medie. Există chiar și o formulă care prezice câte măsurători vor scădea la o anumită distanță de medie.

Astfel, calcularea mediei oferă cercetătorilor o mulțime de informații suplimentare.

Relația dintre medie și abaterea standardîi oferă un mare avantaj, deoarece valoarea mediană nu are o asemenea legătură. Această conexiune este o parte importantă a analizei datelor experimentale și a procesării statistice a informațiilor. Acesta este motivul pentru care media a devenit nucleul statisticii și al tuturor științelor care se bazează pe date multiple pentru a-și trage concluziile.

Avantajul mediei se datorează și faptului că este ușor de calculat de computere. Deși valoarea mediană pentru un grup mic de date este destul de ușor de calculat pe cont propriu, este mult mai ușor să scrieți un program de calculator care să găsească media. Dacă utilizați Microsoft Excel, atunci probabil știți că funcția mediană nu este la fel de ușor de calculat ca funcția medie.

Până la urmă, mulțumesc mult semnificație științificăși ușurința în utilizare, valoarea medie a devenit principala valoare reprezentativă. Cu toate acestea, această opțiune nu este întotdeauna cea mai bună.

Avantajele valorii medii

În multe cazuri când dorim să calculăm valoarea centrală a unei distribuții, valoarea mediană este o măsură mai bună. Acest lucru se datorează faptului că valoarea medie este determinată în mare măsură de rezultatele măsurătorilor extreme.

Mulți analiști cred că utilizarea necugetă a mediilor are un impact negativ asupra înțelegerii noastre a informațiilor cantitative. Oamenii se uită la medie și cred că este „norma”. Dar, de fapt, poate fi determinat de orice membru care iese puternic dintr-o serie omogenă.

Imaginați-vă un analist care dorește să cunoască o valoare reprezentativă pentru cinci case. Patru case valorează 100.000 de dolari, iar a cincea valorează 900.000 de dolari. Prin urmare, media ar fi de 200.000 USD, iar mediana ar fi de 100.000 USD. În aceasta, ca și în multe alte cazuri, valoarea mediană oferă o mai bună înțelegere a ceea ce poate fi numit „standard”.

Recunoscând cât de mult pot afecta valorile extreme media, mediana este utilizată pentru a reflecta modificările venitului gospodăriei din SUA.

Medianele sunt, de asemenea, mai puțin sensibile la datele murdare cu care se ocupă analiștii astăzi. Mulți statisticieni și analiști colectează informații prin sondajul oamenilor de pe Internet. Dacă utilizatorul adaugă accidental un zero suplimentar la răspuns, care transformă 100 în 1000, atunci această eroare va avea un impact mult mai puternic asupra mediei decât asupra mediei.

Medie sau mediană?

Alegerea dintre mediană și medie are consecințe de anvergură, de la înțelegerea noastră a efectelor medicamentelor asupra sănătății până la cunoștințele noastre despre ceea ce ar trebui să fie un buget standard al gospodăriei.

Pe măsură ce colectarea și analiza datelor modelează din ce în ce mai mult modul în care înțelegem lumea, la fel și valoarea cantităților pe care le folosim. Într-o lume ideală, analiștii ar folosi atât media, cât și mediana pentru a exprima datele grafic.

Dar trăim în condiții de timp și atenție limitate. Din cauza acestor limitări, adesea trebuie să alegem un singur lucru. Și în multe cazuri, valoarea mediană este de preferat.

TEST

Pe subiect: "Mod. Median. Metode pentru calculul lor"


Introducere

Valorile medii și indicatorii de variație asociați joacă un rol foarte important în statistică, care se datorează subiectului studiului său. Prin urmare, acest subiect este unul dintre cele centrale ale cursului.

Media este o măsură rezumativă foarte comună în statistici. Acest lucru se explică prin faptul că numai cu ajutorul mediei o populație poate fi caracterizată printr-o caracteristică variabilă cantitativ. În statistică, valoarea medie este o caracteristică generalizantă a unui set de fenomene similare bazate pe o caracteristică care variază cantitativ. Media arată nivelul acestei caracteristici pe unitatea de populație.

Când studiază fenomenele sociale și încearcă să le identifice caracteristicile, trăsăturile tipice în condiții specifice de loc și timp, statisticienii folosesc pe scară largă valorile medii. Folosind medii, puteți compara diferite populații între ele în funcție de diferite caracteristici.

Mediile utilizate în statistici aparțin clasei mediilor de putere. Dintre mediile puterii, se folosește cel mai des media aritmetică, mai rar media armonică; Media armonică este utilizată numai la calcularea ratelor medii ale dinamicii, iar pătratul mediu este utilizat numai la calcularea indicilor de variație.

Media aritmetică este câtul împărțirii sumei variantelor la numărul lor. Este utilizat în cazurile în care volumul unei caracteristici variabile pentru întreaga populație este format ca suma valorilor caracteristice ale unităților sale individuale. Media aritmetică este cel mai comun tip de medie, deoarece corespunde naturii fenomenelor sociale, unde volumul caracteristicilor variate în agregat este cel mai adesea format exact ca suma valorilor caracteristice ale unităților individuale ale populației. .

Conform proprietății sale definitorii, media armonică ar trebui utilizată atunci când volumul total al atributului este format ca suma valorilor inverse ale variantei. Se folosește atunci când, în funcție de material, greutățile nu trebuie înmulțite, ci împărțite în opțiuni sau, ceea ce este același lucru, înmulțite cu valoarea lor inversă. Media armonică în aceste cazuri este reciproca mediei aritmetice a valorilor reciproce ale atributului.

Se recurge la media armonică în cazurile în care nu unitățile populației - purtătorii caracteristicii - sunt folosite ca greutăți, ci produsele acestor unități prin valoarea caracteristicii.


1. Definiția modului și a mediei în statistici

Mijloacele aritmetice și armonice sunt caracteristici generalizatoare ale populației în funcție de una sau alta caracteristică variabilă. Caracteristicile descriptive auxiliare ale distribuției unei caracteristici variabile sunt modul și mediana.

În statistică, un mod este valoarea unei caracteristici (variante) care se găsește cel mai adesea într-o anumită populație. Într-o serie de variații, aceasta va fi opțiunea cu cea mai mare frecvență.

În statistică, mediana este opțiunea care se află la mijlocul seriei de variații. Mediana împarte seria în jumătate pe ambele părți ale acesteia (în sus și în jos) există același număr de unități de populație.

Modul și mediana, spre deosebire de mijloacele de putere, sunt caracteristici specifice; sensul lor este atribuit oricărei opțiuni specifice din seria de variații.

Modul este utilizat în cazurile în care este necesar să se caracterizeze valoarea cea mai frecventă a unei caracteristici. Dacă este necesar, de exemplu, să se afle cea mai comună rată a salariului la o întreprindere, prețul de pe piață la care s-a vândut cel mai mare număr de mărfuri, mărimea pantofilor care este cea mai solicitată în rândul consumatorilor etc., în aceste cazuri recurg la modă.

Mediana este interesantă prin faptul că arată limita cantitativă a valorii unei caracteristici variabile, la care au atins jumătate din membrii populației. Să fie salariul mediu al angajaților băncii de 650.000 de ruble. pe lună. Această caracteristică poate fi completată dacă spunem că jumătate dintre muncitori au primit un salariu de 700.000 de ruble. și mai sus, adică Să dăm mediana. Modul și mediana sunt caracteristici tipice în cazurile în care populațiile sunt omogene și în număr mare.


2. Găsirea modului și a medianei într-o serie de variații discrete

Găsirea modului și a medianei într-o serie de variații, în care valorile unei caracteristici sunt date de anumite numere, nu este foarte dificilă. Să ne uităm la Tabelul 1 cu distribuția familiilor după numărul de copii.

Tabelul 1. Distribuția familiilor după numărul de copii

Evident, în acest exemplu, moda va fi o familie cu doi copii, deoarece această valoare a opțiunii corespunde celui mai mare număr de familii. Pot exista distribuții în care toate opțiunile apar la fel de des, caz în care nu există un mod sau, cu alte cuvinte, putem spune că toate opțiunile sunt la fel de modale. În alte cazuri, nu una, ci două opțiuni pot fi de cea mai mare frecvență. Apoi vor fi două moduri, distribuția va fi bimodală. Distribuțiile bimodale pot indica eterogenitatea calitativă a populației în funcție de caracteristica studiată.

Pentru a găsi mediana într-o serie de variații discrete, trebuie să împărțiți suma frecvențelor la jumătate și să adăugați ½ la rezultat. Deci, în repartizarea a 185 de familii după numărul de copii, mediana va fi: 185/2 + ½ = 93, i.e. A 93-a opțiune, care împarte rândul ordonat în jumătate. Care este sensul celei de-a 93-a opțiuni? Pentru a afla, trebuie să acumulați frecvențe, pornind de la cele mai mici opțiuni. Suma frecvențelor primei și celei de-a doua opțiuni este 40. Este clar că aici nu există 93 de opțiuni. Dacă adăugăm frecvența celei de-a 3-a opțiuni la 40, obținem o sumă egală cu 40 + 75 = 115. În consecință, a 93-a opțiune corespunde celei de-a treia valori a caracteristicii variabile, iar mediana va fi o familie cu doi copii.

Modul și mediana din acest exemplu au coincis. Dacă am avea o sumă pară de frecvențe (de exemplu, 184), atunci, folosind formula de mai sus, am obține numărul opțiunii mediane, 184/2 + ½ =92,5. Deoarece nu există opțiuni fracționale, rezultatul indică faptul că mediana se află la jumătatea distanței dintre 92 și 93 de opțiuni.

3. Calculul modului și al mediei în serii de variații de interval

Natura descriptivă a modului și a mediei se datorează faptului că nu compensează abaterile individuale. Ele corespund întotdeauna unei anumite opțiuni. Prin urmare, modul și mediana nu necesită calcule pentru a afla dacă toate valorile atributului sunt cunoscute. Cu toate acestea, într-o serie de variații de interval, calculele sunt utilizate pentru a găsi valoarea aproximativă a modului și mediana într-un anumit interval.

Pentru a calcula o anumită valoare a valorii modale a unei caracteristici conținute într-un interval, utilizați formula:

M o = X Mo + i Mo *(f Mo – f Mo-1)/((f Mo – f Mo-1) + (f Mo – f Mo+1)),

Unde XMo este limita minimă a intervalului modal;

i Mo – valoarea intervalului modal;

f Mo – frecvența intervalului modal;

f Mo-1 – frecvența intervalului premergător celui modal;

f Mo+1 – frecvența intervalului următor celui modal.

Să arătăm calculul modului folosind exemplul dat în tabelul 2.


Tabelul 2. Distribuția lucrătorilor întreprinderii în funcție de îndeplinirea standardelor de producție

Pentru a găsi modul, mai întâi determinăm intervalul modal al acestei serii. Exemplul arată că cea mai mare frecvență corespunde intervalului în care variantele se află în intervalul de la 100 la 105. Acesta este intervalul modal. Valoarea intervalului modal este 5.

Înlocuind valorile numerice din tabelul 2 în formula de mai sus, obținem:

M o = 100 + 5 * (104 -12)/((104 – 12) + (104 – 98)) = 108,8

Semnificația acestei formule este următoarea: valoarea acelei părți a intervalului modal care trebuie adăugată la limita minimă este determinată în funcție de mărimea frecvențelor intervalelor precedente și următoare. În acest caz, adăugăm 8,8 la 100, adică mai mult de jumătate din interval deoarece frecvența intervalului precedent este mai mică decât frecvența intervalului următor.

Să calculăm acum mediana. Pentru a găsi mediana într-o serie de variații de interval, determinăm mai întâi intervalul în care se află (intervalul median). Un astfel de interval va fi unul a cărui frecvență cumulată este egală sau mai mare decât jumătate din suma frecvențelor. Frecvențele cumulate se formează prin însumarea treptată a frecvențelor, începând de la un interval de cea mai mică valoare semn. Jumătate din suma frecvențelor este 250 (500:2). Prin urmare, conform tabelului 3, intervalul median va fi intervalul cu o valoare salarială de 350.000 de ruble. până la 400.000 de ruble.

Tabelul 3. Calculul medianei în seria de variații de interval

Înainte de acest interval, suma frecvențelor acumulate era 160. Prin urmare, pentru a obține valoarea mediană, este necesar să se adauge încă 90 de unități (250 – 160).

Tendința centrală a datelor poate fi considerată nu numai ca o valoare cu abatere totală zero (media aritmetică) sau frecvență maximă (mod), ci și ca o anumită notă (un anumit nivel al indicatorului analizat), împărțind datele clasate ( sortate în ordine crescătoare sau descrescătoare) în două părți egale. Adică, jumătate din datele inițiale sunt mai mici decât acest semn ca valoare, iar jumătate este mai mult. Asta este median. Modul și mediana sunt indicatori importanți; ele reflectă structura datelor și sunt uneori folosite în locul mediei aritmetice.

Deci, mediana este nivelul indicatorului care împarte un anumit set de date în două jumătăți egale. Ca exemplu demonstrativ, să ne uităm din nou la un set de numere aleatorii. Această distribuție la cantitati mari semnificațiile din literatură este descrisă ca o întâmplare cotidiană. Iată datele sub formă de imagine.

Evident, cu o distribuție simetrică, mijlocul, împărțind populația la jumătate, va fi situat chiar în centru - în același loc cu media aritmetică (și modul). Aceasta este, ca să spunem așa, o situație ideală când modul, mediana și media aritmetică coincid și toate proprietățile lor se încadrează într-un singur punct - frecvența maximă, înjumătățire, suma zero a abaterilor - toate într-un singur loc. Cu toate acestea, viața nu este la fel de simetrică ca distributie normala. Prin urmare, să ne uităm la distribuția asimetrică și la ceea ce se întâmplă acolo cu tendințele noastre centrale.

Să presupunem că avem de-a face cu măsurători tehnice ale abaterilor de la valoarea așteptată a ceva (conținut de elemente, distanță, nivel, masă etc., etc.). Dacă totul este OK, atunci abaterile vor fi distribuite cel mai probabil după o lege apropiată de normal, aproximativ ca în figura de mai sus (practica respinge o astfel de presupunere, dar bine). Dar dacă există un factor semnificativ și necontrolabil în procesul analizat, atunci în observații pot apărea valori anormale, care vor afecta semnificativ media aritmetică, dar cu greu vor afecta mediana, care este clar vizibilă în histograma următoare.

Mediana este principala alternativă la media aritmetică, deoarece este rezistent la abaterile anormale (outliers). Acest articol vorbește despre modul în care media aritmetică se comportă în cazul valorilor anormale și despre cum să o faceți, adică despre cum să o faceți mai puțin dependentă de valori anormale. Opțiunile principale sunt creșterea numărului de observații și/sau eliminarea anomaliilor din eșantionul analitic. Deci, trecerea de la media aritmetică la mediană este o altă modalitate de a obține o estimare stabilă (solidă) a așteptărilor matematice. Un alt lucru este că proprietățile mediei aritmetice se vor pierde pentru totdeauna, dar aici trebuie să ne uităm la ce este mai important.

Acum exemple de utilizare reală a mediei în statistici. Când se analizează salariul mediu pentru o țară, se poate folosi mediana în locul mediei aritmetice. Oamenilor nu le place când propriul lor salariu este mai mic decât media (aritmetică) pentru țară. Acest lucru provoacă o furtună de emoții și dezvăluiri de calcule incorecte. Cum ar fi, salariul meu este de 100 de ruble, iar al directorului este de 1000 de ruble, așa că se dovedește a fi o medie de 550 de ruble. Ce este, cetățenii nemulțumiți nu știu și nu sunt interesați. Dar dacă folosiți mediana, va fi clar că jumătate din populație primește un venit mai mic decât mediana și jumătate mai mult.

Acest indicator este utilizat și în statistica demografică, atunci când se analizează diverse caracteristici cantitative și calitative (rezistența materialului, conținutul de elemente, timpul de funcționare, numărul defecțiunilor etc.). Chiar și comercianții de valută folosesc mediana ca un fel de semnal secret pentru a începe acțiunea. Deși acest lucru nu îi salvează pe cei mai mulți dintre ei.

Matematic proprietatea medianei este că suma abaterilor absolute (modulo) de la valoarea mediană oferă valoarea minimă posibilă în comparație cu abaterile de la orice altă valoare. Chiar mai puțin decât media aritmetică, oh, cum! Acest fapt își găsește aplicația, de exemplu, la rezolvarea problemelor de transport, atunci când este necesar să se calculeze șantierul unui obiect în apropierea unui drum în așa fel încât lungimea totală a zborurilor către acesta din diferite locuri să fie minimă (opriri, gaze). stații, depozite etc., etc.). Notă pentru logisticieni.

(modulul 111)

Formula mediană pentru discret datele amintesc oarecum de o formulă de modă. Și anume pentru că nu există o formulă ca atare. Valoarea mediană este selectată din datele disponibile și numai dacă acest lucru nu este posibil, se efectuează un calcul simplu.

În primul rând, datele sunt clasate (sortate în ordine descrescătoare). În continuare sunt două opțiuni. Dacă numărul de valori este impar, atunci mediana va corespunde valorii centrale a seriei, al cărei număr poate fi determinat prin formula:

Nu. Eu– numărul valorii corespunzător medianei,

N– numărul de valori din setul de date.

Apoi mediana va fi notată ca

Aceasta este prima opțiune când există o valoare centrală în date. A doua opțiune apare atunci când numărul de date este par, adică în loc de una există două valori centrale. Soluția este simplă: luați media aritmetică a celor două valori centrale:

Așa are loc o căutare sau un calcul în date discrete. Cu toate acestea, datele pot fi, de asemenea interval, unde nu este posibil să selectați o anumită valoare, deoarece pur și simplu nu există valori specifice. Ca și în modă, mediana în acest caz este calculată după o regulă general acceptată, bazată pe o anumită presupunere, adică prin ochi. Și iese bine, vă spun!

Pentru început (după clasarea datelor), găsiți intervalul median. Acesta este intervalul prin care trece valoarea mediană dorită. Determinat folosind ponderea acumulată a intervalelor clasate. Acolo unde cota acumulată a depășit mai întâi 50% din toate valorile, există un interval median.

Nu știu cine a venit cu formula mediană, dar au pornit clar de la ipoteza că distribuția datelor în intervalul median este uniformă (adică 30% din lățimea intervalului este 30% din valori, 80% din lățimea este de 80% din valori etc.) . De aici, cunoașterea numărului de valori de la începutul intervalului median la 50% din toate valorile din populație (diferența dintre jumătate din numărul tuturor valorilor și frecvența acumulată a intervalului pre-median ), puteți afla ce proporție ocupă în întreg intervalul median. Această cotă este transferată exact la lățimea intervalului median, indicând o anumită valoare, numită ulterior mediană.

Fără prea mult timp, este mai bine să apelați la o diagramă vizuală - va fi mai clară.

A ieșit puțin greoi, dar acum, sper, totul este clar și de înțeles. Pentru a evita desenarea unui astfel de grafic de fiecare dată când calculați, puteți utiliza o formulă gata făcută. Formula mediană este următoarea:

Unde xMe- limita inferioară a intervalului median;

eu Eu- lăţimea intervalului median;

∑f/2- numărul tuturor valorilor împărțit la 2 (două);

S(Me-1)- numărul total de observații care au fost acumulate înainte de începerea intervalului median, i.e. frecvența acumulată a intervalului premedian;

f Eu- numărul de observații în intervalul median.

După cum este ușor de văzut, formula mediană constă din doi termeni: 1 – valoarea începutului intervalului median și 2 – tocmai partea care este proporțională cu ponderea acumulată lipsă de până la 50%. În unele privințe, chiar arată ca o formulă de modă. Diferența constă în căutarea unui punct într-un interval.

De exemplu, să calculăm mediana folosind următoarele date.

Trebuie să găsiți prețul mediu, adică prețul care este mai ieftin și mai scump decât jumătate din cantitatea de mărfuri. Pentru început, vom face calcule auxiliare ale frecvenței acumulate, ponderii acumulate și numărului total de bunuri. Acum să ne uităm din nou la ce avem.

Folosind ultima coloană „Cota acumulată” determinăm intervalul median - 300-400 de ruble (cota acumulată este mai mare de 50% pentru prima dată). Lățimea intervalului - 100 de ruble. Acum tot ce rămâne este să înlocuiți datele în formula de mai sus și să calculați mediana.

Adică, jumătate din mărfuri are un preț mai mic de 350 de ruble, iar cealaltă jumătate are un preț mai mare. Este simplu. Media aritmetică, calculată folosind aceleași date, este egală cu 355 de ruble. Diferența nu este semnificativă, dar există.

Calculați mediana în Excel

Statisticile fără calcule automate sunt de domeniul trecutului. Mediana numerelor poate fi găsită cu ușurință folosind Funcția Excel, care se numește MEDIAN. Este extrem de ușor de utilizat. Celula pentru calcul este activată, funcția este apelată, intervalul de date este selectat și „OK”. Nu mai este nimic de discutat. Potrivit atât pentru cantități pare, cât și pentru cantități impare de date.

Datele de interval sunt o altă chestiune. Nu există nicio funcție corespunzătoare în Excel. Prin urmare, trebuie să utilizați formula de mai sus. Ce poți face? Dar acest lucru nu este foarte tragic, deoarece calcularea mediei din datele de interval este un caz rar. Poți face calculul o dată pe calculator.

Apropo, faptul că mediana împarte datele în două părți egale amintește de unele metode de grupare. Într-adevăr, după găsirea medianei, obținem și două grupuri cu un număr egal de valori. Dezvoltând această idee, împărțirea în grupuri se poate face nu numai după principiul 50/50, ci și după alte acțiuni. De exemplu, cele mai mari valori de 20% nu sunt altceva decât grupul A în analiza ABC. Despre alte acțiuni cândva într-un alt articol. Vedeți cum se suprapun metode aparent fără legătură?

Povestea mea despre mediana indicatorului statistic se apropie de sfârșit. Sper că nu a fost obositor. În sfârșit, propun o problemă în stilul emisiunii de chestionare TV „Cine vrea să fie milionar?” Există un set de date. 15, 5, 20, 5, 10. Care este media? Patru opțiuni:

De asemenea, vă sugerez să vizionați un videoclip pe tema calculării medianei în Excel.





eroare: Continut protejat!!