Odaberite Stranica

srednji rezultat. Strukturne karakteristike serije varijantne distribucije

Pretpostavimo da želite da odredite prosječan nivo u distribuciji ocjena učenika ili u uzorku podataka kontrole kvaliteta. Da biste to učinili, morate izračunati medijan skupa brojeva pomoću funkcije MEDIAN.

Ova funkcija je jedan od načina da se izmjeri središnja tendencija, tj. lokacija centra skupa brojeva u statistička distribucija. Postoje tri najčešća načina za određivanje središnjeg trenda.

    Prosječna vrijednost- ovo je vrijednost koja je aritmetička sredina, odnosno izračunava se dodavanjem skupa brojeva, nakon čega slijedi dijeljenje rezultirajućeg zbroja njihovim brojem. Na primjer, prosjek za brojeve 2, 3, 3, 5, 7 i 10 je 5 (rezultat dijeljenja zbira ovih brojeva, koji je 30, njihovim brojem, koji je 6).

    Medijan- broj koji je sredina skupa brojeva: polovina brojeva ima vrijednosti veće od medijane, a polovina brojeva ima manje vrijednosti. Na primjer, medijana za brojeve 2, 3, 3, 5, 7 i 10 je 4.

    Moda- broj koji se najčešće javlja u datom skupu brojeva. Na primjer, način rada za brojeve 2, 3, 3, 5, 7 i 10 bi bio 3.

Sa simetričnom distribucijom skupa brojeva, sve tri vrijednosti središnje tendencije će se poklopiti. Uz pristrasnu distribuciju skupa brojeva, vrijednosti mogu biti različite.

Snimke ekrana u ovom članku snimljene su u programu Excel 2016. Ako koristite drugu verziju, sučelje može izgledati malo drugačije, ali funkcionalnost je ista.

Primjer

Da biste ovaj primjer lakše razumjeli, kopirajte ga na prazan list.

savjet: Za prebacivanje između pregleda rezultata i pregleda formula koje vraćaju te rezultate, pritisnite CTRL+` (apostrof) ili na kartici Formule u grupi Zavisnosti formule pritisnite dugme Prikaži formule.

VJEŽBA #4 .

Proračun strukturnih karakteristika varijantne serije distribucija.

Učenik mora:

znati:

- obim i metodologija za izračunavanje strukturnih prosjeka;

biti u stanju:

- izračunati strukturne prosjeke;

- formulisati zaključak na osnovu dobijenih rezultata.

Smjernice

U statistici se izračunavaju mod i medijan, koji se odnose na strukturne proseke, pa koja vrednost zavisi od zgrade statistički agregat.

modna kalkulacija

Moda vrijednost karakteristike (varijante) se zove, češće sve se dešava u proučavanoj populaciji. U seriji diskretne distribucije, mod će biti varijanta sa najvećom frekvencijom.

Na primjer: Distribucija ženske obuće koja se prodaje po veličinama karakterizirana je na sljedeći način:

Broj cipela

Broj prodatih pari

U ovoj seriji distribucije, mod je veličine 37, tj. Mo=37 veličina.

Za intervalne serije način distribucije određen je formulom:

Gdje X Mo - donja granica modalnog intervala;

hMo - vrijednost modalnog intervala;

f Mo je frekvencija modalnog intervala;

f Mo -1I f Mo +1 – frekvencija intervala, respektivno

koji prethodi modalnom i prati ga.

Na primjer: Raspodjelu radnika po radnom stažu karakterišu sljedeći podaci.

Radno iskustvo, godine

do 2

8-10

10 ili više

Broj radnika, osoba

Odrediti način intervalne serije distribucije.

Način rada intervalne serije je

Moda je uvijek pomalo nejasna; zavisi od veličine grupa i preciznog položaja granica grupe. Moda se široko koristi u komercijalnoj praksi prilikom proučavanja potražnje potrošača, prilikom registracije cijena itd.

Izračun medijane

medijana u statistici se naziva varijanta koja se nalazi u sredini uređene serije podataka, a koja dijeli statističku populaciju na dva jednaka dijela tako da je jedna polovina vrijednosti manja od medijane, a druga polovina veća od nje. Za određivanje medijane potrebno je izgraditi rangiranu seriju, tj. niz u rastućem ili opadajućem redoslijedu pojedinačnih karakterističnih vrijednosti.

U diskretno uređenom nizu sa neparnim brojem članova, medijan će biti varijanta koja se nalazi u centru serije.

Na primjer: Iskustvo petorice radnika bilo je 2, 4, 7, 9 i 10 godina. U ovoj seriji medijan je 7 godina, tj. Ja=7 godina

Ako se diskretno uređena serija sastoji od parnog broja članova, tada će medijana biti aritmetička sredina dvije susjedne opcije u centru niza.

Na primjer: Radno iskustvo šest radnika bilo je 1, 3, 4, 5, 10 i 11 godina. Postoje dvije opcije u ovom redu, koje stoje u sredini reda. Ovo su opcije 4 i 5. Aritmetička sredina ovih vrijednosti ​​biće medijana serije

Da bi se odredio medijan za grupisane podatke, moraju se očitati kumulativne frekvencije.

Na primjer:Na osnovu dostupnih podataka određujemo srednju veličinu cipela

Broj cipela

Broj prodatih pari

Zbir kumulativnih frekvencija

8+19=27

27+34=61

61+108=169

Ukupno

Za određivanje medijane potrebno je izračunati zbir akumuliranih frekvencija serije. Akumulacija ukupnog iznosa se nastavlja sve dok akumulirani zbir frekvencija ne pređe polovinu zbira frekvencija serije. U našem primjeru, zbir frekvencija je bio 300, njegova polovina - 150. Akumulirani zbir frekvencija je bio 169. Varijanta koja odgovara ovom zbiru, tj. 37 je medijana serije.

Ako je zbir akumuliranih frekvencija u odnosu na jednu od opcija tačno polovina zbira frekvencija serije, tada se medijan definira kao aritmetička sredina ove i sljedeće opcije.

Na primjer: Odredite medijanu na osnovu dostupnih podataka plate radnici

Mjesečna plata, hiljada rubalja

Broj radnika, osoba

Zbir kumulativnih frekvencija

14,0

14,2

2+6=8

16,0

8+12=20

16,8

18,0

Ukupno:

Medijan će biti:

Medijan intervalne serije varijacije distribucije je određen formulom:

Gdje x me je donja granica srednjeg intervala;

h Ja je vrijednost srednjeg intervala;

f- zbir frekvencija serije;

f Ja je frekvencija srednjeg intervala;

Na primjer:Na osnovu dostupnih podataka o distribuciji preduzeća prema broju industrijskog i proizvodnog osoblja, izračunajte medijanu u nizu intervalnih varijacija

Broj preduzeća

Zbir kumulativnih frekvencija

100-200

200-300

1+3=4

300-400

4+7=11

400-500

11+30=41

500-600

600-700

700-800

Ukupno:

Hajde da prvo definišemo srednji interval. U ovom primjeru, zbir akumuliranih frekvencija koje premašuju polovinu zbroja svih vrijednosti serije odgovara intervalu 400-500. Ovo je srednji interval, tj. interval koji sadrži medijanu serije. Hajde da definišemo njegovo značenje

Ako je zbroj akumuliranih frekvencija u odnosu na jedan od intervala točno polovica zbira frekvencija serije, tada se medijana određuje po formuli:

Gdje n- broj jedinica u populaciji.

Na primjer:Na osnovu dostupnih podataka o distribuciji preduzeća prema broju industrijskog i proizvodnog osoblja, izračunajte medijanu u nizu intervalnih varijacija

Grupe preduzeća prema broju JPP, osoba.

Broj preduzeća

Zbir kumulativnih frekvencija

100-200

200-300

1+3=4

300-400

4+6=10

400-500

10+30=40

500-600

40+20=60

600-700

700-800

Ukupno:

ljudi

Mod i medijan u nizu intervala mogu biti grafički definirati:

moda u diskretni redovi- poligonom distribucije, modom u nizu intervala - histogramom distribucije, a medijana - kumulacijom.

Način serije intervalne distribucije određuje histogram distribucije na sledeći način. Da biste to učinili, odabire se najviši pravougaonik, koji je u ovom slučaju modalni. Zatim povezujemo desni vrh modalnog pravougaonika sa gornjim desnim uglom prethodnog pravougaonika. A lijevi vrh modalnog pravougaonika je sa gornjim levim uglom sledećeg pravougaonika. Nadalje, od točke njihovog presjeka, okomita se spušta na osu apscise. Apscisa tačke preseka ovih linija biće način distribucije.

Medijan se izračunava iz kumulata. Da bi se to odredilo, iz tačke na skali akumuliranih frekvencija (frekvencija), koja odgovara 50%, povlači se ravna linija, paralelna sa osom apscise, sve dok se ne siječe sa kumulatom. Zatim se od točke presjeka navedene prave linije s kumulatom spušta okomica na osu apscise. Apscisa tačke preseka je medijana.

Pored modusa i medijana, u varijantnoj seriji mogu se odrediti i druge strukturne karakteristike, kvantili. Kvantili su namijenjeni dubljem proučavanju strukture distributivnih serija.

kvantil- ovo je vrijednost osobine koja zauzima određeno mjesto u populaciji poredanoj po ovom obilježju. Postoje sljedeće vrste kvantila:

- kvartila su vrijednosti atributa koje dijele uređeni skup načetiri jednaka dijela;

- decila – vrijednosti atributa koje dijele uređeni skup na deset jednakih dijelova;

- procenata - vrijednosti atributa koje dijele naručeni skup na sto jednakih dijelova.

Dakle, za karakterizaciju položaja centra distributivnog niza mogu se koristiti 3 indikatora: prosječna vrijednost karakteristika, mod, medijan. Prilikom odabira vrste i oblika određenog indikatora distributivnog centra, potrebno je poći od sljedećih preporuka:

- za održive društveno-ekonomske procese, aritmetička sredina se koristi kao indikator centra. Takve procese karakteriziraju simetrične distribucije, u kojima ;

- za nestabilne procese, položaj distributivnog centra karakteriše Mo ili Ja. Za asimetrične procese, poželjna karakteristika distributivnog centra je medijan, budući da on zauzima poziciju između aritmetičke sredine i moda.

Godine 1906. veliki naučnik i poznati eugeničar Francis Galton posjetio je godišnju izložbu životinja i peradi u zapadnoj Engleskoj, gdje je igrom slučaja izveo zanimljiv eksperiment.

Prema Jamesu Surowetskyju, autoru knjige The Wisdom of the Crowd, na sajmu u Galtonu bilo je takmičenje u kojem su ljudi morali pogoditi težinu zaklanog bika. Pobednikom je proglašen onaj ko je nazvao najbližeg pravom broju.

Galton je bio poznat po svom preziru prema intelektualnim sposobnostima. obični ljudi. Vjerovao je da će samo pravi stručnjaci moći dati tačne izjave o težini bika. A 787 učesnika takmičenja nisu bili stručnjaci.

Naučnik je hteo da dokaže nesposobnost gomile izračunavajući prosečan broj iz odgovora učesnika. Kakvo je bilo njegovo iznenađenje kada se ispostavilo da rezultat koji je dobio odgovara skoro potpuno stvarnoj težini bika!

Prosječna vrijednost - kasni izum

Naravno, tačnost odgovora zadivila je istraživača. Ali još je upečatljivija činjenica da je Galton uopće razmišljao o korištenju prosjeka.

U današnjem svijetu prosjeci i takozvani medijani se nalaze na svakom koraku: prosječna temperatura u New Yorku u aprilu je 52 stepena Farenhajta; Stephen Curry u prosjeku postiže 30 poena po utakmici; Prosječni prihod domaćinstva u SAD je 51.939 dolara godišnje.

Međutim, ideja da mnogo različitih ishoda može biti predstavljeno jednim brojem je sasvim nova. Sve do 17. vijeka prosjeci se uglavnom nisu koristili.

Kako je nastao i kako se razvio koncept prosjeka i medijana? I kako je to uspjelo da postane glavna mjerna tehnika u našem vremenu?

Prevlast sredstava nad medijanima imala je dalekosežne posljedice po naše razumijevanje informacija. I često je to dovelo ljude na krivi put.

Srednje i srednje vrijednosti

Zamislite da pričate priču o četvero ljudi koji su večerali s vama sinoć u restoranu. Jednom od njih dali biste 20 godina, drugom 30, trećem 40, a četvrtom 50. Šta biste rekli o njihovim godinama u svojoj priči?

Najvjerovatnije ćete ih nazvati prosjekom starosti.

Srednja vrijednost se često koristi za prenošenje informacija o nečemu, kao i za opisivanje skupa mjerenja. Tehnički, prosjek je ono što matematičari nazivaju "aritmetičkom sredinom" - zbir svih mjerenja podijeljen brojem mjerenja.

Iako se riječ "prosjek" često koristi kao sinonim za riječ "medijan" (medijan), potonji se češće naziva sredinom nečega. Ova riječ dolazi od latinskog "medianus", što znači "sredina".

Srednja vrijednost u Ancient Greece

Istorija vrednosti medijane potiče iz učenja starogrčkog matematičara Pitagore. Za Pitagoru i njegovu školu, medijana je imala jasnu definiciju i bila je veoma različita od onoga kako mi danas razumijemo prosjek. Korišćen je samo u matematici, ne i u analizi podataka.

U školi Pitagorejaca srednja vrijednost je bio srednji broj u tročlanom nizu brojeva, u "jednakom" odnosu sa susjednim terminima. "Jednaki" odnos može značiti istu udaljenost. Na primjer, broj 4 u redu 2,4,6. Međutim, može izraziti i geometrijsku progresiju, kao što je 10 u nizu 1,10,100.

Statističar Churchill Eisenhart objašnjava da se u staroj Grčkoj medijan nije koristio kao predstavnik ili zamjena za bilo koji skup brojeva. Jednostavno je označavao sredinu i često se koristio u matematičkim dokazima.

Eisenhart je proveo deset godina proučavajući srednju vrijednost i medijan. U početku je pokušao da pronađe reprezentativnu funkciju medijane u ranim naučnim konstrukcijama. Umjesto toga, međutim, otkrio je da se većina ranih fizičara i astronoma oslanjala na pojedinačna, vješto napravljena mjerenja i da nisu imali metodologiju da izaberu najbolji rezultat među mnogim opservacijama.

Moderni istraživači zasnivaju svoje zaključke na prikupljanju velikih količina podataka, kao, na primjer, biolozi koji proučavaju ljudski genom. Drevni naučnici su, s druge strane, mogli izvršiti nekoliko mjerenja, ali su birali samo najbolje za izgradnju svojih teorija.

Kao što je istoričar astronomije Otto Neugebauer napisao, "ovo je u skladu sa svjesnom željom starih ljudi da minimiziraju količinu empirijskih podataka u nauci, jer nisu vjerovali u točnost direktnih zapažanja."

Na primjer, grčki matematičar i astronom Ptolomej izračunao je ugaoni promjer Mjeseca koristeći metodu posmatranja i teoriju kretanja Zemlje. Njegov rezultat je bio 31'20. Danas znamo da se prečnik Mjeseca kreće od 29'20 do 34'6, u zavisnosti od udaljenosti od Zemlje. Ptolomej je koristio malo podataka u svojim proračunima, ali je imao sve razloge da vjeruje da su oni tačni.

Eisenhart piše: „Mora se imati na umu da je odnos između posmatranja i teorije u antici bio drugačiji nego danas. Rezultati zapažanja nisu shvaćeni kao činjenice kojima teoriju treba prilagoditi, već kao konkretni slučajevi koji mogu biti korisni samo kao ilustrativni primjeri istinitosti teorije.

Na kraju, naučnici će se okrenuti reprezentativnim mjerenjima podataka, ali u početku se u ovoj ulozi nisu koristili ni sredstva ni medijani. Od antike do danas kao takvo reprezentativno sredstvo korišćen je još jedan matematički koncept - poluzbir ekstremnih vrednosti.

Pola zbroja ekstremnih vrijednosti

Novi naučni alati gotovo uvijek proizlaze iz potrebe da se riješi određeni problem u nekoj disciplini. Potreba za pronalaženjem najbolje vrijednosti među mnogim mjerenjima proizašla je iz potrebe da se precizno odredi geografska lokacija.

Intelektualni div iz 11. stoljeća Al-Biruni poznat je kao jedan od prvih ljudi koji su koristili metodologiju reprezentativnih značenja. Al-Biruni je napisao da je, kada je imao na raspolaganju mnoga mjerenja i želio da pronađe najbolju među njima, koristio sljedeće "pravilo": potrebno je pronaći broj koji odgovara sredini između dvije ekstremne vrijednosti. Prilikom izračunavanja poluzbira ekstremnih vrijednosti, svi brojevi između maksimalne i minimalne vrijednosti se ne uzimaju u obzir, već se nalazi samo prosjek ova dva broja.

Al-Biruni je ovu metodu primjenjivao u raznim oblastima, uključujući izračunavanje geografske dužine grada Gaznija, koji se nalazi na teritoriji modernog Afganistana, kao i u svojim proučavanjima svojstava metala.

Međutim, u posljednjih nekoliko stoljeća poluzbir ekstrema se sve manje koristi. U stvari, in moderna nauka uopšte nije relevantno. Srednja vrijednost zamijenila je polovinu.

Prijelaz na prosjeke

Do ranog 19. vijeka, upotreba medijane/srednje vrijednosti postala je uobičajena metoda za pronalaženje najtačnije reprezentativne vrijednosti iz grupe podataka. Friedrich von Gauss, izvanredni matematičar svog vremena, napisao je 1809. godine: „Vjerovalo se da ako je određeni broj određen nekoliko direktnih opservacija izvršenih pod istim uslovima, onda je aritmetička sredina najistinitija vrijednost. Ako nije sasvim striktno, onda je barem blizu stvarnosti, pa se na njega uvijek može osloniti.

Zašto je došlo do takve promjene u metodologiji?

Na ovo pitanje je prilično teško odgovoriti. U svom istraživanju Churchill Eisenhart sugerira da je metoda pronalaženja aritmetičke sredine mogla nastati u polju mjerenja magnetske devijacije, odnosno u pronalaženju razlike između smjera igle kompasa usmjerene na sjever i stvarnog sjevera. Ovo mjerenje je bilo izuzetno važno u doba otkrića.

Ajzenhart je otkrio da je do kraja 16. veka većina naučnika koji su merili magnetnu devijaciju koristila ad hoc metod (od latinskog „ovo, za ovu priliku, u ovu svrhu“) u izboru najtačnijeg merenja.

Ali 1580. godine naučnik William Borough pristupio je problemu drugačije. Uzeo je osam različitih mjerenja ugiba i uporedio ih i zaključio da je najpreciznije očitanje između 11 ⅓ i 11 ¼ stepeni. Vjerovatno je izračunao aritmetičku sredinu, koja je bila u ovom rasponu. Međutim, sam Borough nije otvoreno nazvao svoj pristup novom metodom.

Prije 1635. nije bilo nedvosmislenih slučajeva korištenja prosječne vrijednosti kao reprezentativnog broja. Međutim, tada je engleski astronom Henry Gellibrand izvršio dva različita mjerenja magnetskog otklona. Jedan je urađen ujutro (11 stepeni), a drugi popodne (11 stepeni i 32 minuta). Izračunavajući najistiniju vrijednost, napisao je:

“Ako pronađemo aritmetičku sredinu, možemo sa velikom vjerovatnoćom reći da bi rezultat tačnog mjerenja trebao biti oko 11 stepeni i 16 minuta.”

Vjerovatno je ovo prvi put da je prosek korišćen kao najbliži istinitom!

Riječ "prosjek" korištena je u engleski jezik početkom 16. vijeka za označavanje finansijskih gubitaka od štete koju je brod ili teret pretrpio tokom putovanja. Narednih stotinu godina označavao je upravo ove gubitke, koji su izračunati kao aritmetička sredina. Na primjer, ako je brod oštećen tijekom putovanja i posada je morala baciti nešto robe u more kako bi spasila težinu broda, investitori su pretrpjeli finansijski gubitak jednak iznosu njihove investicije - ovi gubici su izračunati na isti način kao i aritmetički prosek. Tako su se postepeno konvergirale vrijednosti prosjeka (prosjeka) i aritmetičke sredine.

Srednja vrijednost

Danas se prosječna ili aritmetička sredina koristi kao glavni način odabira reprezentativne vrijednosti skupa mjerenja. Kako se to dogodilo? Zašto ovoj ulozi nije dodijeljena vrijednost medijana?

Francis Galton je bio srednji šampion

Termin "srednja vrijednost" (medijan) - srednji pojam u nizu brojeva, koji dijeli ovu seriju na pola - pojavio se otprilike u isto vrijeme kada i aritmetička sredina. Godine 1599. matematičar Edward Wright, koji je radio na problemu normalnog odstupanja u kompasu, prvi je predložio korištenje srednje vrijednosti.

“...Recimo da mnogo strijelaca puca u neku metu. Meta se naknadno uklanja. Kako možete saznati gdje je bila meta? Morate pronaći srednje mjesto između svih strelica. Isto tako, među skupom rezultata posmatranja, najbliži istini biće onaj u sredini.

Medijan se široko koristio u devetnaestom veku, postavši neizostavni deo svake analize podataka u to vreme. Koristio ga je i Francis Galton, eminentni analitičar iz devetnaestog vijeka. U priči o vaganju bikova na početku ovog članka, Galton je prvobitno koristio medijanu kao predstavljanje mišljenja gomile.

Mnogi analitičari, uključujući Galtona, preferirali su medijan jer ga je lakše izračunati za manje skupove podataka.

Međutim, medijana nikada nije bila popularnija od srednje vrijednosti. Najvjerovatnije se to dogodilo zbog posebnih statističkih svojstava svojstvenih srednjoj vrijednosti, kao i njenog odnosa sa normalnom distribucijom.

Odnos između srednje i normalne distribucije

Kada vršimo mnoga mjerenja, rezultati su, kako kažu statističari, "normalno raspoređeni". To znači da ako se ovi podaci nacrtaju na grafikonu, tada će tačke na njemu prikazivati ​​nešto slično zvonu. Ako ih spojite, dobijate krivulju u obliku zvona. Mnoge statistike odgovaraju normalnoj distribuciji, kao što su visina ljudi, IQ i najviša godišnja temperatura.

Kada su podaci normalno raspoređeni, srednja vrijednost će biti vrlo blizu najvišoj tački na zvonastoj krivoj, a vrlo veliki broj mjerenja će biti blizu srednje vrijednosti. Postoji čak i formula koja predviđa koliko će mjerenja biti udaljeno od prosjeka.

Stoga, izračunavanje srednje vrijednosti daje istraživačima mnogo dodatnih informacija.

Odnos srednje vrijednosti prema standardnoj devijaciji daje mu veliku prednost, jer medijana nema takav odnos. Ova veza je važan dio analize eksperimentalnih podataka i statističke obrade informacija. Zbog toga je prosjek postao srž statistike i svih nauka koje se za svoje zaključke oslanjaju na više podataka.

Prednost srednje vrijednosti je i zbog činjenice da se lako izračunava od strane računara. Iako je srednju vrijednost za malu grupu podataka prilično lako izračunati sami, mnogo je lakše napisati kompjuterski program koji bi pronašao prosječnu vrijednost. Ako koristite Microsoft Excel, onda vjerojatno znate da funkciju medijane nije tako lako izračunati kao funkciju srednje vrijednosti.

Konačno, hvala odličnom naučna vrijednost i jednostavnost upotrebe, srednja vrijednost je postala glavna reprezentativna vrijednost. Međutim, ova opcija nije uvijek najbolja.

Prednosti medijane vrijednosti

U mnogim slučajevima kada želimo izračunati centar distribucije, medijana je najbolja mjera. To je zato što je prosječna vrijednost u velikoj mjeri određena ekstremnim mjerenjima.

Mnogi analitičari vjeruju da nepromišljena upotreba prosjeka negativno utiče na naše razumijevanje kvantitativnih informacija. Ljudi gledaju na prosek i misle da je to "normalno". Ali zapravo se može definirati nekim jednim pojmom koji se snažno izdvaja iz homogenog niza.

Zamislite analitičara koji želi znati reprezentativnu vrijednost za vrijednost pet kuća. Četiri kuće vrijede 100.000 dolara, a peta 900.000 dolara. Prosjek bi tada bio 200.000 dolara, a medijan bi bio 100.000 dolara. U ovom, kao iu mnogim drugim slučajevima, vrijednost medijana daje bolje razumijevanje onoga što se može nazvati "standardom".

Razumijevajući kako ekstremne vrijednosti mogu utjecati na prosjek, srednja vrijednost se koristi da odražava promjene u prihodima domaćinstva u SAD-u.

Medijan je također manje osjetljiv na "prljave" podatke kojima se analitičari danas bave. Mnogi statističari i analitičari prikupljaju informacije intervjuišući ljude na internetu. Ako korisnik slučajno doda dodatnu nulu odgovoru, što pretvara 100 u 1000, tada će ova greška utjecati na srednju vrijednost mnogo više od medijane.

Srednja ili medijana?

Biranje između medijane i srednje vrednosti ima dalekosežne implikacije, od našeg razumevanja efekata lekova na zdravlje do našeg znanja o tome šta je standardni budžet porodice.

Kako prikupljanje i analiza podataka sve više određuje način na koji razumijemo svijet, tako se mijenja i vrijednost količina koje koristimo. U idealnom svijetu, analitičari bi koristili i srednju vrijednost i medijanu za crtanje podataka.

Ali živimo u uslovima ograničenog vremena i pažnje. Zbog ovih ograničenja često moramo izabrati samo jedno. I u mnogim slučajevima, srednja vrijednost je poželjnija.

TEST

Na temu: "Mode. Medijan. Metode za njihovo izračunavanje"


Uvod

Srednje vrijednosti i povezani indikatori varijacije igraju vrlo važnu ulogu u statistici, što je zbog predmeta njenog proučavanja. Stoga je ova tema jedna od centralnih u kursu.

Prosjek je vrlo čest generalizirajući indikator u statistici. Ovo se objašnjava činjenicom da je samo uz pomoć prosjeka moguće karakterizirati populaciju prema kvantitativno promjenjivom atributu. Prosječna vrijednost u statistici je generalizirajuća karakteristika skupa fenomena istog tipa prema nekom kvantitativno promjenjivom atributu. Prosjek pokazuje nivo ovog atributa u odnosu na jedinicu populacije.

Proučavajući društvene pojave i nastojeći da identifikuju njihove karakteristične, tipične osobine u specifičnim uslovima mesta i vremena, statističari se široko koriste prosečnim vrednostima. Uz pomoć prosjeka, različite populacije se mogu porediti jedna s drugom prema različitim karakteristikama.

Prosjeci koji se koriste u statistici pripadaju klasi prosječnih snaga. Od prosječnih snaga najčešće se koristi aritmetička sredina, rjeđe harmonijska sredina; harmonijska sredina se koristi samo pri izračunavanju prosječnih stopa dinamike, a srednja kvadratna - samo pri izračunavanju indikatora varijacije.

Aritmetička sredina je količnik dijeljenja zbira opcija njihovim brojem. Koristi se u slučajevima kada se volumen varijabilnog atributa za cijelu populaciju formira kao zbir vrijednosti atributa za njene pojedinačne jedinice. Aritmetička sredina je najčešći tip prosjeka, budući da odgovara prirodi društvenih pojava, gdje se obim različitih znakova u agregatu najčešće formira upravo kao zbir vrijednosti atributa u pojedinim jedinicama stanovništva.

U skladu sa svojim definitivnim svojstvom, harmonijsku sredinu treba koristiti kada se ukupni volumen atributa formira kao zbir recipročnih vrijednosti varijante. Koristi se kada se, ovisno o raspoloživom materijalu, težine ne moraju množiti, već podijeliti na opcije ili, što je isto, pomnožiti s njihovom inverznom vrijednošću. Harmonična sredina u ovim slučajevima je recipročna vrijednost aritmetičke sredine recipročnih vrijednosti atributa.

Harmoničku sredinu treba koristiti u slučajevima kada ponderi nisu jedinice populacije – nosioci obilježja, već proizvodi tih jedinica i vrijednosti obilježja.


1. Definicija moda i medijana u statistici

Aritmetička i harmonijska sredina su generalizirajuće karakteristike populacije prema jednom ili drugom promjenjivom atributu. Pomoćne deskriptivne karakteristike distribucije varijabilnog atributa su mod i medijan.

U statistici, moda je vrijednost osobine (varijante) koja se najčešće nalazi u datoj populaciji. U seriji varijacija, ovo će biti varijanta sa najvećom frekvencijom.

Medijan u statistici se naziva varijanta, koja se nalazi u sredini serije varijacija. Medijan dijeli niz na pola, s obje njegove strane (gore i dolje) nalazi se isti broj populacijskih jedinica.

Mod i medijan, za razliku od eksponencijalnih prosjeka, su specifične karakteristike, njihova vrijednost je svaka posebna varijanta u nizu varijacija.

Režim se koristi u slučajevima kada je potrebno okarakterizirati vrijednost osobine koja se najčešće pojavljuje. Ako trebate, na primjer, saznati najčešću stopu nadnice u preduzeću, tržišnu cijenu po kojoj je prodato najveći broj roba, veličina cipela koju potrošači najviše traže itd., u tim slučajevima pribjegavaju modi.

Medijan je zanimljiv po tome što pokazuje kvantitativnu granicu vrijednosti varijabilne karakteristike koju je dostigla polovina pripadnika populacije. Neka prosječna plata zaposlenih u banci iznosi 650.000 rubalja. Mjesečno. Ova karakteristika se može dopuniti ako kažemo da je polovina radnika primala platu od 700.000 rubalja. i više, tj. uzmimo medijanu. Mod i medijan su tipične karakteristike u slučajevima kada su populacije homogene i velike po broju.


2. Pronalaženje moda i medijana u nizu diskretnih varijacija

Pronalaženje moda i medijana u varijacionom nizu, gdje su vrijednosti atributa date određenim brojevima, nije jako teško. Razmotrite tabelu 1. sa distribucijom porodica po broju djece.

Tabela 1. Distribucija porodica prema broju djece

Očigledno je da će u ovom primjeru moda biti porodica sa dvoje djece, jer ova vrijednost opcija odgovara najvećem broju porodica. Mogu postojati distribucije u kojima su sve varijante podjednako učestale, u tom slučaju nema mode, ili, drugim riječima, za sve varijante se može reći da su jednako modalne. U drugim slučajevima, ne jedna, već dvije opcije mogu biti najveća frekvencija. Tada će postojati dva načina, distribucija će biti bimodalna. Bimodalne distribucije mogu ukazivati ​​na kvalitativnu heterogenost populacije prema osobini koja se proučava.

Da biste pronašli medijan u diskretnom nizu varijacija, trebate podijeliti zbir frekvencija na pola i rezultatu dodati ½. Dakle, u raspodjeli 185 porodica po broju djece, medijana će biti: 185/2 + ½ = 93, tj. 93. opcija, koja naručeni red dijeli na pola. Šta znači 93. opcija? Da biste to saznali, morate akumulirati frekvencije, počevši od najmanjih opcija. Zbir frekvencija 1. i 2. opcije je 40. Jasno je da ovdje nema 93 opcije. Ako učestalost 3. opcije dodamo 40, onda ćemo dobiti zbir jednak 40 + 75 = 115. Dakle, 93. opcija odgovara trećoj vrijednosti varijabilnog atributa, a medijana će biti porodica sa dvoje djece .

Mod i medijan u ovom primjeru su se poklopili. Ako smo imali paran zbir frekvencija (na primjer, 184), onda primjenom gornje formule dobijamo broj medijana opcija, 184/2 + ½ = 92,5. Budući da nema frakcijskih opcija, rezultat pokazuje da je medijan u sredini između 92 i 93 opcije.

3. Proračun moda i medijana u nizu varijacije intervala

Deskriptivna priroda modusa i medijana je zbog činjenice da oni ne nadoknađuju pojedinačna odstupanja. Uvijek odgovaraju određenoj varijanti. Stoga, mod i medijan ne zahtijevaju kalkulacije da bi ih pronašli ako su poznate sve vrijednosti značajke. Međutim, u nizu varijacije intervala, proračuni se koriste za pronalaženje približne vrijednosti moda i medijana unutar određenog intervala.

Za izračunavanje određene vrijednosti modalne vrijednosti znaka zatvorenog u intervalu, koristi se sljedeća formula:

M o \u003d X Mo + i Mo * (f Mo - f Mo-1) / ((f Mo - f Mo-1) + (f Mo - f Mo + 1)),

gdje je X Mo minimalna granica modalnog intervala;

i Mo je vrijednost modalnog intervala;

fMo je frekvencija modalnog intervala;

f Mo-1 - frekvencija intervala koji prethodi modalnom;

f Mo+1 je frekvencija intervala nakon modalnog.

Proračun režima prikazat ćemo na primjeru datom u tabeli 2.


Tabela 2. Raspodjela radnika preduzeća prema primjeni standarda proizvodnje

Da bismo pronašli mod, prvo odredimo modalni interval date serije. Iz primjera se može vidjeti da najveća frekvencija odgovara intervalu u kojem se varijanta nalazi u rasponu od 100 do 105. Ovo je modalni interval. Vrijednost modalnog intervala je 5.

Zamjenom numeričkih vrijednosti iz tabele 2. u gornju formulu, dobijamo:

M o \u003d 100 + 5 * (104 -12) / ((104 - 12) + (104 - 98)) = 108,8

Značenje ove formule je sljedeće: vrijednost onog dijela modalnog intervala, koji se mora dodati njegovoj minimalnoj granici, određuje se ovisno o veličini frekvencija prethodnog i narednog intervala. U ovom slučaju dodajemo 8,8 na 100, tj. više od polovine intervala, jer je frekvencija prethodnog intervala manja od frekvencije sljedećeg intervala.

Izračunajmo sada medijanu. Da bismo pronašli medijanu u nizu varijacija intervala, prvo odredimo interval u kojem se nalazi (interval medijane). Takav interval će biti onaj čija je kumulativna frekvencija jednaka ili veća od polovine zbira frekvencija. Kumulativne frekvencije se formiraju postepenim zbrajanjem frekvencija, počevši od intervala od najmanju vrijednost sign. Polovina zbira frekvencija koje imamo je 250 (500:2). Dakle, prema tabeli 3. srednji interval će biti interval sa vrednošću zarada od 350.000 rubalja. do 400.000 rubalja.

Tabela 3. Izračunavanje medijane u nizu varijacije intervala

Prije ovog intervala, zbir akumuliranih frekvencija je bio 160. Stoga, da bi se dobila vrijednost medijane, potrebno je dodati još 90 jedinica (250 - 160).

Centralni trend podataka može se posmatrati ne samo kao vrijednost sa nultim ukupnim odstupanjem (aritmetička sredina) ili maksimalnom frekvencijom (mod), već i kao određena oznaka (određeni nivo analiziranog indikatora) koja dijeli rangirane podatke (poređane uzlaznim ili silaznim redom) na dva jednaka dijela. To jest, polovina početnih podataka je manja od ove oznake u svojoj vrijednosti, a polovina je više. To je ono što je medijana. Mod i medijan su važni indikatori, odražavaju strukturu podataka i ponekad se koriste umjesto aritmetičke sredine.

Dakle, medijan je nivo indikatora koji deli određeni skup podataka na dve jednake polovine. Kao demonstracijski primjer, ponovo se okrećemo skupu slučajnih brojeva. Ovakva raspodjela s velikim brojem vrijednosti u literaturi se opisuje kao uobičajena pojava. Evo podataka u obliku slike.

Očigledno, sa simetričnom raspodjelom, sredina, koja dijeli populaciju na pola, bit će u samom centru - na istom mjestu kao i aritmetička sredina (i mod). Ovo je, da tako kažem, idealna situacija kada se mod, medijana i aritmetička sredina poklapaju i sva njihova svojstva padaju na jednu tačku - maksimalna frekvencija, bisekcija, nulti zbir odstupanja - sve na jednom mjestu. Međutim, život nije tako simetričan kao normalna distribucija. Stoga, pogledajmo asimetričnu distribuciju i šta se tamo dešava sa našim centralnim trendovima.

Pretpostavimo da se radi o tehničkim mjerenjima odstupanja od očekivane vrijednosti nečega (sadržaja elemenata, udaljenosti, nivoa, mase, itd., itd.). Ako je sve u redu, onda će se odstupanja najvjerovatnije rasporediti po zakonu bliskom normalnom, otprilike kao na gornjoj slici (praksa opovrgava takvu pretpostavku, ali dobro). Ali ako je u analiziranom procesu prisutan neki značajan i nekontroliran faktor, tada se u zapažanjima mogu pojaviti anomalne vrijednosti koje će značajno utjecati na aritmetičku sredinu, ali gotovo ne i na medijanu, što se jasno vidi na sljedećem histogramu.

Medijan je glavna alternativa aritmetičkoj sredini, jer otporan je na anomalna odstupanja (outliers). Ovaj članak govori o tome kako se aritmetička sredina ponaša s abnormalnim vrijednostima i kako se nositi s tim, odnosno kako je učiniti manje ovisnom o izvanrednim vrijednostima. Glavne opcije su povećanje broja opservacija i/ili uklanjanje anomalija iz analitičkog uzorka. Dakle, prijelaz sa aritmetičke sredine na medijanu je još jedan način da se dobije stabilna (robusna) procjena matematičkog očekivanja. Druga stvar je da će se svojstva aritmetičke sredine zauvijek izgubiti, ali ovdje treba pogledati šta je važnije.

Sada primjeri stvarne upotrebe medijane u statistici. Kada se analizira prosječna plata u zemlji, umjesto aritmetičke sredine može se koristiti medijana. Narod ne voli kada mu je vlastita plata ispod prosjeka (aritmetike) u zemlji. To izaziva buru emocija i otkrića u pogrešnim proračunima. Kao, ja imam platu od 100 rubalja, a direktor ima 1000 rubalja, tako da ispada u prosjeku 550 rubalja. Šta je to nezadovoljni građani ne zna se i ne zanima. Ali ako koristite medijanu, bit će jasno da polovina stanovništva prima prihod manji od srednje vrijednosti, a polovina - više.

Ovaj indikator se koristi iu demografskoj statistici, kada se analiziraju različite kvantitativne i kvalitativne karakteristike (čvrstoća materijala, sadržaj elemenata, vrijeme rada, broj kvarova itd.). Čak i forex trgovci koriste medijanu kao neku vrstu tajnog signala za početak akcije. Iako većina njih to ne štedi.

matematički median property je da zbir apsolutnih (modulo) odstupanja od srednje vrijednosti daje minimalnu moguću vrijednost u poređenju sa odstupanjima od bilo koje druge vrijednosti. Čak i manje od aritmetičke sredine, oh kako! Ova činjenica nalazi svoju primenu, na primer, u rešavanju transportnih problema, kada je potrebno izračunati gradilište objekta u blizini puta na način da ukupna dužina letova do njega sa različitih mesta bude minimalna (stajališta, gas stanice, skladišta itd., itd.). Napomena za logističare.

(modul 111)

Srednja formula za diskretno podaci donekle podsjećaju na modnu formulu. Naime, činjenica da ne postoji formula kao takva. Srednja vrijednost se bira iz dostupnih podataka, a samo ako to nije moguće, vrši se jednostavan proračun.

Prije svega, podaci se rangiraju (poređaju u opadajućem redoslijedu). Dalje, postoje dvije opcije. Ako je broj vrijednosti neparan, tada će medijan odgovarati središnjoj vrijednosti serije, čiji se broj može odrediti formulom:

Ne. Ja je broj vrijednosti koja odgovara medijani,

N je broj vrijednosti u skupu podataka.

Tada će medijan biti označen kao

Ovo je prvi slučaj u kojem postoji jedna centralna vrijednost u podacima. Druga opcija se javlja kada je količina podataka parna, odnosno, umjesto jedne, postoje dvije središnje vrijednosti. Rješenje je jednostavno: uzima se aritmetička sredina dvije središnje vrijednosti:

Ovako se vrši pretraga ili izračunavanje u diskretnim podacima. Međutim, podaci također mogu biti interval, gdje nije moguće odabrati određenu vrijednost, jer jednostavno ne postoje određene vrijednosti. Kao i u modi, medijana se u ovom slučaju izračunava prema nekom opšteprihvaćenom pravilu, na osnovu određene pretpostavke, odnosno na oko. I dobro ispadne, kažem vam!

Za početak (nakon rangiranja podataka) pronađite srednji interval. Ovo je interval kroz koji prolazi željena srednja vrijednost. Određuje se pomoću akumuliranog udjela rangiranih intervala. Tamo gdje je akumulirani udio po prvi put premašio 50% svih vrijednosti, postoji i srednji interval.

Ne znam ko je smislio formulu medijane, ali očito su pošli od pretpostavke da je distribucija podataka unutar srednjeg intervala ujednačena (tj. 30% širine intervala je 30% vrijednosti, 80% vrijednosti širina je 80% vrijednosti itd.) . Dakle, znajući broj vrijednosti od početka srednjeg intervala do 50% svih vrijednosti u populaciji (razlika između polovine broja svih vrijednosti i akumulirane frekvencije premedijalnog intervala) , možete pronaći koji udio oni zauzimaju u cijelom srednjem intervalu. Ovaj udio se tačno prenosi na širinu srednjeg intervala, što ukazuje na određenu vrijednost, kasnije nazvanu medijana.

Bez daljnjeg, okrenimo se vizualnom dijagramu - bit će jasnije.

Ispalo je malo glomazno, ali sada je, nadam se, sve jasno i razumljivo. Kako ne biste svaki put tokom izračunavanja crtali takav grafikon, možete koristiti gotovu formulu. Srednja formula je:

Gdje x Me- donja granica srednjeg intervala;

i Me- srednja širina intervala;

∑f/2- broj svih vrijednosti podijeljen sa 2 (dva);

S (Me-1)- ukupan broj opservacija koje su akumulirane prije početka srednjeg intervala, tj. akumulirana frekvencija premedijalnog intervala;

f Me- broj opservacija u srednjem intervalu.

Kao što možete lako vidjeti, formula medijana se sastoji od dva člana: 1 - vrijednost početka srednjeg intervala i 2 - sam dio koji je proporcionalan nedostajućem akumuliranom udjelu do 50%. Nešto čak slično modnoj formuli. Razlika je u traženju tačke unutar intervala.

Na primjer, izračunajmo medijanu za sljedeće podatke.

Potrebno je pronaći srednju cijenu, odnosno cijenu koja je jeftinija i skuplja od polovine količine robe. Za početak, napravimo pomoćne proračune akumulirane frekvencije, akumuliranog udjela, ukupnog broja robe. Sada pogledajmo ponovo šta imamo.

Prema posljednjoj koloni "Akumulirani udio", određujemo srednji interval - 300-400 rubalja (akumulirani udio po prvi put je više od 50%). Širina intervala - 100 rubalja. Sada ostaje zamijeniti podatke u gornjoj formuli i izračunati medijan.

Odnosno, za jednu polovinu robe cijena je niža od 350 rubalja, za drugu polovinu je viša. Sve je jednostavno. Aritmetička sredina izračunata iz istih podataka je 355 rubalja. Razlika nije bitna, ali jeste.

Izračun medijane u Excelu

Statistika bez automatskih proračuna je prošli vek. Medijan brojeva je lako pronaći koristeći Excel funkcija, koji se naziva MEDIAN. Rabljeni archisimple. Aktivira se ćelija za proračun, poziva se funkcija, odabire se raspon podataka i "OK". Nema se o čemu više raspravljati. Pogodno za parne i neparne količine podataka.

Druga stvar su intervalni podaci. U Excelu ne postoji odgovarajuća funkcija. Stoga se mora koristiti gornja formula. Šta možeš učiniti? Ali to nije mnogo tragično, jer je izračunavanje medijane iz intervalnih podataka rijedak slučaj. Možete ga izračunati i na kalkulatoru.

Inače, činjenica da medijan dijeli podatke na dva jednaka dijela podsjeća na neke metode grupisanja. Zaista, nakon pronalaženja medijane, dobijamo i dvije grupe sa jednakim brojem vrijednosti. Razvijajući ovu ideju, podjela na grupe može se izvršiti ne samo po principu 50/50, već i prema drugim udjelima. Na primjer, 20% najviše vrijednosti nije niko drugi do grupa A u ABC analizi. O ostalim dionicama nekako u drugom članku. Vidite kako se naizgled nepovezane metode ukrštaju?

Moja priča o srednjoj statistici se bliži kraju. Nadam se da nije bio umoran. Na kraju predlažem slagalicu u stilu TV kviza "Ko želi da bude milioner?". Postoji skup podataka. 15, 5, 20, 5, 10. Koliki je prosjek? Četiri opcije:

Predlažem i da pogledate video na temu izračunavanja medijane u Excelu.



greška: Sadržaj je zaštićen!!