สรุปทางสถิติและการจัดกลุ่ม ชุดการกระจายทางสถิติ

27.09.2019 | ความงาม

เมื่อทำงานกับข้อมูล มักจะจำเป็นต้องค้นหาว่าตัวบ่งชี้เฉพาะนั้นอยู่ในตำแหน่งใดในรายการรวมในแง่ของขนาด ในสถิติสิ่งนี้เรียกว่าการจัดอันดับ Excel มีเครื่องมือที่ช่วยให้ผู้ใช้สามารถดำเนินการตามขั้นตอนนี้ได้อย่างรวดเร็วและง่ายดาย เรามาดูวิธีการใช้งานกันดีกว่า

ฟังก์ชั่นการจัดอันดับ

ในการจัดอันดับใน Excel จะมีการจัดเตรียมฟังก์ชันพิเศษไว้ ในแอปพลิเคชันเวอร์ชันเก่ามีโอเปอเรเตอร์หนึ่งตัวที่ออกแบบมาเพื่อแก้ไขปัญหานี้ - RANK เพื่อเหตุผลด้านความเข้ากันได้ จึงเหลืออยู่ในหมวดหมู่ของสูตรที่แยกจากกันในโปรแกรมเวอร์ชันใหม่ แต่ในนั้นก็ยังแนะนำให้ทำงานกับแอนะล็อกรุ่นใหม่ถ้าเป็นไปได้ ซึ่งรวมถึงตัวดำเนินการทางสถิติ RANK.RV และ RANK.SR เราจะพูดถึงความแตกต่างและอัลกอริธึมในการทำงานกับพวกเขาต่อไป

วิธีที่ 1: ฟังก์ชัน RANK.RV

ตัวดำเนินการ RANK.RV ประมวลผลข้อมูลและแสดงหมายเลขลำดับของอาร์กิวเมนต์ที่ระบุจากรายการรวมในเซลล์ที่ระบุ หากค่าหลายค่ามีระดับเท่ากัน ตัวดำเนินการจะแสดงค่าสูงสุดจากรายการ ตัวอย่างเช่น หากสองค่ามีค่าเท่ากัน ทั้งสองค่าจะถูกกำหนดหมายเลขที่สอง และค่าที่มากที่สุดถัดไปจะมีตัวเลขที่สี่ อย่างไรก็ตาม ตัวดำเนินการ RANK จะทำสิ่งเดียวกันใน Excel เวอร์ชันเก่า ดังนั้นฟังก์ชันเหล่านี้จึงถือว่าเหมือนกัน

ไวยากรณ์ของตัวดำเนินการนี้เขียนดังนี้:

จำเป็นต้องมีอาร์กิวเมนต์ "number" และ "reference" แต่ "order" เป็นทางเลือก เนื่องจากอาร์กิวเมนต์ "ตัวเลข" คุณต้องป้อนลิงก์ไปยังเซลล์ที่มีค่าหมายเลขซีเรียลที่คุณต้องการค้นหา อาร์กิวเมนต์ "ลิงก์" ประกอบด้วยที่อยู่ของช่วงทั้งหมดที่กำลังจัดอันดับ อาร์กิวเมนต์ "order" สามารถมีสองค่า - "0" และ "1" ในกรณีแรก ลำดับจะถูกนับตามลำดับที่ลดลง และในกรณีที่สอง นับเป็นลำดับที่เพิ่มขึ้น หากไม่ได้ระบุอาร์กิวเมนต์นี้ โปรแกรมจะถือว่าเป็นศูนย์โดยอัตโนมัติ

สูตรนี้สามารถเขียนด้วยตนเองในเซลล์ที่คุณต้องการให้แสดงผลการประมวลผล แต่สำหรับผู้ใช้จำนวนมาก การตั้งค่าอินพุตผ่านหน้าต่างตัวช่วยสร้างฟังก์ชันจะสะดวกกว่า

บทเรียน: ตัวช่วยสร้างฟังก์ชันใน Excel

วิธีที่ 2: ฟังก์ชัน RANK.SR

ฟังก์ชันที่สองที่ดำเนินการจัดอันดับใน Excel คือ RANK.SR ต่างจากฟังก์ชัน RANK และ RANK.RV หากค่าขององค์ประกอบหลายรายการตรงกัน ตัวดำเนินการนี้จะสร้างระดับเฉลี่ย นั่นคือหากค่าสองค่ามีขนาดเท่ากันและอยู่หลังค่าหมายเลข 1 ทั้งคู่จะได้รับหมายเลข 2.5

ไวยากรณ์ของ RANK.SR คล้ายกับโครงร่างของคำสั่งก่อนหน้ามาก ดูเหมือนว่านี้:

สามารถป้อนสูตรด้วยตนเองหรือผ่านตัวช่วยสร้างฟังก์ชัน เราจะอาศัยตัวเลือกสุดท้ายโดยละเอียด

เราเลือกเซลล์บนแผ่นงานเพื่อแสดงผลลัพธ์ เช่นเดียวกับครั้งก่อน ไปที่ Function Wizard โดยใช้ปุ่ม "Insert Function"
หลังจากเปิดหน้าต่าง Function Wizard ให้เลือกชื่อ RANK.SR ในรายการหมวดหมู่ “Statistical” และคลิกที่ปุ่ม “OK”
หน้าต่างข้อโต้แย้งถูกเปิดใช้งาน อาร์กิวเมนต์ของโอเปอเรเตอร์นี้เหมือนกับอาร์กิวเมนต์ของฟังก์ชัน RANK.RV ทุกประการ:
- หมายเลข (ที่อยู่ของเซลล์ที่มีองค์ประกอบที่ควรกำหนดระดับ)
- ลิงก์ (พิกัดของช่วงที่ทำการจัดอันดับ)
- สั่งซื้อ (อาร์กิวเมนต์เพิ่มเติม)
การป้อนข้อมูลลงในฟิลด์เกิดขึ้นในลักษณะเดียวกับโอเปอเรเตอร์ก่อนหน้า หลังจากการตั้งค่าทั้งหมดเสร็จสิ้นให้คลิกที่ปุ่ม "ตกลง"
อย่างที่คุณเห็นหลังจากดำเนินการเสร็จสิ้นแล้ว ผลการคำนวณจะแสดงในเซลล์ที่ทำเครื่องหมายไว้ในย่อหน้าแรกของคำแนะนำนี้ ผลรวมแสดงถึงตำแหน่งที่ค่าเฉพาะครอบครองท่ามกลางค่าอื่น ๆ ในช่วง ไม่เหมือนกับผลลัพธ์ของ RANK.RV ผลลัพธ์ของตัวดำเนินการ RANK.SR สามารถมีค่าเศษส่วนได้
เช่นเดียวกับสูตรก่อนหน้า โดยการเปลี่ยนการอ้างอิงจากแบบสัมพัทธ์เป็นแบบสัมบูรณ์และเครื่องหมายไฮไลต์ คุณสามารถจัดอันดับช่วงข้อมูลทั้งหมดโดยใช้การป้อนอัตโนมัติ อัลกอริธึมของการกระทำเหมือนกันทุกประการ

บทเรียน: ฟังก์ชันทางสถิติอื่นๆ ใน Microsoft Excel

บทเรียน: วิธีกรอกอัตโนมัติใน Excel

อย่างที่คุณเห็นใน Excel มีสองฟังก์ชันในการจัดอันดับของค่าเฉพาะในช่วงข้อมูล: RANK.RV และ RANK.SR สำหรับโปรแกรมเวอร์ชันเก่าจะใช้ตัวดำเนินการ RANK ซึ่งอันที่จริงแล้วเป็นอะนาล็อกที่สมบูรณ์ของฟังก์ชัน RANK.RV ความแตกต่างที่สำคัญระหว่างสูตร RANG.RV และ RANG.SR คือสูตรแรกระบุ ระดับสูงสุดหากค่าตรงกันและค่าที่สองจะแสดงค่าเฉลี่ยในรูปแบบ ทศนิยม- นี่เป็นข้อแตกต่างเพียงอย่างเดียวระหว่างตัวดำเนินการเหล่านี้ แต่จะต้องนำมาพิจารณาเมื่อเลือกฟังก์ชันที่ผู้ใช้ควรใช้

เราดีใจที่เราสามารถช่วยคุณแก้ไขปัญหาได้

ถามคำถามของคุณในความคิดเห็นโดยอธิบายสาระสำคัญของปัญหาโดยละเอียด ผู้เชี่ยวชาญของเราจะพยายามตอบโดยเร็วที่สุด

บทความนี้ช่วยคุณได้หรือไม่?

มาเรียนรู้กันเถอะ จัดอันดับข้อมูลตัวเลขใน Excelโดยใช้การเรียงลำดับแบบมาตรฐาน เช่นเดียวกับฟังก์ชัน RANK และกรณีพิเศษ (RANG.RV และ RANG.SR) ซึ่งจะช่วยในการเรียงลำดับอัตโนมัติ

สวัสดีผู้อ่านบล็อก TutorExcel.Ru ที่รักทุกคน

ปัญหาในการจัดอันดับข้อมูลตัวเลขเกิดขึ้นตลอดเวลาโดยมีเป้าหมายในการค้นหาค่าที่มากที่สุดหรือน้อยที่สุดในรายการ
ใน Excel คุณสามารถจัดการงานนี้ได้ 2 วิธี: ด้วยเครื่องมือมาตรฐาน การเรียงลำดับและด้วยความช่วยเหลือ ฟังก์ชั่น.

ตัวอย่างเช่น ลองใช้ตารางง่ายๆ พร้อมรายการค่าตัวเลข ซึ่งเราจะจัดอันดับข้อมูลเพิ่มเติม:

การเรียงลำดับข้อมูล

เริ่มจากตัวเลือกที่ง่ายและเข้าถึงได้มากที่สุด - การเรียงลำดับ

เราได้ตรวจสอบไปแล้วบางส่วนว่าสามารถจัดโครงสร้างข้อมูลโดยใช้ตัวกรองและการเรียงลำดับได้อย่างไร
หากต้องการเรียงลำดับโดยย่อ คุณจะต้องเลือกช่วงที่มีข้อมูลและเลือก บ้าน -> การแก้ไข -> การเรียงลำดับและการกรองแล้วระบุตามเกณฑ์ที่คุณต้องการเรียงลำดับ

ในกรณีนี้เราจะเลือก เรียงตามลำดับจากมากไปน้อยโดยจะจัดเรียงค่าจากมากไปน้อย:

ลบ วิธีนี้คือการเปลี่ยนแปลงโครงสร้างของแหล่งข้อมูลเนื่องจากในกระบวนการจัดเรียงข้อมูลสามารถสลับแถวและคอลัมน์ได้ซึ่งในบางกรณีอาจไม่สะดวกหรือทำไม่ได้
ข้อเสียที่สำคัญอีกประการหนึ่งของตัวเลือกนี้คือการขาดความสามารถในการเรียงลำดับอัตโนมัติ ดังนั้นทุกครั้งที่ข้อมูลมีการเปลี่ยนแปลงจะต้องทำการจัดเรียงใหม่อีกครั้ง

เพื่อเป็นแนวทางแก้ไขปัญหานี้ ลองพิจารณาวิธีการจัดอันดับแบบอื่น ซึ่งสามารถพิจารณาแยกจากการแก้ปัญหานี้ได้

การจัดอันดับข้อมูล

หากไม่สามารถเปลี่ยนโครงสร้างของเอกสารได้ เราสามารถสร้างชุดข้อมูลเพิ่มเติมที่จะมีหมายเลขซีเรียลของข้อมูลต้นฉบับได้
ฟังก์ชั่นนี้จะช่วยให้เราได้รับหมายเลขซีเรียลเหล่านี้ อันดับ(และยัง อันดับ.RVและ อันดับ.SR).

ฟังก์ชัน RANK ใน Excel

ไวยากรณ์และคำอธิบายของฟังก์ชัน:

ตัวเลข(อาร์กิวเมนต์ที่จำเป็น) - จำนวนที่คำนวณอันดับ
ลิงค์(อาร์กิวเมนต์ที่จำเป็น) - อาร์เรย์หรือการอ้างอิงถึงอาร์เรย์ของตัวเลข
คำสั่ง(อาร์กิวเมนต์ที่เป็นทางเลือก) - วิธีการสั่งซื้อ หากอาร์กิวเมนต์เป็น 0 หรือไม่ได้ระบุ ค่า 1 จะถูกกำหนดค่าให้กับองค์ประกอบสูงสุดในรายการ (เราจะเรียงลำดับจากมากไปน้อย) มิฉะนั้นค่า 1 จะถูกกำหนดให้กับองค์ประกอบขั้นต่ำ (เราเรียงลำดับจากน้อยไปหามาก) .

คุณลักษณะนี้มีอยู่ใน Excel ทุกรุ่น แต่ตั้งแต่ Excel 2010 ได้ถูกแทนที่ด้วย อันดับ.RVและ อันดับ.SR, ก อันดับเหลือไว้เพื่อความเข้ากันได้กับ Excel 2007 เรามาดูวิธีการทำงานกันดีกว่า

ฟังก์ชัน RANK.RV และ RANK.SR ใน Excel

ไวยากรณ์และคำอธิบายของฟังก์ชัน:

RANK.RV(หมายเลข; ลิงค์;)
ส่งกลับอันดับของตัวเลขในรายการตัวเลข: เลขลำดับที่สัมพันธ์กับตัวเลขอื่นๆ ในรายการ หากหลายค่ามีอันดับเดียวกัน ระบบจะส่งกลับอันดับสูงสุดจากชุดค่านั้น

อาร์กิวเมนต์สำหรับฟังก์ชันทั้งสามจะเหมือนกัน กล่าวคือ โดยพื้นฐานแล้วเกือบจะเหมือนกัน แต่มีรายละเอียดที่แตกต่างกันเล็กน้อย
ใช้ตารางต้นฉบับเป็นตัวอย่าง มาดูกันว่าแต่ละฟังก์ชันทำงานกับข้อมูลอย่างไร:

ดังที่เราเห็น ความแตกต่างอยู่ที่ประเภทของการจัดอันดับองค์ประกอบข้อมูลที่ตรงกันเท่านั้น

ในกรณีของ อันดับ.RVองค์ประกอบที่เท่ากันได้รับมอบหมายให้อยู่ในอันดับสูงสุด
ในตัวอย่างของเรา หมวดหมู่ แล็ปท็อปและ ผู้เล่นหลายคนสอดคล้องกับค่าองค์ประกอบเดียวกัน - 710 ซึ่งเป็น 3 ตามลำดับจากมากไปน้อย ตามลำดับ ค่าทั้งสองจะถูกกำหนดอันดับสูงสุด - 3
สำหรับ อันดับ.SRสำหรับค่าเดียวกัน จะมีการกำหนดอันดับเฉลี่ยไว้ เช่น ค่าเฉลี่ยระหว่าง 3 ถึง 4 หมายเลขซีเรียลคือ 3.5

นี่คือจุดที่ความแตกต่างระหว่างทั้งสองสิ้นสุดลง ดังนั้นคุณสามารถใช้ฟังก์ชันหนึ่งหรือฟังก์ชันอื่นก็ได้ ทั้งนี้ขึ้นอยู่กับงานของคุณ
หากคุณต้องการเรียงลำดับค่าจากน้อยไปหามากให้เป็นอาร์กิวเมนต์ คำสั่งคุณต้องระบุค่า 1:

การเรียงลำดับอัตโนมัติ

มาทำให้งานซับซ้อนขึ้นสักหน่อยแล้วลองจินตนาการว่าในอนาคตเราจำเป็นต้องสร้างตารางที่เรียงลำดับซึ่งจะได้รับการอัปเดตโดยอัตโนมัติเมื่อข้อมูลในตารางต้นฉบับมีการเปลี่ยนแปลง

ตัวอย่างเช่นสามารถทำได้โดยใช้ฟังก์ชัน VLOOKUP หรือการรวมกันของ INDEX และ MATCH อย่างไรก็ตามหากในรายการมีค่าเหมือนกัน เราจะไม่สามารถดึงข้อมูลได้อย่างถูกต้องและจะได้รับข้อผิดพลาด:

ในกรณีนี้คุณสามารถใช้เทคนิคง่ายๆ ในรูปแบบของทริคเล็กๆ น้อยๆ ได้
เรามาเพิ่มแต่ละค่าของตารางต้นฉบับซึ่งตัวเลขสุ่มที่ไม่ตรงกันซึ่งใกล้กับศูนย์ ตัวอย่างเช่น เพื่อจุดประสงค์เหล่านี้ ฉันใช้ฟังก์ชัน ROW หรือ COLUMN ซึ่งหารด้วยค่าที่มากอย่างเห็นได้ชัด

ขั้นตอนนี้จะช่วยให้เรารับตัวเลขที่แตกต่างกันในข้อมูลต้นฉบับ หลีกเลี่ยงการจับคู่อันดับและข้อผิดพลาดเมื่อดึงข้อมูล:

ตอนนี้องค์ประกอบทั้งหมดของตาราง (แม้แต่องค์ประกอบที่ตรงกันตั้งแต่แรก) จะมีอันดับเป็นของตัวเอง ซึ่งแตกต่างจากองค์ประกอบอื่นๆ จึงสามารถหลีกเลี่ยงข้อผิดพลาดได้เมื่อจัดอันดับข้อมูลโดยอัตโนมัติ

ดาวน์โหลดไฟล์ตัวอย่าง.

ขอบคุณสำหรับความสนใจของคุณ!
หากคุณมีคำถามใด ๆ เขียนในความคิดเห็น

ขอให้โชคดีและพบกันใหม่ในหน้าบล็อก TutorExcel.Ru!

ในการจัดอันดับข้อมูลใน Excel จะใช้ฟังก์ชันทางสถิติ RANK, RANK.RV, RANK.SR โดยทั้งหมดจะส่งคืนตัวเลขในรายการจัดอันดับของค่าตัวเลข มาดูไวยากรณ์และตัวอย่างกันดีกว่า

ตัวอย่างฟังก์ชัน RANK ใน Excel

ฟังก์ชันนี้ใช้เมื่อจัดอันดับในรายการตัวเลข นั่นคือช่วยให้คุณค้นหาค่าของตัวเลขที่สัมพันธ์กับค่าตัวเลขอื่นๆ หากคุณเรียงลำดับรายการจากน้อยไปหามาก ฟังก์ชันจะส่งกลับตำแหน่งของตัวเลข ตัวอย่างเช่น ในอาร์เรย์ของตัวเลข (30;2;26) ตัวเลข 2 จะมีอันดับ 1; 26 –2; 30 –3 (เป็นค่าที่ใหญ่ที่สุดในรายการ)

ไวยากรณ์ของฟังก์ชัน:

ตัวเลข. ซึ่งจำเป็นต้องกำหนดหมายเลขในการจัดอันดับ
ลิงค์. อาร์เรย์ของตัวเลขหรือช่วงของเซลล์ที่มีค่าตัวเลข หากคุณระบุเพียงตัวเลขเป็นอาร์กิวเมนต์ ฟังก์ชันจะส่งกลับข้อผิดพลาด ค่าที่ไม่ใช่ตัวเลขจะไม่ถูกกำหนดให้เป็นตัวเลข
คำสั่ง. วิธีการเรียงลำดับหมายเลขในรายการ ตัวเลือก: อาร์กิวเมนต์เป็น "0" หรือละเว้น - ค่า 1 ถูกกำหนดให้กับจำนวนสูงสุดในรายการ (ราวกับว่ารายการถูกจัดเรียงจากมากไปน้อย) อาร์กิวเมนต์เท่ากับตัวเลขที่ไม่ใช่ศูนย์ - อันดับ 1 ถูกกำหนดให้กับจำนวนที่น้อยที่สุดในรายการ (ราวกับว่ารายการถูกเรียงลำดับจากน้อยไปหามาก)

เรามาพิจารณาอันดับของตัวเลขในรายการโดยไม่ซ้ำกัน:

อาร์กิวเมนต์ที่กำหนดวิธีการเรียงลำดับตัวเลขคือ "0" ดังนั้นในฟังก์ชันนี้จึงกำหนดตัวเลขให้กับค่าจากมากไปน้อย หมายเลขสูงสุด 87 ถูกกำหนดให้เป็นหมายเลข 1

คอลัมน์ที่สามแสดงสูตรที่มีอันดับจากน้อยไปหามาก

เรามากำหนดจำนวนค่าในรายการที่มีค่าซ้ำกัน

ตัวเลขที่ซ้ำกันจะถูกเน้นด้วยสีเหลือง มีการกำหนดหมายเลขเดียวกันสำหรับพวกเขา ตัวอย่างเช่น หมายเลข 7 ในคอลัมน์ที่สองถูกกำหนดให้เป็นหมายเลข 9 (ทั้งในแถวที่สองและเก้า) ในคอลัมน์ที่สาม - 3 แต่ไม่มีตัวเลขใดในคอลัมน์ที่สองที่จะเป็น 10 และไม่มีตัวเลขใดในคอลัมน์ที่สามจะเป็น 4

เพื่อป้องกันไม่ให้อันดับซ้ำ (บางครั้งทำให้ผู้ใช้ไม่สามารถแก้ปัญหาได้) จะใช้สูตรต่อไปนี้:

สามารถกำหนดขีดจำกัดวิธีการทำงานของฟังก์ชันได้ ตัวอย่างเช่น คุณต้องจัดอันดับเฉพาะค่าตั้งแต่ 0 ถึง 30 ในการแก้ปัญหา ให้ใช้ฟังก์ชัน IF (=IF(A2

ค่าที่ตรงตามเงื่อนไขที่ระบุจะถูกเน้นด้วยสีเทา สำหรับตัวเลขที่มากกว่า 30 บรรทัดว่างจะปรากฏขึ้น

ตัวอย่างของฟังก์ชัน RANK.RV ใน Excel

ใน Excel เวอร์ชันตั้งแต่ปี 2010 ฟังก์ชัน RANK.RV จะปรากฏขึ้น นี่เป็นอะนาล็อกที่สมบูรณ์ของฟังก์ชันก่อนหน้า ไวยากรณ์เหมือนกัน ตัวอักษร "РВ" ในชื่อระบุว่าหากสูตรตรวจพบค่าที่เหมือนกัน ฟังก์ชันจะส่งกลับหมายเลขอันดับสูงสุด (นั่นคือองค์ประกอบแรกที่ตรวจพบในรายการเท่ากับ)

ดังที่คุณเห็นจากตัวอย่าง ฟังก์ชันนี้จะจัดการตัวเลขที่ซ้ำกันในรายการในลักษณะเดียวกับในสูตรปกติ หากจำเป็นเพื่อหลีกเลี่ยงการซ้ำอันดับ เราจะใช้สูตรอื่น (ดูด้านบน)

ตัวอย่างของฟังก์ชัน RANK.SR ใน Excel

ส่งกลับตัวเลขของค่าตัวเลขในรายการ (เลขลำดับที่สัมพันธ์กับค่าอื่นๆ) นั่นคือมันทำหน้าที่เดียวกัน ส่งกลับค่าเฉลี่ยเฉพาะเมื่อพบค่าที่เหมือนกัน

นี่คือผลลัพธ์ของฟังก์ชัน:

สูตรในคอลัมน์ "จากมากไปน้อย" คือ =RANK.SR(A2,$A$2:$A$9,0) ดังนั้นฟังก์ชันจึงกำหนดค่าเฉลี่ยจำนวน 1.5 ให้กับค่า 87

สมมติว่าในรายการตัวเลขมีค่าซ้ำกันสามค่า (เน้นด้วยสีส้ม)

ฟังก์ชั่นกำหนดให้แต่ละอันมีอันดับ 5 ซึ่งเป็นค่าเฉลี่ยที่ 4, 5 และ 6

ลองเปรียบเทียบการทำงานของสองฟังก์ชัน:

โปรดทราบว่าฟังก์ชันทั้งสองนี้ใช้งานได้เฉพาะใน Excel 2010 และสูงกว่าเท่านั้น ในเวอร์ชันก่อนหน้า คุณสามารถใช้สูตรอาร์เรย์เพื่อจุดประสงค์นี้ได้

ดาวน์โหลดตัวอย่างฟังก์ชันการจัดอันดับ RANK ใน Excel

ดังนั้นตัวอย่างทั้งหมดที่อธิบายไว้ข้างต้นช่วยให้คุณสามารถจัดอันดับข้อมูลโดยอัตโนมัติและรวบรวมการจัดอันดับค่าโดยไม่ต้องใช้การเรียงลำดับ

ระยะแรก การศึกษาทางสถิติรูปแบบคือการสร้างชุดรูปแบบ - การกระจายหน่วยประชากรตามลำดับตามค่าที่เพิ่มขึ้น (บ่อยขึ้น) หรือลดลง (น้อยกว่า) ของลักษณะเฉพาะและการนับจำนวนหน่วยด้วยค่าเฉพาะของลักษณะเฉพาะ

ซีรีส์รูปแบบต่างๆ มีสามรูปแบบ: จัดอันดับ, ไม่ต่อเนื่อง, ช่วงเวลา ซีรีส์รูปแบบต่างๆ มักเรียกว่าซีรีส์การจัดจำหน่าย คำนี้ใช้ในการศึกษาความแปรผันในลักษณะเชิงปริมาณและไม่ใช่เชิงปริมาณ ชุดการจัดจำหน่ายคือการจัดกลุ่มโครงสร้าง (บทที่ 6)

อนุกรมอันดับคือรายการของแต่ละหน่วยของประชากรโดยเรียงลำดับจากน้อยไปหามาก (มากไปหาน้อย) ของคุณลักษณะที่กำลังศึกษา

ด้านล่างนี้เป็นข้อมูลเกี่ยวกับธนาคารขนาดใหญ่ในเซนต์ปีเตอร์สเบิร์ก จัดอันดับตามทุนจดทะเบียน ณ วันที่ 1 ตุลาคม 1999

ชื่อธนาคาร ทุนของตัวเอง ล้านรูเบิล

ธนาคารบัลโตเนซิม 169

ธนาคาร "เซนต์ปีเตอร์สเบิร์ก" 237

เปตรอฟสกี้ 268

ทะเลบอลติก 290

พรอมสตรอยแบงก์ 1007

หากจำนวนหน่วยประชากรมีขนาดใหญ่พอ ซีรีส์ที่ได้รับการจัดอันดับจะยุ่งยาก และการก่อสร้างแม้จะใช้คอมพิวเตอร์ช่วยก็ตาม เวลานาน- ในกรณีเช่นนี้ ชุดรูปแบบจะถูกสร้างขึ้นโดยการจัดกลุ่มหน่วยประชากรตามค่าของคุณลักษณะที่กำลังศึกษา

การกำหนดจำนวนกลุ่ม

จำนวนกลุ่มในชุดรูปแบบที่ไม่ต่อเนื่องจะพิจารณาจากจำนวนค่าที่มีอยู่จริงของคุณลักษณะที่แตกต่างกัน หากลักษณะเฉพาะใช้ค่าที่ไม่ต่อเนื่อง แต่มีจำนวนมาก (เช่นจำนวนปศุสัตว์ในวันที่ 1 มกราคมของปีในสถานประกอบการทางการเกษตรที่แตกต่างกันสามารถอยู่ในช่วงตั้งแต่ศูนย์ถึงหมื่นหัว) ดังนั้นชุดการแปรผันช่วงเวลาจะถูกสร้างขึ้น . ซีรีย์การแปรผันตามช่วงเวลายังถูกสร้างขึ้นเพื่อศึกษาคุณลักษณะที่สามารถรับค่าใด ๆ ทั้งค่าจำนวนเต็มและค่าเศษส่วนในพื้นที่ของการดำรงอยู่ของมัน. ตัวอย่างเช่น ความสามารถในการทำกำไรของสินค้าที่ขาย ต้นทุนต่อหน่วยการผลิต รายได้ต่อผู้อยู่อาศัยในเมือง ส่วนแบ่งของคนที่มี อุดมศึกษาในหมู่ประชากรของดินแดนที่แตกต่างกันและโดยทั่วไปแล้วลักษณะรองทั้งหมดซึ่งค่าจะคำนวณโดยการหารค่าของลักษณะหลักหนึ่งด้วยมูลค่าของอีกลักษณะหนึ่ง (ดูบทที่ 3)

อนุกรมความแปรผันตามช่วงเวลาคือตารางที่ประกอบด้วยสองคอลัมน์ (หรือแถว) - ช่วงเวลาของคุณลักษณะที่กำลังศึกษาความแปรผัน และจำนวนหน่วยประชากรที่อยู่ในช่วงนี้ (ความถี่) หรือสัดส่วนของจำนวนนี้จากจำนวนประชากรทั้งหมด (ความถี่)

ที่ใช้กันมากที่สุดคือซีรีย์การเปลี่ยนแปลงช่วงเวลาสองประเภท: ช่วงเท่ากันและความถี่เท่ากัน จะใช้อนุกรมช่วงเวลาที่เท่ากันหากความแปรผันของคุณลักษณะไม่รุนแรงมากเช่น สำหรับประชากรที่เป็นเนื้อเดียวกันซึ่งการกระจายตัวตามลักษณะนี้จะใกล้เคียงกับกฎปกติ (ชุดดังกล่าวแสดงไว้ในตารางที่ 5.6) ชุดความถี่เท่ากันจะใช้หากการเปลี่ยนแปลงของลักษณะเฉพาะมีความเข้มข้นมาก แต่การกระจายไม่ปกติ แต่ตัวอย่างเช่น การผ่อนชำระ (ตารางที่ 5.5)

เมื่อสร้างอนุกรมช่วงเท่ากัน จำนวนของกลุ่มจะถูกเลือกเพื่อให้ความหลากหลายของค่าคุณลักษณะในการรวมสะท้อนอย่างเพียงพอ และในขณะเดียวกัน รูปแบบการกระจายจะไม่บิดเบี้ยวจากความผันผวนของความถี่สุ่ม หากมีกลุ่มน้อยเกินไป รูปแบบของการแปรผันจะไม่ปรากฏ หากมีกลุ่มมากเกินไป การกระโดดความถี่แบบสุ่มจะทำให้รูปร่างของการแจกแจงผิดเพี้ยนไป

ขอบเขตของช่วงสามารถระบุได้หลายวิธี: ขอบเขตด้านบนของช่วงก่อนหน้าจะทำซ้ำขอบเขตด้านล่างของช่วงถัดไป ดังแสดงในตาราง 5.5 หรือไม่ทำซ้ำ

ในกรณีหลัง ช่วงที่สองจะถูกกำหนดเป็น 15.1-20 ช่วงที่สามเป็น 20.1-25 เป็นต้น เช่น สันนิษฐานว่าค่าผลผลิตทั้งหมดจะต้องปัดเศษให้เป็นหนึ่งในสิบ นอกจากนี้ภาวะแทรกซ้อนที่ไม่พึงประสงค์เกิดขึ้นในช่วงกลางของช่วงเวลา 15.1-20 ซึ่งพูดอย่างเคร่งครัดจะไม่เท่ากับ 17.5 อีกต่อไป แต่ 17.55; ดังนั้น เมื่อแทนที่ช่วงการปัดเศษ 40-60 ด้วย 40.1-60 แทนที่จะเป็นค่าการปัดเศษของค่ากลาง 50 เราจะได้ 50.5 ดังนั้นจึงเป็นการดีกว่าที่จะปล่อยให้ช่วงเวลามีขอบเขตการปัดเศษซ้ำๆ และตกลงว่าหน่วยประชากรที่มีค่าลักษณะเฉพาะเท่ากับขอบเขตช่วงจะรวมไว้ในช่วงเวลาที่ระบุค่าที่แน่นอนนี้เป็นครั้งแรก ดังนั้น ฟาร์มที่มีผลผลิตเท่ากับ 15 c/ha จะรวมอยู่ในกลุ่มแรก และค่า 20 c/ha - ในกลุ่มที่สอง เป็นต้น

ชุดการแปรผันความถี่เท่ากันเป็นสิ่งจำเป็นเมื่อมีการเปลี่ยนแปลงคุณลักษณะที่รุนแรงมาก เนื่องจากเมื่อมีการแจกแจงช่วงเท่ากัน หน่วยส่วนใหญ่ในประชากรจะปรากฏ

ตารางที่ 5.5

การกระจายของธนาคารรัสเซีย 100 แห่งตามการประเมินมูลค่าสินทรัพย์ ณ วันที่ 01/01/2543

ขอบเขตของช่วงเวลาสำหรับการกระจายความถี่ที่เท่ากันคือมูลค่าที่แท้จริงของสินทรัพย์ของธนาคารที่หนึ่ง, สิบ, สิบเอ็ด, ยี่สิบและอื่น ๆ

การแสดงกราฟิกของซีรี่ส์รูปแบบต่างๆ

การแสดงแบบกราฟิกให้ความช่วยเหลือที่สำคัญในการวิเคราะห์ชุดรูปแบบและคุณสมบัติของชุดต่างๆ ซีรีย์ช่วงเวลาแสดงเป็นแผนภูมิแท่ง โดยฐานของแท่งที่ตั้งอยู่บนแกน x คือช่วงของค่าของคุณลักษณะที่แตกต่างกัน และความสูงของแท่งคือความถี่ที่สอดคล้องกับมาตราส่วนตามแนวแกนกำหนด การแสดงการกระจายตัวของฟาร์มในภูมิภาคแบบกราฟิกตามผลผลิตธัญพืชจะแสดงในรูปที่ 1 5.1. แผนภาพประเภทนี้มักเรียกว่าฮิสโตแกรม (gr. histos - เนื้อเยื่อ)

ข้อมูลตาราง 5.6 และรูป 5.1 แสดงลักษณะรูปร่างการกระจายของลักษณะต่างๆ มากมาย: ค่าของช่วงเวลาเฉลี่ยของลักษณะจะพบได้บ่อยกว่า และค่าลักษณะสุดขั้ว เล็ก และใหญ่จะพบได้น้อยกว่า รูปร่างของการแจกแจงนี้ใกล้เคียงกับกฎที่กล่าวถึงในหลักสูตรสถิติทางคณิตศาสตร์ การกระจายตัวแบบปกติ- นักคณิตศาสตร์ผู้ยิ่งใหญ่ชาวรัสเซีย A. M. Lyapunov (1857-1918) พิสูจน์ว่าปกติ

ตารางที่ 5.6 การกระจายตัวของฟาร์มในภูมิภาคตามผลผลิตธัญพืช

การแจกแจงเล็กน้อยจะเกิดขึ้นหากตัวแปรได้รับอิทธิพลจากปัจจัยจำนวนมาก โดยไม่มีปัจจัยใดมีอิทธิพลเหนือกว่า การรวมกันของปัจจัยที่เท่าเทียมกันโดยประมาณหลายประการที่มีอิทธิพลต่อการเปลี่ยนแปลงในผลผลิตของพืชผลทั้งทางธรรมชาติและทางการเกษตร ทางเศรษฐกิจ ทำให้เกิดการกระจายตัวของฟาร์มในภูมิภาคด้วยผลผลิตที่ใกล้เคียงกับกฎหมายการกระจายแบบปกติ

ข้าว. 5.2. สะสมและก่อให้เกิดการกระจายตัวของฟาร์มตามผลผลิต

ซีรีส์ดังกล่าวเรียกว่าสะสม คุณสามารถสร้างการแจกแจงแบบสะสม “ไม่น้อยกว่า” หรือคุณสามารถสร้างการแจกแจงแบบ “มากกว่า” ก็ได้ ในกรณีแรกกราฟการแจกแจงสะสมเรียกว่าสะสมในส่วนที่สอง - ogive (รูปที่ 5.2)

ความหนาแน่นของการกระจาย

หากต้องรับมือกับ ซีรีย์การเปลี่ยนแปลงด้วยช่วงเวลาไม่เท่ากัน ดังนั้นเพื่อให้สามารถเปรียบเทียบได้ จำเป็นต้องลดความถี่หรือความถี่ให้เป็นหน่วยของช่วงเวลา อัตราส่วนผลลัพธ์เรียกว่าความหนาแน่นของการกระจาย:

ความหนาแน่นของการกระจายจะใช้ทั้งในการคำนวณตัวบ่งชี้ทั่วไปและเพื่อแสดงชุดความแปรผันแบบกราฟิกที่มีช่วงเวลาที่ไม่เท่ากัน

ขั้นตอนแรกของการศึกษาทางสถิติเกี่ยวกับความแปรผันคือการก่อสร้าง ซีรีย์การเปลี่ยนแปลง - สั่งการกระจายหน่วยประชากรตามค่าคุณลักษณะที่เพิ่มขึ้น (บ่อยขึ้น) หรือลดลง (น้อยลง) และนับจำนวนหน่วยที่มีค่าเฉพาะของลักษณะเฉพาะ

ซีรีส์รูปแบบต่างๆ มีสามรูปแบบ: ซีรีส์จัดอันดับ, ซีรีส์แยก, ซีรีส์ช่วง ซีรีส์รูปแบบต่างๆ มักเรียกว่า ใกล้กระจาย.คำนี้ใช้ในการศึกษาความแปรผันในลักษณะเชิงปริมาณและไม่ใช่เชิงปริมาณ ซีรีย์การจัดจำหน่ายคือ การจัดกลุ่มโครงสร้าง(ดูบทที่ 6)

แถวจัดอันดับ -นี่คือรายการของแต่ละหน่วยของประชากรโดยเรียงลำดับจากน้อยไปหามาก (มากไปหาน้อย) ของคุณลักษณะที่กำลังศึกษา

ตัวอย่างของซีรีส์จัดอันดับคือตาราง 5.5.

ตารางที่ 5.5

ธนาคารขนาดใหญ่ของเซนต์ปีเตอร์สเบิร์ก เรียงตามขนาดทุนจดทะเบียน ณ วันที่ 07/01/96

หากจำนวนหน่วยประชากรมีขนาดใหญ่เพียงพอ ซีรีส์อันดับจะยุ่งยาก และการก่อสร้างแม้จะใช้คอมพิวเตอร์ช่วยก็ใช้เวลานาน ในกรณีเช่นนี้ ชุดรูปแบบจะถูกสร้างขึ้นโดยการจัดกลุ่มหน่วยประชากรตามค่าของคุณลักษณะที่กำลังศึกษา

ถ้าคุณลักษณะใช้ค่าจำนวนน้อย จะมีการสร้างชุดรูปแบบที่แยกจากกัน ตัวอย่างของซีรีส์ดังกล่าวคือการกระจายการแข่งขันฟุตบอลตามจำนวนประตูที่ทำได้ (ตารางที่ 5.1) ซีรี่ส์รูปแบบที่ไม่ต่อเนื่อง -นี่คือตารางที่ประกอบด้วยสองบรรทัดหรือคอลัมน์: ค่าเฉพาะของคุณลักษณะที่แตกต่างกัน เอ็กซ์ฉันและจำนวนหน่วยประชากรที่มีค่าคุณลักษณะที่กำหนด ฉ ฉันความถี่ (f คือตัวอักษรเริ่มต้นของความถี่คำภาษาอังกฤษ)

การกำหนดจำนวนกลุ่ม

จำนวนกลุ่มในชุดรูปแบบที่ไม่ต่อเนื่องจะพิจารณาจากจำนวนค่าที่มีอยู่จริงของคุณลักษณะที่แตกต่างกัน หากแอตทริบิวต์สามารถรับค่าที่ไม่ต่อเนื่องได้ แต่มีจำนวนมาก (เช่น จำนวนปศุสัตว์ในวันที่ 1 มกราคมของปีในสถานประกอบการทางการเกษตรต่างๆ สามารถอยู่ในช่วงตั้งแต่ศูนย์ถึงหมื่นหัว) ดังนั้นชุดการเปลี่ยนแปลงช่วงเวลา ถูกสร้างขึ้น ซีรีย์การแปรผันช่วงเวลาถูกสร้างขึ้นเพื่อศึกษาคุณลักษณะที่สามารถรับค่าใด ๆ ทั้งจำนวนเต็มและเศษส่วนในพื้นที่ของการดำรงอยู่ของมัน ตัวอย่างเช่น ความสามารถในการทำกำไรของผลิตภัณฑ์ที่ขาย ต้นทุนของหน่วยการผลิต รายได้ต่อผู้อยู่อาศัยในเมือง 1 คน ส่วนแบ่งของผู้ที่มีการศึกษาระดับสูงในหมู่ประชากรของดินแดนที่แตกต่างกัน และโดยทั่วไปแล้ว ลักษณะรองทั้งหมด ค่านิยม ซึ่งคำนวณโดยการหารค่าของคุณลักษณะหลักหนึ่งด้วยค่าของอีกคุณลักษณะหนึ่ง (ดูบทที่ 3)

อนุกรมความแปรผันของช่วงคือตาราง (ประกอบด้วยสองคอลัมน์ (หรือแถว) - ช่วงเวลาของลักษณะเฉพาะ ความแปรผันที่กำลังศึกษา และจำนวนหน่วยของประชากรที่อยู่ในช่วงนี้ (ความถี่) หรือสัดส่วนของจำนวนนี้จาก จำนวนประชากรทั้งหมด (ความถี่)

เมื่อสร้างซีรีย์การเปลี่ยนแปลงช่วงเวลา จำเป็นต้องเลือกจำนวนกลุ่มที่เหมาะสมที่สุด (ช่วงแอตทริบิวต์) และตั้งค่าความยาวของช่วงเวลา เนื่องจากเมื่อวิเคราะห์อนุกรมความแปรผัน จะมีการเปรียบเทียบความถี่ในช่วงเวลาต่างๆ จึงจำเป็นที่ค่าของช่วงเวลาจะต้องคงที่ เลือกจำนวนกลุ่มที่เหมาะสมที่สุดเพื่อให้สะท้อนถึงความหลากหลายของค่าคุณลักษณะโดยรวมอย่างเพียงพอ และในขณะเดียวกัน รูปแบบการกระจายจะไม่ถูกบิดเบือนจากความผันผวนของความถี่แบบสุ่ม หากมีกลุ่มน้อยเกินไป รูปแบบของการแปรผันจะไม่ปรากฏ หากมีกลุ่มมากเกินไป การกระโดดความถี่แบบสุ่มจะทำให้รูปร่างของการแจกแจงผิดเพี้ยนไป

ส่วนใหญ่แล้ว จำนวนของกลุ่มในชุดรูปแบบต่างๆ จะถูกกำหนดโดยยึดตามสูตรที่แนะนำโดย Sturgess นักสถิติชาวอเมริกัน (ปลาสเตอร์เจส):

ที่ไหน เค- จำนวนกลุ่ม n- ขนาดประชากร

สูตรนี้แสดงว่าจำนวนกลุ่มเป็นฟังก์ชันของปริมาณข้อมูล

สมมติว่ามีความจำเป็นต้องสร้างชุดการกระจายตัวของวิสาหกิจในภูมิภาคตามผลผลิตพืชผลในปีหนึ่ง ๆ จำนวนวิสาหกิจการเกษตรที่มีพืชธัญญาหารอยู่ที่ 143; มูลค่าผลผลิตต่ำสุดคือ 10.7 c/ha สูงสุดคือ 53.1 c/ha เรามี:

เนื่องจากจำนวนกลุ่มเป็นจำนวนเต็ม ดังนั้นจึงแนะนำให้สร้าง 8 หรือ 9 กลุ่ม

การกำหนดขนาดช่วง

เมื่อทราบจำนวนกลุ่มแล้ว ให้คำนวณขนาดของช่วงเวลา:

ในตัวอย่างของเรา ค่าช่วงเวลาคือ:

ก) มี 8 กลุ่ม

b) มี 9 กลุ่ม

ในการสร้างอนุกรมและวิเคราะห์ความแปรผัน จะดีกว่ามากหากมีค่าปัดเศษสำหรับค่าของช่วงเวลาและขอบเขตของมัน ดังนั้น ทางออกที่ดีที่สุดคือสร้างอนุกรมรูปแบบที่มี 9 กลุ่มโดยมีช่วงห่าง 5 c/ha ซีรี่ส์รูปแบบนี้แสดงไว้ในตาราง 5.6 และการแสดงภาพกราฟิกแสดงไว้ในรูปที่ 5 5.1.

ขอบเขตของช่วงสามารถระบุได้หลายวิธี: ขอบเขตด้านบนของช่วงก่อนหน้าจะทำซ้ำขอบเขตด้านล่างของช่วงถัดไป ดังแสดงในตาราง 5.6 หรือไม่ทำซ้ำ

ในกรณีหลัง ช่วงที่สองจะกำหนดเป็น 15.1-20 ช่วงที่สามเป็น 20.1-25 เป็นต้น เช่น สันนิษฐานว่าค่าผลผลิตทั้งหมดจะต้องปัดเศษให้เป็นหนึ่งในสิบ นอกจากนี้ภาวะแทรกซ้อนที่ไม่พึงประสงค์เกิดขึ้นในช่วงกลางของช่วงเวลา 15.1-20 ซึ่งพูดอย่างเคร่งครัดจะไม่เท่ากับ 17.5 อีกต่อไป แต่ 17.55; ดังนั้น เมื่อแทนที่ช่วงการปัดเศษ 40-60 ด้วย 40.1-6.0 แทนที่จะเป็นค่าการปัดเศษของค่ากลาง 50 เราจะได้ 50.5 ดังนั้นจึงเป็นการดีกว่าที่จะทิ้งช่วงเวลาไว้ด้วยขอบเขตการปัดเศษซ้ำๆ และยอมรับว่าหน่วยประชากรที่มีลักษณะเฉพาะ ค่าที่เท่ากับขอบเขตของช่วงเวลา จะรวมอยู่ในช่วงเวลาที่ระบุค่าที่แน่นอนนี้เป็นครั้งแรก ดังนั้น ฟาร์มที่มีผลผลิต 15 c/ha จะรวมอยู่ในกลุ่มแรก และค่า 20 c/ha ในกลุ่มที่สอง เป็นต้น

ข้าว. 5.1. การกระจายฟาร์มตามผลผลิต

ตารางที่ 5.6

การกระจายตัวของฟาร์มในภูมิภาคตามผลผลิตเมล็ดพืช

กลุ่มฟาร์มแยกตามผลผลิต ค/ฮ่า เอ็กซ์เจ	จำนวนฟาร์ม	ตรงกลางของช่วงเวลา ค/ฮ่า เอ็กซ์เจ"	ความถี่สะสม ฉ' เจ

การแสดงกราฟิกของซีรี่ส์รูปแบบต่างๆ

การแสดงแบบกราฟิกให้ความช่วยเหลือที่สำคัญในการวิเคราะห์ชุดรูปแบบและคุณสมบัติของชุดต่างๆ อนุกรมช่วงเวลาแสดงด้วยแผนภูมิแท่งซึ่งฐานของแท่งที่ตั้งอยู่บนแกน Abscissa คือช่วงเวลาของค่าของคุณลักษณะที่แตกต่างกันและความสูงของแท่งคือความถี่ที่สอดคล้องกับมาตราส่วนตามแนวพิกัด แกน. การแสดงการกระจายตัวของฟาร์มในภูมิภาคแบบกราฟิกตามผลผลิตธัญพืชจะแสดงในรูปที่ 1 5.1. แผนภาพประเภทนี้มักเรียกว่า ฮิสโตแกรม(จาก คำภาษากรีก"ฮิสโตส" - เนื้อเยื่อโครงสร้าง)

ข้อมูลตาราง 5.5 และรูป 5.1 แสดงลักษณะรูปร่างการกระจายของหลายลักษณะ: ค่าของช่วงเวลาเฉลี่ยของลักษณะนั้นพบได้บ่อยกว่า และค่าสุดขั้วนั้นพบน้อยกว่า ค่าลักษณะเล็กและใหญ่ รูปร่างของการแจกแจงนี้ใกล้เคียงกับกฎการแจกแจงแบบปกติที่กล่าวถึงในวิชาสถิติทางคณิตศาสตร์ นักคณิตศาสตร์ผู้ยิ่งใหญ่ชาวรัสเซีย A. M. Lyapunov (1857 - 1918) พิสูจน์ว่าการแจกแจงแบบปกติจะเกิดขึ้นหากตัวแปรที่แตกต่างกันได้รับอิทธิพลจากปัจจัยจำนวนมาก ซึ่งไม่มีปัจจัยใดมีอิทธิพลเหนือกว่า การรวมกันของปัจจัยที่เท่าเทียมกันโดยประมาณหลายประการที่มีอิทธิพลต่อการเปลี่ยนแปลงในผลผลิตของพืชธัญพืช ทั้งทางธรรมชาติและทางการเกษตร ทางเศรษฐกิจ ทำให้เกิดการกระจายตัวของฟาร์มในภูมิภาคด้วยผลผลิตที่ใกล้เคียงกับกฎหมายการกระจายแบบปกติ

หากมีอนุกรมความแปรผันที่แยกจากกัน หรือใช้จุดกึ่งกลางของช่วงเวลา การแสดงแบบกราฟิกของอนุกรมความแปรผันดังกล่าวจะถูกเรียกว่า รูปหลายเหลี่ยม(จากคำภาษากรีก - รูปหลายเหลี่ยม) คุณแต่ละคนสามารถสร้างกราฟนี้ได้อย่างง่ายดายโดยการเชื่อมต่อจุดต่างๆ กับพิกัดที่เป็นเส้นตรง เอ็กซ์,และ /.

อัตราส่วนความสูงของรูปหลายเหลี่ยมหรือแผนภาพต่อฐานที่แนะนำคือประมาณ 5:8

แนวคิดเรื่องความถี่

ถ้าอยู่ในโต๊ะ. 5.6 แสดงจำนวนฟาร์มที่มีระดับผลผลิตที่กำหนดเป็นเปอร์เซ็นต์ของทั้งหมด โดยนำจำนวนฟาร์มทั้งหมด (143) เป็น 100% แล้วจึงคำนวณผลผลิตเฉลี่ยได้ดังนี้

ที่ไหน ว- ความถี่ของหมวดหมู่ที่ 7 ของซีรีย์รูปแบบ

การกระจายสะสม

รูปแบบที่แปลงแล้วของซีรีย์รูปแบบคือ จำนวนความถี่สะสมให้ไว้ในตาราง 5.6 คอลัมน์ 5 นี่คือชุดของค่าสำหรับจำนวนหน่วยประชากรที่มีค่าของลักษณะที่เล็กกว่าและเท่ากับขีดจำกัดล่างของช่วงเวลาที่สอดคล้องกัน ซีรีส์ดังกล่าวมีชื่อว่า สะสม.คุณสามารถสร้างการแจกแจงแบบสะสม “ไม่น้อยกว่า” หรือคุณสามารถสร้างการแจกแจงแบบ “มากกว่า” ก็ได้ ในกรณีแรกจะเรียกว่ากราฟการแจกแจงสะสม สะสม,ในครั้งที่สอง - โอกิวา(รูปที่ 5.2)

ความหนาแน่นการกระจายตัว

หากคุณต้องจัดการกับอนุกรมรูปแบบที่มีช่วงเวลาไม่เท่ากัน เพื่อให้สามารถเปรียบเทียบได้ คุณต้องลดความถี่หรือความถี่ให้เป็นหน่วยของช่วงเวลา ความสัมพันธ์ที่เกิดขึ้นเรียกว่า ความหนาแน่นของการกระจาย:

ข้าว. 5.2. Ogiva และการกระจายสะสมตามผลผลิต

5.7. ลักษณะโครงสร้างของการเปลี่ยนแปลง แถว

ค่ามัธยฐานของการกระจาย

เมื่อศึกษาความแปรผัน คุณลักษณะดังกล่าวของอนุกรมความแปรผันจะถูกนำมาใช้เพื่ออธิบายโครงสร้างและโครงสร้างของความแปรผันในเชิงปริมาณ นี่คือตัวอย่างเช่น ค่ามัธยฐาน-ค่าของคุณลักษณะที่แตกต่างกันซึ่งแบ่งประชากรออกเป็นสองส่วนเท่า ๆ กัน ~ โดยมีค่าแอตทริบิวต์น้อยกว่าค่ามัธยฐาน และ มีค่าแอตทริบิวต์มากกว่าค่ามัธยฐาน (ธนาคารที่สามของห้าในตารางที่ 5.5 คือ 196 พันล้านรูเบิล)

โดยใช้ตัวอย่างตาราง รูปที่ 5.5 แสดงผลความแตกต่างพื้นฐานระหว่างค่ามัธยฐานและค่าเฉลี่ย ค่ามัธยฐานไม่ได้ขึ้นอยู่กับค่าแอตทริบิวต์ที่ขอบของซีรีส์จัดอันดับ แม้ว่าเมืองหลวงของธนาคารที่ใหญ่ที่สุดในเซนต์ปีเตอร์สเบิร์กจะมีขนาดใหญ่กว่าสิบเท่า แต่ค่ามัธยฐานจะไม่เปลี่ยนแปลง ดังนั้นค่ามัธยฐานจึงมักถูกใช้เป็นตัวบ่งชี้ที่เชื่อถือได้มากกว่าของค่าทั่วไปของลักษณะเฉพาะมากกว่าค่าเฉลี่ยเลขคณิตหากชุดของค่าต่างกันและมีการเบี่ยงเบนอย่างมากจากค่าเฉลี่ย ในซีรีส์นี้ มูลค่าเฉลี่ยของทุนจดทะเบียนซึ่งเท่ากับ 269 พันล้านรูเบิล ถูกสร้างขึ้นภายใต้อิทธิพลอันยิ่งใหญ่ของตัวเลือกที่ใหญ่ที่สุด 80% ของธนาคารมีเงินทุนน้อยกว่าค่าเฉลี่ย และเพียง 20% เท่านั้นที่มีมากกว่า ไม่น่าเป็นไปได้ที่ค่าเฉลี่ยดังกล่าวจะถือเป็นค่าปกติได้ หากมีจำนวนหน่วยในประชากรเป็นเลขคู่ ค่าเฉลี่ยเลขคณิตของตัวเลือกกลางสองตัวจะถูกใช้เป็นค่ามัธยฐาน เช่น ด้วยค่าแอตทริบิวต์สิบค่า - ค่าเฉลี่ยของค่าที่ห้าและหกใน ซีรีส์อันดับ

ในชุดการเปลี่ยนแปลงช่วงเวลา สูตร (5.14) ใช้ในการค้นหาค่ามัธยฐาน

โดยที่ฉันอยู่ตรงกลาง

x 0 -ขีด จำกัด ล่างของช่วงเวลาที่มีค่ามัธยฐานอยู่

ฉ ’ M e-1 - ความถี่สะสมในช่วงเวลาก่อนค่ามัธยฐาน

ฉ ฉัน- ความถี่ในช่วงค่ามัธยฐาน

ฉัน- ขนาดช่วงเวลา

เค - จำนวนกลุ่ม

ในตาราง 5.6 ค่ามัธยฐาน คือ ค่าเฉลี่ย 143 ค่า ได้แก่ มูลค่าผลตอบแทนเจ็ดสิบวินาทีจากจุดเริ่มต้นของซีรีส์ ดังที่เห็นได้จากชุดความถี่สะสมจะอยู่ในช่วงที่สี่ แล้ว

เมื่อมีจำนวนหน่วยประชากรเป็นจำนวนคี่ จำนวนมัธยฐานตามที่เราเห็นจะเท่ากับ , ตามสูตร (5.14) ก แต่ความแตกต่างนี้ไม่มีสาระสำคัญและมักจะถูกละเลยในทางปฏิบัติ

ในอนุกรมการแปรผันแบบไม่ต่อเนื่อง ค่ามัธยฐานควรพิจารณาถึงค่าของคุณลักษณะในกลุ่มที่มีความถี่สะสม

เกินกว่าครึ่งหนึ่งของขนาดประชากร เช่น ข้อมูลในตาราง 5.1 จำนวนประตูเฉลี่ยที่ทำได้ต่อเกมคือ 2

ควอร์ไทล์การกระจาย

เช่นเดียวกับค่ามัธยฐานจะมีการคำนวณค่าของลักษณะโดยแบ่งประชากรออกเป็นสี่ส่วนเท่ากับจำนวนหน่วย ปริมาณเหล่านี้เรียกว่า ควอไทล์และถูกกำหนดด้วยอักษรละตินตัวพิมพ์ใหญ่ ถามพร้อมไอคอนเลขควอไทล์ลายเซ็น มันชัดเจนว่า ถาม 2 ตรงกับฉัน สำหรับควอไทล์ที่ 1 และ 3 เรามีสูตรและการคำนวณตามข้อมูลในตาราง 5.6.

เพราะ ถาม 2 = Me = 29.5 c/ha เห็นได้ชัดว่าความแตกต่างระหว่างควอร์ไทล์ที่ 1 และค่ามัธยฐานน้อยกว่าระหว่างค่ามัธยฐานและควอไทล์ที่ 3 ข้อเท็จจริงนี้บ่งชี้ถึงความไม่สมมาตรในบริเวณกึ่งกลางของการกระจาย ซึ่งสังเกตเห็นได้ชัดในรูปที่ 1 5.1.

ค่าลักษณะเฉพาะที่แบ่งอนุกรมออกเป็นห้าส่วนเท่า ๆ กันเรียกว่า ควินไทล์,ออกเป็นสิบส่วน - เดซิล,ต่อร้อยส่วน - เปอร์เซ็นไทล์เนื่องจากคุณลักษณะเหล่านี้ใช้เฉพาะเมื่อจำเป็นต้องศึกษารายละเอียดโครงสร้างของชุดรูปแบบต่างๆ เราจึงไม่ให้สูตรและการคำนวณ

โหมดการกระจาย

ไม่ต้องสงสัยเลยว่าคุณค่าของลักษณะเฉพาะที่เกิดขึ้นในซีรีส์ที่กำลังศึกษาโดยรวมบ่อยที่สุดเป็นสิ่งสำคัญ โดยทั่วไปจะเรียกว่าปริมาณนี้ แฟชั่นและหมายถึงโม ในชุดข้อมูลแยก โหมดจะถูกกำหนดโดยไม่มีการคำนวณเป็นค่าของคุณลักษณะที่มีความถี่สูงสุด เช่นตามตาราง 5.1 บ่อยที่สุดมีการยิง 2 ประตูในการแข่งขันฟุตบอล - 71 ครั้ง โหมดคือหมายเลข 2 โดยปกติแล้วจะมีซีรีส์ที่มีค่าโมดอลหนึ่งค่าของแอตทริบิวต์ หากมีค่าเท่ากันตั้งแต่สองค่าขึ้นไป (และมีหลายค่าที่แตกต่างกัน แต่มีขนาดใหญ่กว่าค่าใกล้เคียง) ของลักษณะที่ปรากฏในชุดรูปแบบต่างๆ จะถือว่าเป็น bimodal (“รูปอูฐ”) หรือ multimodal ตามลำดับ สิ่งนี้บ่งบอกถึงความหลากหลายของประชากร ซึ่งอาจเป็นตัวแทนของกลุ่มประชากรหลายกลุ่มที่มีรูปแบบที่แตกต่างกัน

ดังนั้นในกลุ่มนักท่องเที่ยวที่เดินทางมาจาก ประเทศต่างๆแทนที่จะเป็นสิ่งที่มีชัยเหนือชาวบ้านในท้องถิ่น เสื้อผ้าแฟชั่นคุณจะพบส่วนผสมของ "โหมด" ต่างๆ ที่นำมาใช้โดย ชาติต่างๆความสงบ.

ในชุดการแปรผันตามช่วงเวลา โดยเฉพาะอย่างยิ่งเมื่อมีการแปรผันอย่างต่อเนื่องของคุณลักษณะ กล่าวอย่างเคร่งครัด แต่ละค่าของคุณลักษณะจะเกิดขึ้นเพียงครั้งเดียว ช่วงเวลาโมดอลคือช่วงเวลาที่มีความถี่สูงสุด ภายในช่วงเวลานี้ จะพบค่าตามเงื่อนไขของแอตทริบิวต์ ซึ่งใกล้กับความหนาแน่นของการแจกแจง เช่น จำนวนหน่วยประชากรต่อหน่วยการวัดที่มีลักษณะแตกต่างกันถึงค่าสูงสุด นี่เป็นค่าตามเงื่อนไขและจะได้รับการพิจารณา โหมดจุดเป็นตรรกะที่จะสมมติว่าโหมดจุดนั้นตั้งอยู่ใกล้กับขอบเขตช่วงที่ความถี่ในช่วงที่อยู่ติดกันมากกว่าความถี่ในช่วงที่เกินขอบเขตอื่นของช่วงโมดอล จากตรงนี้ เรามีสูตรที่ใช้กันทั่วไป (5.15):

ที่ไหน x 0 - ขีดจำกัดล่างของช่วงเวลากิริยา;

ฉ โม - ความถี่ในช่วงเวลากิริยา;

ฉ โม -1 - ความถี่ในช่วงก่อนหน้า

ฉ โม +1 - ความถี่ในช่วงเวลาถัดไปหลังกิริยา;

ฉัน - ขนาดช่วงเวลา

ตามตารางครับ. 5.6 มาคำนวณโหมดกัน:

การคำนวณโหมดในชุดช่วงเวลานั้นมีเงื่อนไขมาก Mo สามารถกำหนดได้โดยประมาณแบบกราฟิก (ดูรูปที่ 5.1)

ค่าเฉลี่ยเลขคณิตยังเกี่ยวข้องกับการศึกษาโครงสร้างของชุดการแปรผัน แม้ว่าความหมายหลักของตัวบ่งชี้ทั่วไปนี้จะแตกต่างออกไป ในการกระจายฟาร์มตามผลผลิต (ตารางที่ 5.6) ผลผลิตเฉลี่ยจะคำนวณเป็นจุดกึ่งกลางที่ถ่วงน้ำหนักด้วยความถี่ของช่วง เอ็กซ์(ตามสูตร (5.2)):

ความสัมพันธ์ระหว่างค่าเฉลี่ย ค่ามัธยฐาน และแบบวิธี

ความแตกต่างระหว่างค่าเฉลี่ยเลขคณิต ค่ามัธยฐาน และโหมดในการแจกแจงนี้มีน้อย หากการแจกแจงมีรูปร่างใกล้เคียงกับกฎปกติ ค่ามัธยฐานจะอยู่ระหว่างโหมดกับค่าเฉลี่ย และจะอยู่ใกล้กับค่าเฉลี่ยมากกว่าโหมด

สำหรับความไม่สมมาตรทางด้านขวา เอ็กซ์̅ > ฉัน > โม;

ด้วยความไม่สมมาตรทางด้านซ้าย เอ็กซ์̅ < ฉัน< Mo.

สำหรับการแจกแจงแบบไม่สมมาตรปานกลาง ความเท่าเทียมกันจะคงอยู่:

5.8. ตัวบ่งชี้ขนาดและความเข้ม รูปแบบต่างๆ

ขนาดเฉลี่ยสัมบูรณ์ของการเปลี่ยนแปลง

ขั้นตอนต่อไปของการศึกษาความแปรผันของลักษณะอย่างครบถ้วนคือการวัดลักษณะเฉพาะของความแรงและขนาดของความแปรผัน สิ่งที่ง่ายที่สุดก็คือ ขอบเขตหรือ แอมพลิจูดของการแปรผัน -ความแตกต่างสัมบูรณ์ระหว่างค่าสูงสุดและต่ำสุดของคุณลักษณะจากค่าที่มีอยู่ในประชากรที่กำลังศึกษา ดังนั้นช่วงของการแปรผันจึงคำนวณโดยสูตร

เนื่องจากขนาดของช่วงแสดงเฉพาะความแตกต่างสูงสุดในค่าของลักษณะเฉพาะจึงไม่สามารถวัดความแข็งแกร่งตามธรรมชาติของการเปลี่ยนแปลงในประชากรทั้งหมดได้ ตัวบ่งชี้ที่มีวัตถุประสงค์เพื่อจุดประสงค์นี้จะต้องคำนึงถึงและสรุปความแตกต่างทั้งหมดในค่าของคุณลักษณะโดยรวมโดยไม่มีข้อยกเว้น จำนวนความแตกต่างดังกล่าวเท่ากับจำนวนชุดค่าผสมของสองจากทุกหน่วยของประชากร ตามตาราง 5.6 มันจะเป็น: ค^= 10 153 อย่างไรก็ตาม ไม่จำเป็นต้องพิจารณา คำนวณ และหาค่าเฉลี่ยส่วนเบี่ยงเบนทั้งหมด ง่ายกว่าที่จะใช้ค่าเฉลี่ยของการเบี่ยงเบนของแต่ละค่าของแอตทริบิวต์จากค่าเฉลี่ยเลขคณิตของแอตทริบิวต์และมีเพียง 143 ค่าเท่านั้น แต่ค่าเบี่ยงเบนเฉลี่ยของค่าแอตทริบิวต์จากค่าเฉลี่ยเลขคณิต ตามคุณสมบัติที่รู้จักกันดีของอย่างหลังคือศูนย์ ดังนั้นตัวบ่งชี้ความแรงของการแปรผันจึงไม่ใช่ค่าเฉลี่ยพีชคณิตของการเบี่ยงเบน แต่เป็น โมดูลส่วนเบี่ยงเบนเฉลี่ย:

ตามตารางครับ. 5.6 โมดูลกลางหรือ ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยในค่าสัมบูรณ์จะคำนวณเป็นค่าเบี่ยงเบนถ่วงน้ำหนักความถี่แบบโมดูโลจุดกึ่งกลางของช่วงเวลาจากค่าเฉลี่ยเลขคณิต เช่น ตามสูตร

ซึ่งหมายความว่าโดยเฉลี่ยแล้วผลผลิตในชุดฟาร์มที่ศึกษาเบี่ยงเบนไปจากผลผลิตเฉลี่ยในภูมิภาคที่ 6.85 c/ha อย่างไรก็ตาม ความง่ายในการคำนวณและการตีความถือเป็นข้อดีของตัวบ่งชี้นี้ คุณสมบัติทางคณิตศาสตร์โมดูล "ไม่ดี": ของพวกเขาไม่สามารถวางตามกฎความน่าจะเป็นใดๆ รวมถึงการแจกแจงแบบปกติ ซึ่งพารามิเตอร์ไม่ใช่โมดูลค่าเฉลี่ยของการเบี่ยงเบน แต่ ส่วนเบี่ยงเบนมาตรฐาน(ในโปรแกรมคอมพิวเตอร์ภาษาอังกฤษเรียกว่า “ส่วนเบี่ยงเบนมาตรฐาน” ย่อว่า “s.d.” หรือเรียกง่ายๆ ก็คือ « ส», ในภาษาที่พูดภาษารัสเซีย - SKO) ในวรรณกรรมทางสถิติ ค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยมักจะแสดงเป็นค่าน้อย (ตัวพิมพ์เล็ก) อักษรกรีกซิกมา (st) หรือ ส(ดูบทที่ 7):

สำหรับซีรีย์จัดอันดับ

สำหรับอนุกรมช่วงเวลา

ตามตารางครับ. 5.6 ค่าเบี่ยงเบนมาตรฐานของผลผลิตธัญพืชคือ:

ควรชี้ให้เห็นว่าการปัดเศษของค่าเฉลี่ยและค่ากึ่งกลางของช่วง เช่น การปัดเศษทั้งหมด มีผลเพียงเล็กน้อยต่อค่า σ ซึ่งจะเท่ากับ 8.55 c/ha

ค่าเบี่ยงเบนมาตรฐานในขนาดประชากรจริงจะมากกว่าค่าส่วนเบี่ยงเบนเฉลี่ยเสมอ อัตราส่วน (y: กขึ้นอยู่กับการมีส่วนเบี่ยงเบนที่คมชัดและโดดเด่นในมวลรวมและสามารถทำหน้าที่เป็นตัวบ่งชี้ "การปนเปื้อน" ของมวลรวมกับองค์ประกอบที่ต่างกันกับมวลรวม: ยิ่งอัตราส่วนนี้มากเท่าใด "การอุดตัน" นี้ก็จะยิ่งแข็งแกร่งขึ้นเท่านั้น สำหรับกฎการแจกแจงแบบปกติ σ: ก = 1,2.

แนวคิดเรื่องความแปรปรวน

กำลังสองของส่วนเบี่ยงเบนมาตรฐานจะให้ค่า การกระจายตัว σ 2สูตรการกระจายตัว:

ง่าย (สำหรับข้อมูลที่ไม่ได้จัดกลุ่ม):

ถ่วงน้ำหนัก (สำหรับข้อมูลที่จัดกลุ่ม):

วิธีการสถิติทางคณิตศาสตร์เกือบทั้งหมดจะขึ้นอยู่กับการกระจายตัว กฎสำหรับการบวกความแปรปรวนมีความสำคัญอย่างยิ่งในทางปฏิบัติ (ดูบทที่ 6)

มาตรการการเปลี่ยนแปลงอื่น ๆ

ตัวบ่งชี้ความแข็งแกร่งของการเปลี่ยนแปลงอีกประการหนึ่งซึ่งแสดงลักษณะไม่ครบถ้วน แต่เฉพาะในส่วนกลางเท่านั้นคือ ระยะทางเฉลี่ยรายไตรมาสเหล่านั้น. ความแตกต่างโดยเฉลี่ยระหว่างควอร์ไทล์แสดงไว้ด้านล่างเป็น ถาม:

เพื่อกระจายวิสาหกิจทางการเกษตรตามผลผลิตในตารางที่ 1 5.2

ถาม= (36.25 - 25.09): 2 = 5.58 c/เฮกตาร์ ความเข้มแข็งของการเปลี่ยนแปลงในภาคกลางของประชากรมักจะน้อยกว่าในประชากรทั้งหมด ความสัมพันธ์ระหว่างโมดูลค่าเบี่ยงเบนเฉลี่ยกับค่าเบี่ยงเบนเฉลี่ยรายไตรมาสยังทำหน้าที่ศึกษาโครงสร้างของความแปรปรวน: คุ้มค่ามากอัตราส่วนดังกล่าวบ่งชี้ถึงการมีอยู่ของ "แกนกลาง" ที่เปลี่ยนแปลงเล็กน้อยและสภาพแวดล้อมที่กระจัดกระจายอย่างมากรอบๆ แกนกลางนี้ หรือ "รัศมี" ในประชากรที่อยู่ระหว่างการศึกษา สำหรับข้อมูลในตาราง อัตราส่วน 5.6 ตอบ: ถาม= 1.23 ซึ่งบ่งบอกถึงความแตกต่างเล็กน้อยในความแข็งแกร่งของการเปลี่ยนแปลงในภาคกลางของประชากรและบริเวณรอบนอก

ในการประเมินความรุนแรงของการแปรผันและเปรียบเทียบในกลุ่มประชากรต่างๆ และโดยเฉพาะอย่างยิ่งสำหรับคุณลักษณะที่แตกต่างกัน เป็นสิ่งจำเป็น การวัดความสัมพันธ์ของการแปรผันคำนวณเป็นอัตราส่วนของตัวบ่งชี้สัมบูรณ์ของความแข็งแกร่งของการเปลี่ยนแปลงที่กล่าวถึงก่อนหน้านี้ต่อค่าเฉลี่ยเลขคณิตของคุณลักษณะ เราได้รับตัวบ่งชี้ดังต่อไปนี้:

1) ช่วงสัมพัทธ์ของการแปรผัน p:

2) ส่วนเบี่ยงเบนสัมพัทธ์ในโมดูลัส ที:

3) ค่าสัมประสิทธิ์ของการแปรผันเป็นส่วนเบี่ยงเบนกำลังสองสัมพัทธ์ โวลต์:

4) ระยะทางสัมพันธ์รายไตรมาส ง:

ที่ไหน ถาม - ระยะทางควอไทล์เฉลี่ย

สำหรับการแปรผันของผลผลิตตามข้อมูลในตาราง 5.6 ตัวบ่งชี้เหล่านี้คือ:

ρ = 42.4: 30.3 = 1.4 หรือ 140%;

ต= 6.85: 30.3 = 0.226 หรือ 22.6%;

โวลต์ = 8.44: 30.3 = 0.279 หรือ 27.9%;

ง= 5.58: 30.3 = 0.184 หรือ 18.4%

การประเมินระดับความรุนแรงของการแปรผันสามารถทำได้เฉพาะกับคุณลักษณะเฉพาะของประชากรในองค์ประกอบบางอย่างเท่านั้น ดังนั้น สำหรับกลุ่มวิสาหกิจทางการเกษตร ความแปรผันของผลผลิตในพื้นที่ธรรมชาติเดียวกันสามารถประเมินได้ว่าอ่อนแอหาก โวลต์ < 10%, умеренная при 10% < โวลต์ < 25% и сильная при โวลต์ > 25%.

ในทางตรงกันข้าม ความแปรผันของความสูงในประชากรของผู้ชายหรือผู้หญิงที่เป็นผู้ใหญ่ แม้จะอยู่ที่อัตรา 7% ก็ควรได้รับการประเมินและรับรู้โดยผู้คนว่ามีความแข็งแกร่ง ดังนั้น การประเมินความเข้มของการแปรผันประกอบด้วยการเปรียบเทียบความแปรผันที่สังเกตได้กับความเข้มปกติบางส่วน ซึ่งถือเป็นมาตรฐาน เราคุ้นเคยกับความจริงที่ว่าประสิทธิภาพการทำงานรายได้หรือรายได้ต่อหัวจำนวนห้องนั่งเล่นในอาคารอาจแตกต่างกันหลายหรือสิบเท่า แต่ความแตกต่างของความสูงของผู้คนอย่างน้อยหนึ่งครั้งครึ่งก็รับรู้ได้แล้ว แข็งแกร่งมาก

ความแรงและความรุนแรงของการแปรผันที่แตกต่างกันนั้นเนื่องมาจากเหตุผลที่เป็นรูปธรรม ตัวอย่างเช่น ราคาขายของดอลลาร์สหรัฐในธนาคารพาณิชย์ในเซนต์ปีเตอร์สเบิร์กเมื่อวันที่ 24 มกราคม 1997 เปลี่ยนแปลงจาก 5,675 ถึง 5,640 รูเบิล ที่ ราคาเฉลี่ย 5664 ถู ช่วงสัมพัทธ์ของการแปรผัน ρ = 35:5664 = 0.6% ความแตกต่างเล็กน้อยดังกล่าวเกิดจากความจริงที่ว่าหากอัตราแลกเปลี่ยนเงินดอลลาร์มีความแตกต่างอย่างมีนัยสำคัญ ผู้ซื้อจะไหลออกจากธนาคารที่ "แพง" ไปยังธนาคารที่ "ถูกกว่า" ทันที ในทางตรงกันข้ามราคามันฝรั่งหรือเนื้อวัวหนึ่งกิโลกรัมในภูมิภาคต่าง ๆ ของรัสเซียนั้นแตกต่างกันมาก - ประมาณสิบเปอร์เซ็นต์หรือมากกว่านั้น สิ่งนี้อธิบายได้จากต้นทุนที่แตกต่างกันในการจัดส่งสินค้าจากภูมิภาคการผลิตไปยังภูมิภาคผู้บริโภค เช่น สุภาษิตที่ว่า "วัวสาวข้ามทะเลมีค่าเพียงครึ่งรูเบิล แต่ขนรูเบิลได้"

5.9. ช่วงเวลาการกระจายและตัวชี้วัด รูปร่างของมัน

ช่วงเวลาสำคัญของการจัดจำหน่าย

เพื่อศึกษาธรรมชาติของการแปรผันเพิ่มเติม จะใช้ค่าเฉลี่ยของระดับความเบี่ยงเบนที่แตกต่างกันของแต่ละค่าของลักษณะจากค่าเฉลี่ยเลขคณิต ตัวชี้วัดเหล่านี้เรียกว่า จุดศูนย์กลางการกระจายลำดับที่สอดคล้องกับระดับของการเบี่ยงเบนที่เพิ่มขึ้น (ตาราง 5.7) หรือเพียงแค่ช่วงเวลา (ช่วงเวลาที่ไม่ใช่ศูนย์กลางนั้นไม่ค่อยได้ใช้และจะไม่ได้รับการพิจารณาที่นี่) ขนาดของโมเมนต์ที่สาม μ- ขึ้นอยู่กับความเด่นของลูกบาศก์บวกของการเบี่ยงเบนเหนือลูกบาศก์ลบ หรือในทางกลับกัน เมื่อใช้การกระจายแบบสมมาตรแบบปกติและแบบอื่นๆ ผลรวมของลูกบาศก์บวกจะเท่ากับผลรวมของลูกบาศก์ลบอย่างเคร่งครัด

ตัวชี้วัดความไม่สมดุล

ขึ้นอยู่กับช่วงเวลาลำดับที่สาม คุณสามารถสร้างตัวบ่งชี้ที่แสดงถึงระดับความไม่สมมาตรของการแจกแจงได้:

เช่นเรียกว่า ค่าสัมประสิทธิ์ความไม่สมดุลสามารถคำนวณได้จากข้อมูลทั้งแบบจัดกลุ่มและแบบไม่จัดกลุ่ม ตามตารางครับ. 5.6 ตัวบ่งชี้ความไม่สมมาตรคือ:

เหล่านั้น. ความไม่สมดุลไม่มีนัยสำคัญ เค. เพียร์สัน นักสถิติชาวอังกฤษ อิงจากความแตกต่างระหว่างค่าเฉลี่ยและโหมด เสนอตัวบ่งชี้ความไม่สมมาตรอีกแบบหนึ่ง

ตารางที่ 5.7

ช่วงเวลาสำคัญ

ตามตารางครับ. 5.6 ตัวบ่งชี้ของเพียร์สันคือ:

ดัชนีเพียร์สันขึ้นอยู่กับระดับของความไม่สมมาตรในส่วนตรงกลางของชุดการแจกแจงและดัชนีความไม่สมมาตรซึ่งขึ้นอยู่กับโมเมนต์ลำดับที่สามนั้นขึ้นอยู่กับค่าสุดขีดของลักษณะเฉพาะ ดังนั้นในตัวอย่างของเรา ในส่วนตรงกลางของการกระจาย ความไม่สมมาตรมีความสำคัญมากกว่า ดังที่เห็นได้จากกราฟ (รูปที่ 5.1) การแจกแจงที่มีความไม่สมมาตรด้านขวาและด้านซ้าย (บวกและลบ) ชัดเจนดังแสดงในรูปที่ 1 5.3.

ลักษณะของการกระจายความโด่ง

ด้วยความช่วยเหลือในขณะนี้ ลำดับที่สี่โดดเด่นด้วยคุณสมบัติการกระจายอนุกรมที่ซับซ้อนยิ่งกว่าความไม่สมมาตรที่เรียกว่า ส่วนเกิน.

ข้าว. 5.3. ความไม่สมมาตร การกระจายตัว

ตัวบ่งชี้ความโด่งคำนวณโดยใช้สูตร

(5.30)

Kurtosis มักถูกตีความว่าเป็น "ความชัน" ของการกระจายตัว แต่สิ่งนี้ไม่ชัดเจนและไม่สมบูรณ์ กราฟการกระจายสามารถมีลักษณะชันโดยพลการได้ ขึ้นอยู่กับความแข็งแกร่งของการแปรผันของลักษณะ: ยิ่งความแปรผันอ่อนลง เส้นโค้งการกระจายก็จะยิ่งชันมากขึ้นตามระดับที่กำหนด ไม่ต้องพูดถึงความจริงที่ว่าโดยการเปลี่ยนสเกลตามแกน x และกำหนดตำแหน่ง การกระจายใด ๆ สามารถทำให้ "สูงชัน" และ "แบน" อย่างเทียมได้ เพื่อแสดงให้เห็นว่าความโด่งของการแจกแจงประกอบด้วยอะไรและเพื่อตีความอย่างถูกต้อง จำเป็นต้องเปรียบเทียบอนุกรมที่มีความแรงของการแปรผันเท่ากัน (ค่าเท่ากันของ σ) และตัวบ่งชี้ความโด่งที่แตกต่างกัน เพื่อไม่ให้เกิดความสับสนระหว่างความโด่งกับความไม่สมมาตร อนุกรมที่เปรียบเทียบทั้งหมดจะต้องมีความสมมาตร การเปรียบเทียบนี้แสดงไว้ในรูปที่. 5.4.

รูปที่ 5.4 Kurtosis ของการแจกแจง

สำหรับชุดรูปแบบที่มีการแจกแจงค่าแบบปกติ ฉัน ดัชนีความโด่งคำนวณโดยใช้สูตร (5.30) j เท่ากับสาม

อย่างไรก็ตาม ตัวบ่งชี้ดังกล่าวไม่ควรเรียกว่าคำว่า "ส่วนเกิน" ซึ่งหมายถึง "ส่วนเกิน" คำว่า "โด่ง" ไม่ควรใช้กับอัตราส่วนตามสูตร (5.30) แต่เป็นการเปรียบเทียบอัตราส่วนดังกล่าวสำหรับการแจกแจงภายใต้การศึกษากับค่าของอัตราส่วนที่กำหนดของการแจกแจงแบบปกติเช่น ด้วยค่า 3 ดังนั้นสูตรสุดท้ายสำหรับตัวบ่งชี้ความโด่งคือ ส่วนเกินเมื่อเปรียบเทียบกับการแจกแจงแบบปกติที่มีความแรงของการแปรผันเท่ากันมีรูปแบบ:

สำหรับซีรีย์จัดอันดับ

สำหรับอนุกรมการแปรผันช่วงและแบบไม่ต่อเนื่อง

การปรากฏตัวของความโด่งเชิงบวกรวมถึงความแตกต่างอย่างมีนัยสำคัญที่ระบุไว้ก่อนหน้านี้ระหว่างระยะทางรายไตรมาสเล็ก ๆ และค่าเบี่ยงเบนมาตรฐานขนาดใหญ่หมายความว่าในมวลของปรากฏการณ์ที่กำลังศึกษามี "แกนกลาง" ที่แตกต่างกันเล็กน้อยตามลักษณะนี้ล้อมรอบ โดย "รัศมี" ที่กระจัดกระจาย ด้วยความโด่งเชิงลบที่สำคัญจึงไม่มี "แกนกลาง" ดังกล่าวเลย

ขึ้นอยู่กับค่าของตัวบ่งชี้ความไม่สมมาตรและโด่งของการแจกแจงเราสามารถตัดสินความใกล้เคียงของการกระจายสู่ระดับปกติซึ่งอาจจำเป็นสำหรับการประเมินผลลัพธ์ของความสัมพันธ์และ การวิเคราะห์การถดถอยความเป็นไปได้สำหรับการประเมินความน่าจะเป็นของการพยากรณ์ (ดูบทที่ 7,8,9) การแจกแจงถือได้ว่าเป็นปกติหรือแม่นยำกว่านั้น ไม่สามารถปฏิเสธสมมติฐานเกี่ยวกับความคล้ายคลึงกันของการแจกแจงจริงกับแบบปกติได้หากตัวบ่งชี้ความไม่สมมาตรและความโด่งไม่เกินค่าเบี่ยงเบนมาตรฐานสองเท่าของ Stz ค่าเบี่ยงเบนมาตรฐานเหล่านี้คำนวณโดยใช้สูตร:

5.10. ค่าสูงสุดที่เป็นไปได้ ตัวชี้วัดการเปลี่ยนแปลงและการนำไปใช้

เมื่อใช้ตัวบ่งชี้ทางสถิติประเภทใด ๆ จะมีประโยชน์ที่จะทราบว่าค่าที่เป็นไปได้สูงสุดของตัวบ่งชี้ที่กำหนดสำหรับระบบที่กำลังศึกษาคือเท่าใดและอัตราส่วนของค่าที่สังเกตได้จริงต่อค่าสูงสุดที่เป็นไปได้คือเท่าใด ปัญหานี้มีความเกี่ยวข้องโดยเฉพาะอย่างยิ่งเมื่อศึกษาความแปรผันของตัวชี้วัดเชิงปริมาตร เช่น ปริมาณการผลิตของผลิตภัณฑ์บางประเภท ความพร้อมของทรัพยากรบางอย่าง การกระจายการลงทุน รายได้ และกำไร ให้เราพิจารณาปัญหานี้ทั้งทางทฤษฎีและปฏิบัติโดยใช้ตัวอย่างการกระจายการผลิตผักระหว่างผู้ประกอบการทางการเกษตรในภูมิภาค

เห็นได้ชัดว่าค่าต่ำสุดที่เป็นไปได้ของตัวบ่งชี้การเปลี่ยนแปลงนั้นเกิดขึ้นได้ด้วยการกระจายลักษณะเชิงปริมาตรอย่างสม่ำเสมอในทุกหน่วยของประชากร เช่น ด้วยปริมาณการผลิตเท่ากันในสถานประกอบการทางการเกษตรแต่ละแห่ง ในการกระจายแบบจำกัด (แน่นอนว่าไม่น่าเป็นไปได้ในทางปฏิบัติ) ดังกล่าว จะไม่มีความแปรผัน และตัวบ่งชี้และความแปรผันทั้งหมดจะเท่ากับศูนย์

ค่าสูงสุดที่เป็นไปได้ของตัวบ่งชี้ความแปรผันนั้นเกิดขึ้นได้ด้วยการกระจายลักษณะเชิงปริมาตรในประชากรซึ่งปริมาตรทั้งหมดจะกระจุกตัวอยู่ในหน่วยหนึ่งของประชากร ตัวอย่างเช่น ปริมาณการผลิตผักทั้งหมดอยู่ในองค์กรเกษตรกรรมแห่งหนึ่งในภูมิภาค ในขณะที่ฟาร์มอื่นไม่มีการผลิต ความน่าจะเป็นที่ความเข้มข้นที่เป็นไปได้อย่างมากของปริมาตรของลักษณะเฉพาะในหนึ่งหน่วยของประชากรนั้นไม่น้อยนัก ไม่ว่าในกรณีใด จะมีค่ามากกว่าความน่าจะเป็นที่จะมีการแจกแจงแบบสม่ำเสมออย่างเคร่งครัด

ให้เราพิจารณาตัวบ่งชี้ความแปรผันสำหรับกรณีขีดจำกัดที่ระบุถึงค่าสูงสุด ให้เราแสดงจำนวนหน่วยของประชากร พีมูลค่าเฉลี่ยของลักษณะ เอ็กซ์̅ , จากนั้นปริมาณรวมของคุณลักษณะโดยรวมจะแสดงเป็น เอ็กซ์̅ พีปริมาตรทั้งหมดนี้กระจุกตัวอยู่ในหนึ่งหน่วยของมวลรวม ดังนั้น เอ็กซ์สูงสุด= x̅ พิกเซลนาที = 0, ซึ่งตามมาว่าค่าสูงสุดของแอมพลิจูด (ช่วงของการแปรผัน) เท่ากับ:

ในการคำนวณค่าสูงสุดของค่าเบี่ยงเบนเฉลี่ยแบบโมดูโลและกำลังสองเราจะสร้างตารางค่าเบี่ยงเบน (ตารางที่ 5.8)

ตาราง5.8

โมดูลและกำลังสองของการเบี่ยงเบนจากค่าเฉลี่ยสูงสุดการเปลี่ยนแปลงที่เป็นไปได้


หมายเลขหน่วยประชากร	ค่าลักษณะเฉพาะ	การเบี่ยงเบนจากค่าเฉลี่ย x ฉัน - x̅	โมดูลส่วนเบี่ยงเบน \|x ฉัน - x̅\|	ส่วนเบี่ยงเบนกำลังสอง (เอ็กซ์ฉัน- เอ็กซ์̅ ) 2
	เอ็กซ์̅ n	เอ็กซ์̅ (พี- 1) -x̅ -x̅ -x̅	เอ็กซ์̅ (พี- 1) เอ็กซ์̅ เอ็กซ์̅ เอ็กซ์̅	เอ็กซ์̅ 2 (พี- 1) 2 เอ็กซ์̅ 2 เอ็กซ์̅ 2 เอ็กซ์̅ 2
	เอ็กซ์̅ n		2เอ็กซ์̅ (พี- 1)	เอ็กซ์̅ 2 [(พี- 1) 2 +(น-1)]

ขึ้นอยู่กับนิพจน์ในบรรทัดสุดท้ายของตาราง 5.8 เราได้รับค่าสูงสุดที่เป็นไปได้ของตัวบ่งชี้การเปลี่ยนแปลงดังต่อไปนี้

โมดูลค่าเบี่ยงเบนเฉลี่ยหรือค่าเบี่ยงเบนเชิงเส้นเฉลี่ย:

ส่วนเบี่ยงเบนมาตรฐาน:

ส่วนเบี่ยงเบนแบบโมดูลาร์สัมพัทธ์ (เชิงเส้น):

ค่าสัมประสิทธิ์การเปลี่ยนแปลง:

สำหรับระยะทางรายไตรมาส ระบบที่มีความแปรผันสูงสุดที่เป็นไปได้มีโครงสร้างการกระจายที่เสื่อมลงของคุณลักษณะ ซึ่งไม่มีคุณลักษณะโครงสร้าง (“ไม่ทำงาน”): ค่ามัธยฐาน ควอร์ไทล์ และอื่นๆ ที่คล้ายคลึงกัน

ขึ้นอยู่กับสูตรที่ได้รับสำหรับค่าสูงสุดที่เป็นไปได้ของตัวบ่งชี้หลักของการเปลี่ยนแปลงประการแรกข้อสรุปดังต่อไปนี้เกี่ยวกับการพึ่งพาค่าเหล่านี้กับปริมาณของประชากร พีการพึ่งพาอาศัยกันนี้สรุปไว้ในตาราง 5.9.

ขีดจำกัดการเปลี่ยนแปลงที่แคบที่สุดและการพึ่งพาขนาดประชากรเพียงเล็กน้อยจะพบได้ในโมดูลค่าเฉลี่ยและการเบี่ยงเบนเชิงเส้นสัมพัทธ์ ในทางตรงกันข้าม ค่าเบี่ยงเบนมาตรฐานและค่าสัมประสิทธิ์ของการแปรผันขึ้นอยู่กับจำนวนหน่วยประชากรเป็นอย่างมาก ควรคำนึงถึงการพึ่งพาอาศัยกันนี้เมื่อเปรียบเทียบความรุนแรงของการเปลี่ยนแปลงในประชากรที่มีขนาดต่างกัน หากในวิสาหกิจทั้งหมด 6 แห่ง ค่าสัมประสิทธิ์การเปลี่ยนแปลงของปริมาณการผลิตคือ 0.58 และใน 20 วิสาหกิจทั้งหมดมีค่าเท่ากับ 0.72 เป็นเรื่องที่ยุติธรรมหรือไม่ที่จะสรุปว่าปริมาณการผลิตในประชากรกลุ่มที่สองมีความไม่สม่ำเสมอมากขึ้น อันที่จริง ในตอนแรก อันที่เล็กกว่านั้นคือ 0.58: 2.24 = 25.9% ของค่าสูงสุดที่เป็นไปได้ เช่น ระดับความเข้มข้นสูงสุดของการผลิตในสถานประกอบการหนึ่งจากทั้งหมดหกแห่ง และในสถานประกอบการที่สองซึ่งมีประชากรมากขึ้น ค่าสัมประสิทธิ์การเปลี่ยนแปลงที่สังเกตได้คือเพียง 0.72: 4.36 = 16.5% ของค่าสูงสุดที่เป็นไปได้

ตารางที่ 5.9

ค่าจำกัดของตัวบ่งชี้การเปลี่ยนแปลงลักษณะปริมาตรในขนาดประชากรที่แตกต่างกัน

จำนวนมวลรวม	ค่าสูงสุดของตัวบ่งชี้
จำนวนมวลรวม
		เอ็กซ์̅	เอ็กซ์̅
		1,5เอ็กซ์̅	1,73เอ็กซ์̅
		1,67เอ็กซ์̅	2,24เอ็กซ์̅
		1,80เอ็กซ์̅	3เอ็กซ์̅
		1,90เอ็กซ์̅	4,36เอ็กซ์̅
		1,96เอ็กซ์̅	7เอ็กซ์̅
		1,98เอ็กซ์̅	9,95เอ็กซ์̅
		2เอ็กซ์̅

ตัวบ่งชี้ดังกล่าวเป็นอัตราส่วนของโมดูลัสเฉลี่ยที่แท้จริงของการเบี่ยงเบนต่อค่าสูงสุดที่เป็นไปได้ก็มีความสำคัญในทางปฏิบัติเช่นกัน ดังนั้น สำหรับกลุ่มวิสาหกิจ 6 แห่ง อัตราส่วนนี้จึงเป็น: 0.47: 1.67 = 0.281 หรือ 28.1% การตีความตัวบ่งชี้ที่ได้รับมีดังนี้: เพื่อที่จะเปลี่ยนจากการกระจายปริมาณการผลิตที่สังเกตได้ระหว่างองค์กรไปสู่การกระจายแบบสม่ำเสมอจำเป็นต้องแจกจ่ายซ้ำ

หรือคิดเป็นร้อยละ 23.4 ของการผลิตทั้งหมด หากระดับความเข้มข้นของการผลิตจริง (ค่าจริง σ หรือ โวลต์) ถือเป็นสัดส่วนหนึ่งของค่าขีดจำกัดเมื่อผูกขาดการผลิตในองค์กรหนึ่ง ดังนั้นอัตราส่วนของตัวบ่งชี้ที่แท้จริงต่อค่าขีดจำกัดสามารถกำหนดลักษณะระดับความเข้มข้น (หรือการผูกขาด) ของการผลิตได้

อัตราส่วนของค่าที่แท้จริงของตัวบ่งชี้ความแปรปรวนหรือการเปลี่ยนแปลงโครงสร้างต่อค่าสูงสุดที่เป็นไปได้ยังใช้ในการวิเคราะห์การเปลี่ยนแปลงโครงสร้าง (ดูบทที่ 11)

1. เจนี่ เค.ค่าเฉลี่ย - อ.: สถิติ, 2513.

2. Krivenkova L. N. , Yuzbashev M. M.พื้นที่ของการดำรงอยู่ของตัวบ่งชี้การเปลี่ยนแปลงและการนำไปใช้ // กระดานข่าวสถิติ - พ.ศ. 2534. - ลำดับที่ 6. - ป.66-70.

3. ปัสคาเวอร์ ไอ.เอส.ค่าเฉลี่ยในสถิติ - ม.: สถิติ. 1979.

4. Shurakov V.V. , Dayitbegov D.M.อัตโนมัติ ที่ทำงานการประมวลผลข้อมูลทางสถิติ (บทที่ 4 การประมวลผลข้อมูลทางสถิติเบื้องต้น) - อ.: การเงินและสถิติ, 2533.

ขั้นตอนแรกของการศึกษาทางสถิติของการแปรผันคือการสร้างชุดการแปรผัน - การกระจายแบบเรียงลำดับของหน่วยประชากรตามค่าที่เพิ่มขึ้น (บ่อยขึ้น) หรือลดลง (น้อยกว่า) ของลักษณะเฉพาะและการนับจำนวนหน่วยด้วย คุณค่าเฉพาะของคุณลักษณะ

ชื่อธนาคาร ทุนของตัวเอง ล้านรูเบิล ธนาคารบัลโตเนซิม 169

ธนาคาร "เซนต์ปีเตอร์สเบิร์ก" 237

เปตรอฟสกี้ 268

ทะเลบอลติก 290

พรอมสตรอยแบงก์ 1007

การกำหนดจำนวนกลุ่ม

พื้นที่ของการดำรงอยู่ของมัน ตัวอย่างเช่น ความสามารถในการทำกำไรของผลิตภัณฑ์ที่ขาย ต้นทุนของหน่วยการผลิต รายได้ต่อผู้อยู่อาศัยในเมือง ส่วนแบ่งของผู้ที่มีการศึกษาระดับสูงในหมู่ประชากรในดินแดนที่แตกต่างกัน และโดยทั่วไปแล้ว ลักษณะรองทั้งหมด ค่านิยม ซึ่งคำนวณโดยการหารค่าของคุณลักษณะหลักหนึ่งด้วยค่าของอีกคุณลักษณะหนึ่ง (ดูบทที่ 3)

ในกรณีหลัง ช่วงที่สองจะถูกกำหนดเป็น 15.1-20 ช่วงที่สามเป็น 20.1-25 เป็นต้น เช่น สันนิษฐานว่าค่าผลผลิตทั้งหมดจะต้องปัดเศษให้เป็นหนึ่งในสิบ นอกจากนี้ภาวะแทรกซ้อนที่ไม่พึงประสงค์เกิดขึ้นในช่วงกลางของช่วงเวลา 15.1-20 ซึ่งพูดอย่างเคร่งครัดจะไม่เท่ากับ 17.5 อีกต่อไป แต่ 17.55; ดังนั้น เมื่อแทนที่ช่วงการปัดเศษ 40-60 ด้วย 40.1-60 แทนที่จะเป็นค่าการปัดเศษของค่ากลาง 50 เราจะได้ 50.5 ดังนั้นจึงเป็นการดีกว่าที่จะปล่อยให้ช่วงเวลามีขอบเขตการปัดเศษซ้ำๆ และตกลงว่าหน่วยประชากรที่มีค่าลักษณะเฉพาะเท่ากับขอบเขตช่วงจะรวมไว้ในช่วงเวลาที่ระบุค่าที่แน่นอนนี้เป็นครั้งแรก ดังนั้นฟาร์มที่ให้ผลผลิตเท่ากับ 15 c/ha จะรวมอยู่ในกลุ่มแรกด้วยค่าคือ 20 c/ha

ถึงวินาที ฯลฯ

ตารางที่ 5.5

การแสดงกราฟิกของซีรี่ส์รูปแบบต่างๆ

5.1. แผนภาพประเภทนี้มักเรียกว่าฮิสโตแกรม (gr. histos - เนื้อเยื่อ)

ข้อมูลตาราง 5.6 และรูป 5.1 แสดงลักษณะรูปร่างการกระจายของลักษณะต่างๆ มากมาย: ค่าของช่วงเวลาเฉลี่ยของลักษณะจะพบได้บ่อยกว่า และค่าลักษณะสุดขั้ว เล็ก และใหญ่จะพบได้น้อยกว่า รูปร่างของการแจกแจงนี้ใกล้เคียงกับกฎการแจกแจงแบบปกติที่กล่าวถึงในวิชาสถิติทางคณิตศาสตร์ นักคณิตศาสตร์ผู้ยิ่งใหญ่ชาวรัสเซีย A. M. Lyapunov (1857-1918) พิสูจน์ว่าปกติ

ตารางที่ 5.6 การกระจายตัวของฟาร์มในภูมิภาคตามผลผลิตธัญพืช

ข้าว. 5.2. สะสมและกระจายการจำหน่ายฟาร์มโดย

ผลผลิต

ซีรีส์ดังกล่าวเรียกว่าสะสม คุณสามารถสร้างการแจกแจงแบบสะสม "ไม่น้อยกว่า" หรือคุณสามารถสร้างได้

"มากกว่า" ในกรณีแรกกราฟการแจกแจงสะสมเรียกว่าสะสมในส่วนที่สอง - ogive (รูปที่ 5.2)

ความหนาแน่นของการกระจาย

หากคุณต้องจัดการกับอนุกรมรูปแบบที่มีช่วงเวลาไม่เท่ากัน เพื่อให้สามารถเปรียบเทียบได้ คุณต้องลดความถี่หรือความถี่ให้เป็นหน่วยของช่วงเวลา อัตราส่วนผลลัพธ์เรียกว่าความหนาแน่นของการกระจาย:

ขั้นตอนที่สำคัญที่สุดในการศึกษาปรากฏการณ์และกระบวนการทางเศรษฐกิจและสังคมคือการจัดระบบข้อมูลปฐมภูมิและบนพื้นฐานนี้การได้รับลักษณะสรุปของวัตถุทั้งหมดโดยใช้ตัวบ่งชี้ทั่วไป ซึ่งทำได้โดยการสรุปและจัดกลุ่มวัสดุทางสถิติหลัก

สรุปทางสถิติ - นี่เป็นการดำเนินการที่ซับซ้อนตามลำดับเพื่อสรุปข้อเท็จจริงเฉพาะของแต่ละบุคคลซึ่งก่อตัวเป็นชุดเพื่อระบุคุณลักษณะและรูปแบบทั่วไปที่มีอยู่ในปรากฏการณ์ที่กำลังศึกษาโดยรวม การจัดทำสรุปทางสถิติประกอบด้วยขั้นตอนดังต่อไปนี้ :

การเลือกลักษณะการจัดกลุ่ม
การกำหนดลำดับการก่อตัวของกลุ่ม
การพัฒนาระบบตัวบ่งชี้ทางสถิติเพื่อระบุลักษณะกลุ่มและวัตถุโดยรวม
การพัฒนาโครงร่างตารางสถิติเพื่อนำเสนอผลสรุป

การจัดกลุ่มทางสถิติ เรียกว่าการแบ่งหน่วยของประชากรที่กำลังศึกษาออกเป็นกลุ่มเนื้อเดียวกันตามลักษณะเฉพาะที่จำเป็นต่อพวกเขา การจัดกลุ่มเป็นวิธีทางสถิติที่สำคัญที่สุดในการสรุปข้อมูลทางสถิติ ซึ่งเป็นพื้นฐานสำหรับการคำนวณตัวบ่งชี้ทางสถิติที่ถูกต้อง

การจัดกลุ่มประเภทต่อไปนี้มีความโดดเด่น: ประเภท, โครงสร้าง, การวิเคราะห์ การจัดกลุ่มทั้งหมดนี้รวมกันโดยข้อเท็จจริงที่ว่าหน่วยของวัตถุถูกแบ่งออกเป็นกลุ่มตามลักษณะบางอย่าง

คุณลักษณะการจัดกลุ่ม เป็นลักษณะที่หน่วยประชากรถูกแบ่งออกเป็นกลุ่มต่างๆ จากลักษณะการจัดกลุ่มจะเป็นตัวกำหนดข้อสรุปของการศึกษาทางสถิติ เป็นพื้นฐานสำหรับการจัดกลุ่ม จำเป็นต้องใช้คุณลักษณะที่มีนัยสำคัญตามทฤษฎี (เชิงปริมาณหรือเชิงคุณภาพ)

ลักษณะเชิงปริมาณของการจัดกลุ่ม มีการแสดงตัวเลข (ปริมาณการซื้อขาย อายุของบุคคล รายได้ของครอบครัว ฯลฯ) และ สัญญาณเชิงคุณภาพของการจัดกลุ่ม สะท้อนถึงสถานะของหน่วยประชากร (เพศ, สถานภาพการสมรส, ความเกี่ยวข้องในอุตสาหกรรมขององค์กร, รูปแบบการเป็นเจ้าของ ฯลฯ )

หลังจากกำหนดพื้นฐานของการจัดกลุ่มแล้ว จะต้องตัดสินใจคำถามเกี่ยวกับจำนวนกลุ่มที่ควรแบ่งประชากรภายใต้การศึกษา

จำนวนกลุ่มขึ้นอยู่กับวัตถุประสงค์ของการศึกษาและประเภทของตัวบ่งชี้ที่เป็นพื้นฐานของการจัดกลุ่ม ปริมาณของประชากร และระดับของการเปลี่ยนแปลงของลักษณะเฉพาะ ตัวอย่างเช่น การจัดกลุ่มวิสาหกิจตามประเภทความเป็นเจ้าของจะคำนึงถึงทรัพย์สินของเทศบาล รัฐบาลกลาง และของรัฐบาลกลาง หากดำเนินการจัดกลุ่มตามปริมาณ ก็จำเป็นต้องกลับรายการความสนใจเป็นพิเศษ

จำนวนหน่วยของวัตถุที่กำลังศึกษาและระดับความแปรปรวนของลักษณะการจัดกลุ่ม เมื่อกำหนดจำนวนกลุ่มแล้ว จะต้องกำหนดช่วงเวลาการจัดกลุ่ม ช่วงเวลา

- นี่คือค่าของคุณลักษณะที่แตกต่างกันซึ่งอยู่ภายในขอบเขตที่กำหนด แต่ละช่วงเวลามีค่าของตัวเอง ขอบเขตบนและล่าง หรืออย่างน้อยหนึ่งขอบเขต ขีดจำกัดล่างของช่วงเวลา เรียกว่าค่าที่น้อยที่สุดของคุณลักษณะในช่วงเวลา และ ขีด จำกัด บน

- ค่าสูงสุดของคุณลักษณะในช่วงเวลา ค่าของช่วงเวลาคือความแตกต่างระหว่างขอบเขตบนและล่าง ช่วงเวลาการจัดกลุ่ม ขึ้นอยู่กับขนาด คือ เท่ากันและไม่เท่ากัน หากการแปรผันของคุณลักษณะปรากฏภายในขอบเขตที่ค่อนข้างแคบและมีการกระจายสม่ำเสมอ แสดงว่ากลุ่มจะถูกสร้างขึ้นในช่วงเวลาที่เท่ากัน ขนาดช่วงเวลาเท่ากัน :

กำหนดโดยสูตรต่อไปนี้

โดยที่ Xmax, Xmin คือค่าสูงสุดและต่ำสุดของคุณลักษณะในการรวม n - จำนวนกลุ่ม

การจัดกลุ่มที่ง่ายที่สุดซึ่งแต่ละกลุ่มที่เลือกจะมีตัวบ่งชี้หนึ่งตัวแสดงถึงชุดการแจกจ่าย ชุดการกระจายทางสถิติ - นี่คือการกระจายหน่วยประชากรออกเป็นกลุ่มตามลำดับตามลักษณะเฉพาะ ขึ้นอยู่กับคุณลักษณะที่เป็นรากฐานของการก่อตัวของชุดการแจกจ่าย แอตทริบิวต์ และซีรีย์การเปลี่ยนแปลง

การแจกแจง เรียกว่าชุดการจัดจำหน่ายที่สร้างขึ้นตามลักษณะเชิงคุณภาพ กล่าวคือ ลักษณะที่ไม่มีการแสดงออกทางตัวเลข (การกระจายตามประเภทของแรงงาน ตามเพศ ตามอาชีพ เป็นต้น) ชุดการแจกแจงแบบระบุลักษณะองค์ประกอบของประชากรตามลักษณะสำคัญบางประการ ข้อมูลเหล่านี้ใช้เวลาหลายช่วงเวลาทำให้สามารถศึกษาการเปลี่ยนแปลงโครงสร้างได้

ซีรีส์หลากหลาย เรียกว่าชุดการแจกจ่ายที่สร้างขึ้นบนพื้นฐานเชิงปริมาณ ซีรีย์รูปแบบใดๆ ประกอบด้วยสององค์ประกอบ: ตัวเลือกและความถี่ ตัวเลือก ค่าแต่ละค่าของคุณลักษณะที่ใช้ในชุดรูปแบบเรียกว่าค่าเฉพาะของคุณลักษณะที่แตกต่างกัน

ความถี่ จะมีการเรียกหมายเลขของตัวแปรแต่ละตัวหรือแต่ละกลุ่มของอนุกรมของตัวแปร นั่นคือตัวเลขที่แสดงว่าตัวแปรบางตัวเกิดขึ้นในซีรีย์การแจกจ่ายบ่อยแค่ไหน ผลรวมของความถี่ทั้งหมดจะกำหนดขนาดของประชากรทั้งหมดและปริมาตรของมัน ความถี่ เรียกว่าความถี่ที่แสดงเป็นเศษส่วนของหน่วยหรือเป็นเปอร์เซ็นต์ของทั้งหมด ดังนั้นผลรวมของความถี่จึงเท่ากับ 1 หรือ 100%

ขึ้นอยู่กับลักษณะของการเปลี่ยนแปลงของคุณลักษณะ อนุกรมรูปแบบสามรูปแบบจะมีความโดดเด่น: อนุกรมอันดับ อนุกรมแยก และอนุกรมช่วง

จัดอันดับซีรีส์รูปแบบต่างๆ - นี่คือการกระจายของแต่ละหน่วยของประชากรโดยเรียงลำดับจากน้อยไปหามากหรือจากมากไปหาน้อยของลักษณะที่กำลังศึกษา การจัดอันดับช่วยให้คุณแบ่งข้อมูลเชิงปริมาณออกเป็นกลุ่มๆ ได้อย่างง่ายดาย ตรวจจับข้อมูลที่เล็กที่สุดและทันที มูลค่าสูงสุดลักษณะเด่นเน้นค่าที่ซ้ำกันบ่อยที่สุด

ซีรี่ส์รูปแบบที่ไม่ต่อเนื่อง ระบุลักษณะการกระจายของหน่วยประชากรตามคุณลักษณะที่ไม่ต่อเนื่องซึ่งรับเฉพาะค่าจำนวนเต็ม ตัวอย่างเช่น หมวดหมู่ภาษี จำนวนเด็กในครอบครัว จำนวนพนักงานในองค์กร เป็นต้น

หากคุณลักษณะมีการเปลี่ยนแปลงอย่างต่อเนื่องซึ่งภายในขอบเขตที่กำหนดสามารถรับค่าใด ๆ (“จาก - ถึง”) ได้ดังนั้นสำหรับคุณลักษณะนี้จำเป็นต้องสร้าง อนุกรมการเปลี่ยนแปลงช่วงเวลา - ตัวอย่างเช่น จำนวนรายได้ ระยะเวลาการให้บริการ ต้นทุนสินทรัพย์ถาวรขององค์กร เป็นต้น

ตัวอย่างการแก้ปัญหาในหัวข้อ “สรุปทางสถิติ และการจัดกลุ่ม”

ปัญหาที่ 1 - มีข้อมูลเกี่ยวกับจำนวนหนังสือที่นักเรียนได้รับจากการสมัครสมาชิกในปีการศึกษาที่ผ่านมา

สร้างซีรีส์การกระจายรูปแบบที่มีการจัดอันดับและแยกกัน โดยกำหนดองค์ประกอบของซีรีส์

สารละลาย

ชุดนี้แสดงถึงตัวเลือกมากมายสำหรับจำนวนหนังสือที่นักเรียนได้รับ ลองนับจำนวนตัวเลือกดังกล่าวและจัดเรียงในรูปแบบของการจัดอันดับแบบแปรผันและแบบแปรผัน ซีรีส์ไม่ต่อเนื่องซีรีย์การเปลี่ยนแปลง

ปัญหาที่ 2 - มีข้อมูลเกี่ยวกับต้นทุนของสินทรัพย์ถาวรสำหรับ 50 องค์กรพันรูเบิล

สร้างชุดการแจกจ่ายโดยเน้นกลุ่มวิสาหกิจ 5 กลุ่ม (ในช่วงเวลาเท่ากัน)

สารละลาย

เพื่อแก้ปัญหาเราเลือกที่ใหญ่ที่สุดและ ค่าที่น้อยที่สุดมูลค่าของสินทรัพย์ถาวรขององค์กร

เหล่านี้คือ 30.0 และ 10.2 พันรูเบิล

มาหาขนาดของช่วงเวลา: h = (30.0-10.2):5= 3.96 พันรูเบิล

จากนั้นกลุ่มแรกจะรวมองค์กรที่มีสินทรัพย์ถาวรจำนวน 10.2 พันรูเบิล สูงถึง 10.2+3.96=14.16 พันรูเบิล จะมี 9 องค์กรดังกล่าว กลุ่มที่สองจะรวมองค์กรที่มีสินทรัพย์ถาวรจำนวน 14.16 พันรูเบิล มากถึง 14.16+3.96=18.12 พันรูเบิล จะมีวิสาหกิจดังกล่าวจำนวน 16 แห่ง เราจะพบจำนวนวิสาหกิจที่รวมอยู่ในกลุ่มที่สาม สี่ และห้า

เราวางซีรีย์การแจกจ่ายผลลัพธ์ลงในตาราง ปัญหา 3

- ข้อมูลต่อไปนี้ได้รับจากองค์กรอุตสาหกรรมเบาจำนวนหนึ่ง:

จัดกลุ่มวิสาหกิจตามจำนวนคนงาน โดยแบ่งเป็น 6 กลุ่มในช่วงเวลาเท่ากัน
คำนวณสำหรับแต่ละกลุ่ม:
1. จำนวนวิสาหกิจ
2. จำนวนคนงาน
3.ปริมาณสินค้าที่ผลิตต่อปี
4. ผลผลิตจริงโดยเฉลี่ยต่อคนงาน
5.ปริมาณสินทรัพย์ถาวร

6. ขนาดเฉลี่ยของสินทรัพย์ถาวรของหนึ่งองค์กร

สารละลาย

7. มูลค่าเฉลี่ยของผลิตภัณฑ์ที่ผลิตโดยองค์กรเดียว

นำเสนอผลการคำนวณเป็นตาราง วาดข้อสรุป

ในการแก้ปัญหา เราจะเลือกค่าที่ใหญ่ที่สุดและน้อยที่สุดของจำนวนพนักงานโดยเฉลี่ยในองค์กร คือ 43 และ 256

ลองหาขนาดของช่วงเวลา: h = (256-43):6 = 35.5

จากนั้นกลุ่มแรกจะรวมวิสาหกิจที่มีจำนวนคนงานโดยเฉลี่ยอยู่ระหว่าง 43 ถึง 43 + 35.5 = 78.5 คน จะมีวิสาหกิจดังกล่าวจำนวน 5 แห่ง กลุ่มที่สองจะรวมวิสาหกิจที่มีจำนวนคนงานโดยเฉลี่ยตั้งแต่ 78.5 ถึง 78.5+35.5=114 คน จะมีวิสาหกิจดังกล่าวอยู่ 12 แห่ง ในทำนองเดียวกัน เราจะพบจำนวนวิสาหกิจที่รวมอยู่ในกลุ่มที่สาม สี่ ห้า และหก

เนื่องจากกลุ่มที่สองเป็นกลุ่มที่ใหญ่ที่สุดปริมาณผลิตภัณฑ์ที่ผลิตต่อปีโดยองค์กรของกลุ่มนี้และปริมาณสินทรัพย์ถาวรจึงสูงกว่ากลุ่มอื่นอย่างมาก ในขณะเดียวกัน ผลผลิตจริงโดยเฉลี่ยต่อคนงานในองค์กรในกลุ่มนี้ก็ไม่ได้สูงที่สุด องค์กรของกลุ่มที่สี่กำลังเป็นผู้นำที่นี่ กลุ่มนี้ยังคิดเป็นปริมาณสินทรัพย์ถาวรที่ค่อนข้างใหญ่

โดยสรุป เราทราบว่าขนาดเฉลี่ยของสินทรัพย์ถาวรและจำนวนผลผลิตเฉลี่ยที่ผลิตโดยองค์กรหนึ่งนั้นเป็นสัดส่วนโดยตรงกับขนาดขององค์กร (ในแง่ของจำนวนคนงาน)

สรุปทางสถิติและการจัดกลุ่ม ชุดการกระจายทางสถิติ

ฟังก์ชั่นการจัดอันดับ

วิธีที่ 1: ฟังก์ชัน RANK.RV

วิธีที่ 2: ฟังก์ชัน RANK.SR

บทความนี้ช่วยคุณได้หรือไม่?

การเรียงลำดับข้อมูล

การจัดอันดับข้อมูล

ฟังก์ชัน RANK ใน Excel

ฟังก์ชัน RANK.RV และ RANK.SR ใน Excel

การเรียงลำดับอัตโนมัติ

ตัวอย่างฟังก์ชัน RANK ใน Excel

ตัวอย่างของฟังก์ชัน RANK.RV ใน Excel

ตัวอย่างของฟังก์ชัน RANK.SR ใน Excel

5.7. ลักษณะโครงสร้างของการเปลี่ยนแปลง แถว

5.8. ตัวบ่งชี้ขนาดและความเข้ม รูปแบบต่างๆ

5.9. ช่วงเวลาการกระจายและตัวชี้วัด รูปร่างของมัน

5.10. ค่าสูงสุดที่เป็นไปได้ ตัวชี้วัดการเปลี่ยนแปลงและการนำไปใช้

ตัวอย่างการแก้ปัญหาในหัวข้อ “สรุปทางสถิติ และการจัดกลุ่ม”

ดวงโดยละเอียดของผู้หญิงราศีเมษเดือนกุมภาพันธ์

อุปกรณ์เซมิคอนดักเตอร์-ประเภท ภาพรวม และการใช้งาน

วัตถุทำลายล้างที่ร้ายแรงที่สุดในจักรวาล

ไมโครวงจรสำหรับวงจรสวิตชิ่ง 555 CA 3

หมวดหมู่