สรุปทางสถิติและการจัดกลุ่ม ชุดการกระจายทางสถิติ

เมื่อทำงานกับข้อมูล มักจะจำเป็นต้องค้นหาว่าตัวบ่งชี้เฉพาะนั้นอยู่ในตำแหน่งใดในรายการรวมในแง่ของขนาด ในสถิติสิ่งนี้เรียกว่าการจัดอันดับ Excel มีเครื่องมือที่ช่วยให้ผู้ใช้สามารถดำเนินการตามขั้นตอนนี้ได้อย่างรวดเร็วและง่ายดาย เรามาดูวิธีการใช้งานกันดีกว่า

ฟังก์ชั่นการจัดอันดับ

ในการจัดอันดับใน Excel จะมีการจัดเตรียมฟังก์ชันพิเศษไว้ ในแอปพลิเคชันเวอร์ชันเก่ามีโอเปอเรเตอร์หนึ่งตัวที่ออกแบบมาเพื่อแก้ไขปัญหานี้ - RANK เพื่อเหตุผลด้านความเข้ากันได้ จึงเหลืออยู่ในหมวดหมู่ของสูตรที่แยกจากกันในโปรแกรมเวอร์ชันใหม่ แต่ในนั้นก็ยังแนะนำให้ทำงานกับแอนะล็อกรุ่นใหม่ถ้าเป็นไปได้ ซึ่งรวมถึงตัวดำเนินการทางสถิติ RANK.RV และ RANK.SR เราจะพูดถึงความแตกต่างและอัลกอริธึมในการทำงานกับพวกเขาต่อไป

วิธีที่ 1: ฟังก์ชัน RANK.RV

ตัวดำเนินการ RANK.RV ประมวลผลข้อมูลและแสดงหมายเลขลำดับของอาร์กิวเมนต์ที่ระบุจากรายการรวมในเซลล์ที่ระบุ หากค่าหลายค่ามีระดับเท่ากัน ตัวดำเนินการจะแสดงค่าสูงสุดจากรายการ ตัวอย่างเช่น หากสองค่ามีค่าเท่ากัน ทั้งสองค่าจะถูกกำหนดหมายเลขที่สอง และค่าที่มากที่สุดถัดไปจะมีตัวเลขที่สี่ อย่างไรก็ตาม ตัวดำเนินการ RANK จะทำสิ่งเดียวกันใน Excel เวอร์ชันเก่า ดังนั้นฟังก์ชันเหล่านี้จึงถือว่าเหมือนกัน

ไวยากรณ์ของตัวดำเนินการนี้เขียนดังนี้:

จำเป็นต้องมีอาร์กิวเมนต์ "number" และ "reference" แต่ "order" เป็นทางเลือก เนื่องจากอาร์กิวเมนต์ "ตัวเลข" คุณต้องป้อนลิงก์ไปยังเซลล์ที่มีค่าหมายเลขซีเรียลที่คุณต้องการค้นหา อาร์กิวเมนต์ "ลิงก์" ประกอบด้วยที่อยู่ของช่วงทั้งหมดที่กำลังจัดอันดับ อาร์กิวเมนต์ "order" สามารถมีสองค่า - "0" และ "1" ในกรณีแรก ลำดับจะถูกนับตามลำดับที่ลดลง และในกรณีที่สอง นับเป็นลำดับที่เพิ่มขึ้น หากไม่ได้ระบุอาร์กิวเมนต์นี้ โปรแกรมจะถือว่าเป็นศูนย์โดยอัตโนมัติ

สูตรนี้สามารถเขียนด้วยตนเองในเซลล์ที่คุณต้องการให้แสดงผลการประมวลผล แต่สำหรับผู้ใช้จำนวนมาก การตั้งค่าอินพุตผ่านหน้าต่างตัวช่วยสร้างฟังก์ชันจะสะดวกกว่า


บทเรียน: ตัวช่วยสร้างฟังก์ชันใน Excel

วิธีที่ 2: ฟังก์ชัน RANK.SR

ฟังก์ชันที่สองที่ดำเนินการจัดอันดับใน Excel คือ RANK.SR ต่างจากฟังก์ชัน RANK และ RANK.RV หากค่าขององค์ประกอบหลายรายการตรงกัน ตัวดำเนินการนี้จะสร้างระดับเฉลี่ย นั่นคือหากค่าสองค่ามีขนาดเท่ากันและอยู่หลังค่าหมายเลข 1 ทั้งคู่จะได้รับหมายเลข 2.5

ไวยากรณ์ของ RANK.SR คล้ายกับโครงร่างของคำสั่งก่อนหน้ามาก ดูเหมือนว่านี้:

สามารถป้อนสูตรด้วยตนเองหรือผ่านตัวช่วยสร้างฟังก์ชัน เราจะอาศัยตัวเลือกสุดท้ายโดยละเอียด

  1. เราเลือกเซลล์บนแผ่นงานเพื่อแสดงผลลัพธ์ เช่นเดียวกับครั้งก่อน ไปที่ Function Wizard โดยใช้ปุ่ม "Insert Function"
  2. หลังจากเปิดหน้าต่าง Function Wizard ให้เลือกชื่อ RANK.SR ในรายการหมวดหมู่ “Statistical” และคลิกที่ปุ่ม “OK”
  3. หน้าต่างข้อโต้แย้งถูกเปิดใช้งาน อาร์กิวเมนต์ของโอเปอเรเตอร์นี้เหมือนกับอาร์กิวเมนต์ของฟังก์ชัน RANK.RV ทุกประการ:
    • หมายเลข (ที่อยู่ของเซลล์ที่มีองค์ประกอบที่ควรกำหนดระดับ)
    • ลิงก์ (พิกัดของช่วงที่ทำการจัดอันดับ)
    • สั่งซื้อ (อาร์กิวเมนต์เพิ่มเติม)

    การป้อนข้อมูลลงในฟิลด์เกิดขึ้นในลักษณะเดียวกับโอเปอเรเตอร์ก่อนหน้า หลังจากการตั้งค่าทั้งหมดเสร็จสิ้นให้คลิกที่ปุ่ม "ตกลง"

  4. อย่างที่คุณเห็นหลังจากดำเนินการเสร็จสิ้นแล้ว ผลการคำนวณจะแสดงในเซลล์ที่ทำเครื่องหมายไว้ในย่อหน้าแรกของคำแนะนำนี้ ผลรวมแสดงถึงตำแหน่งที่ค่าเฉพาะครอบครองท่ามกลางค่าอื่น ๆ ในช่วง ไม่เหมือนกับผลลัพธ์ของ RANK.RV ผลลัพธ์ของตัวดำเนินการ RANK.SR สามารถมีค่าเศษส่วนได้
  5. เช่นเดียวกับสูตรก่อนหน้า โดยการเปลี่ยนการอ้างอิงจากแบบสัมพัทธ์เป็นแบบสัมบูรณ์และเครื่องหมายไฮไลต์ คุณสามารถจัดอันดับช่วงข้อมูลทั้งหมดโดยใช้การป้อนอัตโนมัติ อัลกอริธึมของการกระทำเหมือนกันทุกประการ

บทเรียน: ฟังก์ชันทางสถิติอื่นๆ ใน Microsoft Excel

บทเรียน: วิธีกรอกอัตโนมัติใน Excel

อย่างที่คุณเห็นใน Excel มีสองฟังก์ชันในการจัดอันดับของค่าเฉพาะในช่วงข้อมูล: RANK.RV และ RANK.SR สำหรับโปรแกรมเวอร์ชันเก่าจะใช้ตัวดำเนินการ RANK ซึ่งอันที่จริงแล้วเป็นอะนาล็อกที่สมบูรณ์ของฟังก์ชัน RANK.RV ความแตกต่างที่สำคัญระหว่างสูตร RANG.RV และ RANG.SR คือสูตรแรกระบุ ระดับสูงสุดหากค่าตรงกันและค่าที่สองจะแสดงค่าเฉลี่ยในรูปแบบ ทศนิยม- นี่เป็นข้อแตกต่างเพียงอย่างเดียวระหว่างตัวดำเนินการเหล่านี้ แต่จะต้องนำมาพิจารณาเมื่อเลือกฟังก์ชันที่ผู้ใช้ควรใช้

เราดีใจที่เราสามารถช่วยคุณแก้ไขปัญหาได้

ถามคำถามของคุณในความคิดเห็นโดยอธิบายสาระสำคัญของปัญหาโดยละเอียด ผู้เชี่ยวชาญของเราจะพยายามตอบโดยเร็วที่สุด

บทความนี้ช่วยคุณได้หรือไม่?

มาเรียนรู้กันเถอะ จัดอันดับข้อมูลตัวเลขใน Excelโดยใช้การเรียงลำดับแบบมาตรฐาน เช่นเดียวกับฟังก์ชัน RANK และกรณีพิเศษ (RANG.RV และ RANG.SR) ซึ่งจะช่วยในการเรียงลำดับอัตโนมัติ

สวัสดีผู้อ่านบล็อก TutorExcel.Ru ที่รักทุกคน

ปัญหาในการจัดอันดับข้อมูลตัวเลขเกิดขึ้นตลอดเวลาโดยมีเป้าหมายในการค้นหาค่าที่มากที่สุดหรือน้อยที่สุดในรายการ
ใน Excel คุณสามารถจัดการงานนี้ได้ 2 วิธี: ด้วยเครื่องมือมาตรฐาน การเรียงลำดับและด้วยความช่วยเหลือ ฟังก์ชั่น.

ตัวอย่างเช่น ลองใช้ตารางง่ายๆ พร้อมรายการค่าตัวเลข ซึ่งเราจะจัดอันดับข้อมูลเพิ่มเติม:

การเรียงลำดับข้อมูล

เริ่มจากตัวเลือกที่ง่ายและเข้าถึงได้มากที่สุด - การเรียงลำดับ

เราได้ตรวจสอบไปแล้วบางส่วนว่าสามารถจัดโครงสร้างข้อมูลโดยใช้ตัวกรองและการเรียงลำดับได้อย่างไร
หากต้องการเรียงลำดับโดยย่อ คุณจะต้องเลือกช่วงที่มีข้อมูลและเลือก บ้าน -> การแก้ไข -> การเรียงลำดับและการกรองแล้วระบุตามเกณฑ์ที่คุณต้องการเรียงลำดับ

ในกรณีนี้เราจะเลือก เรียงตามลำดับจากมากไปน้อยโดยจะจัดเรียงค่าจากมากไปน้อย:


ลบ วิธีนี้คือการเปลี่ยนแปลงโครงสร้างของแหล่งข้อมูลเนื่องจากในกระบวนการจัดเรียงข้อมูลสามารถสลับแถวและคอลัมน์ได้ซึ่งในบางกรณีอาจไม่สะดวกหรือทำไม่ได้
ข้อเสียที่สำคัญอีกประการหนึ่งของตัวเลือกนี้คือการขาดความสามารถในการเรียงลำดับอัตโนมัติ ดังนั้นทุกครั้งที่ข้อมูลมีการเปลี่ยนแปลงจะต้องทำการจัดเรียงใหม่อีกครั้ง

เพื่อเป็นแนวทางแก้ไขปัญหานี้ ลองพิจารณาวิธีการจัดอันดับแบบอื่น ซึ่งสามารถพิจารณาแยกจากการแก้ปัญหานี้ได้

การจัดอันดับข้อมูล

หากไม่สามารถเปลี่ยนโครงสร้างของเอกสารได้ เราสามารถสร้างชุดข้อมูลเพิ่มเติมที่จะมีหมายเลขซีเรียลของข้อมูลต้นฉบับได้
ฟังก์ชั่นนี้จะช่วยให้เราได้รับหมายเลขซีเรียลเหล่านี้ อันดับ(และยัง อันดับ.RVและ อันดับ.SR).

ฟังก์ชัน RANK ใน Excel

ไวยากรณ์และคำอธิบายของฟังก์ชัน:

  • ตัวเลข(อาร์กิวเมนต์ที่จำเป็น) - จำนวนที่คำนวณอันดับ
  • ลิงค์(อาร์กิวเมนต์ที่จำเป็น) - อาร์เรย์หรือการอ้างอิงถึงอาร์เรย์ของตัวเลข
  • คำสั่ง(อาร์กิวเมนต์ที่เป็นทางเลือก) - วิธีการสั่งซื้อ หากอาร์กิวเมนต์เป็น 0 หรือไม่ได้ระบุ ค่า 1 จะถูกกำหนดค่าให้กับองค์ประกอบสูงสุดในรายการ (เราจะเรียงลำดับจากมากไปน้อย) มิฉะนั้นค่า 1 จะถูกกำหนดให้กับองค์ประกอบขั้นต่ำ (เราเรียงลำดับจากน้อยไปหามาก) .

คุณลักษณะนี้มีอยู่ใน Excel ทุกรุ่น แต่ตั้งแต่ Excel 2010 ได้ถูกแทนที่ด้วย อันดับ.RVและ อันดับ.SR, ก อันดับเหลือไว้เพื่อความเข้ากันได้กับ Excel 2007 เรามาดูวิธีการทำงานกันดีกว่า

ฟังก์ชัน RANK.RV และ RANK.SR ใน Excel

ไวยากรณ์และคำอธิบายของฟังก์ชัน:

RANK.RV(หมายเลข; ลิงค์;)
ส่งกลับอันดับของตัวเลขในรายการตัวเลข: เลขลำดับที่สัมพันธ์กับตัวเลขอื่นๆ ในรายการ หากหลายค่ามีอันดับเดียวกัน ระบบจะส่งกลับอันดับสูงสุดจากชุดค่านั้น

อาร์กิวเมนต์สำหรับฟังก์ชันทั้งสามจะเหมือนกัน กล่าวคือ โดยพื้นฐานแล้วเกือบจะเหมือนกัน แต่มีรายละเอียดที่แตกต่างกันเล็กน้อย
ใช้ตารางต้นฉบับเป็นตัวอย่าง มาดูกันว่าแต่ละฟังก์ชันทำงานกับข้อมูลอย่างไร:


ดังที่เราเห็น ความแตกต่างอยู่ที่ประเภทของการจัดอันดับองค์ประกอบข้อมูลที่ตรงกันเท่านั้น

ในกรณีของ อันดับ.RVองค์ประกอบที่เท่ากันได้รับมอบหมายให้อยู่ในอันดับสูงสุด
ในตัวอย่างของเรา หมวดหมู่ แล็ปท็อปและ ผู้เล่นหลายคนสอดคล้องกับค่าองค์ประกอบเดียวกัน - 710 ซึ่งเป็น 3 ตามลำดับจากมากไปน้อย ตามลำดับ ค่าทั้งสองจะถูกกำหนดอันดับสูงสุด - 3
สำหรับ อันดับ.SRสำหรับค่าเดียวกัน จะมีการกำหนดอันดับเฉลี่ยไว้ เช่น ค่าเฉลี่ยระหว่าง 3 ถึง 4 หมายเลขซีเรียลคือ 3.5

นี่คือจุดที่ความแตกต่างระหว่างทั้งสองสิ้นสุดลง ดังนั้นคุณสามารถใช้ฟังก์ชันหนึ่งหรือฟังก์ชันอื่นก็ได้ ทั้งนี้ขึ้นอยู่กับงานของคุณ
หากคุณต้องการเรียงลำดับค่าจากน้อยไปหามากให้เป็นอาร์กิวเมนต์ คำสั่งคุณต้องระบุค่า 1:

การเรียงลำดับอัตโนมัติ

มาทำให้งานซับซ้อนขึ้นสักหน่อยแล้วลองจินตนาการว่าในอนาคตเราจำเป็นต้องสร้างตารางที่เรียงลำดับซึ่งจะได้รับการอัปเดตโดยอัตโนมัติเมื่อข้อมูลในตารางต้นฉบับมีการเปลี่ยนแปลง

ตัวอย่างเช่นสามารถทำได้โดยใช้ฟังก์ชัน VLOOKUP หรือการรวมกันของ INDEX และ MATCH อย่างไรก็ตามหากในรายการมีค่าเหมือนกัน เราจะไม่สามารถดึงข้อมูลได้อย่างถูกต้องและจะได้รับข้อผิดพลาด:


ในกรณีนี้คุณสามารถใช้เทคนิคง่ายๆ ในรูปแบบของทริคเล็กๆ น้อยๆ ได้
เรามาเพิ่มแต่ละค่าของตารางต้นฉบับซึ่งตัวเลขสุ่มที่ไม่ตรงกันซึ่งใกล้กับศูนย์ ตัวอย่างเช่น เพื่อจุดประสงค์เหล่านี้ ฉันใช้ฟังก์ชัน ROW หรือ COLUMN ซึ่งหารด้วยค่าที่มากอย่างเห็นได้ชัด

ขั้นตอนนี้จะช่วยให้เรารับตัวเลขที่แตกต่างกันในข้อมูลต้นฉบับ หลีกเลี่ยงการจับคู่อันดับและข้อผิดพลาดเมื่อดึงข้อมูล:

ตอนนี้องค์ประกอบทั้งหมดของตาราง (แม้แต่องค์ประกอบที่ตรงกันตั้งแต่แรก) จะมีอันดับเป็นของตัวเอง ซึ่งแตกต่างจากองค์ประกอบอื่นๆ จึงสามารถหลีกเลี่ยงข้อผิดพลาดได้เมื่อจัดอันดับข้อมูลโดยอัตโนมัติ

ดาวน์โหลดไฟล์ตัวอย่าง.

ขอบคุณสำหรับความสนใจของคุณ!
หากคุณมีคำถามใด ๆ เขียนในความคิดเห็น

ขอให้โชคดีและพบกันใหม่ในหน้าบล็อก TutorExcel.Ru!

ในการจัดอันดับข้อมูลใน Excel จะใช้ฟังก์ชันทางสถิติ RANK, RANK.RV, RANK.SR โดยทั้งหมดจะส่งคืนตัวเลขในรายการจัดอันดับของค่าตัวเลข มาดูไวยากรณ์และตัวอย่างกันดีกว่า

ตัวอย่างฟังก์ชัน RANK ใน Excel

ฟังก์ชันนี้ใช้เมื่อจัดอันดับในรายการตัวเลข นั่นคือช่วยให้คุณค้นหาค่าของตัวเลขที่สัมพันธ์กับค่าตัวเลขอื่นๆ หากคุณเรียงลำดับรายการจากน้อยไปหามาก ฟังก์ชันจะส่งกลับตำแหน่งของตัวเลข ตัวอย่างเช่น ในอาร์เรย์ของตัวเลข (30;2;26) ตัวเลข 2 จะมีอันดับ 1; 26 –2; 30 –3 (เป็นค่าที่ใหญ่ที่สุดในรายการ)

ไวยากรณ์ของฟังก์ชัน:

  1. ตัวเลข. ซึ่งจำเป็นต้องกำหนดหมายเลขในการจัดอันดับ
  2. ลิงค์. อาร์เรย์ของตัวเลขหรือช่วงของเซลล์ที่มีค่าตัวเลข หากคุณระบุเพียงตัวเลขเป็นอาร์กิวเมนต์ ฟังก์ชันจะส่งกลับข้อผิดพลาด ค่าที่ไม่ใช่ตัวเลขจะไม่ถูกกำหนดให้เป็นตัวเลข
  3. คำสั่ง. วิธีการเรียงลำดับหมายเลขในรายการ ตัวเลือก: อาร์กิวเมนต์เป็น "0" หรือละเว้น - ค่า 1 ถูกกำหนดให้กับจำนวนสูงสุดในรายการ (ราวกับว่ารายการถูกจัดเรียงจากมากไปน้อย) อาร์กิวเมนต์เท่ากับตัวเลขที่ไม่ใช่ศูนย์ - อันดับ 1 ถูกกำหนดให้กับจำนวนที่น้อยที่สุดในรายการ (ราวกับว่ารายการถูกเรียงลำดับจากน้อยไปหามาก)

เรามาพิจารณาอันดับของตัวเลขในรายการโดยไม่ซ้ำกัน:

อาร์กิวเมนต์ที่กำหนดวิธีการเรียงลำดับตัวเลขคือ "0" ดังนั้นในฟังก์ชันนี้จึงกำหนดตัวเลขให้กับค่าจากมากไปน้อย หมายเลขสูงสุด 87 ถูกกำหนดให้เป็นหมายเลข 1

คอลัมน์ที่สามแสดงสูตรที่มีอันดับจากน้อยไปหามาก

เรามากำหนดจำนวนค่าในรายการที่มีค่าซ้ำกัน

ตัวเลขที่ซ้ำกันจะถูกเน้นด้วยสีเหลือง มีการกำหนดหมายเลขเดียวกันสำหรับพวกเขา ตัวอย่างเช่น หมายเลข 7 ในคอลัมน์ที่สองถูกกำหนดให้เป็นหมายเลข 9 (ทั้งในแถวที่สองและเก้า) ในคอลัมน์ที่สาม - 3 แต่ไม่มีตัวเลขใดในคอลัมน์ที่สองที่จะเป็น 10 และไม่มีตัวเลขใดในคอลัมน์ที่สามจะเป็น 4

เพื่อป้องกันไม่ให้อันดับซ้ำ (บางครั้งทำให้ผู้ใช้ไม่สามารถแก้ปัญหาได้) จะใช้สูตรต่อไปนี้:

สามารถกำหนดขีดจำกัดวิธีการทำงานของฟังก์ชันได้ ตัวอย่างเช่น คุณต้องจัดอันดับเฉพาะค่าตั้งแต่ 0 ถึง 30 ในการแก้ปัญหา ให้ใช้ฟังก์ชัน IF (=IF(A2

ค่าที่ตรงตามเงื่อนไขที่ระบุจะถูกเน้นด้วยสีเทา สำหรับตัวเลขที่มากกว่า 30 บรรทัดว่างจะปรากฏขึ้น

ตัวอย่างของฟังก์ชัน RANK.RV ใน Excel

ใน Excel เวอร์ชันตั้งแต่ปี 2010 ฟังก์ชัน RANK.RV จะปรากฏขึ้น นี่เป็นอะนาล็อกที่สมบูรณ์ของฟังก์ชันก่อนหน้า ไวยากรณ์เหมือนกัน ตัวอักษร "РВ" ในชื่อระบุว่าหากสูตรตรวจพบค่าที่เหมือนกัน ฟังก์ชันจะส่งกลับหมายเลขอันดับสูงสุด (นั่นคือองค์ประกอบแรกที่ตรวจพบในรายการเท่ากับ)

ดังที่คุณเห็นจากตัวอย่าง ฟังก์ชันนี้จะจัดการตัวเลขที่ซ้ำกันในรายการในลักษณะเดียวกับในสูตรปกติ หากจำเป็นเพื่อหลีกเลี่ยงการซ้ำอันดับ เราจะใช้สูตรอื่น (ดูด้านบน)

ตัวอย่างของฟังก์ชัน RANK.SR ใน Excel

ส่งกลับตัวเลขของค่าตัวเลขในรายการ (เลขลำดับที่สัมพันธ์กับค่าอื่นๆ) นั่นคือมันทำหน้าที่เดียวกัน ส่งกลับค่าเฉลี่ยเฉพาะเมื่อพบค่าที่เหมือนกัน

นี่คือผลลัพธ์ของฟังก์ชัน:

สูตรในคอลัมน์ "จากมากไปน้อย" คือ =RANK.SR(A2,$A$2:$A$9,0) ดังนั้นฟังก์ชันจึงกำหนดค่าเฉลี่ยจำนวน 1.5 ให้กับค่า 87

สมมติว่าในรายการตัวเลขมีค่าซ้ำกันสามค่า (เน้นด้วยสีส้ม)

ฟังก์ชั่นกำหนดให้แต่ละอันมีอันดับ 5 ซึ่งเป็นค่าเฉลี่ยที่ 4, 5 และ 6

ลองเปรียบเทียบการทำงานของสองฟังก์ชัน:

โปรดทราบว่าฟังก์ชันทั้งสองนี้ใช้งานได้เฉพาะใน Excel 2010 และสูงกว่าเท่านั้น ในเวอร์ชันก่อนหน้า คุณสามารถใช้สูตรอาร์เรย์เพื่อจุดประสงค์นี้ได้

ดาวน์โหลดตัวอย่างฟังก์ชันการจัดอันดับ RANK ใน Excel

ดังนั้นตัวอย่างทั้งหมดที่อธิบายไว้ข้างต้นช่วยให้คุณสามารถจัดอันดับข้อมูลโดยอัตโนมัติและรวบรวมการจัดอันดับค่าโดยไม่ต้องใช้การเรียงลำดับ

ระยะแรก การศึกษาทางสถิติรูปแบบคือการสร้างชุดรูปแบบ - การกระจายหน่วยประชากรตามลำดับตามค่าที่เพิ่มขึ้น (บ่อยขึ้น) หรือลดลง (น้อยกว่า) ของลักษณะเฉพาะและการนับจำนวนหน่วยด้วยค่าเฉพาะของลักษณะเฉพาะ

ซีรีส์รูปแบบต่างๆ มีสามรูปแบบ: จัดอันดับ, ไม่ต่อเนื่อง, ช่วงเวลา ซีรีส์รูปแบบต่างๆ มักเรียกว่าซีรีส์การจัดจำหน่าย คำนี้ใช้ในการศึกษาความแปรผันในลักษณะเชิงปริมาณและไม่ใช่เชิงปริมาณ ชุดการจัดจำหน่ายคือการจัดกลุ่มโครงสร้าง (บทที่ 6)

อนุกรมอันดับคือรายการของแต่ละหน่วยของประชากรโดยเรียงลำดับจากน้อยไปหามาก (มากไปหาน้อย) ของคุณลักษณะที่กำลังศึกษา

ด้านล่างนี้เป็นข้อมูลเกี่ยวกับธนาคารขนาดใหญ่ในเซนต์ปีเตอร์สเบิร์ก จัดอันดับตามทุนจดทะเบียน ณ วันที่ 1 ตุลาคม 1999

ชื่อธนาคาร ทุนของตัวเอง ล้านรูเบิล

ธนาคารบัลโตเนซิม 169

ธนาคาร "เซนต์ปีเตอร์สเบิร์ก" 237

เปตรอฟสกี้ 268

ทะเลบอลติก 290

พรอมสตรอยแบงก์ 1007

หากจำนวนหน่วยประชากรมีขนาดใหญ่พอ ซีรีส์ที่ได้รับการจัดอันดับจะยุ่งยาก และการก่อสร้างแม้จะใช้คอมพิวเตอร์ช่วยก็ตาม เวลานาน- ในกรณีเช่นนี้ ชุดรูปแบบจะถูกสร้างขึ้นโดยการจัดกลุ่มหน่วยประชากรตามค่าของคุณลักษณะที่กำลังศึกษา

การกำหนดจำนวนกลุ่ม

จำนวนกลุ่มในชุดรูปแบบที่ไม่ต่อเนื่องจะพิจารณาจากจำนวนค่าที่มีอยู่จริงของคุณลักษณะที่แตกต่างกัน หากลักษณะเฉพาะใช้ค่าที่ไม่ต่อเนื่อง แต่มีจำนวนมาก (เช่นจำนวนปศุสัตว์ในวันที่ 1 มกราคมของปีในสถานประกอบการทางการเกษตรที่แตกต่างกันสามารถอยู่ในช่วงตั้งแต่ศูนย์ถึงหมื่นหัว) ดังนั้นชุดการแปรผันช่วงเวลาจะถูกสร้างขึ้น . ซีรีย์การแปรผันตามช่วงเวลายังถูกสร้างขึ้นเพื่อศึกษาคุณลักษณะที่สามารถรับค่าใด ๆ ทั้งค่าจำนวนเต็มและค่าเศษส่วนในพื้นที่ของการดำรงอยู่ของมัน. ตัวอย่างเช่น ความสามารถในการทำกำไรของสินค้าที่ขาย ต้นทุนต่อหน่วยการผลิต รายได้ต่อผู้อยู่อาศัยในเมือง ส่วนแบ่งของคนที่มี อุดมศึกษาในหมู่ประชากรของดินแดนที่แตกต่างกันและโดยทั่วไปแล้วลักษณะรองทั้งหมดซึ่งค่าจะคำนวณโดยการหารค่าของลักษณะหลักหนึ่งด้วยมูลค่าของอีกลักษณะหนึ่ง (ดูบทที่ 3)

อนุกรมความแปรผันตามช่วงเวลาคือตารางที่ประกอบด้วยสองคอลัมน์ (หรือแถว) - ช่วงเวลาของคุณลักษณะที่กำลังศึกษาความแปรผัน และจำนวนหน่วยประชากรที่อยู่ในช่วงนี้ (ความถี่) หรือสัดส่วนของจำนวนนี้จากจำนวนประชากรทั้งหมด (ความถี่)

ที่ใช้กันมากที่สุดคือซีรีย์การเปลี่ยนแปลงช่วงเวลาสองประเภท: ช่วงเท่ากันและความถี่เท่ากัน จะใช้อนุกรมช่วงเวลาที่เท่ากันหากความแปรผันของคุณลักษณะไม่รุนแรงมากเช่น สำหรับประชากรที่เป็นเนื้อเดียวกันซึ่งการกระจายตัวตามลักษณะนี้จะใกล้เคียงกับกฎปกติ (ชุดดังกล่าวแสดงไว้ในตารางที่ 5.6) ชุดความถี่เท่ากันจะใช้หากการเปลี่ยนแปลงของลักษณะเฉพาะมีความเข้มข้นมาก แต่การกระจายไม่ปกติ แต่ตัวอย่างเช่น การผ่อนชำระ (ตารางที่ 5.5)

เมื่อสร้างอนุกรมช่วงเท่ากัน จำนวนของกลุ่มจะถูกเลือกเพื่อให้ความหลากหลายของค่าคุณลักษณะในการรวมสะท้อนอย่างเพียงพอ และในขณะเดียวกัน รูปแบบการกระจายจะไม่บิดเบี้ยวจากความผันผวนของความถี่สุ่ม หากมีกลุ่มน้อยเกินไป รูปแบบของการแปรผันจะไม่ปรากฏ หากมีกลุ่มมากเกินไป การกระโดดความถี่แบบสุ่มจะทำให้รูปร่างของการแจกแจงผิดเพี้ยนไป


ขอบเขตของช่วงสามารถระบุได้หลายวิธี: ขอบเขตด้านบนของช่วงก่อนหน้าจะทำซ้ำขอบเขตด้านล่างของช่วงถัดไป ดังแสดงในตาราง 5.5 หรือไม่ทำซ้ำ

ในกรณีหลัง ช่วงที่สองจะถูกกำหนดเป็น 15.1-20 ช่วงที่สามเป็น 20.1-25 เป็นต้น เช่น สันนิษฐานว่าค่าผลผลิตทั้งหมดจะต้องปัดเศษให้เป็นหนึ่งในสิบ นอกจากนี้ภาวะแทรกซ้อนที่ไม่พึงประสงค์เกิดขึ้นในช่วงกลางของช่วงเวลา 15.1-20 ซึ่งพูดอย่างเคร่งครัดจะไม่เท่ากับ 17.5 อีกต่อไป แต่ 17.55; ดังนั้น เมื่อแทนที่ช่วงการปัดเศษ 40-60 ด้วย 40.1-60 แทนที่จะเป็นค่าการปัดเศษของค่ากลาง 50 เราจะได้ 50.5 ดังนั้นจึงเป็นการดีกว่าที่จะปล่อยให้ช่วงเวลามีขอบเขตการปัดเศษซ้ำๆ และตกลงว่าหน่วยประชากรที่มีค่าลักษณะเฉพาะเท่ากับขอบเขตช่วงจะรวมไว้ในช่วงเวลาที่ระบุค่าที่แน่นอนนี้เป็นครั้งแรก ดังนั้น ฟาร์มที่มีผลผลิตเท่ากับ 15 c/ha จะรวมอยู่ในกลุ่มแรก และค่า 20 c/ha - ในกลุ่มที่สอง เป็นต้น

ชุดการแปรผันความถี่เท่ากันเป็นสิ่งจำเป็นเมื่อมีการเปลี่ยนแปลงคุณลักษณะที่รุนแรงมาก เนื่องจากเมื่อมีการแจกแจงช่วงเท่ากัน หน่วยส่วนใหญ่ในประชากรจะปรากฏ

ตารางที่ 5.5

การกระจายของธนาคารรัสเซีย 100 แห่งตามการประเมินมูลค่าสินทรัพย์ ณ วันที่ 01/01/2543

ขอบเขตของช่วงเวลาสำหรับการกระจายความถี่ที่เท่ากันคือมูลค่าที่แท้จริงของสินทรัพย์ของธนาคารที่หนึ่ง, สิบ, สิบเอ็ด, ยี่สิบและอื่น ๆ

การแสดงกราฟิกของซีรี่ส์รูปแบบต่างๆ

การแสดงแบบกราฟิกให้ความช่วยเหลือที่สำคัญในการวิเคราะห์ชุดรูปแบบและคุณสมบัติของชุดต่างๆ ซีรีย์ช่วงเวลาแสดงเป็นแผนภูมิแท่ง โดยฐานของแท่งที่ตั้งอยู่บนแกน x คือช่วงของค่าของคุณลักษณะที่แตกต่างกัน และความสูงของแท่งคือความถี่ที่สอดคล้องกับมาตราส่วนตามแนวแกนกำหนด การแสดงการกระจายตัวของฟาร์มในภูมิภาคแบบกราฟิกตามผลผลิตธัญพืชจะแสดงในรูปที่ 1 5.1. แผนภาพประเภทนี้มักเรียกว่าฮิสโตแกรม (gr. histos - เนื้อเยื่อ)

ข้อมูลตาราง 5.6 และรูป 5.1 แสดงลักษณะรูปร่างการกระจายของลักษณะต่างๆ มากมาย: ค่าของช่วงเวลาเฉลี่ยของลักษณะจะพบได้บ่อยกว่า และค่าลักษณะสุดขั้ว เล็ก และใหญ่จะพบได้น้อยกว่า รูปร่างของการแจกแจงนี้ใกล้เคียงกับกฎที่กล่าวถึงในหลักสูตรสถิติทางคณิตศาสตร์ การกระจายตัวแบบปกติ- นักคณิตศาสตร์ผู้ยิ่งใหญ่ชาวรัสเซีย A. M. Lyapunov (1857-1918) พิสูจน์ว่าปกติ

ตารางที่ 5.6 การกระจายตัวของฟาร์มในภูมิภาคตามผลผลิตธัญพืช

การแจกแจงเล็กน้อยจะเกิดขึ้นหากตัวแปรได้รับอิทธิพลจากปัจจัยจำนวนมาก โดยไม่มีปัจจัยใดมีอิทธิพลเหนือกว่า การรวมกันของปัจจัยที่เท่าเทียมกันโดยประมาณหลายประการที่มีอิทธิพลต่อการเปลี่ยนแปลงในผลผลิตของพืชผลทั้งทางธรรมชาติและทางการเกษตร ทางเศรษฐกิจ ทำให้เกิดการกระจายตัวของฟาร์มในภูมิภาคด้วยผลผลิตที่ใกล้เคียงกับกฎหมายการกระจายแบบปกติ

ข้าว. 5.2. สะสมและก่อให้เกิดการกระจายตัวของฟาร์มตามผลผลิต

ซีรีส์ดังกล่าวเรียกว่าสะสม คุณสามารถสร้างการแจกแจงแบบสะสม “ไม่น้อยกว่า” หรือคุณสามารถสร้างการแจกแจงแบบ “มากกว่า” ก็ได้ ในกรณีแรกกราฟการแจกแจงสะสมเรียกว่าสะสมในส่วนที่สอง - ogive (รูปที่ 5.2)

ความหนาแน่นของการกระจาย

หากต้องรับมือกับ ซีรีย์การเปลี่ยนแปลงด้วยช่วงเวลาไม่เท่ากัน ดังนั้นเพื่อให้สามารถเปรียบเทียบได้ จำเป็นต้องลดความถี่หรือความถี่ให้เป็นหน่วยของช่วงเวลา อัตราส่วนผลลัพธ์เรียกว่าความหนาแน่นของการกระจาย:

ความหนาแน่นของการกระจายจะใช้ทั้งในการคำนวณตัวบ่งชี้ทั่วไปและเพื่อแสดงชุดความแปรผันแบบกราฟิกที่มีช่วงเวลาที่ไม่เท่ากัน

ขั้นตอนแรกของการศึกษาทางสถิติเกี่ยวกับความแปรผันคือการก่อสร้าง ซีรีย์การเปลี่ยนแปลง - สั่งการกระจายหน่วยประชากรตามค่าคุณลักษณะที่เพิ่มขึ้น (บ่อยขึ้น) หรือลดลง (น้อยลง) และนับจำนวนหน่วยที่มีค่าเฉพาะของลักษณะเฉพาะ

ซีรีส์รูปแบบต่างๆ มีสามรูปแบบ: ซีรีส์จัดอันดับ, ซีรีส์แยก, ซีรีส์ช่วง ซีรีส์รูปแบบต่างๆ มักเรียกว่า ใกล้กระจาย.คำนี้ใช้ในการศึกษาความแปรผันในลักษณะเชิงปริมาณและไม่ใช่เชิงปริมาณ ซีรีย์การจัดจำหน่ายคือ การจัดกลุ่มโครงสร้าง(ดูบทที่ 6)

แถวจัดอันดับ -นี่คือรายการของแต่ละหน่วยของประชากรโดยเรียงลำดับจากน้อยไปหามาก (มากไปหาน้อย) ของคุณลักษณะที่กำลังศึกษา

ตัวอย่างของซีรีส์จัดอันดับคือตาราง 5.5.

ตารางที่ 5.5

ธนาคารขนาดใหญ่ของเซนต์ปีเตอร์สเบิร์ก เรียงตามขนาดทุนจดทะเบียน ณ วันที่ 07/01/96

หากจำนวนหน่วยประชากรมีขนาดใหญ่เพียงพอ ซีรีส์อันดับจะยุ่งยาก และการก่อสร้างแม้จะใช้คอมพิวเตอร์ช่วยก็ใช้เวลานาน ในกรณีเช่นนี้ ชุดรูปแบบจะถูกสร้างขึ้นโดยการจัดกลุ่มหน่วยประชากรตามค่าของคุณลักษณะที่กำลังศึกษา

ถ้าคุณลักษณะใช้ค่าจำนวนน้อย จะมีการสร้างชุดรูปแบบที่แยกจากกัน ตัวอย่างของซีรีส์ดังกล่าวคือการกระจายการแข่งขันฟุตบอลตามจำนวนประตูที่ทำได้ (ตารางที่ 5.1) ซีรี่ส์รูปแบบที่ไม่ต่อเนื่อง -นี่คือตารางที่ประกอบด้วยสองบรรทัดหรือคอลัมน์: ค่าเฉพาะของคุณลักษณะที่แตกต่างกัน เอ็กซ์ฉันและจำนวนหน่วยประชากรที่มีค่าคุณลักษณะที่กำหนด ฉ ฉันความถี่ (f คือตัวอักษรเริ่มต้นของความถี่คำภาษาอังกฤษ)

การกำหนดจำนวนกลุ่ม

จำนวนกลุ่มในชุดรูปแบบที่ไม่ต่อเนื่องจะพิจารณาจากจำนวนค่าที่มีอยู่จริงของคุณลักษณะที่แตกต่างกัน หากแอตทริบิวต์สามารถรับค่าที่ไม่ต่อเนื่องได้ แต่มีจำนวนมาก (เช่น จำนวนปศุสัตว์ในวันที่ 1 มกราคมของปีในสถานประกอบการทางการเกษตรต่างๆ สามารถอยู่ในช่วงตั้งแต่ศูนย์ถึงหมื่นหัว) ดังนั้นชุดการเปลี่ยนแปลงช่วงเวลา ถูกสร้างขึ้น ซีรีย์การแปรผันช่วงเวลาถูกสร้างขึ้นเพื่อศึกษาคุณลักษณะที่สามารถรับค่าใด ๆ ทั้งจำนวนเต็มและเศษส่วนในพื้นที่ของการดำรงอยู่ของมัน ตัวอย่างเช่น ความสามารถในการทำกำไรของผลิตภัณฑ์ที่ขาย ต้นทุนของหน่วยการผลิต รายได้ต่อผู้อยู่อาศัยในเมือง 1 คน ส่วนแบ่งของผู้ที่มีการศึกษาระดับสูงในหมู่ประชากรของดินแดนที่แตกต่างกัน และโดยทั่วไปแล้ว ลักษณะรองทั้งหมด ค่านิยม ​ซึ่งคำนวณโดยการหารค่าของคุณลักษณะหลักหนึ่งด้วยค่าของอีกคุณลักษณะหนึ่ง (ดูบทที่ 3)

อนุกรมความแปรผันของช่วงคือตาราง (ประกอบด้วยสองคอลัมน์ (หรือแถว) - ช่วงเวลาของลักษณะเฉพาะ ความแปรผันที่กำลังศึกษา และจำนวนหน่วยของประชากรที่อยู่ในช่วงนี้ (ความถี่) หรือสัดส่วนของจำนวนนี้จาก จำนวนประชากรทั้งหมด (ความถี่)

เมื่อสร้างซีรีย์การเปลี่ยนแปลงช่วงเวลา จำเป็นต้องเลือกจำนวนกลุ่มที่เหมาะสมที่สุด (ช่วงแอตทริบิวต์) และตั้งค่าความยาวของช่วงเวลา เนื่องจากเมื่อวิเคราะห์อนุกรมความแปรผัน จะมีการเปรียบเทียบความถี่ในช่วงเวลาต่างๆ จึงจำเป็นที่ค่าของช่วงเวลาจะต้องคงที่ เลือกจำนวนกลุ่มที่เหมาะสมที่สุดเพื่อให้สะท้อนถึงความหลากหลายของค่าคุณลักษณะโดยรวมอย่างเพียงพอ และในขณะเดียวกัน รูปแบบการกระจายจะไม่ถูกบิดเบือนจากความผันผวนของความถี่แบบสุ่ม หากมีกลุ่มน้อยเกินไป รูปแบบของการแปรผันจะไม่ปรากฏ หากมีกลุ่มมากเกินไป การกระโดดความถี่แบบสุ่มจะทำให้รูปร่างของการแจกแจงผิดเพี้ยนไป

ส่วนใหญ่แล้ว จำนวนของกลุ่มในชุดรูปแบบต่างๆ จะถูกกำหนดโดยยึดตามสูตรที่แนะนำโดย Sturgess นักสถิติชาวอเมริกัน (ปลาสเตอร์เจส):

ที่ไหน เค- จำนวนกลุ่ม n- ขนาดประชากร

สูตรนี้แสดงว่าจำนวนกลุ่มเป็นฟังก์ชันของปริมาณข้อมูล

สมมติว่ามีความจำเป็นต้องสร้างชุดการกระจายตัวของวิสาหกิจในภูมิภาคตามผลผลิตพืชผลในปีหนึ่ง ๆ จำนวนวิสาหกิจการเกษตรที่มีพืชธัญญาหารอยู่ที่ 143; มูลค่าผลผลิตต่ำสุดคือ 10.7 c/ha สูงสุดคือ 53.1 c/ha เรามี:

เนื่องจากจำนวนกลุ่มเป็นจำนวนเต็ม ดังนั้นจึงแนะนำให้สร้าง 8 หรือ 9 กลุ่ม

การกำหนดขนาดช่วง

เมื่อทราบจำนวนกลุ่มแล้ว ให้คำนวณขนาดของช่วงเวลา:

ในตัวอย่างของเรา ค่าช่วงเวลาคือ:

ก) มี 8 กลุ่ม

b) มี 9 กลุ่ม

ในการสร้างอนุกรมและวิเคราะห์ความแปรผัน จะดีกว่ามากหากมีค่าปัดเศษสำหรับค่าของช่วงเวลาและขอบเขตของมัน ดังนั้น ทางออกที่ดีที่สุดคือสร้างอนุกรมรูปแบบที่มี 9 กลุ่มโดยมีช่วงห่าง 5 c/ha ซีรี่ส์รูปแบบนี้แสดงไว้ในตาราง 5.6 และการแสดงภาพกราฟิกแสดงไว้ในรูปที่ 5 5.1.

ขอบเขตของช่วงสามารถระบุได้หลายวิธี: ขอบเขตด้านบนของช่วงก่อนหน้าจะทำซ้ำขอบเขตด้านล่างของช่วงถัดไป ดังแสดงในตาราง 5.6 หรือไม่ทำซ้ำ

ในกรณีหลัง ช่วงที่สองจะกำหนดเป็น 15.1-20 ช่วงที่สามเป็น 20.1-25 เป็นต้น เช่น สันนิษฐานว่าค่าผลผลิตทั้งหมดจะต้องปัดเศษให้เป็นหนึ่งในสิบ นอกจากนี้ภาวะแทรกซ้อนที่ไม่พึงประสงค์เกิดขึ้นในช่วงกลางของช่วงเวลา 15.1-20 ซึ่งพูดอย่างเคร่งครัดจะไม่เท่ากับ 17.5 อีกต่อไป แต่ 17.55; ดังนั้น เมื่อแทนที่ช่วงการปัดเศษ 40-60 ด้วย 40.1-6.0 แทนที่จะเป็นค่าการปัดเศษของค่ากลาง 50 เราจะได้ 50.5 ดังนั้นจึงเป็นการดีกว่าที่จะทิ้งช่วงเวลาไว้ด้วยขอบเขตการปัดเศษซ้ำๆ และยอมรับว่าหน่วยประชากรที่มีลักษณะเฉพาะ ค่าที่เท่ากับขอบเขตของช่วงเวลา จะรวมอยู่ในช่วงเวลาที่ระบุค่าที่แน่นอนนี้เป็นครั้งแรก ดังนั้น ฟาร์มที่มีผลผลิต 15 c/ha จะรวมอยู่ในกลุ่มแรก และค่า 20 c/ha ในกลุ่มที่สอง เป็นต้น

ข้าว. 5.1. การกระจายฟาร์มตามผลผลิต

ตารางที่ 5.6

การกระจายตัวของฟาร์มในภูมิภาคตามผลผลิตเมล็ดพืช

กลุ่มฟาร์มแยกตามผลผลิต

ค/ฮ่า เอ็กซ์เจ

จำนวนฟาร์ม

ตรงกลางของช่วงเวลา

ค/ฮ่า เอ็กซ์เจ"

ความถี่สะสม ฉ' เจ

การแสดงกราฟิกของซีรี่ส์รูปแบบต่างๆ

การแสดงแบบกราฟิกให้ความช่วยเหลือที่สำคัญในการวิเคราะห์ชุดรูปแบบและคุณสมบัติของชุดต่างๆ อนุกรมช่วงเวลาแสดงด้วยแผนภูมิแท่งซึ่งฐานของแท่งที่ตั้งอยู่บนแกน Abscissa คือช่วงเวลาของค่าของคุณลักษณะที่แตกต่างกันและความสูงของแท่งคือความถี่ที่สอดคล้องกับมาตราส่วนตามแนวพิกัด แกน. การแสดงการกระจายตัวของฟาร์มในภูมิภาคแบบกราฟิกตามผลผลิตธัญพืชจะแสดงในรูปที่ 1 5.1. แผนภาพประเภทนี้มักเรียกว่า ฮิสโตแกรม(จาก คำภาษากรีก"ฮิสโตส" - เนื้อเยื่อโครงสร้าง)

ข้อมูลตาราง 5.5 และรูป 5.1 แสดงลักษณะรูปร่างการกระจายของหลายลักษณะ: ค่าของช่วงเวลาเฉลี่ยของลักษณะนั้นพบได้บ่อยกว่า และค่าสุดขั้วนั้นพบน้อยกว่า ค่าลักษณะเล็กและใหญ่ รูปร่างของการแจกแจงนี้ใกล้เคียงกับกฎการแจกแจงแบบปกติที่กล่าวถึงในวิชาสถิติทางคณิตศาสตร์ นักคณิตศาสตร์ผู้ยิ่งใหญ่ชาวรัสเซีย A. M. Lyapunov (1857 - 1918) พิสูจน์ว่าการแจกแจงแบบปกติจะเกิดขึ้นหากตัวแปรที่แตกต่างกันได้รับอิทธิพลจากปัจจัยจำนวนมาก ซึ่งไม่มีปัจจัยใดมีอิทธิพลเหนือกว่า การรวมกันของปัจจัยที่เท่าเทียมกันโดยประมาณหลายประการที่มีอิทธิพลต่อการเปลี่ยนแปลงในผลผลิตของพืชธัญพืช ทั้งทางธรรมชาติและทางการเกษตร ทางเศรษฐกิจ ทำให้เกิดการกระจายตัวของฟาร์มในภูมิภาคด้วยผลผลิตที่ใกล้เคียงกับกฎหมายการกระจายแบบปกติ

หากมีอนุกรมความแปรผันที่แยกจากกัน หรือใช้จุดกึ่งกลางของช่วงเวลา การแสดงแบบกราฟิกของอนุกรมความแปรผันดังกล่าวจะถูกเรียกว่า รูปหลายเหลี่ยม(จากคำภาษากรีก - รูปหลายเหลี่ยม) คุณแต่ละคนสามารถสร้างกราฟนี้ได้อย่างง่ายดายโดยการเชื่อมต่อจุดต่างๆ กับพิกัดที่เป็นเส้นตรง เอ็กซ์,และ /.

อัตราส่วนความสูงของรูปหลายเหลี่ยมหรือแผนภาพต่อฐานที่แนะนำคือประมาณ 5:8

แนวคิดเรื่องความถี่

ถ้าอยู่ในโต๊ะ. 5.6 แสดงจำนวนฟาร์มที่มีระดับผลผลิตที่กำหนดเป็นเปอร์เซ็นต์ของทั้งหมด โดยนำจำนวนฟาร์มทั้งหมด (143) เป็น 100% แล้วจึงคำนวณผลผลิตเฉลี่ยได้ดังนี้

ที่ไหน - ความถี่ของหมวดหมู่ที่ 7 ของซีรีย์รูปแบบ

การกระจายสะสม

รูปแบบที่แปลงแล้วของซีรีย์รูปแบบคือ จำนวนความถี่สะสมให้ไว้ในตาราง 5.6 คอลัมน์ 5 นี่คือชุดของค่าสำหรับจำนวนหน่วยประชากรที่มีค่าของลักษณะที่เล็กกว่าและเท่ากับขีดจำกัดล่างของช่วงเวลาที่สอดคล้องกัน ซีรีส์ดังกล่าวมีชื่อว่า สะสม.คุณสามารถสร้างการแจกแจงแบบสะสม “ไม่น้อยกว่า” หรือคุณสามารถสร้างการแจกแจงแบบ “มากกว่า” ก็ได้ ในกรณีแรกจะเรียกว่ากราฟการแจกแจงสะสม สะสม,ในครั้งที่สอง - โอกิวา(รูปที่ 5.2)

ความหนาแน่นการกระจายตัว

หากคุณต้องจัดการกับอนุกรมรูปแบบที่มีช่วงเวลาไม่เท่ากัน เพื่อให้สามารถเปรียบเทียบได้ คุณต้องลดความถี่หรือความถี่ให้เป็นหน่วยของช่วงเวลา ความสัมพันธ์ที่เกิดขึ้นเรียกว่า ความหนาแน่นของการกระจาย:

ความหนาแน่นของการกระจายจะใช้ทั้งในการคำนวณตัวบ่งชี้ทั่วไปและเพื่อแสดงชุดความแปรผันแบบกราฟิกที่มีช่วงเวลาที่ไม่เท่ากัน

ข้าว. 5.2. Ogiva และการกระจายสะสมตามผลผลิต

5.7. ลักษณะโครงสร้างของการเปลี่ยนแปลง แถว

ค่ามัธยฐานของการกระจาย

เมื่อศึกษาความแปรผัน คุณลักษณะดังกล่าวของอนุกรมความแปรผันจะถูกนำมาใช้เพื่ออธิบายโครงสร้างและโครงสร้างของความแปรผันในเชิงปริมาณ นี่คือตัวอย่างเช่น ค่ามัธยฐาน-ค่าของคุณลักษณะที่แตกต่างกันซึ่งแบ่งประชากรออกเป็นสองส่วนเท่า ๆ กัน ~ โดยมีค่าแอตทริบิวต์น้อยกว่าค่ามัธยฐาน และ มีค่าแอตทริบิวต์มากกว่าค่ามัธยฐาน (ธนาคารที่สามของห้าในตารางที่ 5.5 คือ 196 พันล้านรูเบิล)

โดยใช้ตัวอย่างตาราง รูปที่ 5.5 แสดงผลความแตกต่างพื้นฐานระหว่างค่ามัธยฐานและค่าเฉลี่ย ค่ามัธยฐานไม่ได้ขึ้นอยู่กับค่าแอตทริบิวต์ที่ขอบของซีรีส์จัดอันดับ แม้ว่าเมืองหลวงของธนาคารที่ใหญ่ที่สุดในเซนต์ปีเตอร์สเบิร์กจะมีขนาดใหญ่กว่าสิบเท่า แต่ค่ามัธยฐานจะไม่เปลี่ยนแปลง ดังนั้นค่ามัธยฐานจึงมักถูกใช้เป็นตัวบ่งชี้ที่เชื่อถือได้มากกว่าของค่าทั่วไปของลักษณะเฉพาะมากกว่าค่าเฉลี่ยเลขคณิตหากชุดของค่าต่างกันและมีการเบี่ยงเบนอย่างมากจากค่าเฉลี่ย ในซีรีส์นี้ มูลค่าเฉลี่ยของทุนจดทะเบียนซึ่งเท่ากับ 269 พันล้านรูเบิล ถูกสร้างขึ้นภายใต้อิทธิพลอันยิ่งใหญ่ของตัวเลือกที่ใหญ่ที่สุด 80% ของธนาคารมีเงินทุนน้อยกว่าค่าเฉลี่ย และเพียง 20% เท่านั้นที่มีมากกว่า ไม่น่าเป็นไปได้ที่ค่าเฉลี่ยดังกล่าวจะถือเป็นค่าปกติได้ หากมีจำนวนหน่วยในประชากรเป็นเลขคู่ ค่าเฉลี่ยเลขคณิตของตัวเลือกกลางสองตัวจะถูกใช้เป็นค่ามัธยฐาน เช่น ด้วยค่าแอตทริบิวต์สิบค่า - ค่าเฉลี่ยของค่าที่ห้าและหกใน ซีรีส์อันดับ

ในชุดการเปลี่ยนแปลงช่วงเวลา สูตร (5.14) ใช้ในการค้นหาค่ามัธยฐาน

โดยที่ฉันอยู่ตรงกลาง

x 0 -ขีด จำกัด ล่างของช่วงเวลาที่มีค่ามัธยฐานอยู่

M e-1 - ความถี่สะสมในช่วงเวลาก่อนค่ามัธยฐาน

ฉ ฉัน- ความถี่ในช่วงค่ามัธยฐาน

ฉัน- ขนาดช่วงเวลา

เค - จำนวนกลุ่ม

ในตาราง 5.6 ค่ามัธยฐาน คือ ค่าเฉลี่ย 143 ค่า ได้แก่ มูลค่าผลตอบแทนเจ็ดสิบวินาทีจากจุดเริ่มต้นของซีรีส์ ดังที่เห็นได้จากชุดความถี่สะสมจะอยู่ในช่วงที่สี่ แล้ว

เมื่อมีจำนวนหน่วยประชากรเป็นจำนวนคี่ จำนวนมัธยฐานตามที่เราเห็นจะเท่ากับ , ตามสูตร (5.14) ก แต่ความแตกต่างนี้ไม่มีสาระสำคัญและมักจะถูกละเลยในทางปฏิบัติ

ในอนุกรมการแปรผันแบบไม่ต่อเนื่อง ค่ามัธยฐานควรพิจารณาถึงค่าของคุณลักษณะในกลุ่มที่มีความถี่สะสม

เกินกว่าครึ่งหนึ่งของขนาดประชากร เช่น ข้อมูลในตาราง 5.1 จำนวนประตูเฉลี่ยที่ทำได้ต่อเกมคือ 2

ควอร์ไทล์การกระจาย

เช่นเดียวกับค่ามัธยฐานจะมีการคำนวณค่าของลักษณะโดยแบ่งประชากรออกเป็นสี่ส่วนเท่ากับจำนวนหน่วย ปริมาณเหล่านี้เรียกว่า ควอไทล์และถูกกำหนดด้วยอักษรละตินตัวพิมพ์ใหญ่ ถามพร้อมไอคอนเลขควอไทล์ลายเซ็น มันชัดเจนว่า ถาม 2 ตรงกับฉัน สำหรับควอไทล์ที่ 1 และ 3 เรามีสูตรและการคำนวณตามข้อมูลในตาราง 5.6.

เพราะ ถาม 2 = Me = 29.5 c/ha เห็นได้ชัดว่าความแตกต่างระหว่างควอร์ไทล์ที่ 1 และค่ามัธยฐานน้อยกว่าระหว่างค่ามัธยฐานและควอไทล์ที่ 3 ข้อเท็จจริงนี้บ่งชี้ถึงความไม่สมมาตรในบริเวณกึ่งกลางของการกระจาย ซึ่งสังเกตเห็นได้ชัดในรูปที่ 1 5.1.

ค่าลักษณะเฉพาะที่แบ่งอนุกรมออกเป็นห้าส่วนเท่า ๆ กันเรียกว่า ควินไทล์,ออกเป็นสิบส่วน - เดซิล,ต่อร้อยส่วน - เปอร์เซ็นไทล์เนื่องจากคุณลักษณะเหล่านี้ใช้เฉพาะเมื่อจำเป็นต้องศึกษารายละเอียดโครงสร้างของชุดรูปแบบต่างๆ เราจึงไม่ให้สูตรและการคำนวณ

โหมดการกระจาย

ไม่ต้องสงสัยเลยว่าคุณค่าของลักษณะเฉพาะที่เกิดขึ้นในซีรีส์ที่กำลังศึกษาโดยรวมบ่อยที่สุดเป็นสิ่งสำคัญ โดยทั่วไปจะเรียกว่าปริมาณนี้ แฟชั่นและหมายถึงโม ในชุดข้อมูลแยก โหมดจะถูกกำหนดโดยไม่มีการคำนวณเป็นค่าของคุณลักษณะที่มีความถี่สูงสุด เช่นตามตาราง 5.1 บ่อยที่สุดมีการยิง 2 ประตูในการแข่งขันฟุตบอล - 71 ครั้ง โหมดคือหมายเลข 2 โดยปกติแล้วจะมีซีรีส์ที่มีค่าโมดอลหนึ่งค่าของแอตทริบิวต์ หากมีค่าเท่ากันตั้งแต่สองค่าขึ้นไป (และมีหลายค่าที่แตกต่างกัน แต่มีขนาดใหญ่กว่าค่าใกล้เคียง) ของลักษณะที่ปรากฏในชุดรูปแบบต่างๆ จะถือว่าเป็น bimodal (“รูปอูฐ”) หรือ multimodal ตามลำดับ สิ่งนี้บ่งบอกถึงความหลากหลายของประชากร ซึ่งอาจเป็นตัวแทนของกลุ่มประชากรหลายกลุ่มที่มีรูปแบบที่แตกต่างกัน

ดังนั้นในกลุ่มนักท่องเที่ยวที่เดินทางมาจาก ประเทศต่างๆแทนที่จะเป็นสิ่งที่มีชัยเหนือชาวบ้านในท้องถิ่น เสื้อผ้าแฟชั่นคุณจะพบส่วนผสมของ "โหมด" ต่างๆ ที่นำมาใช้โดย ชาติต่างๆความสงบ.

ในชุดการแปรผันตามช่วงเวลา โดยเฉพาะอย่างยิ่งเมื่อมีการแปรผันอย่างต่อเนื่องของคุณลักษณะ กล่าวอย่างเคร่งครัด แต่ละค่าของคุณลักษณะจะเกิดขึ้นเพียงครั้งเดียว ช่วงเวลาโมดอลคือช่วงเวลาที่มีความถี่สูงสุด ภายในช่วงเวลานี้ จะพบค่าตามเงื่อนไขของแอตทริบิวต์ ซึ่งใกล้กับความหนาแน่นของการแจกแจง เช่น จำนวนหน่วยประชากรต่อหน่วยการวัดที่มีลักษณะแตกต่างกันถึงค่าสูงสุด นี่เป็นค่าตามเงื่อนไขและจะได้รับการพิจารณา โหมดจุดเป็นตรรกะที่จะสมมติว่าโหมดจุดนั้นตั้งอยู่ใกล้กับขอบเขตช่วงที่ความถี่ในช่วงที่อยู่ติดกันมากกว่าความถี่ในช่วงที่เกินขอบเขตอื่นของช่วงโมดอล จากตรงนี้ เรามีสูตรที่ใช้กันทั่วไป (5.15):

ที่ไหน x 0 - ขีดจำกัดล่างของช่วงเวลากิริยา;

ฉ โม - ความถี่ในช่วงเวลากิริยา;

ฉ โม -1 - ความถี่ในช่วงก่อนหน้า

ฉ โม +1 - ความถี่ในช่วงเวลาถัดไปหลังกิริยา;

ฉัน - ขนาดช่วงเวลา

ตามตารางครับ. 5.6 มาคำนวณโหมดกัน:

การคำนวณโหมดในชุดช่วงเวลานั้นมีเงื่อนไขมาก Mo สามารถกำหนดได้โดยประมาณแบบกราฟิก (ดูรูปที่ 5.1)

ค่าเฉลี่ยเลขคณิตยังเกี่ยวข้องกับการศึกษาโครงสร้างของชุดการแปรผัน แม้ว่าความหมายหลักของตัวบ่งชี้ทั่วไปนี้จะแตกต่างออกไป ในการกระจายฟาร์มตามผลผลิต (ตารางที่ 5.6) ผลผลิตเฉลี่ยจะคำนวณเป็นจุดกึ่งกลางที่ถ่วงน้ำหนักด้วยความถี่ของช่วง เอ็กซ์(ตามสูตร (5.2)):

ความสัมพันธ์ระหว่างค่าเฉลี่ย ค่ามัธยฐาน และแบบวิธี

ความแตกต่างระหว่างค่าเฉลี่ยเลขคณิต ค่ามัธยฐาน และโหมดในการแจกแจงนี้มีน้อย หากการแจกแจงมีรูปร่างใกล้เคียงกับกฎปกติ ค่ามัธยฐานจะอยู่ระหว่างโหมดกับค่าเฉลี่ย และจะอยู่ใกล้กับค่าเฉลี่ยมากกว่าโหมด

สำหรับความไม่สมมาตรทางด้านขวา เอ็กซ์̅ > ฉัน > โม;

ด้วยความไม่สมมาตรทางด้านซ้าย เอ็กซ์̅ < ฉัน< Mo.

สำหรับการแจกแจงแบบไม่สมมาตรปานกลาง ความเท่าเทียมกันจะคงอยู่:

5.8. ตัวบ่งชี้ขนาดและความเข้ม รูปแบบต่างๆ

ขนาดเฉลี่ยสัมบูรณ์ของการเปลี่ยนแปลง

ขั้นตอนต่อไปของการศึกษาความแปรผันของลักษณะอย่างครบถ้วนคือการวัดลักษณะเฉพาะของความแรงและขนาดของความแปรผัน สิ่งที่ง่ายที่สุดก็คือ ขอบเขตหรือ แอมพลิจูดของการแปรผัน -ความแตกต่างสัมบูรณ์ระหว่างค่าสูงสุดและต่ำสุดของคุณลักษณะจากค่าที่มีอยู่ในประชากรที่กำลังศึกษา ดังนั้นช่วงของการแปรผันจึงคำนวณโดยสูตร

เนื่องจากขนาดของช่วงแสดงเฉพาะความแตกต่างสูงสุดในค่าของลักษณะเฉพาะจึงไม่สามารถวัดความแข็งแกร่งตามธรรมชาติของการเปลี่ยนแปลงในประชากรทั้งหมดได้ ตัวบ่งชี้ที่มีวัตถุประสงค์เพื่อจุดประสงค์นี้จะต้องคำนึงถึงและสรุปความแตกต่างทั้งหมดในค่าของคุณลักษณะโดยรวมโดยไม่มีข้อยกเว้น จำนวนความแตกต่างดังกล่าวเท่ากับจำนวนชุดค่าผสมของสองจากทุกหน่วยของประชากร ตามตาราง 5.6 มันจะเป็น: ค^= 10 153 อย่างไรก็ตาม ไม่จำเป็นต้องพิจารณา คำนวณ และหาค่าเฉลี่ยส่วนเบี่ยงเบนทั้งหมด ง่ายกว่าที่จะใช้ค่าเฉลี่ยของการเบี่ยงเบนของแต่ละค่าของแอตทริบิวต์จากค่าเฉลี่ยเลขคณิตของแอตทริบิวต์และมีเพียง 143 ค่าเท่านั้น แต่ค่าเบี่ยงเบนเฉลี่ยของค่าแอตทริบิวต์จากค่าเฉลี่ยเลขคณิต ตามคุณสมบัติที่รู้จักกันดีของอย่างหลังคือศูนย์ ดังนั้นตัวบ่งชี้ความแรงของการแปรผันจึงไม่ใช่ค่าเฉลี่ยพีชคณิตของการเบี่ยงเบน แต่เป็น โมดูลส่วนเบี่ยงเบนเฉลี่ย:

ตามตารางครับ. 5.6 โมดูลกลางหรือ ค่าเบี่ยงเบนเชิงเส้นเฉลี่ยในค่าสัมบูรณ์จะคำนวณเป็นค่าเบี่ยงเบนถ่วงน้ำหนักความถี่แบบโมดูโลจุดกึ่งกลางของช่วงเวลาจากค่าเฉลี่ยเลขคณิต เช่น ตามสูตร

ซึ่งหมายความว่าโดยเฉลี่ยแล้วผลผลิตในชุดฟาร์มที่ศึกษาเบี่ยงเบนไปจากผลผลิตเฉลี่ยในภูมิภาคที่ 6.85 c/ha อย่างไรก็ตาม ความง่ายในการคำนวณและการตีความถือเป็นข้อดีของตัวบ่งชี้นี้ คุณสมบัติทางคณิตศาสตร์โมดูล "ไม่ดี": ของพวกเขาไม่สามารถวางตามกฎความน่าจะเป็นใดๆ รวมถึงการแจกแจงแบบปกติ ซึ่งพารามิเตอร์ไม่ใช่โมดูลค่าเฉลี่ยของการเบี่ยงเบน แต่ ส่วนเบี่ยงเบนมาตรฐาน(ในโปรแกรมคอมพิวเตอร์ภาษาอังกฤษเรียกว่า “ส่วนเบี่ยงเบนมาตรฐาน” ย่อว่า “s.d.” หรือเรียกง่ายๆ ก็คือ « », ในภาษาที่พูดภาษารัสเซีย - SKO) ในวรรณกรรมทางสถิติ ค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยมักจะแสดงเป็นค่าน้อย (ตัวพิมพ์เล็ก) อักษรกรีกซิกมา (st) หรือ (ดูบทที่ 7):

สำหรับซีรีย์จัดอันดับ

สำหรับอนุกรมช่วงเวลา

ตามตารางครับ. 5.6 ค่าเบี่ยงเบนมาตรฐานของผลผลิตธัญพืชคือ:

ควรชี้ให้เห็นว่าการปัดเศษของค่าเฉลี่ยและค่ากึ่งกลางของช่วง เช่น การปัดเศษทั้งหมด มีผลเพียงเล็กน้อยต่อค่า σ ซึ่งจะเท่ากับ 8.55 c/ha

ค่าเบี่ยงเบนมาตรฐานในขนาดประชากรจริงจะมากกว่าค่าส่วนเบี่ยงเบนเฉลี่ยเสมอ อัตราส่วน (y: ขึ้นอยู่กับการมีส่วนเบี่ยงเบนที่คมชัดและโดดเด่นในมวลรวมและสามารถทำหน้าที่เป็นตัวบ่งชี้ "การปนเปื้อน" ของมวลรวมกับองค์ประกอบที่ต่างกันกับมวลรวม: ยิ่งอัตราส่วนนี้มากเท่าใด "การอุดตัน" นี้ก็จะยิ่งแข็งแกร่งขึ้นเท่านั้น สำหรับกฎการแจกแจงแบบปกติ σ: ก = 1,2.

แนวคิดเรื่องความแปรปรวน

กำลังสองของส่วนเบี่ยงเบนมาตรฐานจะให้ค่า การกระจายตัว σ 2สูตรการกระจายตัว:

ง่าย (สำหรับข้อมูลที่ไม่ได้จัดกลุ่ม):

ถ่วงน้ำหนัก (สำหรับข้อมูลที่จัดกลุ่ม):

วิธีการสถิติทางคณิตศาสตร์เกือบทั้งหมดจะขึ้นอยู่กับการกระจายตัว กฎสำหรับการบวกความแปรปรวนมีความสำคัญอย่างยิ่งในทางปฏิบัติ (ดูบทที่ 6)

มาตรการการเปลี่ยนแปลงอื่น ๆ

ตัวบ่งชี้ความแข็งแกร่งของการเปลี่ยนแปลงอีกประการหนึ่งซึ่งแสดงลักษณะไม่ครบถ้วน แต่เฉพาะในส่วนกลางเท่านั้นคือ ระยะทางเฉลี่ยรายไตรมาสเหล่านั้น. ความแตกต่างโดยเฉลี่ยระหว่างควอร์ไทล์แสดงไว้ด้านล่างเป็น ถาม:

เพื่อกระจายวิสาหกิจทางการเกษตรตามผลผลิตในตารางที่ 1 5.2

ถาม= (36.25 - 25.09): 2 = 5.58 c/เฮกตาร์ ความเข้มแข็งของการเปลี่ยนแปลงในภาคกลางของประชากรมักจะน้อยกว่าในประชากรทั้งหมด ความสัมพันธ์ระหว่างโมดูลค่าเบี่ยงเบนเฉลี่ยกับค่าเบี่ยงเบนเฉลี่ยรายไตรมาสยังทำหน้าที่ศึกษาโครงสร้างของความแปรปรวน: คุ้มค่ามากอัตราส่วนดังกล่าวบ่งชี้ถึงการมีอยู่ของ "แกนกลาง" ที่เปลี่ยนแปลงเล็กน้อยและสภาพแวดล้อมที่กระจัดกระจายอย่างมากรอบๆ แกนกลางนี้ หรือ "รัศมี" ในประชากรที่อยู่ระหว่างการศึกษา สำหรับข้อมูลในตาราง อัตราส่วน 5.6 ตอบ: ถาม= 1.23 ซึ่งบ่งบอกถึงความแตกต่างเล็กน้อยในความแข็งแกร่งของการเปลี่ยนแปลงในภาคกลางของประชากรและบริเวณรอบนอก

ในการประเมินความรุนแรงของการแปรผันและเปรียบเทียบในกลุ่มประชากรต่างๆ และโดยเฉพาะอย่างยิ่งสำหรับคุณลักษณะที่แตกต่างกัน เป็นสิ่งจำเป็น การวัดความสัมพันธ์ของการแปรผันคำนวณเป็นอัตราส่วนของตัวบ่งชี้สัมบูรณ์ของความแข็งแกร่งของการเปลี่ยนแปลงที่กล่าวถึงก่อนหน้านี้ต่อค่าเฉลี่ยเลขคณิตของคุณลักษณะ เราได้รับตัวบ่งชี้ดังต่อไปนี้:

1) ช่วงสัมพัทธ์ของการแปรผัน p:

2) ส่วนเบี่ยงเบนสัมพัทธ์ในโมดูลัส ที:

3) ค่าสัมประสิทธิ์ของการแปรผันเป็นส่วนเบี่ยงเบนกำลังสองสัมพัทธ์ โวลต์:

4) ระยะทางสัมพันธ์รายไตรมาส ง:

ที่ไหน ถาม - ระยะทางควอไทล์เฉลี่ย

สำหรับการแปรผันของผลผลิตตามข้อมูลในตาราง 5.6 ตัวบ่งชี้เหล่านี้คือ:

ρ = 42.4: 30.3 = 1.4 หรือ 140%;

= 6.85: 30.3 = 0.226 หรือ 22.6%;

โวลต์ = 8.44: 30.3 = 0.279 หรือ 27.9%;

= 5.58: 30.3 = 0.184 หรือ 18.4%

การประเมินระดับความรุนแรงของการแปรผันสามารถทำได้เฉพาะกับคุณลักษณะเฉพาะของประชากรในองค์ประกอบบางอย่างเท่านั้น ดังนั้น สำหรับกลุ่มวิสาหกิจทางการเกษตร ความแปรผันของผลผลิตในพื้นที่ธรรมชาติเดียวกันสามารถประเมินได้ว่าอ่อนแอหาก โวลต์ < 10%, умеренная при 10% < โวลต์ < 25% и сильная при โวลต์ > 25%.

ในทางตรงกันข้าม ความแปรผันของความสูงในประชากรของผู้ชายหรือผู้หญิงที่เป็นผู้ใหญ่ แม้จะอยู่ที่อัตรา 7% ก็ควรได้รับการประเมินและรับรู้โดยผู้คนว่ามีความแข็งแกร่ง ดังนั้น การประเมินความเข้มของการแปรผันประกอบด้วยการเปรียบเทียบความแปรผันที่สังเกตได้กับความเข้มปกติบางส่วน ซึ่งถือเป็นมาตรฐาน เราคุ้นเคยกับความจริงที่ว่าประสิทธิภาพการทำงานรายได้หรือรายได้ต่อหัวจำนวนห้องนั่งเล่นในอาคารอาจแตกต่างกันหลายหรือสิบเท่า แต่ความแตกต่างของความสูงของผู้คนอย่างน้อยหนึ่งครั้งครึ่งก็รับรู้ได้แล้ว แข็งแกร่งมาก

ความแรงและความรุนแรงของการแปรผันที่แตกต่างกันนั้นเนื่องมาจากเหตุผลที่เป็นรูปธรรม ตัวอย่างเช่น ราคาขายของดอลลาร์สหรัฐในธนาคารพาณิชย์ในเซนต์ปีเตอร์สเบิร์กเมื่อวันที่ 24 มกราคม 1997 เปลี่ยนแปลงจาก 5,675 ถึง 5,640 รูเบิล ที่ ราคาเฉลี่ย 5664 ถู ช่วงสัมพัทธ์ของการแปรผัน ρ = 35:5664 = 0.6% ความแตกต่างเล็กน้อยดังกล่าวเกิดจากความจริงที่ว่าหากอัตราแลกเปลี่ยนเงินดอลลาร์มีความแตกต่างอย่างมีนัยสำคัญ ผู้ซื้อจะไหลออกจากธนาคารที่ "แพง" ไปยังธนาคารที่ "ถูกกว่า" ทันที ในทางตรงกันข้ามราคามันฝรั่งหรือเนื้อวัวหนึ่งกิโลกรัมในภูมิภาคต่าง ๆ ของรัสเซียนั้นแตกต่างกันมาก - ประมาณสิบเปอร์เซ็นต์หรือมากกว่านั้น สิ่งนี้อธิบายได้จากต้นทุนที่แตกต่างกันในการจัดส่งสินค้าจากภูมิภาคการผลิตไปยังภูมิภาคผู้บริโภค เช่น สุภาษิตที่ว่า "วัวสาวข้ามทะเลมีค่าเพียงครึ่งรูเบิล แต่ขนรูเบิลได้"

5.9. ช่วงเวลาการกระจายและตัวชี้วัด รูปร่างของมัน

ช่วงเวลาสำคัญของการจัดจำหน่าย

เพื่อศึกษาธรรมชาติของการแปรผันเพิ่มเติม จะใช้ค่าเฉลี่ยของระดับความเบี่ยงเบนที่แตกต่างกันของแต่ละค่าของลักษณะจากค่าเฉลี่ยเลขคณิต ตัวชี้วัดเหล่านี้เรียกว่า จุดศูนย์กลางการกระจายลำดับที่สอดคล้องกับระดับของการเบี่ยงเบนที่เพิ่มขึ้น (ตาราง 5.7) หรือเพียงแค่ช่วงเวลา (ช่วงเวลาที่ไม่ใช่ศูนย์กลางนั้นไม่ค่อยได้ใช้และจะไม่ได้รับการพิจารณาที่นี่) ขนาดของโมเมนต์ที่สาม μ- ขึ้นอยู่กับความเด่นของลูกบาศก์บวกของการเบี่ยงเบนเหนือลูกบาศก์ลบ หรือในทางกลับกัน เมื่อใช้การกระจายแบบสมมาตรแบบปกติและแบบอื่นๆ ผลรวมของลูกบาศก์บวกจะเท่ากับผลรวมของลูกบาศก์ลบอย่างเคร่งครัด

ตัวชี้วัดความไม่สมดุล

ขึ้นอยู่กับช่วงเวลาลำดับที่สาม คุณสามารถสร้างตัวบ่งชี้ที่แสดงถึงระดับความไม่สมมาตรของการแจกแจงได้:

เช่นเรียกว่า ค่าสัมประสิทธิ์ความไม่สมดุลสามารถคำนวณได้จากข้อมูลทั้งแบบจัดกลุ่มและแบบไม่จัดกลุ่ม ตามตารางครับ. 5.6 ตัวบ่งชี้ความไม่สมมาตรคือ:

เหล่านั้น. ความไม่สมดุลไม่มีนัยสำคัญ เค. เพียร์สัน นักสถิติชาวอังกฤษ อิงจากความแตกต่างระหว่างค่าเฉลี่ยและโหมด เสนอตัวบ่งชี้ความไม่สมมาตรอีกแบบหนึ่ง

ตารางที่ 5.7

ช่วงเวลาสำคัญ

ตามตารางครับ. 5.6 ตัวบ่งชี้ของเพียร์สันคือ:

ดัชนีเพียร์สันขึ้นอยู่กับระดับของความไม่สมมาตรในส่วนตรงกลางของชุดการแจกแจงและดัชนีความไม่สมมาตรซึ่งขึ้นอยู่กับโมเมนต์ลำดับที่สามนั้นขึ้นอยู่กับค่าสุดขีดของลักษณะเฉพาะ ดังนั้นในตัวอย่างของเรา ในส่วนตรงกลางของการกระจาย ความไม่สมมาตรมีความสำคัญมากกว่า ดังที่เห็นได้จากกราฟ (รูปที่ 5.1) การแจกแจงที่มีความไม่สมมาตรด้านขวาและด้านซ้าย (บวกและลบ) ชัดเจนดังแสดงในรูปที่ 1 5.3.

ลักษณะของการกระจายความโด่ง

ด้วยความช่วยเหลือในขณะนี้ ลำดับที่สี่โดดเด่นด้วยคุณสมบัติการกระจายอนุกรมที่ซับซ้อนยิ่งกว่าความไม่สมมาตรที่เรียกว่า ส่วนเกิน.


ข้าว. 5.3. ความไม่สมมาตร การกระจายตัว

ตัวบ่งชี้ความโด่งคำนวณโดยใช้สูตร

(5.30)

Kurtosis มักถูกตีความว่าเป็น "ความชัน" ของการกระจายตัว แต่สิ่งนี้ไม่ชัดเจนและไม่สมบูรณ์ กราฟการกระจายสามารถมีลักษณะชันโดยพลการได้ ขึ้นอยู่กับความแข็งแกร่งของการแปรผันของลักษณะ: ยิ่งความแปรผันอ่อนลง เส้นโค้งการกระจายก็จะยิ่งชันมากขึ้นตามระดับที่กำหนด ไม่ต้องพูดถึงความจริงที่ว่าโดยการเปลี่ยนสเกลตามแกน x และกำหนดตำแหน่ง การกระจายใด ๆ สามารถทำให้ "สูงชัน" และ "แบน" อย่างเทียมได้ เพื่อแสดงให้เห็นว่าความโด่งของการแจกแจงประกอบด้วยอะไรและเพื่อตีความอย่างถูกต้อง จำเป็นต้องเปรียบเทียบอนุกรมที่มีความแรงของการแปรผันเท่ากัน (ค่าเท่ากันของ σ) และตัวบ่งชี้ความโด่งที่แตกต่างกัน เพื่อไม่ให้เกิดความสับสนระหว่างความโด่งกับความไม่สมมาตร อนุกรมที่เปรียบเทียบทั้งหมดจะต้องมีความสมมาตร การเปรียบเทียบนี้แสดงไว้ในรูปที่. 5.4.

รูปที่ 5.4 Kurtosis ของการแจกแจง

สำหรับชุดรูปแบบที่มีการแจกแจงค่าแบบปกติ ฉัน ดัชนีความโด่งคำนวณโดยใช้สูตร (5.30) j เท่ากับสาม

อย่างไรก็ตาม ตัวบ่งชี้ดังกล่าวไม่ควรเรียกว่าคำว่า "ส่วนเกิน" ซึ่งหมายถึง "ส่วนเกิน" คำว่า "โด่ง" ไม่ควรใช้กับอัตราส่วนตามสูตร (5.30) แต่เป็นการเปรียบเทียบอัตราส่วนดังกล่าวสำหรับการแจกแจงภายใต้การศึกษากับค่าของอัตราส่วนที่กำหนดของการแจกแจงแบบปกติเช่น ด้วยค่า 3 ดังนั้นสูตรสุดท้ายสำหรับตัวบ่งชี้ความโด่งคือ ส่วนเกินเมื่อเปรียบเทียบกับการแจกแจงแบบปกติที่มีความแรงของการแปรผันเท่ากันมีรูปแบบ:

สำหรับซีรีย์จัดอันดับ

สำหรับอนุกรมการแปรผันช่วงและแบบไม่ต่อเนื่อง

การปรากฏตัวของความโด่งเชิงบวกรวมถึงความแตกต่างอย่างมีนัยสำคัญที่ระบุไว้ก่อนหน้านี้ระหว่างระยะทางรายไตรมาสเล็ก ๆ และค่าเบี่ยงเบนมาตรฐานขนาดใหญ่หมายความว่าในมวลของปรากฏการณ์ที่กำลังศึกษามี "แกนกลาง" ที่แตกต่างกันเล็กน้อยตามลักษณะนี้ล้อมรอบ โดย "รัศมี" ที่กระจัดกระจาย ด้วยความโด่งเชิงลบที่สำคัญจึงไม่มี "แกนกลาง" ดังกล่าวเลย

ขึ้นอยู่กับค่าของตัวบ่งชี้ความไม่สมมาตรและโด่งของการแจกแจงเราสามารถตัดสินความใกล้เคียงของการกระจายสู่ระดับปกติซึ่งอาจจำเป็นสำหรับการประเมินผลลัพธ์ของความสัมพันธ์และ การวิเคราะห์การถดถอยความเป็นไปได้สำหรับการประเมินความน่าจะเป็นของการพยากรณ์ (ดูบทที่ 7,8,9) การแจกแจงถือได้ว่าเป็นปกติหรือแม่นยำกว่านั้น ไม่สามารถปฏิเสธสมมติฐานเกี่ยวกับความคล้ายคลึงกันของการแจกแจงจริงกับแบบปกติได้หากตัวบ่งชี้ความไม่สมมาตรและความโด่งไม่เกินค่าเบี่ยงเบนมาตรฐานสองเท่าของ Stz ค่าเบี่ยงเบนมาตรฐานเหล่านี้คำนวณโดยใช้สูตร:

5.10. ค่าสูงสุดที่เป็นไปได้ ตัวชี้วัดการเปลี่ยนแปลงและการนำไปใช้

เมื่อใช้ตัวบ่งชี้ทางสถิติประเภทใด ๆ จะมีประโยชน์ที่จะทราบว่าค่าที่เป็นไปได้สูงสุดของตัวบ่งชี้ที่กำหนดสำหรับระบบที่กำลังศึกษาคือเท่าใดและอัตราส่วนของค่าที่สังเกตได้จริงต่อค่าสูงสุดที่เป็นไปได้คือเท่าใด ปัญหานี้มีความเกี่ยวข้องโดยเฉพาะอย่างยิ่งเมื่อศึกษาความแปรผันของตัวชี้วัดเชิงปริมาตร เช่น ปริมาณการผลิตของผลิตภัณฑ์บางประเภท ความพร้อมของทรัพยากรบางอย่าง การกระจายการลงทุน รายได้ และกำไร ให้เราพิจารณาปัญหานี้ทั้งทางทฤษฎีและปฏิบัติโดยใช้ตัวอย่างการกระจายการผลิตผักระหว่างผู้ประกอบการทางการเกษตรในภูมิภาค

เห็นได้ชัดว่าค่าต่ำสุดที่เป็นไปได้ของตัวบ่งชี้การเปลี่ยนแปลงนั้นเกิดขึ้นได้ด้วยการกระจายลักษณะเชิงปริมาตรอย่างสม่ำเสมอในทุกหน่วยของประชากร เช่น ด้วยปริมาณการผลิตเท่ากันในสถานประกอบการทางการเกษตรแต่ละแห่ง ในการกระจายแบบจำกัด (แน่นอนว่าไม่น่าเป็นไปได้ในทางปฏิบัติ) ดังกล่าว จะไม่มีความแปรผัน และตัวบ่งชี้และความแปรผันทั้งหมดจะเท่ากับศูนย์

ค่าสูงสุดที่เป็นไปได้ของตัวบ่งชี้ความแปรผันนั้นเกิดขึ้นได้ด้วยการกระจายลักษณะเชิงปริมาตรในประชากรซึ่งปริมาตรทั้งหมดจะกระจุกตัวอยู่ในหน่วยหนึ่งของประชากร ตัวอย่างเช่น ปริมาณการผลิตผักทั้งหมดอยู่ในองค์กรเกษตรกรรมแห่งหนึ่งในภูมิภาค ในขณะที่ฟาร์มอื่นไม่มีการผลิต ความน่าจะเป็นที่ความเข้มข้นที่เป็นไปได้อย่างมากของปริมาตรของลักษณะเฉพาะในหนึ่งหน่วยของประชากรนั้นไม่น้อยนัก ไม่ว่าในกรณีใด จะมีค่ามากกว่าความน่าจะเป็นที่จะมีการแจกแจงแบบสม่ำเสมออย่างเคร่งครัด

ให้เราพิจารณาตัวบ่งชี้ความแปรผันสำหรับกรณีขีดจำกัดที่ระบุถึงค่าสูงสุด ให้เราแสดงจำนวนหน่วยของประชากร พีมูลค่าเฉลี่ยของลักษณะ เอ็กซ์̅ , จากนั้นปริมาณรวมของคุณลักษณะโดยรวมจะแสดงเป็น เอ็กซ์̅ พีปริมาตรทั้งหมดนี้กระจุกตัวอยู่ในหนึ่งหน่วยของมวลรวม ดังนั้น เอ็กซ์สูงสุด= x̅ พิกเซลนาที = 0, ซึ่งตามมาว่าค่าสูงสุดของแอมพลิจูด (ช่วงของการแปรผัน) เท่ากับ:

ในการคำนวณค่าสูงสุดของค่าเบี่ยงเบนเฉลี่ยแบบโมดูโลและกำลังสองเราจะสร้างตารางค่าเบี่ยงเบน (ตารางที่ 5.8)

ตาราง5.8

โมดูลและกำลังสองของการเบี่ยงเบนจากค่าเฉลี่ยสูงสุดการเปลี่ยนแปลงที่เป็นไปได้

หมายเลขหน่วยประชากร

ค่าลักษณะเฉพาะ

การเบี่ยงเบนจากค่าเฉลี่ย

x ฉัน - x̅

โมดูลส่วนเบี่ยงเบน

|x ฉัน - x̅|

ส่วนเบี่ยงเบนกำลังสอง

(เอ็กซ์ฉัน- เอ็กซ์̅ ) 2

เอ็กซ์̅ n

เอ็กซ์̅ (พี- 1)

-x̅

-x̅

-x̅

เอ็กซ์̅ (พี- 1)

เอ็กซ์̅

เอ็กซ์̅

เอ็กซ์̅

เอ็กซ์̅ 2 (พี- 1) 2

เอ็กซ์̅ 2

เอ็กซ์̅ 2

เอ็กซ์̅ 2

เอ็กซ์̅ n

2เอ็กซ์̅ (พี- 1)

เอ็กซ์̅ 2 [(พี- 1) 2 +(น-1)]

ขึ้นอยู่กับนิพจน์ในบรรทัดสุดท้ายของตาราง 5.8 เราได้รับค่าสูงสุดที่เป็นไปได้ของตัวบ่งชี้การเปลี่ยนแปลงดังต่อไปนี้

โมดูลค่าเบี่ยงเบนเฉลี่ยหรือค่าเบี่ยงเบนเชิงเส้นเฉลี่ย:

ส่วนเบี่ยงเบนมาตรฐาน:

ส่วนเบี่ยงเบนแบบโมดูลาร์สัมพัทธ์ (เชิงเส้น):

ค่าสัมประสิทธิ์การเปลี่ยนแปลง:

สำหรับระยะทางรายไตรมาส ระบบที่มีความแปรผันสูงสุดที่เป็นไปได้มีโครงสร้างการกระจายที่เสื่อมลงของคุณลักษณะ ซึ่งไม่มีคุณลักษณะโครงสร้าง (“ไม่ทำงาน”): ค่ามัธยฐาน ควอร์ไทล์ และอื่นๆ ที่คล้ายคลึงกัน

ขึ้นอยู่กับสูตรที่ได้รับสำหรับค่าสูงสุดที่เป็นไปได้ของตัวบ่งชี้หลักของการเปลี่ยนแปลงประการแรกข้อสรุปดังต่อไปนี้เกี่ยวกับการพึ่งพาค่าเหล่านี้กับปริมาณของประชากร พีการพึ่งพาอาศัยกันนี้สรุปไว้ในตาราง 5.9.

ขีดจำกัดการเปลี่ยนแปลงที่แคบที่สุดและการพึ่งพาขนาดประชากรเพียงเล็กน้อยจะพบได้ในโมดูลค่าเฉลี่ยและการเบี่ยงเบนเชิงเส้นสัมพัทธ์ ในทางตรงกันข้าม ค่าเบี่ยงเบนมาตรฐานและค่าสัมประสิทธิ์ของการแปรผันขึ้นอยู่กับจำนวนหน่วยประชากรเป็นอย่างมาก ควรคำนึงถึงการพึ่งพาอาศัยกันนี้เมื่อเปรียบเทียบความรุนแรงของการเปลี่ยนแปลงในประชากรที่มีขนาดต่างกัน หากในวิสาหกิจทั้งหมด 6 แห่ง ค่าสัมประสิทธิ์การเปลี่ยนแปลงของปริมาณการผลิตคือ 0.58 และใน 20 วิสาหกิจทั้งหมดมีค่าเท่ากับ 0.72 เป็นเรื่องที่ยุติธรรมหรือไม่ที่จะสรุปว่าปริมาณการผลิตในประชากรกลุ่มที่สองมีความไม่สม่ำเสมอมากขึ้น อันที่จริง ในตอนแรก อันที่เล็กกว่านั้นคือ 0.58: 2.24 = 25.9% ของค่าสูงสุดที่เป็นไปได้ เช่น ระดับความเข้มข้นสูงสุดของการผลิตในสถานประกอบการหนึ่งจากทั้งหมดหกแห่ง และในสถานประกอบการที่สองซึ่งมีประชากรมากขึ้น ค่าสัมประสิทธิ์การเปลี่ยนแปลงที่สังเกตได้คือเพียง 0.72: 4.36 = 16.5% ของค่าสูงสุดที่เป็นไปได้

ตารางที่ 5.9

ค่าจำกัดของตัวบ่งชี้การเปลี่ยนแปลงลักษณะปริมาตรในขนาดประชากรที่แตกต่างกัน

จำนวนมวลรวม

ค่าสูงสุดของตัวบ่งชี้

เอ็กซ์̅

เอ็กซ์̅

1,5เอ็กซ์̅

1,73เอ็กซ์̅

1,67เอ็กซ์̅

2,24เอ็กซ์̅

1,80เอ็กซ์̅

3เอ็กซ์̅

1,90เอ็กซ์̅

4,36เอ็กซ์̅

1,96เอ็กซ์̅

7เอ็กซ์̅

1,98เอ็กซ์̅

9,95เอ็กซ์̅

2เอ็กซ์̅

ตัวบ่งชี้ดังกล่าวเป็นอัตราส่วนของโมดูลัสเฉลี่ยที่แท้จริงของการเบี่ยงเบนต่อค่าสูงสุดที่เป็นไปได้ก็มีความสำคัญในทางปฏิบัติเช่นกัน ดังนั้น สำหรับกลุ่มวิสาหกิจ 6 แห่ง อัตราส่วนนี้จึงเป็น: 0.47: 1.67 = 0.281 หรือ 28.1% การตีความตัวบ่งชี้ที่ได้รับมีดังนี้: เพื่อที่จะเปลี่ยนจากการกระจายปริมาณการผลิตที่สังเกตได้ระหว่างองค์กรไปสู่การกระจายแบบสม่ำเสมอจำเป็นต้องแจกจ่ายซ้ำ

หรือคิดเป็นร้อยละ 23.4 ของการผลิตทั้งหมด หากระดับความเข้มข้นของการผลิตจริง (ค่าจริง σ หรือ โวลต์) ถือเป็นสัดส่วนหนึ่งของค่าขีดจำกัดเมื่อผูกขาดการผลิตในองค์กรหนึ่ง ดังนั้นอัตราส่วนของตัวบ่งชี้ที่แท้จริงต่อค่าขีดจำกัดสามารถกำหนดลักษณะระดับความเข้มข้น (หรือการผูกขาด) ของการผลิตได้

อัตราส่วนของค่าที่แท้จริงของตัวบ่งชี้ความแปรปรวนหรือการเปลี่ยนแปลงโครงสร้างต่อค่าสูงสุดที่เป็นไปได้ยังใช้ในการวิเคราะห์การเปลี่ยนแปลงโครงสร้าง (ดูบทที่ 11)

1. เจนี่ เค.ค่าเฉลี่ย - อ.: สถิติ, 2513.

2. Krivenkova L. N. , Yuzbashev M. M.พื้นที่ของการดำรงอยู่ของตัวบ่งชี้การเปลี่ยนแปลงและการนำไปใช้ // กระดานข่าวสถิติ - พ.ศ. 2534. - ลำดับที่ 6. - ป.66-70.

3. ปัสคาเวอร์ ไอ.เอส.ค่าเฉลี่ยในสถิติ - ม.: สถิติ. 1979.

4. Shurakov V.V. , Dayitbegov D.M.อัตโนมัติ ที่ทำงานการประมวลผลข้อมูลทางสถิติ (บทที่ 4 การประมวลผลข้อมูลทางสถิติเบื้องต้น) - อ.: การเงินและสถิติ, 2533.

ขั้นตอนแรกของการศึกษาทางสถิติของการแปรผันคือการสร้างชุดการแปรผัน - การกระจายแบบเรียงลำดับของหน่วยประชากรตามค่าที่เพิ่มขึ้น (บ่อยขึ้น) หรือลดลง (น้อยกว่า) ของลักษณะเฉพาะและการนับจำนวนหน่วยด้วย คุณค่าเฉพาะของคุณลักษณะ

ซีรีส์รูปแบบต่างๆ มีสามรูปแบบ: จัดอันดับ, ไม่ต่อเนื่อง, ช่วงเวลา ซีรีส์รูปแบบต่างๆ มักเรียกว่าซีรีส์การจัดจำหน่าย คำนี้ใช้ในการศึกษาความแปรผันในลักษณะเชิงปริมาณและไม่ใช่เชิงปริมาณ ชุดการจัดจำหน่ายคือการจัดกลุ่มโครงสร้าง (บทที่ 6)

อนุกรมอันดับคือรายการของแต่ละหน่วยของประชากรโดยเรียงลำดับจากน้อยไปหามาก (มากไปหาน้อย) ของคุณลักษณะที่กำลังศึกษา

ด้านล่างนี้เป็นข้อมูลเกี่ยวกับธนาคารขนาดใหญ่ในเซนต์ปีเตอร์สเบิร์ก จัดอันดับตามทุนจดทะเบียน ณ วันที่ 1 ตุลาคม 1999

ชื่อธนาคาร ทุนของตัวเอง ล้านรูเบิล ธนาคารบัลโตเนซิม 169

ธนาคาร "เซนต์ปีเตอร์สเบิร์ก" 237

เปตรอฟสกี้ 268

ทะเลบอลติก 290

พรอมสตรอยแบงก์ 1007

หากจำนวนหน่วยประชากรมีขนาดใหญ่เพียงพอ ซีรีส์อันดับจะยุ่งยาก และการก่อสร้างแม้จะใช้คอมพิวเตอร์ช่วยก็ใช้เวลานาน ในกรณีเช่นนี้ ชุดรูปแบบจะถูกสร้างขึ้นโดยการจัดกลุ่มหน่วยประชากรตามค่าของคุณลักษณะที่กำลังศึกษา


การกำหนดจำนวนกลุ่ม

จำนวนกลุ่มในชุดรูปแบบที่ไม่ต่อเนื่องจะพิจารณาจากจำนวนค่าที่มีอยู่จริงของคุณลักษณะที่แตกต่างกัน หากลักษณะเฉพาะใช้ค่าที่ไม่ต่อเนื่อง แต่มีจำนวนมาก (เช่นจำนวนปศุสัตว์ในวันที่ 1 มกราคมของปีในสถานประกอบการทางการเกษตรที่แตกต่างกันสามารถอยู่ในช่วงตั้งแต่ศูนย์ถึงหมื่นหัว) ดังนั้นชุดการแปรผันช่วงเวลาจะถูกสร้างขึ้น . ซีรีย์การแปรผันตามช่วงเวลายังถูกสร้างขึ้นเพื่อศึกษาคุณลักษณะที่สามารถรับค่าใด ๆ ทั้งค่าจำนวนเต็มและค่าเศษส่วนได้

พื้นที่ของการดำรงอยู่ของมัน ตัวอย่างเช่น ความสามารถในการทำกำไรของผลิตภัณฑ์ที่ขาย ต้นทุนของหน่วยการผลิต รายได้ต่อผู้อยู่อาศัยในเมือง ส่วนแบ่งของผู้ที่มีการศึกษาระดับสูงในหมู่ประชากรในดินแดนที่แตกต่างกัน และโดยทั่วไปแล้ว ลักษณะรองทั้งหมด ค่านิยม ซึ่งคำนวณโดยการหารค่าของคุณลักษณะหลักหนึ่งด้วยค่าของอีกคุณลักษณะหนึ่ง (ดูบทที่ 3)

อนุกรมความแปรผันตามช่วงเวลาคือตารางที่ประกอบด้วยสองคอลัมน์ (หรือแถว) - ช่วงเวลาของคุณลักษณะที่กำลังศึกษาความแปรผัน และจำนวนหน่วยประชากรที่อยู่ในช่วงนี้ (ความถี่) หรือสัดส่วนของจำนวนนี้จากจำนวนประชากรทั้งหมด (ความถี่)

ที่ใช้กันมากที่สุดคือซีรีย์การเปลี่ยนแปลงช่วงเวลาสองประเภท: ช่วงเท่ากันและความถี่เท่ากัน จะใช้อนุกรมช่วงเวลาที่เท่ากันหากความแปรผันของคุณลักษณะไม่รุนแรงมากเช่น สำหรับประชากรที่เป็นเนื้อเดียวกันซึ่งการกระจายตัวตามลักษณะนี้จะใกล้เคียงกับกฎปกติ (ชุดดังกล่าวแสดงไว้ในตารางที่ 5.6) ชุดความถี่เท่ากันจะใช้หากการเปลี่ยนแปลงของลักษณะเฉพาะมีความเข้มข้นมาก แต่การกระจายไม่ปกติ แต่ตัวอย่างเช่น การผ่อนชำระ (ตารางที่ 5.5)

เมื่อสร้างอนุกรมช่วงเท่ากัน จำนวนของกลุ่มจะถูกเลือกเพื่อให้ความหลากหลายของค่าคุณลักษณะในการรวมสะท้อนอย่างเพียงพอ และในขณะเดียวกัน รูปแบบการกระจายจะไม่บิดเบี้ยวจากความผันผวนของความถี่สุ่ม หากมีกลุ่มน้อยเกินไป รูปแบบของการแปรผันจะไม่ปรากฏ หากมีกลุ่มมากเกินไป การกระโดดความถี่แบบสุ่มจะทำให้รูปร่างของการแจกแจงผิดเพี้ยนไป



ขอบเขตของช่วงสามารถระบุได้หลายวิธี: ขอบเขตด้านบนของช่วงก่อนหน้าจะทำซ้ำขอบเขตด้านล่างของช่วงถัดไป ดังแสดงในตาราง 5.5 หรือไม่ทำซ้ำ

ในกรณีหลัง ช่วงที่สองจะถูกกำหนดเป็น 15.1-20 ช่วงที่สามเป็น 20.1-25 เป็นต้น เช่น สันนิษฐานว่าค่าผลผลิตทั้งหมดจะต้องปัดเศษให้เป็นหนึ่งในสิบ นอกจากนี้ภาวะแทรกซ้อนที่ไม่พึงประสงค์เกิดขึ้นในช่วงกลางของช่วงเวลา 15.1-20 ซึ่งพูดอย่างเคร่งครัดจะไม่เท่ากับ 17.5 อีกต่อไป แต่ 17.55; ดังนั้น เมื่อแทนที่ช่วงการปัดเศษ 40-60 ด้วย 40.1-60 แทนที่จะเป็นค่าการปัดเศษของค่ากลาง 50 เราจะได้ 50.5 ดังนั้นจึงเป็นการดีกว่าที่จะปล่อยให้ช่วงเวลามีขอบเขตการปัดเศษซ้ำๆ และตกลงว่าหน่วยประชากรที่มีค่าลักษณะเฉพาะเท่ากับขอบเขตช่วงจะรวมไว้ในช่วงเวลาที่ระบุค่าที่แน่นอนนี้เป็นครั้งแรก ดังนั้นฟาร์มที่ให้ผลผลิตเท่ากับ 15 c/ha จะรวมอยู่ในกลุ่มแรกด้วยค่าคือ 20 c/ha

ถึงวินาที ฯลฯ

ชุดการแปรผันความถี่เท่ากันเป็นสิ่งจำเป็นเมื่อมีการเปลี่ยนแปลงคุณลักษณะที่รุนแรงมาก เนื่องจากเมื่อมีการแจกแจงช่วงเท่ากัน หน่วยส่วนใหญ่ในประชากรจะปรากฏ


ตารางที่ 5.5

การกระจายของธนาคารรัสเซีย 100 แห่งตามการประเมินมูลค่าสินทรัพย์ ณ วันที่ 01/01/2543


ขอบเขตของช่วงเวลาสำหรับการกระจายความถี่ที่เท่ากันคือมูลค่าที่แท้จริงของสินทรัพย์ของธนาคารที่หนึ่ง, สิบ, สิบเอ็ด, ยี่สิบและอื่น ๆ

การแสดงกราฟิกของซีรี่ส์รูปแบบต่างๆ

การแสดงแบบกราฟิกให้ความช่วยเหลือที่สำคัญในการวิเคราะห์ชุดรูปแบบและคุณสมบัติของชุดต่างๆ อนุกรมช่วงเวลาแสดงด้วยแผนภูมิแท่งซึ่งฐานของแท่งที่ตั้งอยู่บนแกน Abscissa คือช่วงเวลาของค่าของคุณลักษณะที่แตกต่างกันและความสูงของแท่งคือความถี่ที่สอดคล้องกับมาตราส่วนตามแนวพิกัด แกน. การแสดงการกระจายตัวของฟาร์มในภูมิภาคแบบกราฟิกตามผลผลิตธัญพืชจะแสดงในรูปที่ 1

5.1. แผนภาพประเภทนี้มักเรียกว่าฮิสโตแกรม (gr. histos - เนื้อเยื่อ)

ข้อมูลตาราง 5.6 และรูป 5.1 แสดงลักษณะรูปร่างการกระจายของลักษณะต่างๆ มากมาย: ค่าของช่วงเวลาเฉลี่ยของลักษณะจะพบได้บ่อยกว่า และค่าลักษณะสุดขั้ว เล็ก และใหญ่จะพบได้น้อยกว่า รูปร่างของการแจกแจงนี้ใกล้เคียงกับกฎการแจกแจงแบบปกติที่กล่าวถึงในวิชาสถิติทางคณิตศาสตร์ นักคณิตศาสตร์ผู้ยิ่งใหญ่ชาวรัสเซีย A. M. Lyapunov (1857-1918) พิสูจน์ว่าปกติ

ตารางที่ 5.6 การกระจายตัวของฟาร์มในภูมิภาคตามผลผลิตธัญพืช


การแจกแจงเล็กน้อยจะเกิดขึ้นหากตัวแปรได้รับอิทธิพลจากปัจจัยจำนวนมาก โดยไม่มีปัจจัยใดมีอิทธิพลเหนือกว่า การรวมกันของปัจจัยที่เท่าเทียมกันโดยประมาณหลายประการที่มีอิทธิพลต่อการเปลี่ยนแปลงในผลผลิตของพืชผลทั้งทางธรรมชาติและทางการเกษตร ทางเศรษฐกิจ ทำให้เกิดการกระจายตัวของฟาร์มในภูมิภาคด้วยผลผลิตที่ใกล้เคียงกับกฎหมายการกระจายแบบปกติ


ข้าว. 5.2. สะสมและกระจายการจำหน่ายฟาร์มโดย

ผลผลิต

ซีรีส์ดังกล่าวเรียกว่าสะสม คุณสามารถสร้างการแจกแจงแบบสะสม "ไม่น้อยกว่า" หรือคุณสามารถสร้างได้

"มากกว่า" ในกรณีแรกกราฟการแจกแจงสะสมเรียกว่าสะสมในส่วนที่สอง - ogive (รูปที่ 5.2)

ความหนาแน่นของการกระจาย

หากคุณต้องจัดการกับอนุกรมรูปแบบที่มีช่วงเวลาไม่เท่ากัน เพื่อให้สามารถเปรียบเทียบได้ คุณต้องลดความถี่หรือความถี่ให้เป็นหน่วยของช่วงเวลา อัตราส่วนผลลัพธ์เรียกว่าความหนาแน่นของการกระจาย:


ความหนาแน่นของการกระจายจะใช้ทั้งในการคำนวณตัวบ่งชี้ทั่วไปและเพื่อแสดงชุดความแปรผันแบบกราฟิกที่มีช่วงเวลาที่ไม่เท่ากัน

ขั้นตอนที่สำคัญที่สุดในการศึกษาปรากฏการณ์และกระบวนการทางเศรษฐกิจและสังคมคือการจัดระบบข้อมูลปฐมภูมิและบนพื้นฐานนี้การได้รับลักษณะสรุปของวัตถุทั้งหมดโดยใช้ตัวบ่งชี้ทั่วไป ซึ่งทำได้โดยการสรุปและจัดกลุ่มวัสดุทางสถิติหลัก

สรุปทางสถิติ - นี่เป็นการดำเนินการที่ซับซ้อนตามลำดับเพื่อสรุปข้อเท็จจริงเฉพาะของแต่ละบุคคลซึ่งก่อตัวเป็นชุดเพื่อระบุคุณลักษณะและรูปแบบทั่วไปที่มีอยู่ในปรากฏการณ์ที่กำลังศึกษาโดยรวม การจัดทำสรุปทางสถิติประกอบด้วยขั้นตอนดังต่อไปนี้ :

  • การเลือกลักษณะการจัดกลุ่ม
  • การกำหนดลำดับการก่อตัวของกลุ่ม
  • การพัฒนาระบบตัวบ่งชี้ทางสถิติเพื่อระบุลักษณะกลุ่มและวัตถุโดยรวม
  • การพัฒนาโครงร่างตารางสถิติเพื่อนำเสนอผลสรุป

การจัดกลุ่มทางสถิติ เรียกว่าการแบ่งหน่วยของประชากรที่กำลังศึกษาออกเป็นกลุ่มเนื้อเดียวกันตามลักษณะเฉพาะที่จำเป็นต่อพวกเขา การจัดกลุ่มเป็นวิธีทางสถิติที่สำคัญที่สุดในการสรุปข้อมูลทางสถิติ ซึ่งเป็นพื้นฐานสำหรับการคำนวณตัวบ่งชี้ทางสถิติที่ถูกต้อง

การจัดกลุ่มประเภทต่อไปนี้มีความโดดเด่น: ประเภท, โครงสร้าง, การวิเคราะห์ การจัดกลุ่มทั้งหมดนี้รวมกันโดยข้อเท็จจริงที่ว่าหน่วยของวัตถุถูกแบ่งออกเป็นกลุ่มตามลักษณะบางอย่าง

คุณลักษณะการจัดกลุ่ม เป็นลักษณะที่หน่วยประชากรถูกแบ่งออกเป็นกลุ่มต่างๆ จากลักษณะการจัดกลุ่มจะเป็นตัวกำหนดข้อสรุปของการศึกษาทางสถิติ เป็นพื้นฐานสำหรับการจัดกลุ่ม จำเป็นต้องใช้คุณลักษณะที่มีนัยสำคัญตามทฤษฎี (เชิงปริมาณหรือเชิงคุณภาพ)

ลักษณะเชิงปริมาณของการจัดกลุ่ม มีการแสดงตัวเลข (ปริมาณการซื้อขาย อายุของบุคคล รายได้ของครอบครัว ฯลฯ) และ สัญญาณเชิงคุณภาพของการจัดกลุ่ม สะท้อนถึงสถานะของหน่วยประชากร (เพศ, สถานภาพการสมรส, ความเกี่ยวข้องในอุตสาหกรรมขององค์กร, รูปแบบการเป็นเจ้าของ ฯลฯ )

หลังจากกำหนดพื้นฐานของการจัดกลุ่มแล้ว จะต้องตัดสินใจคำถามเกี่ยวกับจำนวนกลุ่มที่ควรแบ่งประชากรภายใต้การศึกษา

จำนวนกลุ่มขึ้นอยู่กับวัตถุประสงค์ของการศึกษาและประเภทของตัวบ่งชี้ที่เป็นพื้นฐานของการจัดกลุ่ม ปริมาณของประชากร และระดับของการเปลี่ยนแปลงของลักษณะเฉพาะ ตัวอย่างเช่น การจัดกลุ่มวิสาหกิจตามประเภทความเป็นเจ้าของจะคำนึงถึงทรัพย์สินของเทศบาล รัฐบาลกลาง และของรัฐบาลกลาง หากดำเนินการจัดกลุ่มตามปริมาณ ก็จำเป็นต้องกลับรายการความสนใจเป็นพิเศษ

จำนวนหน่วยของวัตถุที่กำลังศึกษาและระดับความแปรปรวนของลักษณะการจัดกลุ่ม เมื่อกำหนดจำนวนกลุ่มแล้ว จะต้องกำหนดช่วงเวลาการจัดกลุ่ม ช่วงเวลา

- นี่คือค่าของคุณลักษณะที่แตกต่างกันซึ่งอยู่ภายในขอบเขตที่กำหนด แต่ละช่วงเวลามีค่าของตัวเอง ขอบเขตบนและล่าง หรืออย่างน้อยหนึ่งขอบเขต ขีดจำกัดล่างของช่วงเวลา เรียกว่าค่าที่น้อยที่สุดของคุณลักษณะในช่วงเวลา และ ขีด จำกัด บน

- ค่าสูงสุดของคุณลักษณะในช่วงเวลา ค่าของช่วงเวลาคือความแตกต่างระหว่างขอบเขตบนและล่าง ช่วงเวลาการจัดกลุ่ม ขึ้นอยู่กับขนาด คือ เท่ากันและไม่เท่ากัน หากการแปรผันของคุณลักษณะปรากฏภายในขอบเขตที่ค่อนข้างแคบและมีการกระจายสม่ำเสมอ แสดงว่ากลุ่มจะถูกสร้างขึ้นในช่วงเวลาที่เท่ากัน ขนาดช่วงเวลาเท่ากัน :

กำหนดโดยสูตรต่อไปนี้

โดยที่ Xmax, Xmin คือค่าสูงสุดและต่ำสุดของคุณลักษณะในการรวม n - จำนวนกลุ่ม

การจัดกลุ่มที่ง่ายที่สุดซึ่งแต่ละกลุ่มที่เลือกจะมีตัวบ่งชี้หนึ่งตัวแสดงถึงชุดการแจกจ่าย ชุดการกระจายทางสถิติ - นี่คือการกระจายหน่วยประชากรออกเป็นกลุ่มตามลำดับตามลักษณะเฉพาะ ขึ้นอยู่กับคุณลักษณะที่เป็นรากฐานของการก่อตัวของชุดการแจกจ่าย แอตทริบิวต์ และซีรีย์การเปลี่ยนแปลง

การแจกแจง เรียกว่าชุดการจัดจำหน่ายที่สร้างขึ้นตามลักษณะเชิงคุณภาพ กล่าวคือ ลักษณะที่ไม่มีการแสดงออกทางตัวเลข (การกระจายตามประเภทของแรงงาน ตามเพศ ตามอาชีพ เป็นต้น) ชุดการแจกแจงแบบระบุลักษณะองค์ประกอบของประชากรตามลักษณะสำคัญบางประการ ข้อมูลเหล่านี้ใช้เวลาหลายช่วงเวลาทำให้สามารถศึกษาการเปลี่ยนแปลงโครงสร้างได้

ซีรีส์หลากหลาย เรียกว่าชุดการแจกจ่ายที่สร้างขึ้นบนพื้นฐานเชิงปริมาณ ซีรีย์รูปแบบใดๆ ประกอบด้วยสององค์ประกอบ: ตัวเลือกและความถี่ ตัวเลือก ค่าแต่ละค่าของคุณลักษณะที่ใช้ในชุดรูปแบบเรียกว่าค่าเฉพาะของคุณลักษณะที่แตกต่างกัน

ความถี่ จะมีการเรียกหมายเลขของตัวแปรแต่ละตัวหรือแต่ละกลุ่มของอนุกรมของตัวแปร นั่นคือตัวเลขที่แสดงว่าตัวแปรบางตัวเกิดขึ้นในซีรีย์การแจกจ่ายบ่อยแค่ไหน ผลรวมของความถี่ทั้งหมดจะกำหนดขนาดของประชากรทั้งหมดและปริมาตรของมัน ความถี่ เรียกว่าความถี่ที่แสดงเป็นเศษส่วนของหน่วยหรือเป็นเปอร์เซ็นต์ของทั้งหมด ดังนั้นผลรวมของความถี่จึงเท่ากับ 1 หรือ 100%

ขึ้นอยู่กับลักษณะของการเปลี่ยนแปลงของคุณลักษณะ อนุกรมรูปแบบสามรูปแบบจะมีความโดดเด่น: อนุกรมอันดับ อนุกรมแยก และอนุกรมช่วง

จัดอันดับซีรีส์รูปแบบต่างๆ - นี่คือการกระจายของแต่ละหน่วยของประชากรโดยเรียงลำดับจากน้อยไปหามากหรือจากมากไปหาน้อยของลักษณะที่กำลังศึกษา การจัดอันดับช่วยให้คุณแบ่งข้อมูลเชิงปริมาณออกเป็นกลุ่มๆ ได้อย่างง่ายดาย ตรวจจับข้อมูลที่เล็กที่สุดและทันที มูลค่าสูงสุดลักษณะเด่นเน้นค่าที่ซ้ำกันบ่อยที่สุด

ซีรี่ส์รูปแบบที่ไม่ต่อเนื่อง ระบุลักษณะการกระจายของหน่วยประชากรตามคุณลักษณะที่ไม่ต่อเนื่องซึ่งรับเฉพาะค่าจำนวนเต็ม ตัวอย่างเช่น หมวดหมู่ภาษี จำนวนเด็กในครอบครัว จำนวนพนักงานในองค์กร เป็นต้น

หากคุณลักษณะมีการเปลี่ยนแปลงอย่างต่อเนื่องซึ่งภายในขอบเขตที่กำหนดสามารถรับค่าใด ๆ (“จาก - ถึง”) ได้ดังนั้นสำหรับคุณลักษณะนี้จำเป็นต้องสร้าง อนุกรมการเปลี่ยนแปลงช่วงเวลา - ตัวอย่างเช่น จำนวนรายได้ ระยะเวลาการให้บริการ ต้นทุนสินทรัพย์ถาวรขององค์กร เป็นต้น

ตัวอย่างการแก้ปัญหาในหัวข้อ “สรุปทางสถิติ และการจัดกลุ่ม”

ปัญหาที่ 1 - มีข้อมูลเกี่ยวกับจำนวนหนังสือที่นักเรียนได้รับจากการสมัครสมาชิกในปีการศึกษาที่ผ่านมา

สร้างซีรีส์การกระจายรูปแบบที่มีการจัดอันดับและแยกกัน โดยกำหนดองค์ประกอบของซีรีส์

สารละลาย

ชุดนี้แสดงถึงตัวเลือกมากมายสำหรับจำนวนหนังสือที่นักเรียนได้รับ ลองนับจำนวนตัวเลือกดังกล่าวและจัดเรียงในรูปแบบของการจัดอันดับแบบแปรผันและแบบแปรผัน ซีรีส์ไม่ต่อเนื่องซีรีย์การเปลี่ยนแปลง

ปัญหาที่ 2 - มีข้อมูลเกี่ยวกับต้นทุนของสินทรัพย์ถาวรสำหรับ 50 องค์กรพันรูเบิล

สร้างชุดการแจกจ่ายโดยเน้นกลุ่มวิสาหกิจ 5 กลุ่ม (ในช่วงเวลาเท่ากัน)

สารละลาย

เพื่อแก้ปัญหาเราเลือกที่ใหญ่ที่สุดและ ค่าที่น้อยที่สุดมูลค่าของสินทรัพย์ถาวรขององค์กร

เหล่านี้คือ 30.0 และ 10.2 พันรูเบิล

มาหาขนาดของช่วงเวลา: h = (30.0-10.2):5= 3.96 พันรูเบิล

จากนั้นกลุ่มแรกจะรวมองค์กรที่มีสินทรัพย์ถาวรจำนวน 10.2 พันรูเบิล สูงถึง 10.2+3.96=14.16 พันรูเบิล จะมี 9 องค์กรดังกล่าว กลุ่มที่สองจะรวมองค์กรที่มีสินทรัพย์ถาวรจำนวน 14.16 พันรูเบิล มากถึง 14.16+3.96=18.12 พันรูเบิล จะมีวิสาหกิจดังกล่าวจำนวน 16 แห่ง เราจะพบจำนวนวิสาหกิจที่รวมอยู่ในกลุ่มที่สาม สี่ และห้า

เราวางซีรีย์การแจกจ่ายผลลัพธ์ลงในตาราง ปัญหา 3

- ข้อมูลต่อไปนี้ได้รับจากองค์กรอุตสาหกรรมเบาจำนวนหนึ่ง:

จัดกลุ่มวิสาหกิจตามจำนวนคนงาน โดยแบ่งเป็น 6 กลุ่มในช่วงเวลาเท่ากัน
คำนวณสำหรับแต่ละกลุ่ม:
1. จำนวนวิสาหกิจ
2. จำนวนคนงาน
3.ปริมาณสินค้าที่ผลิตต่อปี
4. ผลผลิตจริงโดยเฉลี่ยต่อคนงาน
5.ปริมาณสินทรัพย์ถาวร

6. ขนาดเฉลี่ยของสินทรัพย์ถาวรของหนึ่งองค์กร

สารละลาย

7. มูลค่าเฉลี่ยของผลิตภัณฑ์ที่ผลิตโดยองค์กรเดียว

นำเสนอผลการคำนวณเป็นตาราง วาดข้อสรุป

ในการแก้ปัญหา เราจะเลือกค่าที่ใหญ่ที่สุดและน้อยที่สุดของจำนวนพนักงานโดยเฉลี่ยในองค์กร คือ 43 และ 256

ลองหาขนาดของช่วงเวลา: h = (256-43):6 = 35.5

จากนั้นกลุ่มแรกจะรวมวิสาหกิจที่มีจำนวนคนงานโดยเฉลี่ยอยู่ระหว่าง 43 ถึง 43 + 35.5 = 78.5 คน จะมีวิสาหกิจดังกล่าวจำนวน 5 แห่ง กลุ่มที่สองจะรวมวิสาหกิจที่มีจำนวนคนงานโดยเฉลี่ยตั้งแต่ 78.5 ถึง 78.5+35.5=114 คน จะมีวิสาหกิจดังกล่าวอยู่ 12 แห่ง ในทำนองเดียวกัน เราจะพบจำนวนวิสาหกิจที่รวมอยู่ในกลุ่มที่สาม สี่ ห้า และหก

เนื่องจากกลุ่มที่สองเป็นกลุ่มที่ใหญ่ที่สุดปริมาณผลิตภัณฑ์ที่ผลิตต่อปีโดยองค์กรของกลุ่มนี้และปริมาณสินทรัพย์ถาวรจึงสูงกว่ากลุ่มอื่นอย่างมาก ในขณะเดียวกัน ผลผลิตจริงโดยเฉลี่ยต่อคนงานในองค์กรในกลุ่มนี้ก็ไม่ได้สูงที่สุด องค์กรของกลุ่มที่สี่กำลังเป็นผู้นำที่นี่ กลุ่มนี้ยังคิดเป็นปริมาณสินทรัพย์ถาวรที่ค่อนข้างใหญ่

โดยสรุป เราทราบว่าขนาดเฉลี่ยของสินทรัพย์ถาวรและจำนวนผลผลิตเฉลี่ยที่ผลิตโดยองค์กรหนึ่งนั้นเป็นสัดส่วนโดยตรงกับขนาดขององค์กร (ในแง่ของจำนวนคนงาน)





ข้อผิดพลาด:เนื้อหาได้รับการคุ้มครอง!!