จัดกลุ่มข้อมูลจากคอลัมน์เป็นชุดข้อมูลแยกกัน นักเรียนและเด็กนักเรียน-ช่วยเหลือในการศึกษา

นำเสนอในรูปแบบของชุดการจัดจำหน่ายและนำเสนอในรูปแบบ

ซีรี่ส์การแจกจ่ายเป็นหนึ่งในประเภทของการจัดกลุ่ม

ช่วงการจัดจำหน่าย- แสดงถึงการกระจายอย่างเป็นระเบียบของหน่วยประชากรที่กำลังศึกษาออกเป็นกลุ่มตามลักษณะเฉพาะที่แตกต่างกัน

ขึ้นอยู่กับลักษณะเฉพาะที่เป็นรากฐานของการก่อตัวของซีรีย์การจัดจำหน่าย ที่มาและการเปลี่ยนแปลงแถวการแจกจ่าย:

  • แอตทริบิวต์- เรียกว่าชุดการจำหน่ายที่สร้างขึ้นตามลักษณะเชิงคุณภาพ
  • เรียกว่าชุดการแจกแจงที่สร้างขึ้นตามลำดับจากน้อยไปมากหรือจากมากไปหาน้อยของค่าลักษณะเชิงปริมาณ แปรผัน.
ชุดรูปแบบการแจกแจงประกอบด้วยสองคอลัมน์:

คอลัมน์แรกระบุค่าเชิงปริมาณของคุณลักษณะที่แตกต่างกันซึ่งเรียกว่า ตัวเลือกและถูกกำหนดไว้ ตัวเลือกแบบไม่ต่อเนื่อง - แสดงเป็นจำนวนเต็ม ตัวเลือกช่วงเวลามีตั้งแต่และถึง คุณสามารถสร้างชุดความแปรผันแบบแยกหรือแบบช่วงเวลาได้ ขึ้นอยู่กับประเภทของตัวเลือก
คอลัมน์ที่สองประกอบด้วย จำนวนตัวเลือกเฉพาะแสดงในรูปของความถี่หรือความถี่:

ความถี่- เป็นตัวเลขสัมบูรณ์ที่แสดงจำนวนครั้งที่เกิดขึ้นทั้งหมด มูลค่าที่กำหนดสัญญาณที่แสดงถึง ผลรวมของความถี่ทั้งหมดจะต้องเท่ากับจำนวนหน่วยในประชากรทั้งหมด

ความถี่() คือความถี่ที่แสดงเป็นเปอร์เซ็นต์ของทั้งหมด ผลรวมของความถี่ทั้งหมดที่แสดงเป็นเปอร์เซ็นต์จะต้องเท่ากับ 100% ในเศษส่วนของหนึ่ง

การแสดงกราฟิกของซีรีย์การจัดจำหน่าย

ชุดการจัดจำหน่ายจะถูกนำเสนอด้วยภาพโดยใช้ภาพกราฟิก

ชุดการจัดจำหน่ายมีดังต่อไปนี้:
  • รูปหลายเหลี่ยม
  • ฮิสโตแกรม
  • สะสม
  • โอกิฟส์

รูปหลายเหลี่ยม

เมื่อสร้างรูปหลายเหลี่ยม ค่าของคุณลักษณะที่แตกต่างกันจะถูกพล็อตบนแกนนอน (แกน x) และความถี่หรือความถี่จะถูกพล็อตบนแกนตั้ง (แกน y)

รูปหลายเหลี่ยมในรูป 6.1 อิงตามข้อมูลจากการสำรวจสำมะโนประชากรขนาดเล็กของรัสเซียในปี 1994

6.1. การกระจายขนาดครัวเรือน

เงื่อนไข: ข้อมูลมีไว้เพื่อการกระจายพนักงาน 25 คนของหนึ่งในองค์กรตามประเภทภาษี:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
งาน: สร้างชุดรูปแบบที่แยกจากกัน และแสดงภาพเป็นรูปหลายเหลี่ยมการกระจายแบบกราฟิก
สารละลาย:
ในตัวอย่างนี้ ตัวเลือกคือเกรดค่าจ้างของพนักงาน ในการกำหนดความถี่จำเป็นต้องคำนวณจำนวนพนักงานด้วยหมวดหมู่ภาษีที่เกี่ยวข้อง

รูปหลายเหลี่ยมใช้สำหรับอนุกรมรูปแบบที่ไม่ต่อเนื่อง

ในการสร้างรูปหลายเหลี่ยมการกระจาย (รูปที่ 1) เราจะพล็อตค่าเชิงปริมาณของคุณลักษณะที่แตกต่างกัน - ตัวเลือก - บนแกน abscissa (X) และความถี่หรือความถี่บนแกนกำหนด

หากค่าของคุณลักษณะแสดงในรูปแบบของช่วงเวลา อนุกรมดังกล่าวจะเรียกว่าช่วงเวลา
ซีรีย์ช่วงเวลา การแจกแจงจะแสดงเป็นภาพกราฟิกในรูปแบบของฮิสโตแกรม แบบสะสมหรือแบบโอกิฟ

ตารางสถิติ

เงื่อนไข: ข้อมูลขนาดเงินฝากได้รับ 20 บุคคลในธนาคารเดียว (พันรูเบิล) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
งาน: สร้างอนุกรมความแปรผันตามช่วงเวลาโดยมีช่วงเวลาที่เท่ากัน
สารละลาย:

  1. ประชากรเริ่มแรกประกอบด้วย 20 หน่วย (N = 20)
  2. เมื่อใช้สูตร Sturgess เราจะกำหนดจำนวนกลุ่มที่ต้องการที่ใช้: n=1+3.322*lg20=5
  3. ลองคำนวณค่าของช่วงเวลาที่เท่ากัน: i=(152 - 2) /5 = 30,000 รูเบิล
  4. แบ่งประชากรเริ่มต้นออกเป็น 5 กลุ่มด้วยช่วง 30,000 รูเบิล
  5. เรานำเสนอผลลัพธ์การจัดกลุ่มในตาราง:

ด้วยการบันทึกคุณลักษณะต่อเนื่องดังกล่าว เมื่อค่าเดียวกันเกิดขึ้นสองครั้ง (เป็นขีดจำกัดบนของช่วงหนึ่งและขีดจำกัดล่างของอีกช่วงหนึ่ง) ค่านี้จะอยู่ในกลุ่มที่ค่านี้ทำหน้าที่เป็นขีดจำกัดบน

ฮิสโตแกรม

ในการสร้างฮิสโตแกรมค่าของขอบเขตของช่วงเวลาจะถูกระบุบนแกน abscissa และสร้างสี่เหลี่ยมขึ้นอยู่กับความสูงซึ่งเป็นสัดส่วนกับความถี่ (หรือความถี่)

ในรูป 6.2. แสดงฮิสโตแกรมการกระจายตัวของประชากรรัสเซียในปี 1997 ตามกลุ่มอายุ

ข้าว. 6.2. การกระจายตัวของประชากรรัสเซียตามกลุ่มอายุ

เงื่อนไข: จะมีการจัดสรรพนักงานของบริษัทจำนวน 30 คน ตามเงินเดือนต่อเดือน

งาน: แสดงชุดการเปลี่ยนแปลงช่วงเวลาเป็นกราฟิกในรูปแบบของฮิสโตแกรมและสะสม
สารละลาย:

  1. ขอบเขตที่ไม่รู้จักของช่วงเปิด (แรก) ถูกกำหนดโดยค่าของช่วงที่สอง: 7,000 - 5,000 = 2,000 รูเบิล ด้วยค่าเดียวกันเราจะพบขีด จำกัด ล่างของช่วงแรก: 5,000 - 2,000 = 3,000 รูเบิล
  2. ในการสร้างฮิสโตแกรมในระบบพิกัดสี่เหลี่ยมเราจะพล็อตตามแกน abscissa ส่วนที่มีค่าสอดคล้องกับช่วงเวลาของอนุกรม varicose
    ส่วนเหล่านี้ทำหน้าที่เป็นฐานด้านล่าง และความถี่ (ความถี่) ที่สอดคล้องกันทำหน้าที่เป็นความสูงของสี่เหลี่ยมที่เกิดขึ้น
  3. มาสร้างฮิสโตแกรมกัน:

ในการสร้างสะสมจำเป็นต้องคำนวณความถี่สะสม (ความถี่) ถูกกำหนดโดยการรวมความถี่ (ความถี่) ของช่วงเวลาก่อนหน้าตามลำดับและกำหนดให้เป็น S ความถี่สะสมจะแสดงจำนวนหน่วยของประชากรที่มีค่าลักษณะเฉพาะไม่เกินค่าที่อยู่ระหว่างการพิจารณา

สะสม

การกระจายคุณลักษณะในชุดรูปแบบต่างๆ บนความถี่สะสม (ความถี่) จะแสดงโดยใช้การสะสม

สะสมหรือเส้นโค้งสะสมซึ่งแตกต่างจากรูปหลายเหลี่ยมที่ถูกสร้างขึ้นจากความถี่หรือความถี่สะสม ในกรณีนี้ค่าของคุณลักษณะจะถูกวางไว้บนแกน abscissa และวางความถี่หรือความถี่สะสมไว้บนแกนกำหนด (รูปที่ 6.3)

ข้าว. 6.3. การกระจายขนาดครัวเรือนสะสม

4. มาคำนวณความถี่สะสมกัน:
ความถี่สะสมของช่วงแรกคำนวณดังนี้ 0 + 4 = 4 สำหรับช่วงที่สอง: 4 + 12 = 16; สำหรับอันที่สาม: 4 + 12 + 8 = 24 เป็นต้น

เมื่อสร้างการสะสม ความถี่สะสม (ความถี่) ของช่วงเวลาที่สอดคล้องกันจะถูกกำหนดให้กับขีดจำกัดบน:

โอกิวา

โอกิวาถูกสร้างขึ้นในลักษณะเดียวกับการสะสมโดยมีความแตกต่างเพียงอย่างเดียวคือความถี่สะสมจะถูกวางไว้บนแกนแอบซิสซาและค่าลักษณะเฉพาะจะถูกวางไว้บนแกนกำหนด

ประเภทของการสะสมคือกราฟความเข้มข้นหรือพล็อตลอเรนซ์ ในการสร้างเส้นโค้งความเข้มข้น มาตราส่วนเป็นเปอร์เซ็นต์ตั้งแต่ 0 ถึง 100 จะถูกพล็อตบนแกนทั้งสองของระบบพิกัดสี่เหลี่ยม ในเวลาเดียวกัน ความถี่สะสมจะถูกระบุบนแกน abscissa และค่าสะสมของส่วนแบ่ง (เป็นเปอร์เซ็นต์) โดยปริมาตรของลักษณะเฉพาะที่ระบุบนแกนกำหนด

การกระจายลักษณะสม่ำเสมอสอดคล้องกับเส้นทแยงมุมของสี่เหลี่ยมจัตุรัสบนกราฟ (รูปที่ 6.4) ด้วยการกระจายที่ไม่สม่ำเสมอ กราฟจะแสดงเส้นโค้งเว้า ขึ้นอยู่กับระดับความเข้มข้นของลักษณะนั้น

6.4. เส้นโค้งความเข้มข้น

จำนวนกลุ่ม (ช่วง)ถูกกำหนดโดยประมาณโดยสูตรสเตอเจส:

m = 1 + 3.322 × บันทึก(n)

ที่ไหน n - จำนวนทั้งหมดหน่วยการสังเกต (จำนวนองค์ประกอบทั้งหมดในประชากร ฯลฯ) lg(n) – ลอการิทึมฐานสิบของ n

ได้รับ ตามสูตรสเตอเจส ค่ามักจะถูกปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดตัวเลข เนื่องจากจำนวนกลุ่มไม่สามารถเป็นจำนวนเศษส่วนได้

หากชุดช่วงเวลาที่มีกลุ่มจำนวนมากไม่เป็นที่พอใจสำหรับเกณฑ์บางอย่าง คุณสามารถสร้างชุดช่วงอื่นได้โดยการปัดเศษ เป็นจำนวนเต็มที่น้อยกว่าแล้วเลือกจำนวนที่เหมาะสมกว่าจากสองแถว

จำนวนกลุ่มไม่ควรเกิน 15 กลุ่ม

คุณยังสามารถใช้ตารางต่อไปนี้ได้หากไม่สามารถคำนวณลอการิทึมทศนิยมได้เลย

    การกำหนดความกว้างของช่วงเวลา

ความกว้างช่วงสำหรับช่วงเวลา ซีรีย์การเปลี่ยนแปลงในช่วงเวลาเท่ากันจะถูกกำหนดโดยสูตร:

โดยที่ X max คือค่าสูงสุดของ x i, X min คือค่าต่ำสุดของค่า x i; ม. - จำนวนกลุ่ม (ช่วงเวลา)

ขนาดของช่วงเวลา (ฉัน ) โดยปกติจะปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดข้อยกเว้นเพียงอย่างเดียวคือกรณีที่ศึกษาความผันผวนเพียงเล็กน้อยของคุณลักษณะ (ตัวอย่างเช่น เมื่อจัดกลุ่มชิ้นส่วนตามขนาดของส่วนเบี่ยงเบนจากค่าที่ระบุ ซึ่งวัดเป็นเศษส่วนของมิลลิเมตร)

มักใช้กฎต่อไปนี้:

จำนวนตำแหน่งทศนิยม

จำนวนตำแหน่งทศนิยม

ตัวอย่างความกว้างของช่วงโดยใช้สูตร

เราปัดเศษไปที่เครื่องหมายอะไร?

ตัวอย่างความกว้างของระยะห่างแบบโค้งมน

    การกำหนดขอบเขตของช่วงเวลา

ขีดจำกัดล่าง ช่วงแรกจะถูกนำมาเท่ากับค่าต่ำสุดของแอตทริบิวต์ (ส่วนใหญ่มักจะถูกปัดเศษเป็นจำนวนเต็มที่น้อยกว่าโดยมีอันดับเดียวกันกับความกว้างของช่วงเวลา) ตัวอย่างเช่น x นาที = 15, i=130, x n ของช่วงแรก = 10

x n1 หยาบคาย x นาที

ขีดจำกัดบนช่วงแรกสอดคล้องกับค่า (Xmin + ฉัน).

ขีดจำกัดล่างของช่วงที่สองจะเท่ากับขีดจำกัดบนของช่วงแรกเสมอ สำหรับกลุ่มที่ตามมา ขอบเขตจะถูกกำหนดในทำนองเดียวกัน นั่นคือค่าช่วงเวลาจะถูกเพิ่มอย่างต่อเนื่อง

x วี ฉัน = x n ฉัน +ฉัน

x n ฉัน = x วี ฉัน-1

    กำหนดความถี่ของช่วงเวลา

เรานับจำนวนค่าในแต่ละช่วงเวลา ในเวลาเดียวกัน เราจำได้ว่าหากหน่วยมีค่าลักษณะเฉพาะเท่ากับค่าของขีดจำกัดบนของช่วงเวลา ก็ควรกำหนดหน่วยนั้นให้กับช่วงเวลาถัดไป

    เราสร้างอนุกรมช่วงเวลาในรูปแบบของตาราง

    กำหนดจุดกึ่งกลางของช่วงเวลา

สำหรับการวิเคราะห์อนุกรมช่วงเวลาเพิ่มเติม คุณจะต้องเลือกค่าลักษณะเฉพาะสำหรับแต่ละช่วงเวลา ค่าแอตทริบิวต์นี้จะเหมือนกันกับหน่วยการสังเกตทั้งหมดที่อยู่ในช่วงเวลานี้ เหล่านั้น. แต่ละองค์ประกอบ "สูญเสีย" ค่าแอตทริบิวต์แต่ละรายการและได้รับการกำหนดค่าแอตทริบิวต์ทั่วไปหนึ่งค่า ดังนั้น ความหมายทั่วไปเป็น ตรงกลางของช่วงเวลาซึ่งแสดงแทน เอ็กซ์" ฉัน .

จากตัวอย่างการเติบโตของเด็ก เรามาดูวิธีสร้างอนุกรมช่วงเวลาที่มีระยะห่างเท่ากันกัน

ข้อมูลเบื้องต้นที่มีอยู่

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

เมื่อประมวลผลข้อมูลจำนวนมากซึ่งมีความสำคัญอย่างยิ่งเมื่อดำเนินการพัฒนาทางวิทยาศาสตร์สมัยใหม่ ผู้วิจัยต้องเผชิญกับงานที่ร้ายแรงในการจัดกลุ่มแหล่งข้อมูลอย่างถูกต้อง หากข้อมูลมีลักษณะไม่ต่อเนื่องตามที่เราเห็นแล้วว่าไม่มีปัญหาเกิดขึ้น คุณเพียงแค่ต้องคำนวณความถี่ของแต่ละคุณลักษณะ หากมีลักษณะที่ศึกษาอยู่ อย่างต่อเนื่องธรรมชาติ (ซึ่งเป็นเรื่องปกติในทางปฏิบัติ) ดังนั้นการเลือกจำนวนช่วงเวลาการจัดกลุ่มคุณลักษณะที่เหมาะสมที่สุดจึงไม่ใช่เรื่องเล็กน้อย

ในการจัดกลุ่มตัวแปรสุ่มแบบต่อเนื่อง ช่วงการแปรผันทั้งหมดของคุณลักษณะจะถูกแบ่งออกเป็นช่วงจำนวนหนึ่ง ถึง.

ช่วงเวลาที่จัดกลุ่ม (อย่างต่อเนื่อง) ซีรีย์การเปลี่ยนแปลง เรียกว่าช่วงเวลาซึ่งจัดอันดับโดยค่าของคุณลักษณะ () โดยที่จำนวนการสังเกตที่ตกอยู่ในช่วงเวลาที่ r หรือความถี่สัมพัทธ์ () จะถูกระบุพร้อมกับความถี่ที่สอดคล้องกัน ():

ช่วงค่าลักษณะเฉพาะ

ความถี่ไมล์

ฮิสโตแกรมและ สะสม (ogiva)เราได้กล่าวถึงในรายละเอียดแล้วว่าเป็นวิธีการที่ดีเยี่ยมในการแสดงข้อมูลซึ่งช่วยให้คุณได้รับแนวคิดหลักเกี่ยวกับโครงสร้างของข้อมูล กราฟดังกล่าว (รูปที่ 1.15) ถูกสร้างขึ้นสำหรับข้อมูลต่อเนื่องในลักษณะเดียวกับข้อมูลที่ไม่ต่อเนื่อง โดยคำนึงถึงข้อเท็จจริงที่ว่าข้อมูลต่อเนื่องจะเติมเต็มขอบเขตของค่าที่เป็นไปได้โดยสมบูรณ์ โดยคำนึงถึงค่าใดๆ ก็ตาม

ข้าว. 1.15.

นั่นเป็นเหตุผล คอลัมน์บนฮิสโตแกรมและสะสมจะต้องสัมผัสกันและไม่มีบริเวณที่ค่าแอตทริบิวต์ไม่ตกอยู่ภายในที่เป็นไปได้ทั้งหมด(เช่นฮิสโตแกรมและสะสมไม่ควรมี "รู" ตามแนวแกนแอบซิสซาซึ่งไม่มีค่าของตัวแปรที่กำลังศึกษา ดังรูปที่ 1.16) ความสูงของแถบสอดคล้องกับความถี่ เช่น จำนวนการสังเกตที่ตกภายในช่วงเวลาที่กำหนด หรือความถี่สัมพัทธ์ ซึ่งเป็นสัดส่วนของการสังเกต ช่วงเวลา จะต้องไม่ตัดกันและมักจะมีความกว้างเท่ากัน

ข้าว. 1.16.

ฮิสโตแกรมและรูปหลายเหลี่ยมเป็นการประมาณเส้นโค้งความหนาแน่นของความน่าจะเป็น (ฟังก์ชันดิฟเฟอเรนเชียล) ฉ(x)การกระจายตัวทางทฤษฎี พิจารณาในหลักสูตรทฤษฎีความน่าจะเป็น ดังนั้นการก่อสร้างจึงมีความสำคัญมากในการประมวลผลทางสถิติเบื้องต้นของข้อมูลต่อเนื่องเชิงปริมาณ - โดยรูปลักษณ์ภายนอกเราสามารถตัดสินกฎการกระจายสมมุติได้

Cumulate – เส้นโค้งของความถี่สะสม (ความถี่) ของอนุกรมการแปรผันช่วงเวลา กราฟของฟังก์ชันการแจกแจงสะสมจะถูกเปรียบเทียบกับกราฟสะสม ฉ(x)ยังได้กล่าวถึงในหลักสูตรทฤษฎีความน่าจะเป็นด้วย

โดยพื้นฐานแล้ว แนวคิดของฮิสโตแกรมและการสะสมมีความเกี่ยวข้องโดยเฉพาะกับข้อมูลที่ต่อเนื่องและชุดการแปรผันช่วงเวลา เนื่องจากกราฟของพวกมันเป็นการประมาณเชิงประจักษ์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นและฟังก์ชันการแจกแจง ตามลำดับ

การสร้างอนุกรมความแปรผันของช่วงเวลาเริ่มต้นด้วยการกำหนดจำนวนช่วงเวลา เคและงานนี้อาจจะยากที่สุด สำคัญ และเป็นที่ถกเถียงกันมากที่สุดในประเด็นที่กำลังศึกษาอยู่

จำนวนช่วงเวลาไม่ควรน้อยเกินไป เนื่องจากจะทำให้ฮิสโตแกรมเรียบเกินไป ( เรียบเกินไป),สูญเสียคุณสมบัติทั้งหมดของความแปรปรวนของข้อมูลต้นฉบับ - ในรูป 1.17 คุณจะเห็นว่าข้อมูลเดียวกันกับกราฟในรูป 1.15 ใช้เพื่อสร้างฮิสโตแกรมที่มีช่วงเวลาน้อยกว่า (กราฟซ้าย)

ในเวลาเดียวกัน จำนวนช่วงเวลาไม่ควรมากเกินไป - มิฉะนั้นเราจะไม่สามารถประมาณความหนาแน่นของการกระจายของข้อมูลที่ศึกษาตามแกนตัวเลขได้: ฮิสโตแกรมจะเรียบเกินไป (ไม่เรียบ),โดยมีช่วงว่างไม่สม่ำเสมอ (ดูรูปที่ 1.17 กราฟด้านขวา)

ข้าว. 1.17.

จะกำหนดจำนวนช่วงเวลาที่ต้องการมากที่สุดได้อย่างไร?

ย้อนกลับไปในปี 1926 เฮอร์เบิร์ต สเตอร์เจส เสนอสูตรสำหรับการคำนวณจำนวนช่วงเวลาที่จำเป็นต้องแบ่งชุดค่าดั้งเดิมของคุณลักษณะที่กำลังศึกษา สูตรนี้ได้รับความนิยมอย่างมาก - หนังสือเรียนเชิงสถิติส่วนใหญ่มีให้ใช้ และแพ็คเกจทางสถิติจำนวนมากใช้เป็นค่าเริ่มต้น สิ่งนี้สมเหตุสมผลเพียงใดและในทุกกรณีถือเป็นคำถามที่จริงจังมาก

แล้วสูตร Sturges มีพื้นฐานมาจากอะไร?

ลองพิจารณาดู การแจกแจงแบบทวินาม }



ข้อผิดพลาด:เนื้อหาได้รับการคุ้มครอง!!