จัดกลุ่มข้อมูลจากคอลัมน์เป็นชุดข้อมูลแยกกัน นักเรียนและเด็กนักเรียน-ช่วยเหลือในการศึกษา
นำเสนอในรูปแบบของชุดการจัดจำหน่ายและนำเสนอในรูปแบบ
ซีรี่ส์การแจกจ่ายเป็นหนึ่งในประเภทของการจัดกลุ่ม
ช่วงการจัดจำหน่าย- แสดงถึงการกระจายอย่างเป็นระเบียบของหน่วยประชากรที่กำลังศึกษาออกเป็นกลุ่มตามลักษณะเฉพาะที่แตกต่างกัน
ขึ้นอยู่กับลักษณะเฉพาะที่เป็นรากฐานของการก่อตัวของซีรีย์การจัดจำหน่าย ที่มาและการเปลี่ยนแปลงแถวการแจกจ่าย:
- แอตทริบิวต์- เรียกว่าชุดการจำหน่ายที่สร้างขึ้นตามลักษณะเชิงคุณภาพ
- เรียกว่าชุดการแจกแจงที่สร้างขึ้นตามลำดับจากน้อยไปมากหรือจากมากไปหาน้อยของค่าลักษณะเชิงปริมาณ แปรผัน.
คอลัมน์แรกระบุค่าเชิงปริมาณของคุณลักษณะที่แตกต่างกันซึ่งเรียกว่า ตัวเลือกและถูกกำหนดไว้ ตัวเลือกแบบไม่ต่อเนื่อง - แสดงเป็นจำนวนเต็ม ตัวเลือกช่วงเวลามีตั้งแต่และถึง คุณสามารถสร้างชุดความแปรผันแบบแยกหรือแบบช่วงเวลาได้ ขึ้นอยู่กับประเภทของตัวเลือก
คอลัมน์ที่สองประกอบด้วย จำนวนตัวเลือกเฉพาะแสดงในรูปของความถี่หรือความถี่:
ความถี่- เป็นตัวเลขสัมบูรณ์ที่แสดงจำนวนครั้งที่เกิดขึ้นทั้งหมด มูลค่าที่กำหนดสัญญาณที่แสดงถึง ผลรวมของความถี่ทั้งหมดจะต้องเท่ากับจำนวนหน่วยในประชากรทั้งหมด
ความถี่() คือความถี่ที่แสดงเป็นเปอร์เซ็นต์ของทั้งหมด ผลรวมของความถี่ทั้งหมดที่แสดงเป็นเปอร์เซ็นต์จะต้องเท่ากับ 100% ในเศษส่วนของหนึ่ง
การแสดงกราฟิกของซีรีย์การจัดจำหน่าย
ชุดการจัดจำหน่ายจะถูกนำเสนอด้วยภาพโดยใช้ภาพกราฟิก
ชุดการจัดจำหน่ายมีดังต่อไปนี้:- รูปหลายเหลี่ยม
- ฮิสโตแกรม
- สะสม
- โอกิฟส์
รูปหลายเหลี่ยม
เมื่อสร้างรูปหลายเหลี่ยม ค่าของคุณลักษณะที่แตกต่างกันจะถูกพล็อตบนแกนนอน (แกน x) และความถี่หรือความถี่จะถูกพล็อตบนแกนตั้ง (แกน y)
รูปหลายเหลี่ยมในรูป 6.1 อิงตามข้อมูลจากการสำรวจสำมะโนประชากรขนาดเล็กของรัสเซียในปี 1994
6.1. การกระจายขนาดครัวเรือนเงื่อนไข: ข้อมูลมีไว้เพื่อการกระจายพนักงาน 25 คนของหนึ่งในองค์กรตามประเภทภาษี:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
งาน: สร้างชุดรูปแบบที่แยกจากกัน และแสดงภาพเป็นรูปหลายเหลี่ยมการกระจายแบบกราฟิก
สารละลาย:
ในตัวอย่างนี้ ตัวเลือกคือเกรดค่าจ้างของพนักงาน ในการกำหนดความถี่จำเป็นต้องคำนวณจำนวนพนักงานด้วยหมวดหมู่ภาษีที่เกี่ยวข้อง
รูปหลายเหลี่ยมใช้สำหรับอนุกรมรูปแบบที่ไม่ต่อเนื่อง
ในการสร้างรูปหลายเหลี่ยมการกระจาย (รูปที่ 1) เราจะพล็อตค่าเชิงปริมาณของคุณลักษณะที่แตกต่างกัน - ตัวเลือก - บนแกน abscissa (X) และความถี่หรือความถี่บนแกนกำหนด
หากค่าของคุณลักษณะแสดงในรูปแบบของช่วงเวลา อนุกรมดังกล่าวจะเรียกว่าช่วงเวลา
ซีรีย์ช่วงเวลา
การแจกแจงจะแสดงเป็นภาพกราฟิกในรูปแบบของฮิสโตแกรม แบบสะสมหรือแบบโอกิฟ
ตารางสถิติ
เงื่อนไข: ข้อมูลขนาดเงินฝากได้รับ 20 บุคคลในธนาคารเดียว (พันรูเบิล) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
งาน: สร้างอนุกรมความแปรผันตามช่วงเวลาโดยมีช่วงเวลาที่เท่ากัน
สารละลาย:
- ประชากรเริ่มแรกประกอบด้วย 20 หน่วย (N = 20)
- เมื่อใช้สูตร Sturgess เราจะกำหนดจำนวนกลุ่มที่ต้องการที่ใช้: n=1+3.322*lg20=5
- ลองคำนวณค่าของช่วงเวลาที่เท่ากัน: i=(152 - 2) /5 = 30,000 รูเบิล
- แบ่งประชากรเริ่มต้นออกเป็น 5 กลุ่มด้วยช่วง 30,000 รูเบิล
- เรานำเสนอผลลัพธ์การจัดกลุ่มในตาราง:
ด้วยการบันทึกคุณลักษณะต่อเนื่องดังกล่าว เมื่อค่าเดียวกันเกิดขึ้นสองครั้ง (เป็นขีดจำกัดบนของช่วงหนึ่งและขีดจำกัดล่างของอีกช่วงหนึ่ง) ค่านี้จะอยู่ในกลุ่มที่ค่านี้ทำหน้าที่เป็นขีดจำกัดบน
ฮิสโตแกรม
ในการสร้างฮิสโตแกรมค่าของขอบเขตของช่วงเวลาจะถูกระบุบนแกน abscissa และสร้างสี่เหลี่ยมขึ้นอยู่กับความสูงซึ่งเป็นสัดส่วนกับความถี่ (หรือความถี่)
ในรูป 6.2. แสดงฮิสโตแกรมการกระจายตัวของประชากรรัสเซียในปี 1997 ตามกลุ่มอายุ
ข้าว. 6.2. การกระจายตัวของประชากรรัสเซียตามกลุ่มอายุเงื่อนไข: จะมีการจัดสรรพนักงานของบริษัทจำนวน 30 คน ตามเงินเดือนต่อเดือน
งาน: แสดงชุดการเปลี่ยนแปลงช่วงเวลาเป็นกราฟิกในรูปแบบของฮิสโตแกรมและสะสม
สารละลาย:
- ขอบเขตที่ไม่รู้จักของช่วงเปิด (แรก) ถูกกำหนดโดยค่าของช่วงที่สอง: 7,000 - 5,000 = 2,000 รูเบิล ด้วยค่าเดียวกันเราจะพบขีด จำกัด ล่างของช่วงแรก: 5,000 - 2,000 = 3,000 รูเบิล
- ในการสร้างฮิสโตแกรมในระบบพิกัดสี่เหลี่ยมเราจะพล็อตตามแกน abscissa ส่วนที่มีค่าสอดคล้องกับช่วงเวลาของอนุกรม varicose
ส่วนเหล่านี้ทำหน้าที่เป็นฐานด้านล่าง และความถี่ (ความถี่) ที่สอดคล้องกันทำหน้าที่เป็นความสูงของสี่เหลี่ยมที่เกิดขึ้น - มาสร้างฮิสโตแกรมกัน:
ในการสร้างสะสมจำเป็นต้องคำนวณความถี่สะสม (ความถี่) ถูกกำหนดโดยการรวมความถี่ (ความถี่) ของช่วงเวลาก่อนหน้าตามลำดับและกำหนดให้เป็น S ความถี่สะสมจะแสดงจำนวนหน่วยของประชากรที่มีค่าลักษณะเฉพาะไม่เกินค่าที่อยู่ระหว่างการพิจารณา
สะสม
การกระจายคุณลักษณะในชุดรูปแบบต่างๆ บนความถี่สะสม (ความถี่) จะแสดงโดยใช้การสะสม
สะสมหรือเส้นโค้งสะสมซึ่งแตกต่างจากรูปหลายเหลี่ยมที่ถูกสร้างขึ้นจากความถี่หรือความถี่สะสม ในกรณีนี้ค่าของคุณลักษณะจะถูกวางไว้บนแกน abscissa และวางความถี่หรือความถี่สะสมไว้บนแกนกำหนด (รูปที่ 6.3)
ข้าว. 6.3. การกระจายขนาดครัวเรือนสะสม4. มาคำนวณความถี่สะสมกัน:
ความถี่สะสมของช่วงแรกคำนวณดังนี้ 0 + 4 = 4 สำหรับช่วงที่สอง: 4 + 12 = 16; สำหรับอันที่สาม: 4 + 12 + 8 = 24 เป็นต้น
เมื่อสร้างการสะสม ความถี่สะสม (ความถี่) ของช่วงเวลาที่สอดคล้องกันจะถูกกำหนดให้กับขีดจำกัดบน:
โอกิวา
โอกิวาถูกสร้างขึ้นในลักษณะเดียวกับการสะสมโดยมีความแตกต่างเพียงอย่างเดียวคือความถี่สะสมจะถูกวางไว้บนแกนแอบซิสซาและค่าลักษณะเฉพาะจะถูกวางไว้บนแกนกำหนด
ประเภทของการสะสมคือกราฟความเข้มข้นหรือพล็อตลอเรนซ์ ในการสร้างเส้นโค้งความเข้มข้น มาตราส่วนเป็นเปอร์เซ็นต์ตั้งแต่ 0 ถึง 100 จะถูกพล็อตบนแกนทั้งสองของระบบพิกัดสี่เหลี่ยม ในเวลาเดียวกัน ความถี่สะสมจะถูกระบุบนแกน abscissa และค่าสะสมของส่วนแบ่ง (เป็นเปอร์เซ็นต์) โดยปริมาตรของลักษณะเฉพาะที่ระบุบนแกนกำหนด
การกระจายลักษณะสม่ำเสมอสอดคล้องกับเส้นทแยงมุมของสี่เหลี่ยมจัตุรัสบนกราฟ (รูปที่ 6.4) ด้วยการกระจายที่ไม่สม่ำเสมอ กราฟจะแสดงเส้นโค้งเว้า ขึ้นอยู่กับระดับความเข้มข้นของลักษณะนั้น
6.4. เส้นโค้งความเข้มข้นจำนวนกลุ่ม (ช่วง)ถูกกำหนดโดยประมาณโดยสูตรสเตอเจส:
m = 1 + 3.322 × บันทึก(n)
ที่ไหน n - จำนวนทั้งหมดหน่วยการสังเกต (จำนวนองค์ประกอบทั้งหมดในประชากร ฯลฯ) lg(n) – ลอการิทึมฐานสิบของ n
ได้รับ ตามสูตรสเตอเจส ค่ามักจะถูกปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดตัวเลข เนื่องจากจำนวนกลุ่มไม่สามารถเป็นจำนวนเศษส่วนได้
หากชุดช่วงเวลาที่มีกลุ่มจำนวนมากไม่เป็นที่พอใจสำหรับเกณฑ์บางอย่าง คุณสามารถสร้างชุดช่วงอื่นได้โดยการปัดเศษ มเป็นจำนวนเต็มที่น้อยกว่าแล้วเลือกจำนวนที่เหมาะสมกว่าจากสองแถว
จำนวนกลุ่มไม่ควรเกิน 15 กลุ่ม
คุณยังสามารถใช้ตารางต่อไปนี้ได้หากไม่สามารถคำนวณลอการิทึมทศนิยมได้เลย
การกำหนดความกว้างของช่วงเวลา
ความกว้างช่วงสำหรับช่วงเวลา ซีรีย์การเปลี่ยนแปลงในช่วงเวลาเท่ากันจะถูกกำหนดโดยสูตร:
โดยที่ X max คือค่าสูงสุดของ x i, X min คือค่าต่ำสุดของค่า x i; ม. - จำนวนกลุ่ม (ช่วงเวลา)
ขนาดของช่วงเวลา (ฉัน ) โดยปกติจะปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดข้อยกเว้นเพียงอย่างเดียวคือกรณีที่ศึกษาความผันผวนเพียงเล็กน้อยของคุณลักษณะ (ตัวอย่างเช่น เมื่อจัดกลุ่มชิ้นส่วนตามขนาดของส่วนเบี่ยงเบนจากค่าที่ระบุ ซึ่งวัดเป็นเศษส่วนของมิลลิเมตร)
มักใช้กฎต่อไปนี้:
จำนวนตำแหน่งทศนิยม |
จำนวนตำแหน่งทศนิยม |
ตัวอย่างความกว้างของช่วงโดยใช้สูตร |
เราปัดเศษไปที่เครื่องหมายอะไร? |
ตัวอย่างความกว้างของระยะห่างแบบโค้งมน |
การกำหนดขอบเขตของช่วงเวลา
ขีดจำกัดล่าง ช่วงแรกจะถูกนำมาเท่ากับค่าต่ำสุดของแอตทริบิวต์ (ส่วนใหญ่มักจะถูกปัดเศษเป็นจำนวนเต็มที่น้อยกว่าโดยมีอันดับเดียวกันกับความกว้างของช่วงเวลา) ตัวอย่างเช่น x นาที = 15, i=130, x n ของช่วงแรก = 10
x n1 หยาบคาย x นาที
ขีดจำกัดบนช่วงแรกสอดคล้องกับค่า (Xmin + ฉัน).
ขีดจำกัดล่างของช่วงที่สองจะเท่ากับขีดจำกัดบนของช่วงแรกเสมอ สำหรับกลุ่มที่ตามมา ขอบเขตจะถูกกำหนดในทำนองเดียวกัน นั่นคือค่าช่วงเวลาจะถูกเพิ่มอย่างต่อเนื่อง
x วี ฉัน = x n ฉัน +ฉัน
x n ฉัน = x วี ฉัน-1
กำหนดความถี่ของช่วงเวลา
เรานับจำนวนค่าในแต่ละช่วงเวลา ในเวลาเดียวกัน เราจำได้ว่าหากหน่วยมีค่าลักษณะเฉพาะเท่ากับค่าของขีดจำกัดบนของช่วงเวลา ก็ควรกำหนดหน่วยนั้นให้กับช่วงเวลาถัดไป
เราสร้างอนุกรมช่วงเวลาในรูปแบบของตาราง
กำหนดจุดกึ่งกลางของช่วงเวลา
สำหรับการวิเคราะห์อนุกรมช่วงเวลาเพิ่มเติม คุณจะต้องเลือกค่าลักษณะเฉพาะสำหรับแต่ละช่วงเวลา ค่าแอตทริบิวต์นี้จะเหมือนกันกับหน่วยการสังเกตทั้งหมดที่อยู่ในช่วงเวลานี้ เหล่านั้น. แต่ละองค์ประกอบ "สูญเสีย" ค่าแอตทริบิวต์แต่ละรายการและได้รับการกำหนดค่าแอตทริบิวต์ทั่วไปหนึ่งค่า ดังนั้น ความหมายทั่วไปเป็น ตรงกลางของช่วงเวลาซึ่งแสดงแทน เอ็กซ์" ฉัน .
จากตัวอย่างการเติบโตของเด็ก เรามาดูวิธีสร้างอนุกรมช่วงเวลาที่มีระยะห่างเท่ากันกัน
ข้อมูลเบื้องต้นที่มีอยู่
90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148
เมื่อประมวลผลข้อมูลจำนวนมากซึ่งมีความสำคัญอย่างยิ่งเมื่อดำเนินการพัฒนาทางวิทยาศาสตร์สมัยใหม่ ผู้วิจัยต้องเผชิญกับงานที่ร้ายแรงในการจัดกลุ่มแหล่งข้อมูลอย่างถูกต้อง หากข้อมูลมีลักษณะไม่ต่อเนื่องตามที่เราเห็นแล้วว่าไม่มีปัญหาเกิดขึ้น คุณเพียงแค่ต้องคำนวณความถี่ของแต่ละคุณลักษณะ หากมีลักษณะที่ศึกษาอยู่ อย่างต่อเนื่องธรรมชาติ (ซึ่งเป็นเรื่องปกติในทางปฏิบัติ) ดังนั้นการเลือกจำนวนช่วงเวลาการจัดกลุ่มคุณลักษณะที่เหมาะสมที่สุดจึงไม่ใช่เรื่องเล็กน้อย
ในการจัดกลุ่มตัวแปรสุ่มแบบต่อเนื่อง ช่วงการแปรผันทั้งหมดของคุณลักษณะจะถูกแบ่งออกเป็นช่วงจำนวนหนึ่ง ถึง.
ช่วงเวลาที่จัดกลุ่ม (อย่างต่อเนื่อง) ซีรีย์การเปลี่ยนแปลง เรียกว่าช่วงเวลาซึ่งจัดอันดับโดยค่าของคุณลักษณะ () โดยที่จำนวนการสังเกตที่ตกอยู่ในช่วงเวลาที่ r หรือความถี่สัมพัทธ์ () จะถูกระบุพร้อมกับความถี่ที่สอดคล้องกัน ():
ช่วงค่าลักษณะเฉพาะ |
||||||
ความถี่ไมล์ |
ฮิสโตแกรมและ สะสม (ogiva)เราได้กล่าวถึงในรายละเอียดแล้วว่าเป็นวิธีการที่ดีเยี่ยมในการแสดงข้อมูลซึ่งช่วยให้คุณได้รับแนวคิดหลักเกี่ยวกับโครงสร้างของข้อมูล กราฟดังกล่าว (รูปที่ 1.15) ถูกสร้างขึ้นสำหรับข้อมูลต่อเนื่องในลักษณะเดียวกับข้อมูลที่ไม่ต่อเนื่อง โดยคำนึงถึงข้อเท็จจริงที่ว่าข้อมูลต่อเนื่องจะเติมเต็มขอบเขตของค่าที่เป็นไปได้โดยสมบูรณ์ โดยคำนึงถึงค่าใดๆ ก็ตาม
ข้าว. 1.15.
นั่นเป็นเหตุผล คอลัมน์บนฮิสโตแกรมและสะสมจะต้องสัมผัสกันและไม่มีบริเวณที่ค่าแอตทริบิวต์ไม่ตกอยู่ภายในที่เป็นไปได้ทั้งหมด(เช่นฮิสโตแกรมและสะสมไม่ควรมี "รู" ตามแนวแกนแอบซิสซาซึ่งไม่มีค่าของตัวแปรที่กำลังศึกษา ดังรูปที่ 1.16) ความสูงของแถบสอดคล้องกับความถี่ เช่น จำนวนการสังเกตที่ตกภายในช่วงเวลาที่กำหนด หรือความถี่สัมพัทธ์ ซึ่งเป็นสัดส่วนของการสังเกต ช่วงเวลา จะต้องไม่ตัดกันและมักจะมีความกว้างเท่ากัน
ข้าว. 1.16.
ฮิสโตแกรมและรูปหลายเหลี่ยมเป็นการประมาณเส้นโค้งความหนาแน่นของความน่าจะเป็น (ฟังก์ชันดิฟเฟอเรนเชียล) ฉ(x)การกระจายตัวทางทฤษฎี พิจารณาในหลักสูตรทฤษฎีความน่าจะเป็น ดังนั้นการก่อสร้างจึงมีความสำคัญมากในการประมวลผลทางสถิติเบื้องต้นของข้อมูลต่อเนื่องเชิงปริมาณ - โดยรูปลักษณ์ภายนอกเราสามารถตัดสินกฎการกระจายสมมุติได้
Cumulate – เส้นโค้งของความถี่สะสม (ความถี่) ของอนุกรมการแปรผันช่วงเวลา กราฟของฟังก์ชันการแจกแจงสะสมจะถูกเปรียบเทียบกับกราฟสะสม ฉ(x)ยังได้กล่าวถึงในหลักสูตรทฤษฎีความน่าจะเป็นด้วย
โดยพื้นฐานแล้ว แนวคิดของฮิสโตแกรมและการสะสมมีความเกี่ยวข้องโดยเฉพาะกับข้อมูลที่ต่อเนื่องและชุดการแปรผันช่วงเวลา เนื่องจากกราฟของพวกมันเป็นการประมาณเชิงประจักษ์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นและฟังก์ชันการแจกแจง ตามลำดับ
การสร้างอนุกรมความแปรผันของช่วงเวลาเริ่มต้นด้วยการกำหนดจำนวนช่วงเวลา เคและงานนี้อาจจะยากที่สุด สำคัญ และเป็นที่ถกเถียงกันมากที่สุดในประเด็นที่กำลังศึกษาอยู่
จำนวนช่วงเวลาไม่ควรน้อยเกินไป เนื่องจากจะทำให้ฮิสโตแกรมเรียบเกินไป ( เรียบเกินไป),สูญเสียคุณสมบัติทั้งหมดของความแปรปรวนของข้อมูลต้นฉบับ - ในรูป 1.17 คุณจะเห็นว่าข้อมูลเดียวกันกับกราฟในรูป 1.15 ใช้เพื่อสร้างฮิสโตแกรมที่มีช่วงเวลาน้อยกว่า (กราฟซ้าย)
ในเวลาเดียวกัน จำนวนช่วงเวลาไม่ควรมากเกินไป - มิฉะนั้นเราจะไม่สามารถประมาณความหนาแน่นของการกระจายของข้อมูลที่ศึกษาตามแกนตัวเลขได้: ฮิสโตแกรมจะเรียบเกินไป (ไม่เรียบ),โดยมีช่วงว่างไม่สม่ำเสมอ (ดูรูปที่ 1.17 กราฟด้านขวา)
ข้าว. 1.17.
จะกำหนดจำนวนช่วงเวลาที่ต้องการมากที่สุดได้อย่างไร?
ย้อนกลับไปในปี 1926 เฮอร์เบิร์ต สเตอร์เจส เสนอสูตรสำหรับการคำนวณจำนวนช่วงเวลาที่จำเป็นต้องแบ่งชุดค่าดั้งเดิมของคุณลักษณะที่กำลังศึกษา สูตรนี้ได้รับความนิยมอย่างมาก - หนังสือเรียนเชิงสถิติส่วนใหญ่มีให้ใช้ และแพ็คเกจทางสถิติจำนวนมากใช้เป็นค่าเริ่มต้น สิ่งนี้สมเหตุสมผลเพียงใดและในทุกกรณีถือเป็นคำถามที่จริงจังมาก
แล้วสูตร Sturges มีพื้นฐานมาจากอะไร?
ลองพิจารณาดู การแจกแจงแบบทวินาม }