การคำนวณการถดถอยเชิงเส้น การวิเคราะห์การถดถอย
สิ่งที่สำคัญเป็นพิเศษคือการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ คุณลักษณะผลลัพธ์ y ที่มีตัวประกอบ x 1 , x 2 ,…, x m ,สูตรสำหรับกำหนดว่าใน กรณีทั่วไปมีแบบฟอร์ม
โดยที่ ∆ r เป็นตัวกำหนดของเมทริกซ์สหสัมพันธ์ ∆ 11 เป็นส่วนเติมเต็มเชิงพีชคณิตขององค์ประกอบ r yy ของเมทริกซ์สหสัมพันธ์
หากพิจารณาสัญญาณปัจจัยเพียงสองสัญญาณ สามารถใช้สูตรต่อไปนี้เพื่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณได้:
แนะนำให้สร้างค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณเฉพาะในกรณีที่ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วนมีนัยสำคัญ และความสัมพันธ์ระหว่างคุณลักษณะที่เป็นผลลัพธ์กับปัจจัยที่รวมอยู่ในแบบจำลองนั้นมีอยู่จริง
ค่าสัมประสิทธิ์การกำหนด
สูตรทั่วไป: R 2 = RSS/TSS=1-ESS/TSSโดยที่ RSS - ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายได้ ESS - ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายไม่ได้ (ส่วนที่เหลือ) TSS - ผลรวมทั้งหมดของการเบี่ยงเบนกำลังสอง (TSS=RSS+ESS)
,
โดยที่ r ij - จับคู่ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง regressor x i และ x j , a r i 0 - จับคู่ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง regressor x i และ y ;
- แก้ไขค่าสัมประสิทธิ์ (ปกติ) ของการกำหนด
กำลังสองของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ เรียกว่า ค่าสัมประสิทธิ์หลายตัว; มันแสดงสัดส่วนของความแปรปรวนของแอตทริบิวต์ผลลัพธ์ ยอธิบายได้จากอิทธิพลของสัญญาณปัจจัย x 1 , x 2 , …, x m . โปรดทราบว่าสูตรสำหรับการคำนวณค่าสัมประสิทธิ์ของการกำหนดผ่านอัตราส่วนของความแปรปรวนที่เหลือและความแปรปรวนทั้งหมดของแอตทริบิวต์ผลลัพธ์จะให้ผลลัพธ์เดียวกัน
ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณและค่าสัมประสิทธิ์ของการกำหนดจะแปรผันตั้งแต่ 0 ถึง 1 ยิ่งค่าเข้าใกล้ 1 มากเท่าไหร่ ความสัมพันธ์ก็จะแน่นแฟ้นมากขึ้นเท่านั้น ดังนั้น สมการถดถอยที่สร้างขึ้นด้านล่างจะอธิบายการพึ่งพาได้แม่นยำยิ่งขึ้น ยจาก x 1 , x 2 , …,x ม. หากค่าของสัมประสิทธิ์สหสัมพันธ์พหุคูณมีค่าน้อย (น้อยกว่า 0.3) หมายความว่าชุดคุณลักษณะปัจจัยที่เลือกไม่อธิบายความแปรผันของคุณลักษณะผลลัพธ์อย่างเพียงพอ หรือความสัมพันธ์ระหว่างปัจจัยและตัวแปรผลลัพธ์ไม่เป็นเชิงเส้น
คำนวณ หลายปัจจัยความสัมพันธ์กับเครื่องคิดเลข ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณและค่าสัมประสิทธิ์การหาค่าตรวจสอบโดยใช้การทดสอบของฟิชเชอร์
ตัวเลขใดต่อไปนี้เป็นค่าสัมประสิทธิ์ของการหาค่าพหุคูณได้:
ก) 0.4;
ข) -1;
ค) -2.7;
ง) 2.7.
หลายรายการ ค่าสัมประสิทธิ์เชิงเส้นความสัมพันธ์คือ 0.75 เปอร์เซ็นต์ของการแปรผันของตัวแปรตาม y ถูกนำมาพิจารณาในแบบจำลองและเกิดจากอิทธิพลของปัจจัย x 1 และ x 2
ก) 56.2 (R 2 =0.75 2 =0.5625);
สาระสำคัญของวิธีการพยากรณ์เชิงสาเหตุคือการสร้างความสัมพันธ์ทางคณิตศาสตร์ระหว่างตัวแปรผลลัพธ์และตัวแปรปัจจัย
เงื่อนไขที่จำเป็นสำหรับการประยุกต์ใช้วิธีการพยากรณ์เชิงสาเหตุคือความพร้อมใช้งานของข้อมูลจำนวนมาก หากสามารถอธิบายความสัมพันธ์ระหว่างตัวแปรต่างๆ ได้อย่างถูกต้องทางคณิตศาสตร์ ความแม่นยำของการพยากรณ์เชิงสาเหตุจะค่อนข้างสูง
วิธีการพยากรณ์เชิงสาเหตุประกอบด้วย:
แบบจำลองการถดถอยหลายตัวแปร
การสร้างแบบจำลองจำลอง
1.4.1 แบบจำลองการถดถอยพหุตัวแปร
แบบจำลองการถดถอยหลายตัวแปรคือสมการที่มีตัวแปรอิสระหลายตัว
ในการสร้างแบบจำลองการถดถอยหลายตัวแปร สามารถใช้ฟังก์ชันต่างๆ ได้ ฟังก์ชันที่พบบ่อยที่สุดคือการขึ้นต่อกันเชิงเส้นและกำลัง:
ในแบบจำลองเชิงเส้น พารามิเตอร์(b 1 , b 2 , … b n) ถูกตีความว่าเป็นผลกระทบของตัวแปรอิสระแต่ละตัวที่มีต่อค่าที่ทำนาย ถ้าตัวแปรอิสระอื่นๆ ทั้งหมดมีค่าเท่ากับศูนย์
ใน โมเดลพลังงานพารามิเตอร์คือค่าสัมประสิทธิ์ความยืดหยุ่น พวกเขาแสดงจำนวนเปอร์เซ็นต์ที่ผลลัพธ์ (y) จะเปลี่ยนแปลงโดยเฉลี่ยโดยมีการเปลี่ยนแปลงในปัจจัยที่เกี่ยวข้อง 1% ในขณะที่การกระทำของปัจจัยอื่น ๆ ยังคงไม่เปลี่ยนแปลง ในการคำนวณพารามิเตอร์ของสมการ การถดถอยพหุคูณยังใช้ วิธี กำลังสองน้อยที่สุด.
เมื่อสร้างแบบจำลองการถดถอย คุณภาพของข้อมูลมีบทบาทชี้ขาด การรวบรวมข้อมูลสร้างรากฐานสำหรับการคาดการณ์ ดังนั้นจึงมีข้อกำหนดและกฎหลายข้อที่ต้องปฏิบัติตามเมื่อรวบรวมข้อมูล
ประการแรก ข้อมูลจะต้อง สังเกตได้, เช่น. ได้รับจากการวัดผล ไม่ใช่การคำนวณ
ประการที่สองจำเป็นต้องมีจากอาร์เรย์ข้อมูล ไม่รวมข้อมูลที่ซ้ำกันและแตกต่างกันอย่างมาก. ยิ่งข้อมูลไม่ซ้ำกันและจำนวนประชากรที่เป็นเนื้อเดียวกันมากเท่าใด สมการก็จะยิ่งดีขึ้นเท่านั้นค่าที่แตกต่างกันอย่างมากถือเป็นข้อสังเกตที่ไม่เข้ากับชุดข้อมูลทั่วไป ตัวอย่างเช่น ข้อมูลเกี่ยวกับค่าจ้างสำหรับคนงานมีตัวเลขสี่และห้าหลัก (7,000, 10,000, 15,000) แต่พบตัวเลขหกหลักหนึ่งตัว (250,000) เห็นได้ชัดว่านี่เป็นความผิดพลาด
กฎข้อที่สาม (ความต้องการ) คือ ข้อมูลจำนวนมากพอสมควร. นักสถิติไม่เห็นด้วยกับข้อมูลที่จำเป็นในการสร้างสมการที่ดี ตามที่บางคนต้องการข้อมูล อีก 4-6 เท่าจำนวนปัจจัย คนอื่นอ้างว่า อีกอย่างน้อย 10 เท่าจำนวนปัจจัยจากนั้นกฎของจำนวนมากที่มีผลใช้บังคับอย่างเต็มที่ช่วยให้มั่นใจได้ถึงการชำระคืนอย่างมีประสิทธิภาพของการเบี่ยงเบนแบบสุ่มจากลักษณะปกติของความสัมพันธ์
การสร้างแบบจำลองการถดถอยพหุตัวแปรในนางสาวเก่ง
ในสเปรดชีต Excel คุณสามารถสร้างได้เท่านั้น เชิงเส้นแบบจำลองการถดถอยหลายตัวแปร
, (1.19)
เมื่อต้องการทำเช่นนี้ เลือก "การวิเคราะห์ข้อมูล",จากนั้นในหน้าต่างที่ปรากฏ - เครื่องมือ "ถดถอย"
รูปที่ 1.45 - กล่องโต้ตอบของเครื่องมือ "การถดถอย"
ในหน้าต่างที่ปรากฏขึ้น คุณต้องกรอกข้อมูลในฟิลด์ต่างๆ รวมถึง:
ช่วงเวลาอินพุต วาย – ช่วงข้อมูลจากหนึ่งคอลัมน์ที่มีค่าของตัวแปรผลลัพธ์ Y
ช่วงเวลาอินพุต X คือช่วงของข้อมูลที่ประกอบด้วยค่าของตัวแปรตัวประกอบ
หากแถวแรกหรือคอลัมน์แรกของช่วงเวลาอินพุตมีหัวเรื่อง คุณต้องทำเครื่องหมายในช่อง "แท็ก" .
ใช้ค่าเริ่มต้นแล้ว ระดับความน่าเชื่อถือ 95%หากคุณต้องการตั้งค่าระดับอื่น ให้เลือกช่องทำเครื่องหมายและป้อนระดับความน่าเชื่อถือที่ต้องการในช่องถัดจากระดับนั้น
ช่องทำเครื่องหมาย "ศูนย์คงที่"จำเป็นต้องตรวจสอบเฉพาะกรณีที่คุณต้องการรับสมการถดถอยโดยไม่มีการสกัดกั้น กเพื่อให้เส้นถดถอยผ่านจุดกำเนิด
ผลลัพธ์ของผลลัพธ์การคำนวณสามารถจัดระเบียบได้ 3 วิธี:
วี ช่วงเซลล์ของเวิร์กชีตนี้ (สำหรับสิ่งนี้ในสนาม "ช่วงเอาท์พุท"กำหนดเซลล์ซ้ายบนของช่วงที่จะแสดงผลการคำนวณ)
บน แผ่นงานใหม่ (คุณสามารถป้อนชื่อที่ต้องการของแผ่นงานนี้ได้ในช่องถัดจากนั้น)
วี สมุดงานใหม่ .
ช่องทำเครื่องหมาย "ยังคงอยู่"และ "ซากศพที่ได้มาตรฐาน"สั่งให้รวมอยู่ในช่วงเอาต์พุต
หากต้องการลงจุดที่เหลือสำหรับตัวแปรอิสระแต่ละตัว ให้ทำเครื่องหมายในช่อง กราฟที่เหลือยังคงอยู่หรือที่เรียกว่าข้อผิดพลาดในการทำนาย พวกเขาถูกกำหนดให้เป็นความแตกต่างระหว่างค่า Y จริงและที่คาดการณ์ไว้
การตีความแผนที่เหลือ
ไม่ควรมีรูปแบบในแผนภูมิที่เหลือ หากมีการติดตามรูปแบบนั่นหมายความว่าแบบจำลองไม่ได้รวมบางส่วนที่เราไม่รู้จัก แต่เป็นปัจจัยการแสดงโดยธรรมชาติซึ่งไม่มีข้อมูล
เมื่อทำเครื่องหมายในช่อง "กำหนดการคัดเลือก"ชุดของกราฟจะแสดงขึ้นเพื่อแสดงให้เห็นว่าเส้นการถดถอยทางทฤษฎีเหมาะสมกับเส้นที่สังเกตได้ดีเพียงใด เช่น ข้อมูลจริง
การตีความการเลือกกราฟ
ใน Excel บนแผนภูมิการเลือก จุดสีแดงระบุค่าทางทฤษฎี วาย, จุดสีน้ำเงิน - ข้อมูลเริ่มต้น หากจุดสีแดงเหลื่อมกัน จุดสีน้ำเงินแล้วสิ่งนี้แสดงให้เห็นสมการการถดถอยที่ประสบความสำเร็จ
ขั้นตอนที่จำเป็นในการพยากรณ์โดยใช้แบบจำลองการถดถอยหลายตัวแปรคือการประเมินนัยสำคัญทางสถิติของสมการการถดถอย กล่าวคือ ความเหมาะสมของสมการถดถอยที่สร้างขึ้นเพื่อใช้ในการพยากรณ์ เพื่อแก้ปัญหานี้ MS Excel จะคำนวณค่าสัมประสิทธิ์จำนวนหนึ่ง คือ:
ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ
เป็นลักษณะความหนาแน่นและทิศทางของความสัมพันธ์ระหว่างผลลัพธ์และ หลายตัวแปรปัจจัย ด้วยการพึ่งพาสองปัจจัย ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณจะคำนวณโดยสูตร:
, (1.20)
ค่าสัมประสิทธิ์พหุคูณ ( ร 2 ).
R 2 คือสัดส่วนของการเปลี่ยนแปลงของค่าทางทฤษฎีที่สัมพันธ์กับค่าที่แท้จริงของ y ซึ่งอธิบายโดยปัจจัยที่รวมอยู่ในแบบจำลอง ค่าทางทฤษฎีที่เหลือขึ้นอยู่กับปัจจัยอื่น ๆ ที่ไม่เกี่ยวข้องกับแบบจำลอง R 2 สามารถรับค่าได้ตั้งแต่ 0 ถึง 1 ถ้า คุณภาพของแบบจำลองนั้นสูง ตัวบ่งชี้นี้มีประโยชน์อย่างยิ่งสำหรับการเปรียบเทียบรุ่นต่างๆ และเลือกรุ่นที่ดีที่สุด
ค่าสัมประสิทธิ์มาตรฐานของการกำหนด ร 2
ตัวบ่งชี้ R 2 มีข้อเสียเปรียบซึ่งประกอบด้วยค่าสัมประสิทธิ์การกำหนดจำนวนมากสามารถทำได้เนื่องจากการสังเกตจำนวนน้อย ทำให้เป็นมาตรฐาน ให้ข้อมูลเกี่ยวกับค่าที่คุณจะได้รับในชุดข้อมูลอื่นที่มีขนาดใหญ่กว่าในกรณีนี้มาก
Normalized คำนวณโดยสูตร:
, (1.21)
ค่าสัมประสิทธิ์ทวีคูณของการกำหนดมาตรฐานอยู่ที่ไหน
ค่าสัมประสิทธิ์หลายตัว
ปริมาณของประชากร
จำนวนตัวแปรตัวประกอบ
ข้อผิดพลาดมาตรฐานการถดถอย ระบุจำนวนข้อผิดพลาดในการทำนายโดยประมาณ ใช้เป็นปริมาณหลักในการวัดคุณภาพของแบบประมาณการ คำนวณตามสูตร:
ผลรวมของกำลังสองของเศษเหลืออยู่ที่ไหน
จำนวนระดับความเป็นอิสระของสิ่งตกค้าง
นั่นคือ ข้อผิดพลาดมาตรฐานของการถดถอยจะแสดงค่าของกำลังสองของข้อผิดพลาดต่อหนึ่งระดับความเป็นอิสระ
ผลลัพธ์ | |||||||||
สถิติการถดถอย | |||||||||
หลายอาร์ | 0.973101 | ||||||||
R-สแควร์ | 0.946926 | ||||||||
R-Square ที่ปรับให้เป็นมาตรฐาน | 0.940682 | ||||||||
มาตรฐานบกพร่อง | 0.59867 | ||||||||
ข้อสังเกต | 20 | ||||||||
การวิเคราะห์ความแปรปรวน | |||||||||
ดีเอฟ | สส | นางสาว | ฉ | นัยสำคัญฉ | |||||
การถดถอย | 2 | 108.7071 | 54.35355 | 151.6535 | 1.45E-11 | ||||
ส่วนที่เหลือ | 17 | 6.092905 | 0.358406 | ||||||
ทั้งหมด | 19 | 114.8 | |||||||
อัตราต่อรอง | มาตรฐานบกพร่อง | t-สถิติ | ค่า P | ด้านล่าง 95% | สูงสุด 95% | ด้านล่าง 95.0% | สูงสุด 95.0% |
||
สี่แยกตัววาย | 1.835307 | 0.471065 | 3.89608 | 0.001162 | 0.841445 | 2.829169 | 0.841445 | 2.829169 |
|
x1 | 0.945948 | 0.212576 | 4.449917 | 0.000351 | 0.49745 | 1.394446 | 0.49745 | 1.394446 |
|
x2 | 0.085618 | 0.060483 | 1.415561 | 0.174964 | -0.04199 | 0.213227 | -0.04199 | 0.213227 |
วิธี การวิเคราะห์ความแปรปรวนประกอบด้วยการขยายผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ยออกเป็นสองส่วนคือ
อธิบายได้โดยการถดถอย (หรือแฟคทอเรียล)
ที่เหลือ
ความเหมาะสมของแบบจำลองการถดถอยสำหรับการทำนายขึ้นอยู่กับความแปรปรวนทั้งหมดของลักษณะ ยบัญชีสำหรับรูปแบบที่อธิบายโดยการถดถอย เห็นได้ชัดว่า ถ้าผลรวมของค่าเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอยมากกว่าค่าที่เหลือ ก็จะสรุปได้ว่ามีนัยสำคัญทางสถิติของสมการถดถอย นี่เทียบเท่ากับข้อเท็จจริงที่ว่าค่าสัมประสิทธิ์ของความมุ่งมั่นเข้าใกล้ความเป็นเอกภาพ
การกำหนดในตาราง "การวิเคราะห์ความแปรปรวน":
คอลัมน์ที่สองของตารางเรียกว่าและหมายถึงจำนวนองศาอิสระ สำหรับความแปรปรวนทั้งหมด จำนวนองศาอิสระคือ: , สำหรับความแปรปรวนของตัวประกอบ (หรือความแปรปรวนที่อธิบายได้โดยการถดถอย), , สำหรับความแปรปรวนที่เหลือ
โดยที่ n คือจำนวนการสังเกต
m คือจำนวนตัวแปรแฟกทอเรียลของโมเดล
คอลัมน์ที่สามของตารางเรียกว่า มันแสดงถึงผลรวมของการเบี่ยงเบนกำลังสอง ผลรวมของการเบี่ยงเบนกำลังสองถูกกำหนดโดยสูตร:
, (1.24)
ผลรวมของตัวประกอบกำลังสอง:
, (1.26)
คอลัมน์ที่สี่เรียกว่า - ค่าเฉลี่ยของส่วนเบี่ยงเบนกำลังสอง กำหนดโดยสูตร:
ด้วยความช่วยเหลือของเกณฑ์ F ของฟิชเชอร์ นัยสำคัญทางสถิติค่าสัมประสิทธิ์การกำหนดสมการถดถอย สำหรับสิ่งนี้ สมมติฐานว่างถูกหยิบยกขึ้นมา ซึ่งระบุว่าระหว่างตัวแปรผลลัพธ์และตัวแปรปัจจัย ไม่มีการเชื่อมต่อ. สิ่งนี้เป็นไปได้ก็ต่อเมื่อพารามิเตอร์ทั้งหมดของสมการหลายตัว การถดถอยเชิงเส้นและค่าสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์
ในการทดสอบสมมติฐานนี้ จำเป็นต้องคำนวณค่าที่แท้จริงของการทดสอบ Fisher's F-test และเปรียบเทียบกับตาราง ค่าที่แท้จริงของเกณฑ์ F คำนวณโดยสูตร:
, (1.28)
คัดเลือกจากตารางสถิติพิเศษโดย:
กำหนดระดับนัยสำคัญ () และ
จำนวนองศาอิสระ
ใน MS Excel ค่าแบบตารางของเกณฑ์ F สามารถกำหนดได้โดยใช้ฟังก์ชัน: = FINV(ความน่าจะเป็น; องศาอิสระ1; องศาอิสระ2)
ตัวอย่างเช่น: =FDISP(0.05;df1;df2)
ระดับนัยสำคัญ 1 ถูกเลือกสำหรับอันเดียวกับที่ใช้คำนวณพารามิเตอร์ของแบบจำลองการถดถอย ค่าเริ่มต้นคือ 95%
ถ้า สมมติฐานที่เสนอถูกปฏิเสธและรับรู้ถึงนัยสำคัญทางสถิติของสมการถดถอย ในกรณีของการคาดการณ์ที่สำคัญเป็นพิเศษ ขอแนะนำให้เพิ่มค่าตารางของเกณฑ์ F เป็น 4 เท่า นั่นคือมีการตรวจสอบเงื่อนไข:
=151.65; = 3.59
ค่าที่คำนวณได้มีค่าเกินกว่าค่าในตารางอย่างมาก ซึ่งหมายความว่าค่าสัมประสิทธิ์ของการกำหนดแตกต่างจากศูนย์อย่างมีนัยสำคัญ ดังนั้นควรปฏิเสธสมมติฐานที่ว่าไม่มีการพึ่งพาการถดถอย
ตอนนี้เรามาประเมินความสำคัญของค่าสัมประสิทธิ์การถดถอยตาม ที- เกณฑ์ของนักเรียนช่วยให้คุณกำหนดได้ว่าตัวแปรปัจจัยใด (x) มี อิทธิพลที่ยิ่งใหญ่ที่สุดไปยังตัวแปรผลลัพธ์ (y)
ข้อผิดพลาดมาตรฐานมักจะแสดงด้วย
ตัวห้อยระบุพารามิเตอร์ของสมการถดถอยที่คำนวณข้อผิดพลาดนี้
คำนวณตามสูตร:
, (1.29)
โดยที่ - RMS สำหรับตัวแปรผลลัพธ์
RMS สำหรับคุณสมบัติ ,
ค่าสัมประสิทธิ์ของการกำหนดสมการพหุคูณ
การถดถอย,
ค่าสัมประสิทธิ์ของการพิจารณาการพึ่งพาปัจจัยด้วย
ปัจจัยอื่นๆ ทั้งหมดในสมการ
จำนวนองศาอิสระสำหรับผลรวมกำลังสองที่เหลือ
การเบี่ยงเบน
ที่มสธ มาตรฐานเอ็กเซลข้อผิดพลาดจะถูกคำนวณโดยอัตโนมัติ (อยู่ในคอลัมน์ที่ 3 ของตารางที่ 3)
มูลค่าที่แท้จริงที- เกณฑ์ของนักเรียนใน MS Excel จะอยู่ในคอลัมน์ที่ 4 ของตารางที่ 3 และเรียกว่า t-สถิติ
(คอลัมน์ที่ 4) = (คอลัมน์ที่ 2) / (คอลัมน์ที่ 3)
t-statistic = ค่าสัมประสิทธิ์/ข้อผิดพลาดมาตรฐาน
ค่าตารางที- เกณฑ์ของนักเรียนขึ้นอยู่กับระดับนัยสำคัญที่ยอมรับได้ (ปกติคือ 0.05; 0.01) และจำนวนระดับความอิสระ
โดยที่ n คือจำนวนหน่วยประชากร
m คือจำนวนตัวประกอบในสมการ
ใน MS Excel ค่าตารางของเกณฑ์ของนักเรียนสามารถกำหนดได้โดยใช้ฟังก์ชัน:
STUDRASP(ความน่าจะเป็น จำนวนองศาอิสระ)
ตัวอย่างเช่น: =STUDISP(0.05,7)
ถ้า สรุปได้ว่าค่าสัมประสิทธิ์ของสมการถดถอยมีนัยสำคัญทางสถิติ (เชื่อถือได้) และสามารถรวมไว้ในแบบจำลองและใช้ในการพยากรณ์ได้
1.4.2 วิธีการจำลองแบบมอนติคาร์โล
วิธีการจำลองได้ชื่อเพื่อเป็นเกียรติแก่เมืองมอนติคาร์โลซึ่งตั้งอยู่ในราชรัฐโมนาโกซึ่งเป็นหนึ่งในประเทศที่เล็กที่สุดในโลกที่ตั้งอยู่บนชายฝั่ง ทะเลเมดิเตอร์เรเนียนใกล้กับชายแดนฝรั่งเศสและอิตาลี
วิธีการจำลองแบบมอนติคาร์โลเกี่ยวข้องกับการสร้าง ค่าสุ่มตามข้อจำกัดที่กำหนด การเริ่มต้นสร้างแบบจำลองการจำลอง ก่อนอื่นจำเป็นต้องพัฒนาแบบจำลองทางเศรษฐศาสตร์และคณิตศาสตร์ (EMM) ของตัวบ่งชี้ที่คาดการณ์ ซึ่งสะท้อนถึงความสัมพันธ์ระหว่างตัวแปรปัจจัย ตลอดจนระดับและลักษณะของอิทธิพลที่มีต่อผลลัพธ์ เนื่องจากในเงื่อนไขของสภาวะตลาดสมัยใหม่ เรื่องของความสัมพันธ์ทางเศรษฐกิจได้รับผลกระทบพร้อมกันจากปัจจัยหลายอย่างในลักษณะและทิศทางที่แตกต่างกัน และระดับของอิทธิพลของพวกเขาไม่ได้เป็นตัวกำหนด ดูเหมือนว่าจำเป็นต้องแบ่งตัวแปร EMM ออกเป็นสองกลุ่ม: สุ่ม และแน่นอน;
ถัดไป คุณควรกำหนดประเภทของการแจกแจงความน่าจะเป็นสำหรับตัวแปรสุ่มแต่ละตัวและพารามิเตอร์อินพุตที่เกี่ยวข้อง จำลองค่าของตัวแปรสุ่มโดยใช้เครื่องสร้างตัวเลขสุ่ม MS Excel หรือเครื่องมือซอฟต์แวร์อื่นๆ
เครื่องมือ "การสร้างตัวเลขสุ่ม" มีให้สำหรับผู้ใช้ MS Excel 2007 หลังจากเปิดใช้งาน Add-in ชุดวิเคราะห์. ลำดับการเปิดใช้งานส่วนเสริมได้อธิบายไว้ข้างต้น (ดูหน้า 10 รูปที่ 1.5-1.8) เพื่อเรียกใช้การจำลองในเมนู ข้อมูลต้องเลือกรายการ "การวิเคราะห์ข้อมูล"ในกล่องโต้ตอบที่ปรากฏขึ้น ให้เลือกเครื่องมือจากรายการ "การสร้างตัวเลขสุ่ม"แล้วคลิกตกลง
รูปที่ 1.46 - อินเทอร์เฟซเมนูการวิเคราะห์ข้อมูล
ในกล่องโต้ตอบที่ปรากฏขึ้น คุณต้องเลือกชนิดของการกระจายความน่าจะเป็นสำหรับตัวแปรสโทแคสติกแต่ละตัว และตั้งค่าพารามิเตอร์อินพุตที่เหมาะสม
รูปที่ 1.47 - กล่องโต้ตอบตัวสร้างตัวเลขสุ่ม
ขั้นตอนนี้เป็นหนึ่งในขั้นตอนที่ยากที่สุดดังนั้นในการแสดงจำเป็นต้องใช้ความรู้และประสบการณ์ของผู้เชี่ยวชาญ การเลือกประเภทของการแจกแจงความน่าจะเป็นนอกจากนี้ยังสามารถดำเนินการบนพื้นฐานของข้อมูลทางสถิติที่มีอยู่ ในทางปฏิบัติ การแจกแจงความน่าจะเป็นประเภทต่างๆ เช่น แบบปกติ แบบสามเหลี่ยมและแบบเดียวกันมักถูกใช้บ่อยที่สุด
การแจกแจงแบบปกติ (หรือกฎของ Moivre-Gauss-Laplace)สันนิษฐานว่าตัวแปรของพารามิเตอร์ที่คาดการณ์นั้นเคลื่อนเข้าหาค่าเฉลี่ย ค่าตัวแปรที่แตกต่างกันอย่างมากจากค่าเฉลี่ยซึ่งอยู่ใน "ส่วนท้าย" ของการแจกแจงมีความเป็นไปได้ต่ำ
การกระจายแบบสามเหลี่ยมเป็นอนุพันธ์ของการแจกแจงแบบปกติและถือว่าการแจกแจงที่เพิ่มขึ้นเป็นเชิงเส้นเมื่อเข้าใกล้ค่าเฉลี่ย
กระจายสม่ำเสมอจะใช้ในกรณีที่ค่าทั้งหมดของตัวบ่งชี้ตัวแปรมีความน่าจะเป็นในการรับรู้เท่ากัน
ด้วยความสำคัญของตัวแปรและ ความเป็นไปไม่ได้ที่จะเลือกกฎการกระจายมันสามารถมองในแง่ของ การกระจายแบบไม่ต่อเนื่องประเภทของการแจกแจงความน่าจะเป็นตามรายการด้านบนต้องการคำนิยามของพารามิเตอร์อินพุตที่แสดงในตาราง 1.11
ตารางที่ 1.11 - พารามิเตอร์อินพุตของการแจกแจงความน่าจะเป็นประเภทหลัก
ประเภทของความน่าจะเป็น การกระจาย | พารามิเตอร์อินพุต |
1 การแจกแจงแบบปกติ |
|
2 การกระจายแบบสามเหลี่ยม |
|
3 การกระจายอย่างสม่ำเสมอ |
|
4 การกระจายแบบไม่ต่อเนื่อง |
|
จากผลการทดลองหลายชุดจะได้การกระจายของค่าของตัวแปรสโตแคสติกโดยพิจารณาจากค่าของตัวบ่งชี้ที่คาดการณ์ไว้
ขั้นตอนต่อไปที่จำเป็นคือการวิเคราะห์ทางเศรษฐกิจและสถิติของผลการจำลอง ซึ่งแนะนำให้คำนวณลักษณะทางสถิติต่อไปนี้:
ค่าเฉลี่ย;
ส่วนเบี่ยงเบนมาตรฐาน;
การกระจาย;
ค่าต่ำสุดและสูงสุด
ช่วงความผันผวน
ค่าสัมประสิทธิ์ความไม่สมดุล
ส่วนเกิน.
รูปที่ 1.48 - ฮิสโตแกรมของค่าตัวบ่งชี้ที่คาดการณ์ไว้
การดำเนินการตามขั้นตอนเหล่านี้จะทำให้สามารถรับค่าประมาณความน่าจะเป็นของค่าของตัวบ่งชี้ที่คาดการณ์ได้ (การคาดการณ์ช่วงเวลา)
ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณของตัวแปรสามตัวเป็นตัวบ่งชี้ความใกล้ชิดของความสัมพันธ์เชิงเส้นระหว่างคุณลักษณะอย่างใดอย่างหนึ่ง (ตัวอักษรดัชนีก่อนเส้นประ) และการรวมกันของคุณลักษณะอื่น ๆ อีกสองอย่าง (ตัวอักษรดัชนีหลังเส้นประ):
; (12.7)
(12.8)
สูตรเหล่านี้ทำให้ง่ายต่อการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์หลายค่าสำหรับค่าที่ทราบของค่าสัมประสิทธิ์สหสัมพันธ์คู่ r xy , r xz และ r yz.
ค่าสัมประสิทธิ์ รไม่เป็นลบและอยู่ระหว่าง 0 ถึง 1 เสมอ เมื่อเข้าใกล้ รระดับของความสัมพันธ์เชิงเส้นของคุณลักษณะทั้งสามจะเพิ่มขึ้น ระหว่างอัตราส่วน ความสัมพันธ์ที่หลากหลาย, ตัวอย่างเช่น R y-xzและค่าสัมประสิทธิ์สหสัมพันธ์สองคู่ r yxและ r yzมีความสัมพันธ์ดังต่อไปนี้: ค่าสัมประสิทธิ์แต่ละคู่ต้องไม่เกินค่าสัมบูรณ์ R y-xz.
กำลังสองของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ R2เรียกว่าค่าสัมประสิทธิ์ของการกำหนดพหุคูณ แสดงสัดส่วนการเปลี่ยนแปลงของตัวแปรตามภายใต้อิทธิพลของปัจจัยที่ศึกษา
ความสำคัญของความสัมพันธ์พหุสัมพันธ์นั้นประเมินโดย
ฉ– เกณฑ์:
, (12.9)
นคือขนาดตัวอย่าง
เค- จำนวนสัญญาณ ในกรณีของเรา เค = 3.
ค่าทางทฤษฎี ฉ– เกณฑ์นำมาจากตารางการสมัครสำหรับ ν 1 = k-1 และ ν 2 \u003d n–kระดับของเสรีภาพและระดับความสำคัญที่ยอมรับได้ สมมติฐานว่างเกี่ยวกับความเท่าเทียมกันของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณในประชากรเป็นศูนย์ ( H0:ร= 0) เป็นที่ยอมรับถ้า ข้อเท็จจริง F.< F табл . และปฏิเสธถ้า ข้อเท็จจริง F. ตาราง ≥ F.
สิ้นสุดการทำงาน -
หัวข้อนี้เป็นของ:
สถิติคณิตศาสตร์
สถานศึกษา..โกมล มหาวิทยาลัยของรัฐ.. ตั้งชื่อตาม Francis Skaryna Yu M Zhuchenko ..
ถ้าคุณต้องการ วัสดุเพิ่มเติมในหัวข้อนี้ หรือคุณไม่พบสิ่งที่คุณกำลังมองหา เราขอแนะนำให้ใช้การค้นหาในฐานข้อมูลผลงานของเรา:
เราจะทำอย่างไรกับเนื้อหาที่ได้รับ:
หากเนื้อหานี้มีประโยชน์สำหรับคุณ คุณสามารถบันทึกลงในเพจของคุณบนโซเชียลเน็ตเวิร์ก:
ทวีต |
หัวข้อทั้งหมดในส่วนนี้:
กวดวิชา
สำหรับนักศึกษามหาวิทยาลัยที่เรียนพิเศษ 1-31 01 01 "ชีววิทยา" Gomel 2010
วิชาและวิธีการทางสถิติทางคณิตศาสตร์
วิชาสถิติทางคณิตศาสตร์เป็นวิชาที่ศึกษาคุณสมบัติของปรากฏการณ์ทางมวลในวิชาชีววิทยา เศรษฐศาสตร์ เทคโนโลยีและสาขาอื่นๆ ปรากฏการณ์เหล่านี้มักจะซับซ้อนเนื่องจากความหลากหลาย (ความแปรปรวน
แนวคิดของเหตุการณ์สุ่ม
การอนุมานทางสถิติหรือการอนุมานทางสถิติเป็นหลัก ส่วนประกอบวิธีการศึกษาปรากฏการณ์มวลมีลักษณะเฉพาะของตนเอง ข้อสรุปทางสถิติทำด้วยตัวเลข
ความน่าจะเป็นของเหตุการณ์สุ่ม
คุณลักษณะเชิงตัวเลขของเหตุการณ์สุ่มซึ่งมีคุณสมบัติที่สำหรับการทดสอบชุดใหญ่เพียงพอ ความถี่ของเหตุการณ์แตกต่างจากคุณลักษณะนี้เพียงเล็กน้อยเท่านั้น เรียกว่า
การคำนวณความน่าจะเป็น
บ่อยครั้งที่จำเป็นต้องเพิ่มและคูณความน่าจะเป็นพร้อมกัน ตัวอย่างเช่น คุณต้องการกำหนดความน่าจะเป็นที่จะได้ 5 แต้มเมื่อคุณทอยลูกเต๋า 2 ลูกพร้อมกัน มีแนวโน้มว่าจำนวนเงินที่ต้องการ
แนวคิดของตัวแปรสุ่ม
หลังจากกำหนดแนวคิดของความน่าจะเป็นและชี้แจงคุณสมบัติหลักของมันแล้ว เรามาพิจารณาแนวคิดที่สำคัญที่สุดประการหนึ่งของทฤษฎีความน่าจะเป็น นั่นคือแนวคิดของตัวแปรสุ่ม ให้เราถือว่าเป็นผล
ตัวแปรสุ่มแบบไม่ต่อเนื่อง
ตัวแปรสุ่มจะไม่ต่อเนื่องกันหากชุดของค่าที่เป็นไปได้นั้นจำกัด หรืออย่างน้อยก็นับได้ สมมติว่าตัวแปรสุ่ม X สามารถรับค่า x1
ตัวแปรสุ่มต่อเนื่อง
ตรงกันข้ามกับตัวแปรสุ่มแบบไม่ต่อเนื่องที่กล่าวถึงในหัวข้อย่อยก่อนหน้านี้ ชุดของค่าที่เป็นไปได้สำหรับตัวแปรสุ่มแบบต่อเนื่องนั้นไม่เพียงแต่ไม่มีขอบเขตเท่านั้น แต่ยังไม่สามารถแก้ไขได้
ความคาดหวังและความแปรปรวนทางคณิตศาสตร์
บ่อยครั้งที่จำเป็นต้องกำหนดลักษณะของการแจกแจงของตัวแปรสุ่มโดยใช้ตัวบ่งชี้ตัวเลขหนึ่งหรือสองตัวที่แสดงคุณสมบัติที่สำคัญที่สุดของการแจกแจงนี้ เพื่อดังกล่าว
ช่วงเวลา
สิ่งที่สำคัญอย่างยิ่งในสถิติทางคณิตศาสตร์คือช่วงเวลาที่เรียกว่าการแจกแจงของตัวแปรสุ่ม ในความคาดหวังทางคณิตศาสตร์ ค่าขนาดใหญ่ของตัวแปรสุ่มจะไม่ถูกนำมาพิจารณาอย่างเพียงพอ
การแจกแจงแบบทวินามและการวัดความน่าจะเป็น
ในหัวข้อนี้ เราจะพิจารณาประเภทหลักของการแจกแจงของตัวแปรสุ่มแบบไม่ต่อเนื่อง สมมติว่าความน่าจะเป็นของการเกิดเหตุการณ์สุ่ม A ในการทดลองครั้งเดียวเท่ากับ
การกระจายรูปสี่เหลี่ยมผืนผ้า (สม่ำเสมอ)
การแจกแจงแบบสี่เหลี่ยมผืนผ้า (แบบสม่ำเสมอ) เป็นการแจกแจงแบบต่อเนื่องที่ง่ายที่สุด ถ้าตัวแปรสุ่ม X สามารถรับค่าจริงใดๆ ในช่วง (a, b) โดยที่ a และ b เป็นจำนวนจริง
การแจกแจงแบบปกติ
การแจกแจงแบบปกติมีบทบาทสำคัญในสถิติทางคณิตศาสตร์ นี่ไม่ใช่การสุ่มน้อยที่สุด: ในความเป็นจริงตามวัตถุประสงค์มักพบสัญญาณต่างๆ
การกระจายล็อกปกติ
ตัวแปรสุ่ม Y มีลอการิทึม การแจกแจงแบบปกติด้วยพารามิเตอร์ μ และ σ หากตัวแปรสุ่ม X = lnY มีการแจกแจงแบบปกติด้วยพารามิเตอร์ μ และ &
ค่าเฉลี่ย
ในบรรดาคุณสมบัติของกลุ่มทั้งหมด ระดับเฉลี่ยซึ่งวัดโดยค่าเฉลี่ยของลักษณะ มีความสำคัญทางทฤษฎีและทางปฏิบัติมากที่สุด ค่าเฉลี่ยของคุณสมบัติเป็นแนวคิดที่ลึกซึ้งมาก
คุณสมบัติทั่วไปของค่าเฉลี่ย
สำหรับการใช้ค่าเฉลี่ยอย่างถูกต้องจำเป็นต้องทราบคุณสมบัติของตัวบ่งชี้เหล่านี้: ตำแหน่งมัธยฐาน, ความเป็นนามธรรมและเอกภาพของการกระทำทั้งหมด โดยค่าตัวเลขของมัน
ค่าเฉลี่ยเลขคณิต
ค่าเฉลี่ยเลขคณิตซึ่งมีคุณสมบัติทั่วไปของค่าเฉลี่ยมีลักษณะเฉพาะของตัวเองซึ่งสามารถแสดงได้ด้วยสูตรต่อไปนี้:
อันดับเฉลี่ย (ค่าเฉลี่ยที่ไม่ใช่พารามิเตอร์)
อันดับเฉลี่ยถูกกำหนดสำหรับคุณสมบัติดังกล่าวที่ยังไม่พบวิธีการวัดเชิงปริมาณ ตามระดับของการแสดงออกของคุณสมบัติดังกล่าว วัตถุสามารถจัดลำดับได้ เช่น ตั้งอยู่
ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก
โดยปกติแล้ว ในการคำนวณค่าเฉลี่ยเลขคณิต ค่าทั้งหมดของคุณลักษณะจะถูกรวมเข้าด้วยกันและผลรวมที่ได้จะถูกหารด้วยจำนวนตัวเลือก ในกรณีนี้ แต่ละค่าที่ป้อนผลรวมจะเพิ่มค่าเต็ม
รากหมายถึงกำลังสอง
ค่าเฉลี่ยรากที่สองคำนวณโดยสูตร: , (6.5) ซึ่งเท่ากับรากที่สองของผลรวม
ค่ามัธยฐาน
ค่ามัธยฐานคือค่าคุณลักษณะที่แบ่งกลุ่มทั้งหมดออกเป็นสองส่วนเท่าๆ กัน ส่วนหนึ่งมีค่าคุณลักษณะน้อยกว่าค่ามัธยฐาน และอีกส่วนหนึ่งมีค่ามากกว่า ตัวอย่างเช่น ถ้าฉันมี
เฉลี่ยเรขาคณิต
ในการรับค่าเฉลี่ยเรขาคณิตสำหรับกลุ่มที่มีข้อมูล n คุณต้องคูณตัวเลือกทั้งหมดและแยกจากผลคูณที่ได้ รากที่ nองศา:
ฮาร์มอนิกเฉลี่ย
ค่าเฉลี่ยฮาร์มอนิกคำนวณโดยสูตร (6.14) สำหรับห้าตัวเลือก: 1, 4, 5, 5 ปานกลาง
จำนวนองศาอิสระ
จำนวนองศาอิสระเท่ากับจำนวนองค์ประกอบฟรีวาไรตี้ในกลุ่ม เท่ากับจำนวนรายการศึกษาที่มีอยู่ทั้งหมดโดยไม่มีข้อจำกัดด้านจำนวน ตัวอย่างเช่นสำหรับการวิจัย
ค่าสัมประสิทธิ์ของการแปรผัน
ส่วนเบี่ยงเบนมาตรฐานคือค่าที่มีชื่อ ซึ่งแสดงเป็นหน่วยเดียวกับค่าเฉลี่ยเลขคณิต ดังนั้นเพื่อเปรียบเทียบคุณสมบัติต่างๆที่แสดงในหน่วยต่างๆจาก
ขีดจำกัดและขอบเขต
สำหรับการประเมินระดับความหลากหลายอย่างรวดเร็วและโดยประมาณมักใช้ตัวบ่งชี้ที่ง่ายที่สุด: lim = (min ¸ max) - ขีด จำกัด เช่น น้อยที่สุดและ ค่าที่ยิ่งใหญ่ที่สุดคุณลักษณะ พี =
ค่าเบี่ยงเบนปกติ
โดยปกติแล้วระดับของการพัฒนาลักษณะจะพิจารณาจากการวัดและแสดงด้วยหมายเลขที่กำหนด: น้ำหนัก 3 กก., ความยาว 15 ซม., 20 ตะขอบนปีกผึ้ง, ไขมัน 4% ในนม, 15 กก. การตัด
ค่าเฉลี่ยและซิกม่าของกลุ่มสรุป
บางครั้งจำเป็นต้องกำหนดค่าเฉลี่ยและซิกมาสำหรับการแจกแจงผลรวมที่ประกอบด้วยการแจกแจงหลายรายการ ในกรณีนี้ ไม่ทราบการแจกแจงตัวเอง แต่มีเพียงวิธีการและซิกมาเท่านั้น
ความเบ้ (ความเบ้) และความชัน (คูร์โทซิส) ของเส้นโค้งการกระจาย
สำหรับตัวอย่างขนาดใหญ่ (n > 100) จะมีการคำนวณสถิติอีกสองรายการ ความเบ้ของเส้นโค้งเรียกว่าอสมมาตร:
ชุดรูปแบบต่างๆ
เมื่อขนาดของกลุ่มที่ศึกษาเพิ่มขึ้น ความสม่ำเสมอของความหลากหลายจะชัดเจนขึ้นเรื่อย ๆ ซึ่งในกลุ่มเล็ก ๆ ถูกซ่อนไว้โดยรูปแบบสุ่มของการสำแดง
ฮิสโตแกรมและเส้นโค้งการแปรผัน
ฮิสโตแกรมคือ ชุดการเปลี่ยนแปลงนำเสนอในรูปแบบของไดอะแกรมซึ่งแสดงค่าความถี่ที่แตกต่างกันด้วยความสูงของแท่งที่แตกต่างกัน ฮิสโตแกรมการกระจายข้อมูลแสดงในหน้า
นัยสำคัญของความแตกต่างของการกระจาย
สมมติฐานทางสถิติเป็นสมมติฐานเฉพาะเกี่ยวกับการแจกแจงความน่าจะเป็นที่อยู่ภายใต้ตัวอย่างข้อมูลที่สังเกตได้ การตรวจสอบ สมมติฐานทางสถิติเป็นกระบวนการยอมรับ
เกณฑ์ความเบ้และความโด่ง
สัญญาณบางอย่างของพืช สัตว์ และจุลินทรีย์ เมื่อวัตถุรวมกันเป็นกลุ่ม จะให้การกระจายที่แตกต่างจากปกติอย่างมาก ในกรณีที่ใดๆ
ประชากรทั่วไปและกลุ่มตัวอย่าง
กลุ่มบุคคลทั้งหมดในหมวดหมู่ใดหมวดหมู่หนึ่งเรียกว่าประชากรทั่วไป ปริมาณ ประชากรกำหนดโดยวัตถุประสงค์ของการศึกษา หากมีการศึกษาสัตว์ป่าชนิดใด
ความเป็นตัวแทน
การศึกษาโดยตรงของกลุ่มของวัตถุที่เลือก อันดับแรกคือวัสดุหลักและคุณลักษณะของตัวอย่าง ข้อมูลตัวอย่างและตัวเลขสรุปทั้งหมดมีความเกี่ยวข้องดังนี้
ข้อผิดพลาดในการเป็นตัวแทนและข้อผิดพลาดในการวิจัยอื่นๆ
การประเมินพารามิเตอร์ทั่วไปตามตัวบ่งชี้ที่เลือกมีลักษณะเฉพาะของตนเอง ส่วนหนึ่งไม่สามารถแสดงลักษณะทั้งหมดได้อย่างสมบูรณ์ ดังนั้น ลักษณะเฉพาะของประชากรทั่วไป
ขอบเขตความเชื่อมั่น
จำเป็นต้องกำหนดค่าของข้อผิดพลาดในการเป็นตัวแทนเพื่อใช้ตัวบ่งชี้ตัวอย่างเพื่อค้นหาค่าที่เป็นไปได้ของพารามิเตอร์ทั่วไป กระบวนการนี้เรียกว่า o
ขั้นตอนการประเมินทั่วไป
สามค่าที่จำเป็นในการประเมินพารามิเตอร์ทั่วไป - ตัวบ่งชี้ตัวอย่าง () เกณฑ์ความน่าเชื่อถือ
การประมาณค่าเฉลี่ยเลขคณิต
การประมาณค่าเฉลี่ยมีวัตถุประสงค์เพื่อสร้างค่าเฉลี่ยทั่วไปสำหรับประเภทของวัตถุที่ศึกษา ข้อผิดพลาดของตัวแทนที่จำเป็นสำหรับจุดประสงค์นี้ถูกกำหนดโดยสูตร:
การประมาณความแตกต่างของค่าเฉลี่ย
ในบางการศึกษา ความแตกต่างระหว่างการวัดสองครั้งถือเป็นข้อมูลหลัก นี่อาจเป็นกรณีที่แต่ละกลุ่มตัวอย่างได้รับการศึกษาในสองสถานะ - หรือใน อายุต่างกันหรือหน้า
ค่าประมาณความแตกต่างของค่าเฉลี่ยที่ไม่น่าเชื่อถือและเชื่อถือได้
ผลลัพธ์ของการศึกษาแบบคัดเลือกดังกล่าวซึ่งเป็นไปไม่ได้ที่จะได้รับค่าประมาณที่แน่นอนของพารามิเตอร์ทั่วไป (ไม่ว่าจะมากกว่าศูนย์หรือน้อยกว่าหรือเท่ากับศูนย์) เรียกว่าไม่น่าเชื่อถือ
การประมาณค่าผลต่างของค่าเฉลี่ยทั่วไป
ในการวิจัยทางชีววิทยา ความแตกต่างระหว่างสองปริมาณมีความสำคัญเป็นพิเศษ โดยความแตกต่าง เปรียบเทียบประชากร เชื้อชาติ สายพันธุ์ สายพันธุ์ สายพันธุ์ ครอบครัว กลุ่มทดลองและกลุ่มควบคุมที่แตกต่างกัน (วิธี gr
เกณฑ์ความน่าเชื่อถือที่แตกต่างกัน
ในเวลาเดียวกัน ความสำคัญอย่างยิ่งซึ่งมีไว้สำหรับนักวิจัยที่ได้รับความแตกต่างที่เชื่อถือได้ มีความจำเป็นที่จะต้องเชี่ยวชาญในวิธีการที่ช่วยในการพิจารณาว่าสิ่งที่ได้รับนั้นมีความน่าเชื่อถือและเป็นจริงหรือไม่
ความเป็นตัวแทนในการศึกษาคุณลักษณะเชิงคุณภาพ
ลักษณะเชิงคุณภาพมักไม่สามารถแบ่งระดับการแสดงออกมาให้เห็นได้: มีอยู่หรือไม่มีอยู่ในแต่ละบุคคล เช่น เพศ เพศ การมีหรือไม่มีคุณลักษณะใด ๆ ความอัปลักษณ์
ความน่าเชื่อถือของส่วนต่างในหุ้น
ความน่าเชื่อถือของความแตกต่างของการแบ่งกลุ่มตัวอย่างถูกกำหนดในลักษณะเดียวกับความแตกต่างของค่าเฉลี่ย: (10.34)
ค่าสัมประสิทธิ์สหสัมพันธ์
ในการศึกษาจำนวนมากจำเป็นต้องศึกษาสัญญาณหลายอย่างในความสัมพันธ์ซึ่งกันและกัน หากเราทำการศึกษาดังกล่าวโดยสัมพันธ์กับสองลักษณะ เราจะเห็นว่าความแปรปรวนของลักษณะหนึ่งไม่ได้
ข้อผิดพลาดค่าสัมประสิทธิ์สหสัมพันธ์
เช่นเดียวกับค่าตัวอย่างอื่นๆ ค่าสัมประสิทธิ์สหสัมพันธ์มีข้อผิดพลาดในการเป็นตัวแทน ซึ่งคำนวณสำหรับตัวอย่างขนาดใหญ่โดยใช้สูตร:
ความเชื่อมั่นของค่าสัมประสิทธิ์สหสัมพันธ์ของกลุ่มตัวอย่าง
เกณฑ์สำหรับค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างถูกกำหนดโดยสูตร: (11.9) โดยที่:
ขีดจำกัดความเชื่อมั่นของค่าสัมประสิทธิ์สหสัมพันธ์
พบขีดจำกัดความเชื่อมั่นของค่าทั่วไปของค่าสัมประสิทธิ์สหสัมพันธ์ ในทางทั่วไปตามสูตร:
ความน่าเชื่อถือของผลต่างระหว่างค่าสัมประสิทธิ์สหสัมพันธ์สองค่า
ความน่าเชื่อถือของความแตกต่างของค่าสัมประสิทธิ์สหสัมพันธ์ถูกกำหนดในลักษณะเดียวกับความน่าเชื่อถือของความแตกต่างของค่าเฉลี่ยตามสูตรปกติ
สมการถดถอยแบบเส้นตรง
ความสัมพันธ์เชิงเส้นตรงจะแตกต่างกันเมื่อเชื่อมต่อในรูปแบบนี้ การเปลี่ยนแปลงเดียวกันแต่ละรายการในแอตทริบิวต์แรกจะสอดคล้องกับการเปลี่ยนแปลงที่กำหนดไว้อย่างดีและยังรวมถึงการเปลี่ยนแปลงโดยเฉลี่ยเดียวกันในแอตทริบิวต์อื่นๆ
ข้อผิดพลาดขององค์ประกอบของสมการถดถอยเชิงเส้นตรง
ในสมการถดถอยแบบเส้นตรงอย่างง่าย: y = a + bx มีข้อผิดพลาดสามประการเกี่ยวกับความเป็นตัวแทน 1 ข้อผิดพลาดค่าสัมประสิทธิ์การถดถอย:
ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน
ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วนเป็นตัวบ่งชี้ที่วัดระดับการผันคำกริยาของสัญญาณสองสัญญาณด้วยค่าคงที่ของสัญญาณที่สาม สถิติทางคณิตศาสตร์ช่วยให้คุณสร้างความสัมพันธ์ได้
สมการถดถอยพหุคูณเชิงเส้น
สมการทางคณิตศาสตร์สำหรับความสัมพันธ์แบบเส้นตรงระหว่างสามตัวแปรเรียกว่า สมการ สมการเชิงเส้นระนาบการถดถอย มีรูปแบบทั่วไปดังนี้
ความสัมพันธ์
หากความสัมพันธ์ระหว่างปรากฏการณ์ภายใต้การศึกษาเบี่ยงเบนไปอย่างมากจากความสัมพันธ์เชิงเส้น ซึ่งง่ายต่อการสร้างจากกราฟ แสดงว่าค่าสัมประสิทธิ์สหสัมพันธ์นั้นไม่เหมาะที่จะใช้เป็นตัวชี้วัดความสัมพันธ์ สามารถบ่งบอกถึงการขาดงาน
คุณสมบัติความสัมพันธ์ของความสัมพันธ์
อัตราส่วนสหสัมพันธ์จะวัดระดับของความสัมพันธ์ในรูปแบบใดๆ นอกจากนี้ อัตราส่วนสหสัมพันธ์ยังมีคุณสมบัติอื่นๆ อีกมากมายที่น่าสนใจในเชิงสถิติ
ข้อผิดพลาดของตัวแทนอัตราส่วนความสัมพันธ์
ยังไม่มีการพัฒนาสูตรที่แน่นอนสำหรับข้อผิดพลาดของการเป็นตัวแทนของอัตราส่วนสหสัมพันธ์ สูตรที่มักจะให้ไว้ในตำรามีข้อเสียที่ไม่สามารถละเลยได้เสมอ สูตรนี้ไม่ได้
เกณฑ์ความสัมพันธ์เชิงเส้น
ในการกำหนดระดับการประมาณของการขึ้นต่อกันของเส้นโค้งกับเส้นตรง จะใช้เกณฑ์ F ซึ่งคำนวณโดยสูตร:
คอมเพล็กซ์การกระจาย
Dispersion Complex คือชุดของการไล่ระดับสีที่มีข้อมูลที่เกี่ยวข้องสำหรับการศึกษาและค่าเฉลี่ยของข้อมูลสำหรับการไล่ระดับสีแต่ละครั้ง (ค่าเฉลี่ยส่วนตัว) และสำหรับคอมเพล็กซ์ทั้งหมด (ค่าเฉลี่ยทั่วไป)
อิทธิพลทางสถิติ
อิทธิพลทางสถิติเป็นภาพสะท้อนในความหลากหลายของคุณลักษณะที่เกิดจากความหลากหลายของปัจจัย (การไล่ระดับสี) ซึ่งจัดในการศึกษา เพื่อประเมินอิทธิพลของนีโอ
อิทธิพลแฟกทอเรียล
อิทธิพลของแฟกทอเรียลเป็นอิทธิพลทางสถิติที่เรียบง่ายหรือรวมกันของปัจจัยที่ศึกษา ในคอมเพล็กซ์ปัจจัยเดียว อิทธิพลอย่างง่ายของปัจจัยเดียวได้รับการศึกษาในระดับองค์กรที่แน่นอน
คอมเพล็กซ์การกระจายตัวแบบปัจจัยเดียว
การวิเคราะห์ความแปรปรวนได้รับการพัฒนาและนำเข้าสู่การปฏิบัติการวิจัยทางการเกษตรและชีวภาพโดยนักวิทยาศาสตร์ชาวอังกฤษ อาร์. เอ. ฟิชเชอร์ ผู้ค้นพบกฎการกระจายของอัตราส่วนของกำลังสองเฉลี่ย
คอมเพล็กซ์การกระจายหลายปัจจัย
ความคิดที่ชัดเจนของ แบบจำลองทางคณิตศาสตร์การวิเคราะห์ความแปรปรวนทำให้ง่ายต่อการเข้าใจการดำเนินการคำนวณที่จำเป็น โดยเฉพาะอย่างยิ่งเมื่อประมวลผลข้อมูลจากการทดลองหลายตัวแปรซึ่งมีมากกว่า
การเปลี่ยนแปลง
การใช้งานที่ถูกต้องการวิเคราะห์ความแปรปรวนสำหรับการประมวลผลของวัสดุทดลองจะถือว่าความสม่ำเสมอของความแปรปรวนสำหรับตัวเลือก (ตัวอย่าง) การกระจายปกติหรือใกล้เคียงกับมันใน
ตัวบ่งชี้ความแข็งแกร่งของอิทธิพล
การกำหนดความแข็งแกร่งของอิทธิพลตามผลลัพธ์นั้นจำเป็นต้องใช้ในชีววิทยา การเกษตร การแพทย์ เพื่อเลือกมากที่สุด วิธีที่มีประสิทธิภาพการสัมผัส สำหรับปริมาณของสารทางกายภาพและเคมี - เซนต์
ข้อผิดพลาดของการเป็นตัวแทนของตัวบ่งชี้หลักของอำนาจของอิทธิพล
ยังไม่พบสูตรที่แน่นอนสำหรับข้อผิดพลาดของตัวบ่งชี้หลักของความแข็งแกร่งของอิทธิพล ในคอมเพล็กซ์แบบปัจจัยเดียว เมื่อข้อผิดพลาดของตัวแทนถูกกำหนดสำหรับตัวบ่งชี้แฟกทอเรียลเพียงตัวเดียว
จำกัด ค่าของตัวบ่งชี้อำนาจของอิทธิพล
ตัวบ่งชี้หลักของอำนาจของอิทธิพลเท่ากับส่วนแบ่งของหนึ่งเทอมจากผลรวมทั้งหมดของเงื่อนไข นอกจากนี้ ตัวบ่งชี้นี้จะเท่ากับกำลังสองของอัตราส่วนสหสัมพันธ์ ด้วยเหตุผลสองประการนี้ ไฟแสดงสถานะ
ความน่าเชื่อถือของอิทธิพล
ตัวบ่งชี้หลักของพลังแห่งอิทธิพลที่ได้รับจากการศึกษาแบบเลือกลักษณะประการแรกคือระดับของอิทธิพลที่จริง ๆ แล้วแสดงออกมาในกลุ่มของวัตถุที่ศึกษา
การวิเคราะห์จำแนก
การวิเคราะห์จำแนกเป็นวิธีการหนึ่งของการวิเคราะห์ทางสถิติหลายตัวแปร จุดประสงค์ของการวิเคราะห์จำแนกคือการวัดลักษณะต่างๆ (คุณลักษณะ, คู่
คำแถลงปัญหา วิธีการแก้ไข ข้อจำกัด
สมมติว่ามีวัตถุ n รายการที่มีลักษณะ m ผลจากการวัด วัตถุแต่ละชิ้นมีลักษณะเฉพาะด้วยเวกเตอร์ x1 ... xm, m >1 งานก็คือว่า
สมมติฐานและข้อ จำกัด
การวิเคราะห์จำแนก "ทำงาน" ภายใต้สมมติฐานจำนวนหนึ่ง สมมติฐานที่ว่าปริมาณที่สังเกตได้ - ลักษณะที่วัดได้ของวัตถุ - มีการแจกแจงแบบปกติ นี้
อัลกอริทึมการวิเคราะห์จำแนกประเภท
การแก้ปัญหาการเลือกปฏิบัติ (การวิเคราะห์จำแนก) ประกอบด้วยการแบ่งพื้นที่ตัวอย่างทั้งหมด (ชุดของการสำนึกของการพิจารณาหลายมิติทั้งหมด ตัวแปรสุ่ม) สำหรับบางจำนวน
การวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์เป็นการรวมขั้นตอนต่างๆ ที่ใช้ในการจำแนกประเภท จากการใช้ขั้นตอนเหล่านี้ ชุดเริ่มต้นของวัตถุจะถูกแบ่งออกเป็นคลัสเตอร์หรือกลุ่ม
วิธีการวิเคราะห์คลัสเตอร์
ในทางปฏิบัติ มักจะใช้วิธีการจัดกลุ่มแบบรวมกลุ่ม โดยปกติแล้ว ก่อนที่จะเริ่มการจัดหมวดหมู่ ข้อมูลจะถูกทำให้เป็นมาตรฐาน (ค่าเฉลี่ยจะถูกหักออกและรากที่สองจะถูกหาร)
อัลกอริทึมการวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์เป็นชุดของวิธีการจำแนกการสังเกตหรือวัตถุหลายมิติตามคำจำกัดความของแนวคิดของระยะห่างระหว่างวัตถุ ตามด้วยการเลือกกลุ่มจากวัตถุเหล่านั้น &
แบบจำลองการถดถอยเชิงเส้น
ดังนั้น ให้มีตัวแปรสุ่มอิสระหลายตัว X1, X2, ..., Xn (ตัวทำนาย) และตัวแปร Y ขึ้นอยู่กับตัวแปรเหล่านั้น (สันนิษฐานว่ามีการแปลงตัวทำนายที่จำเป็นทั้งหมดแล้ว) นอกจากนี้ เราถือว่าการพึ่งพาเป็นแบบเส้นตรงและข้อผิดพลาดถูกกระจายตามปกติ เช่นโดย I คือเมทริกซ์เอกลักษณ์กำลังสอง n xn
ดังนั้นเราจึงมีข้อมูลที่ประกอบด้วยการสังเกต k ของค่า Y และ Xi และเราต้องการประมาณค่าสัมประสิทธิ์ วิธีมาตรฐานในการหาค่าประมาณสัมประสิทธิ์คือวิธีกำลังสองน้อยที่สุด และ โซลูชันการวิเคราะห์ซึ่งสามารถรับได้โดยใช้วิธีนี้ มีลักษณะดังนี้:
ที่ไหน ขด้วย cap - การประมาณค่าสัมประสิทธิ์เวกเตอร์ ยเป็นเวกเตอร์ของค่าของตัวแปรตาม และ X คือเมทริกซ์ขนาด k x n+1 (n คือจำนวนตัวทำนาย k คือจำนวนการสังเกต) ซึ่งคอลัมน์แรกประกอบด้วยคอลัมน์ คอลัมน์ที่สอง - ค่าของตัวทำนายตัวแรกตัวที่สาม - ตัวที่สองและอื่น ๆ และแถวที่สอดคล้องกับการสังเกตที่มีอยู่
ฟังก์ชัน summary.lm() และการประเมินผลลัพธ์
พิจารณาตัวอย่างการสร้างแบบจำลองการถดถอยเชิงเส้นในภาษา R:> ห้องสมุด (ห่างไกล) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >ข้อมูลสรุป (lm1) โทร: lm (สูตร = สปีชีส์ ~ พื้นที่ + ระดับความสูง + ใกล้ที่สุด + Scruz + ที่อยู่ติดกัน ข้อมูล = gala) ส่วนที่เหลือ: ต่ำสุด 1Q ค่ามัธยฐาน 3Q สูงสุด -111.679 -34.898 -7.862 33.460 182.584 ค่าสัมประสิทธิ์: ค่าประมาณ Std Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- ลงชื่อ รหัส: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ข้อผิดพลาดมาตรฐานที่เหลือ: 60.98 บน 24 องศาอิสระ หลาย R-squared: 0.7658, ปรับ R-squared: 0.7171 F- สถิติ: 15.7 ใน 5 และ 24 DF, p-value: 6.838e-07
ตารางงานกาล่าประกอบด้วยข้อมูลบางส่วนเกี่ยวกับ 30 เกาะกาลาปาโกส เราจะพิจารณาแบบจำลองโดยที่สปีชีส์เป็นหมายเลข ประเภทต่างๆพืชบนเกาะขึ้นอยู่กับตัวแปรอื่น ๆ อีกหลายตัว
พิจารณาผลลัพธ์ของฟังก์ชัน summary.lm()
อันดับแรกคือบรรทัดที่ระลึกถึงวิธีสร้างโมเดล
จากนั้นข้อมูลเกี่ยวกับการกระจายของส่วนที่เหลือ: ต่ำสุด, ควอร์ไทล์แรก, ค่ามัธยฐาน, ควอร์ไทล์ที่สาม, สูงสุด ณ จุดนี้ การดูปริมาณของสารตกค้างจะมีประโยชน์ไม่เพียงเท่านั้น แต่ยังตรวจสอบความปกติได้ด้วย เช่น ใช้การทดสอบ Shapiro-Wilk
ถัดไป - ข้อมูลที่น่าสนใจที่สุดเกี่ยวกับค่าสัมประสิทธิ์ จำเป็นต้องมีทฤษฎีเล็กน้อยที่นี่
ก่อนอื่นเราเขียนผลลัพธ์ต่อไปนี้:
โดยที่ sigma กำลังสองด้วยตัวพิมพ์ใหญ่เป็นตัวประมาณค่าที่เป็นกลางสำหรับ sigma กำลังสองจริง ที่นี่ ขคือเวกเตอร์จริงของสัมประสิทธิ์ และเอปไซลอนปิดคือเวกเตอร์ของเศษเหลือ ถ้าเราใช้ค่าประมาณกำลังสองน้อยที่สุดเป็นค่าสัมประสิทธิ์ นั่นคือ ภายใต้สมมุติฐานว่าข้อผิดพลาดถูกกระจายตามปกติ เวกเตอร์ของสัมประสิทธิ์จะถูกกระจายตามปกติรอบๆ ค่าจริง และความแปรปรวนของมันสามารถประมาณค่าได้แบบไม่เอนเอียง ซึ่งหมายความว่าคุณสามารถทดสอบสมมติฐานสำหรับความเท่าเทียมกันของค่าสัมประสิทธิ์เป็นศูนย์ได้ และตรวจสอบความสำคัญของตัวทำนาย นั่นคือ ค่าของ Xi มีผลอย่างมากต่อคุณภาพของแบบจำลองที่สร้างขึ้นหรือไม่
ในการทดสอบสมมติฐานนี้ เราต้องการสถิติต่อไปนี้ ซึ่งมีการกระจายของนักเรียน ถ้าค่าจริงของสัมประสิทธิ์ bi เป็น 0:
ที่ไหน
คือข้อผิดพลาดมาตรฐานของการประมาณค่าสัมประสิทธิ์ และ t(k-n-1) คือการกระจายของนักเรียนที่มีองศาอิสระ k-n-1
ตอนนี้เราพร้อมที่จะแยกวิเคราะห์เอาต์พุตของฟังก์ชัน summary.lm() ต่อไป
ดังนั้น ต่อไปคือการประมาณค่าสัมประสิทธิ์ที่ได้จากวิธีกำลังสองน้อยที่สุด ข้อผิดพลาดมาตรฐาน, ค่าสถิติ t และค่า p สำหรับมัน โดยทั่วไปแล้ว ค่า p จะถูกเปรียบเทียบกับเกณฑ์ที่เลือกไว้ล่วงหน้าที่มีขนาดเล็กเพียงพอ เช่น 0.05 หรือ 0.01 และถ้าค่าของ p-statistics น้อยกว่าเกณฑ์ สมมติฐานก็จะถูกปฏิเสธ ถ้ามากกว่านั้น น่าเสียดายที่ไม่มีอะไรเป็นรูปธรรมที่สามารถพูดได้ ฉันขอเตือนคุณว่าในกรณีนี้ เนื่องจากการกระจายตัวของนักเรียนมีความสมมาตรประมาณ 0 ค่า p จะเท่ากับ 1-F(|t|)+F(-|t|) โดยที่ F คือการกระจายตัวของนักเรียน ฟังก์ชันที่มีองศาอิสระ k-n-1 นอกจากนี้ โปรดทำเครื่องหมาย R ด้วยเครื่องหมายดอกจันสำหรับค่าสัมประสิทธิ์นัยสำคัญซึ่งค่า p นั้นน้อยพอสมควร นั่นคือค่าสัมประสิทธิ์ที่ไม่น่าเป็น 0 ในบรรทัด Signif รหัสประกอบด้วยการถอดรหัสของเครื่องหมายดอกจัน: หากมีสามค่า p-value จะอยู่ระหว่าง 0 ถึง 0.001 หากมีสองค่าก็จะอยู่ระหว่าง 0.001 ถึง 0.01 และอื่น ๆ หากไม่มีไอคอน แสดงว่าค่า p มีค่ามากกว่า 0.1
ในตัวอย่างของเรา เราสามารถพูดได้อย่างมั่นใจอย่างยิ่งว่าตัวทำนายระดับความสูงและตำแหน่งที่อยู่ติดกันมีแนวโน้มที่จะส่งผลกระทบต่อค่าของสปีชีส์จริง ๆ แต่ไม่มีอะไรสามารถพูดได้อย่างชัดเจนเกี่ยวกับตัวทำนายที่เหลือ โดยปกติแล้ว ในกรณีเช่นนี้ ตัวทำนายจะถูกลบออกทีละตัวและดูว่าตัวบ่งชี้ตัวแบบอื่นๆ เปลี่ยนแปลงอย่างไร เช่น BIC หรือ R-squared ที่ปรับแล้ว ซึ่งจะกล่าวถึงในภายหลัง
ค่าของข้อผิดพลาดมาตรฐานที่เหลือสอดคล้องกับการประมาณอย่างง่ายของซิกมาด้วยค่าสูงสุด และองศาอิสระจะคำนวณเป็น k-n-1
และตอนนี้สถิติที่สำคัญที่สุดซึ่งควรค่าแก่การดูเป็นอันดับแรก: R-squared และ R-squared ที่ปรับแล้ว:
โดยที่ Yi คือค่า Y จริงในการสังเกตแต่ละครั้ง Yi ที่มีตัวพิมพ์ใหญ่คือค่าที่ทำนายโดยแบบจำลอง Y ที่มีแถบคือค่าเฉลี่ยของค่า Yi จริงทั้งหมด
เรามาเริ่มกันที่ค่าสถิติ R-squared หรือที่บางครั้งเรียกว่า ค่าสัมประสิทธิ์ของการกำหนด มันแสดงให้เห็นว่าความแปรปรวนตามเงื่อนไขของโมเดลแตกต่างจากความแปรปรวนของค่าจริงของ Y อย่างไร หากค่าสัมประสิทธิ์นี้ใกล้เคียงกับ 1 แสดงว่าความแปรปรวนตามเงื่อนไขของโมเดลนั้นค่อนข้างน้อยและมีความเป็นไปได้สูงที่โมเดลจะเหมาะกับ ข้อมูลได้เป็นอย่างดี หากค่าสัมประสิทธิ์ R-squared น้อยกว่ามากเช่นน้อยกว่า 0.5 ดังนั้นด้วยความมั่นใจระดับสูงแบบจำลองจะไม่สะท้อนถึงสถานการณ์จริง
อย่างไรก็ตาม สถิติ R-squared มีข้อเสียอย่างหนึ่ง: เมื่อจำนวนตัวทำนายเพิ่มขึ้น สถิตินี้จะยิ่งเพิ่มขึ้นเท่านั้น ดังนั้น อาจดูเหมือนว่าโมเดลที่มีตัวทำนายมากกว่าจะดีกว่าตัวแบบที่มีน้อยกว่า แม้ว่าตัวทำนายใหม่ทั้งหมดจะไม่ส่งผลกระทบต่อตัวแปรตามก็ตาม ที่นี่เราสามารถระลึกถึงหลักการของมีดโกนของ Occam หากเป็นไปได้ คุณควรกำจัดตัวทำนายที่ไม่จำเป็นในโมเดล เนื่องจากมันจะง่ายขึ้นและเข้าใจได้มากขึ้น เพื่อจุดประสงค์เหล่านี้ สถิติ R-squared ที่ปรับแล้วจึงถูกคิดค้นขึ้น มันเป็น R-Square ธรรมดา แต่มีโทษสำหรับ จำนวนมากตัวทำนาย วาม ิดหลัก: ถ้าตัวแปรอิสระใหม่ให้ มีส่วนร่วมอย่างมากตามแบบจำลอง ค่าของสถิตินี้จะเพิ่มขึ้น ถ้าไม่ก็ลดลงในทางกลับกัน
ตัวอย่างเช่น พิจารณาโมเดลเดิมแต่ตอนนี้แทนที่จะเป็นตัวทำนายห้าตัว เราจะเหลือสองตัว:
>lm2<-lm(Species~Elevation+Adjacent, data=gala)
>ข้อมูลสรุป (lm2) โทร: lm (สูตร = สปีชีส์ ~ ระดับความสูง + ที่อยู่ติดกัน ข้อมูล = กาลา) ส่วนที่เหลือ: ต่ำสุด 1Q ค่ามัธยฐาน 3Q สูงสุด -103.41 -34.33 -11.43 22.57 203.65 ค่าสัมประสิทธิ์: ค่าประมาณ Std ค่า Error t Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Adjacent -0.06889 0.01549 -4.447 0.000134 *** --- Signif. รหัส: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ข้อผิดพลาดมาตรฐานที่เหลือ: 60.86 บน 27 องศาอิสระ หลาย R-squared: 0.7376, ปรับ R-squared: 0.7181 F- สถิติ: 37.94 ใน 2 และ 27 DF, p-value: 1.434e-08
อย่างที่คุณเห็น ค่าของสถิติ R-square ลดลง แต่ค่าของ R-square ที่ปรับแล้วเพิ่มขึ้นเล็กน้อย
ทีนี้ลองทดสอบสมมติฐานที่ว่าค่าสัมประสิทธิ์ของตัวทำนายทั้งหมดเท่ากับศูนย์ นั่นคือสมมติฐานว่าค่าของ Y โดยทั่วไปขึ้นอยู่กับค่าของ Xi เชิงเส้นหรือไม่ ในการทำเช่นนี้คุณสามารถใช้สถิติต่อไปนี้ซึ่งหากสมมติฐานว่าค่าสัมประสิทธิ์ทั้งหมดเท่ากับศูนย์เป็นจริง
ใน สถิติการถดถอยมีการระบุค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ (หลายตัว R)และความมุ่งมั่น (R-กำลังสอง)ระหว่าง Y และคุณสมบัติอาร์เรย์ของปัจจัย (ซึ่งสอดคล้องกับค่าที่ได้รับก่อนหน้านี้ในการวิเคราะห์ความสัมพันธ์)
ส่วนตรงกลางของตาราง (อโนวา)จำเป็นต้องทดสอบความสำคัญของสมการการถดถอย
ด้านล่างของตารางคือ
ประมาณค่า bi ของค่าสัมประสิทธิ์การถดถอยทั่วไป Вi ตรวจสอบความสำคัญและการประมาณช่วงเวลา
การประมาณเวกเตอร์ของสัมประสิทธิ์ b (คอลัมน์ อัตราต่อรอง):
จากนั้นการประมาณสมการถดถอยจะมีรูปแบบดังนี้
จำเป็นต้องตรวจสอบความสำคัญของสมการการถดถอยและค่าสัมประสิทธิ์การถดถอยที่เกิดขึ้น
ให้เราตรวจสอบที่ระดับ b=0.05 ถึงความสำคัญของสมการถดถอย เช่น สมมติฐาน H0: в1=в2=в3=…=вk=0 ในการทำเช่นนี้ ค่าที่สังเกตได้ของสถิติ F จะถูกคำนวณ:
Excel ให้สิ่งนี้ในผลลัพธ์ การวิเคราะห์ความแปรปรวน:
QR=527.4296; คิว=1109.8673 =>
ในคอลัมน์ ฉมีการระบุค่า ฉออบ.
จากตารางการกระจาย F หรือใช้สถิติในตัว ฉการกระจายสำหรับระดับนัยสำคัญ b=0.05 และจำนวนองศาอิสระของตัวเศษ n1=k=4 และตัวส่วน n2=n-k-1=45 เราพบค่าวิกฤตของสถิติ F เท่ากับ
Fcr = 2.578739184
เนื่องจากค่าที่สังเกตได้ของสถิติ F เกินค่าวิกฤต 8.1957 > 2.7587 สมมติฐานเกี่ยวกับความเท่าเทียมกันของเวกเตอร์ของสัมประสิทธิ์จึงถูกปฏิเสธโดยมีค่าความน่าจะเป็นผิดพลาดเท่ากับ 0.05 ดังนั้น อย่างน้อยหนึ่งองค์ประกอบของเวกเตอร์ в=(в1,в2,в3,в4)T แตกต่างจากศูนย์อย่างมีนัยสำคัญ
ตรวจสอบความสำคัญของแต่ละค่าสัมประสิทธิ์ของสมการถดถอย เช่น สมมติฐาน .
การทดสอบนัยสำคัญของค่าสัมประสิทธิ์การถดถอยดำเนินการบนพื้นฐานของสถิติ t สำหรับระดับนัยสำคัญ
ค่าที่สังเกตได้ของสถิติ t ระบุไว้ในตารางผลลัพธ์ในคอลัมน์ ที-สถิติ.
ค่าสัมประสิทธิ์ (ไบ) |
สถิติ t (tobs) |
||
สี่แยกตัววาย | |||
ตัวแปร X5 | |||
ตัวแปร X7 | |||
ตัวแปร X10 | |||
ตัวแปร X15 |
จะต้องเปรียบเทียบกับค่าวิกฤต tcr ที่พบในระดับนัยสำคัญ b = 0.05 และจำนวนองศาอิสระ n = n - k - 1
ในการทำเช่นนี้ เราใช้สถิติในตัว ฟังก์ชันเอกเซล STUDRASPOBR,โดยเข้าสู่เมนูที่เสนอความน่าจะเป็น b=0.05 และจำนวนองศาอิสระ n= n–k-1=50-4-1=45 (คุณสามารถหาค่า tcr ได้จากตารางสถิติทางคณิตศาสตร์
เราได้ tcr = 2.014103359
สำหรับค่าที่สังเกตได้ของสถิติ t นั้นน้อยกว่าค่าวิกฤตในโมดูโล 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |
ดังนั้น สมมติฐานที่ว่าค่าสัมประสิทธิ์เหล่านี้เท่ากับศูนย์จะไม่ถูกปฏิเสธโดยมีความน่าจะเป็นผิดพลาดเท่ากับ 0.05 นั่นคือ ค่าสัมประสิทธิ์ที่เกี่ยวข้องนั้นไม่มีนัยสำคัญ
สำหรับค่าที่สังเกตได้ของสถิติ t มากกว่าค่าวิกฤต โมดูโล |3.7658|>2.0141 ดังนั้น สมมติฐาน H0 จึงถูกปฏิเสธ นั่นคือ - สำคัญ.
ความสำคัญของค่าสัมประสิทธิ์การถดถอยจะถูกตรวจสอบโดยคอลัมน์ต่อไปนี้ของตารางผลลัพธ์ด้วย:
คอลัมน์ หน้า-ความหมายแสดงความสำคัญของพารามิเตอร์แบบจำลองตามระดับขอบเขต 5% เช่น ถ้า p≤0.05 แสดงว่าสัมประสิทธิ์ที่เกี่ยวข้องถือว่ามีนัยสำคัญ ถ้า p>0.05 แสดงว่าไม่มีนัยสำคัญ
และคอลัมน์สุดท้าย - ด้านล่าง 95%และ สูงสุด 95%และ ด้านล่าง 98%และ สูงสุด 98% -นี่คือค่าประมาณช่วงเวลาของค่าสัมประสิทธิ์การถดถอยที่มีระดับความน่าเชื่อถือที่กำหนดสำหรับ r=0.95 (ออกเสมอ) และ r=0.98 (ออกเมื่อตั้งค่าความน่าเชื่อถือเพิ่มเติมที่สอดคล้องกัน)
หากขีดล่างและขีดบนมีเครื่องหมายเหมือนกัน (ไม่รวมศูนย์ใน ช่วงความมั่นใจ) ดังนั้นค่าสัมประสิทธิ์การถดถอยที่สอดคล้องกันจะถือว่ามีนัยสำคัญ มิฉะนั้นจะไม่มีนัยสำคัญ
ดังที่เห็นได้จากตาราง สำหรับค่าสัมประสิทธิ์ใน 3 p-value p=0.0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.
ตามอัลกอริธึมการวิเคราะห์การถดถอยแบบขั้นตอนโดยไม่รวมตัวถดถอยที่ไม่มีนัยสำคัญ ในขั้นต่อไป จำเป็นต้องแยกตัวแปรที่มีค่าสัมประสิทธิ์การถดถอยที่ไม่มีนัยสำคัญออกจากการพิจารณา
ในกรณีที่มีการระบุค่าสัมประสิทธิ์ที่ไม่มีนัยสำคัญหลายค่าในระหว่างการประเมินการถดถอย ตัวถดถอยที่ค่าสถิติ t () มีค่าน้อยที่สุดจะถูกแยกออกจากสมการการถดถอยก่อน ตามหลักการนี้ ในขั้นตอนต่อไป จำเป็นต้องแยกตัวแปร X5 ซึ่งมีค่าสัมประสิทธิ์การถดถอยที่ไม่มีนัยสำคัญเท่ากับ 2
ขั้นตอนที่ II ของการวิเคราะห์การถดถอย
แบบจำลองนี้รวมถึงเครื่องหมายปัจจัย X7, X10, X15, X5 ไม่รวมอยู่ด้วย
ผลลัพธ์ | ||||||||||||||||||
สถิติการถดถอย | ||||||||||||||||||
หลายอาร์ | ||||||||||||||||||
R-สแควร์ | ||||||||||||||||||
R-Square ที่ปรับให้เป็นมาตรฐาน | ||||||||||||||||||
มาตรฐานบกพร่อง | ||||||||||||||||||
ข้อสังเกต | ||||||||||||||||||
การวิเคราะห์ความแปรปรวน | ||||||||||||||||||
(จำนวนองศาอิสระ n) |
(ผลรวมของการเบี่ยงเบนกำลังสอง Q) |
(ค่าเฉลี่ยตาราง MS=SS/n) |
(Fobs= MSR/MSres) |
นัยสำคัญฉ |
||||||||||||||
การถดถอย | ||||||||||||||||||
ค่าสัมประสิทธิ์ |
มาตรฐานบกพร่อง |
t-สถิติ |
ค่า P |
95% สูงสุด (bimax) |
ต่ำกว่า 98% (วิมิน) | |||||||||||||
สี่แยกตัววาย | ||||||||||||||||||
ตัวแปร X7 | ||||||||||||||||||
ตัวแปร X10 | ||||||||||||||||||
ตัวแปร X15 | ||||||||||||||||||