เมทริกซ์ของสัมประสิทธิ์สหสัมพันธ์แบบคู่คือ เมทริกซ์สหสัมพันธ์คู่
ข้อมูลสำหรับปี 2554 จัดทำขึ้นสำหรับดินแดนของเขตสหพันธรัฐตอนใต้ของสหพันธรัฐรัสเซีย
อาณาเขตของ Federal District |
ผลิตภัณฑ์มวลรวมในภูมิภาค พันล้านรูเบิล Y |
เงินลงทุนในสินทรัพย์ถาวร พันล้านรูเบิล X1 |
1. ตัวแทน อะดีเกีย |
||
2. ตัวแทน ดาเกสถาน |
||
3. ตัวแทน อินกูเชเตีย |
||
4. สาธารณรัฐคาบาร์ดิโน-บัลคาเรียน |
||
5. ตัวแทน คาลมิเกีย |
||
6. สาธารณรัฐคาราชัย-เชอร์เคส |
||
7. ตัวแทน นอร์ทออสซีเชีย- อลันยา |
||
8. ภูมิภาคครัสโนดาร์) |
||
9. ภูมิภาคสตาฟโรปอล |
||
10. ภูมิภาคแอสตราข่าน |
||
11. ภูมิภาคโวลโกกราด. |
||
12. ภูมิภาครอสตอฟ |
- 1. คำนวณเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์คู่ ประเมิน นัยสำคัญทางสถิติค่าสัมประสิทธิ์สหสัมพันธ์
- 2. สร้างขอบเขตความสัมพันธ์ระหว่างคุณลักษณะที่มีประสิทธิภาพและปัจจัยที่เกี่ยวข้องอย่างใกล้ชิดที่สุด
- 3. คำนวณพารามิเตอร์ของการถดถอยคู่เชิงเส้นสำหรับแต่ละปัจจัย X..
- 4. ประเมินคุณภาพของแต่ละรุ่นผ่านค่าสัมประสิทธิ์การกำหนด ความคลาดเคลื่อนโดยเฉลี่ยของการประมาณ และการทดสอบ F ของฟิชเชอร์ เลือกรุ่นที่ดีที่สุด
จะเป็น 80% ของมูลค่าสูงสุด นำเสนอแบบกราฟิก: ค่าจริงและค่าแบบจำลอง จุดพยากรณ์
- 6. ใช้การถดถอยพหุคูณทีละขั้นตอน (วิธีการยกเว้นหรือวิธีการรวม) สร้างแบบจำลองการก่อตัวของราคาอพาร์ทเมนท์เนื่องจากปัจจัยที่มีนัยสำคัญ ให้การตีความทางเศรษฐศาสตร์ของค่าสัมประสิทธิ์แบบจำลองการถดถอย
- 7. ประเมินคุณภาพของแบบจำลองที่สร้างขึ้น คุณภาพของแบบจำลองได้รับการปรับปรุงเมื่อเปรียบเทียบกับแบบจำลองปัจจัยเดียวหรือไม่ ประเมินอิทธิพลของปัจจัยสำคัญต่อผลลัพธ์โดยใช้ค่าสัมประสิทธิ์ความยืดหยุ่น ใน - และ -? ค่าสัมประสิทธิ์
เมื่อแก้ไขปัญหานี้ การคำนวณและสร้างกราฟและไดอะแกรมจะดำเนินการโดยใช้การตั้งค่า การวิเคราะห์เอ็กเซลข้อมูล.
1. คำนวณเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์คู่และประเมินนัยสำคัญทางสถิติของค่าสัมประสิทธิ์สหสัมพันธ์
ในกล่องโต้ตอบความสัมพันธ์ ในฟิลด์ช่วงเวลาป้อนข้อมูล ให้ป้อนช่วงของเซลล์ที่มีข้อมูลต้นฉบับ เนื่องจากเราได้เลือกส่วนหัวของคอลัมน์ด้วย เราจึงทำเครื่องหมายในช่องป้ายกำกับในแถวแรก
เราได้รับผลลัพธ์ดังต่อไปนี้:
ตารางที่ 1.1 เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์คู่
การวิเคราะห์เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่แสดงให้เห็นว่าตัวแปรตาม Y ซึ่งก็คือผลิตภัณฑ์มวลรวมในภูมิภาค มีความสัมพันธ์ใกล้ชิดกับ X1 (การลงทุนในทุนถาวร) ค่าสัมประสิทธิ์สหสัมพันธ์คือ 0.936 ซึ่งหมายความว่า 93.6% ของตัวแปรตาม Y (ผลิตภัณฑ์มวลรวมในภูมิภาค) ขึ้นอยู่กับตัวบ่งชี้ X1 (การลงทุนในทุนถาวร)
เราจะกำหนดนัยสำคัญทางสถิติของสัมประสิทธิ์สหสัมพันธ์โดยใช้การทดสอบของนักเรียน เราเปรียบเทียบค่าตารางกับค่าที่คำนวณได้
มาคำนวณค่าตารางโดยใช้ฟังก์ชัน STUDISCOVER กัน
เสื้อ ตาราง = 0.129 ใน ความน่าจะเป็นของความมั่นใจเท่ากับ 0.9 และองศาอิสระ (n-2)
ปัจจัย X1 มีนัยสำคัญทางสถิติ
2. มาสร้างขอบเขตความสัมพันธ์ระหว่างคุณลักษณะที่มีประสิทธิผล (ผลิตภัณฑ์มวลรวมในภูมิภาค) และปัจจัยที่เกี่ยวข้องอย่างใกล้ชิดที่สุด (การลงทุนในทุนถาวร)
ในการดำเนินการนี้ เราจะใช้เครื่องมือลงจุดกระจายของ Excel
เป็นผลให้เราได้รับฟิลด์สหสัมพันธ์สำหรับราคาของผลิตภัณฑ์มวลรวมในภูมิภาคพันล้านรูเบิล และการลงทุนในสินทรัพย์ถาวร พันล้านรูเบิล (รูปที่ 1.1.)
รูปที่ 1.1
3. คำนวณพารามิเตอร์ของการถดถอยคู่เชิงเส้นสำหรับแต่ละปัจจัย X
ในการคำนวณพารามิเตอร์ของการถดถอยแบบคู่เชิงเส้น เราจะใช้เครื่องมือการถดถอยที่รวมอยู่ในการตั้งค่าการวิเคราะห์ข้อมูล
ในกล่องโต้ตอบ การถดถอย ในฟิลด์ ช่วงเวลาอินพุต Y ให้ป้อนที่อยู่ของช่วงของเซลล์ที่ตัวแปรตามแสดง ในสนาม
ช่วงเวลาอินพุต X เราป้อนที่อยู่ของช่วงที่มีค่าของตัวแปรอิสระ ให้เราคำนวณพารามิเตอร์ของการถดถอยแบบคู่สำหรับปัจจัย X
สำหรับ X1 เราได้รับข้อมูลต่อไปนี้แสดงในตาราง 1.2:
ตารางที่ 1.2
สมการการถดถอยสำหรับการพึ่งพาราคาของผลิตภัณฑ์มวลรวมในภูมิภาคจากการลงทุนในทุนถาวรมีรูปแบบ:
4. มาประเมินคุณภาพแต่ละรุ่นโดยใช้ค่าสัมประสิทธิ์การกำหนด ความคลาดเคลื่อนโดยเฉลี่ยของการประมาณ และการทดสอบ F-test ของฟิชเชอร์ มาดูกันว่ารุ่นไหนดีที่สุด
เราได้รับค่าสัมประสิทธิ์การกำหนดซึ่งเป็นข้อผิดพลาดโดยเฉลี่ยของการประมาณซึ่งเป็นผลมาจากการคำนวณในวรรค 3 ข้อมูลที่ได้รับแสดงไว้ในตารางต่อไปนี้:
ข้อมูล X1:
ตารางที่ 1.3ก
ตารางที่ 1.4b
A) ค่าสัมประสิทธิ์การกำหนดจะกำหนดสัดส่วนของการแปรผันของลักษณะ Y ที่นำมาพิจารณาในแบบจำลองและเนื่องมาจากอิทธิพลของปัจจัย X ที่มีต่อมัน ยิ่งค่าสัมประสิทธิ์การกำหนดยิ่งมากขึ้นเท่าใด ความสัมพันธ์ระหว่าง ลักษณะเฉพาะในการก่อสร้าง แบบจำลองทางคณิตศาสตร์.
ใน โปรแกรมเอ็กเซลแสดงว่า R-กำลังสอง
ตามเกณฑ์นี้ แบบจำลองที่เหมาะสมที่สุดคือสมการการถดถอยของการพึ่งพาราคาของผลิตภัณฑ์มวลรวมในภูมิภาคจากการลงทุนในทุนถาวร (X1)
B) เราคำนวณข้อผิดพลาดโดยประมาณโดยเฉลี่ยโดยใช้สูตร:
โดยที่ตัวเศษคือผลรวมของกำลังสองของการเบี่ยงเบนของค่าที่คำนวณได้จากค่าจริง ในตารางจะอยู่ในคอลัมน์ SS ซึ่งเป็นบรรทัดที่เหลือ
เราคำนวณราคาเฉลี่ยของอพาร์ทเมนต์ใน Excel โดยใช้ฟังก์ชัน AVERAGE = 24.18182 พันล้านรูเบิล
เมื่อทำการคำนวณทางเศรษฐศาสตร์แบบจำลองจะถือว่ามีความแม่นยำเพียงพอหาก ข้อผิดพลาดโดยเฉลี่ยการประมาณน้อยกว่า 5% แบบจำลองถือว่ายอมรับได้หากข้อผิดพลาดในการประมาณโดยเฉลี่ยน้อยกว่า 15%
ตามเกณฑ์นี้ สิ่งที่เหมาะสมที่สุดคือแบบจำลองทางคณิตศาสตร์สำหรับสมการการถดถอยของการพึ่งพาราคาของผลิตภัณฑ์มวลรวมในภูมิภาคจากการลงทุนในทุนถาวร (X1)
C) F-test ใช้เพื่อทดสอบความสำคัญของแบบจำลองการถดถอย เมื่อต้องการทำเช่นนี้ การเปรียบเทียบจะทำกับค่าวิกฤต (ตาราง) ของการทดสอบ Fisher F
ค่าที่คำนวณได้ถูกกำหนดไว้ในตาราง 1.4b (ระบุด้วยตัวอักษร F)
เราจะคำนวณค่าตารางของการทดสอบ Fisher's F ใน Excel โดยใช้ฟังก์ชัน FDIST ลองหาความน่าจะเป็นเท่ากับ 0.05 กัน ได้รับแล้ว: = 4.75
ค่าที่คำนวณได้ของการทดสอบ Fisher's F สำหรับแต่ละปัจจัยเทียบได้กับค่าในตาราง:
71.02 > = 4.75 โมเดลเพียงพอตามเกณฑ์นี้
เมื่อวิเคราะห์ข้อมูลตามเกณฑ์ทั้งสามแล้ว เราสามารถสรุปได้ว่าแบบจำลองทางคณิตศาสตร์ที่ดีที่สุดถูกสร้างขึ้นสำหรับปัจจัยผลิตภัณฑ์มวลรวมของภูมิภาค ซึ่งอธิบายโดยสมการเชิงเส้น
5. สำหรับรูปแบบที่เลือกขึ้นอยู่กับราคาของผลิตภัณฑ์มวลรวมในภูมิภาค
เราจะคาดการณ์ค่าเฉลี่ยของตัวบ่งชี้ที่ระดับนัยสำคัญ หากค่าที่คาดการณ์ของปัจจัยคือ 80% ของมูลค่าสูงสุด นำเสนอในรูปแบบกราฟิก: ค่าจริงและค่าแบบจำลอง จุดพยากรณ์
ลองคำนวณค่าที่ทำนายของ X ตามเงื่อนไขซึ่งจะเท่ากับ 80% ของค่าสูงสุด
มาคำนวณ X max ใน Excel โดยใช้ฟังก์ชัน MAX
0,8 *52,8 = 42,24
เพื่อให้ได้ค่าประมาณเชิงทำนายของตัวแปรตาม เราจะแทนที่ค่าที่ได้รับของตัวแปรอิสระลงในสมการเชิงเส้น:
5.07+2.14*42.24 = 304.55 พันล้านรูเบิล
ให้เรากำหนดช่วงความเชื่อมั่นของการพยากรณ์ซึ่งจะมีขอบเขตดังต่อไปนี้
เพื่อคำนวณ ช่วงความมั่นใจสำหรับค่าที่คาดการณ์ไว้ เราจะคำนวณค่าเบี่ยงเบนจากเส้นถดถอย
สำหรับแบบจำลองการถดถอยแบบคู่ ค่าเบี่ยงเบนจะถูกคำนวณ:
เหล่านั้น. ความหมาย ข้อผิดพลาดมาตรฐานจากตาราง 1.5a
(เนื่องจากจำนวนองศาอิสระเท่ากับ 1 ตัวส่วนจะเท่ากับ n-2) การพยากรณ์การถดถอยคู่สหสัมพันธ์
เราจะใช้การคำนวณสัมประสิทธิ์ ฟังก์ชันเอ็กเซล STUDISPOSIB ลองหาความน่าจะเป็นเท่ากับ 0.1 จำนวนองศาอิสระคือ 38
เราคำนวณค่าโดยใช้ Excel และรับ 12294
เรามากำหนดขอบเขตบนและล่างของช่วงเวลากัน
- 304,55+27,472= 332,022
- 304,55-27,472= 277,078
ดังนั้นมูลค่าคาดการณ์ = 304.55 พันดอลลาร์จะอยู่ระหว่างขีดจำกัดล่างเท่ากับ 277.078 พันดอลลาร์ และวงเงินบนเท่ากับ 332.022 พันล้าน ถู.
ค่าจริงและค่าแบบจำลอง จุดพยากรณ์แสดงเป็นภาพกราฟิกในรูปที่ 1.2
รูปที่ 1.2
6. การใช้การถดถอยพหุคูณทีละขั้นตอน (วิธีการกำจัด) เราจะสร้างแบบจำลองสำหรับการก่อตัวของราคาผลิตภัณฑ์มวลรวมในภูมิภาคเนื่องจากปัจจัยที่มีนัยสำคัญ
เพื่อสร้าง การถดถอยหลายครั้งลองใช้ฟังก์ชัน Regression ของ Excel รวมถึงปัจจัยทั้งหมดกัน เป็นผลให้เราได้รับตารางผลลัพธ์ซึ่งเราต้องการการทดสอบของนักเรียน
ตาราง 1.8ก
ตารางที่ 1.8b
ตาราง 1.8ค.
เราได้รับแบบจำลองเช่น:
เพราะ< (4,75 < 71,024), уравнение регрессии следует признать адекватным.
ลองเลือกค่าสัมบูรณ์ที่เล็กที่สุดของการทดสอบ t ของนักเรียน ซึ่งเท่ากับ 8.427 เปรียบเทียบกับค่าตารางที่เราคำนวณใน Excel ใช้ระดับนัยสำคัญเท่ากับ 0.10 จำนวนองศาอิสระ n-m-1= 12-4=8: =1.8595
ตั้งแต่ 8.427>1.8595 โมเดลควรได้รับการพิจารณาว่าเพียงพอ
7. เพื่อประเมินปัจจัยสำคัญของแบบจำลองทางคณิตศาสตร์ที่ได้ เราจะคำนวณค่าสัมประสิทธิ์ความยืดหยุ่น และ - ค่าสัมประสิทธิ์
ค่าสัมประสิทธิ์ความยืดหยุ่นแสดงเปอร์เซ็นต์ที่คุณลักษณะที่มีประสิทธิผลจะเปลี่ยนแปลงเมื่อแอตทริบิวต์ปัจจัยเปลี่ยนแปลง 1%:
อ X4 = 2.137 * (10.69/24.182) = 0.94%
นั่นคือด้วยการเพิ่มการลงทุนในทุนถาวร 1% ต้นทุนเฉลี่ยเพิ่มขึ้น 0.94%
ค่าสัมประสิทธิ์จะแสดงว่าค่าเฉลี่ยของตัวแปรตามเปลี่ยนแปลงตามส่วนใดของค่าเบี่ยงเบนมาตรฐาน โดยการเปลี่ยนแปลงของตัวแปรอิสระด้วยค่าเบี่ยงเบนมาตรฐานหนึ่งค่า
2,137* (14.736/33,632) = 0,936.
ข้อมูลส่วนเบี่ยงเบนมาตรฐานนำมาจากตารางที่ได้รับโดยใช้เครื่องมือสถิติเชิงพรรณนา
ตารางที่ 1.11 สถิติเชิงพรรณนา (Y)
ตารางที่ 1.12 สถิติเชิงพรรณนา (X4)
ค่าสัมประสิทธิ์กำหนดส่วนแบ่งอิทธิพลของปัจจัยในอิทธิพลรวมของปัจจัยทั้งหมด:
ในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ของคู่ เราจะคำนวณเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์ใน Excel โดยใช้เครื่องมือสหสัมพันธ์ในการตั้งค่าการวิเคราะห์ข้อมูล
ตารางที่ 1.14
(0,93633*0,93626) / 0,87 = 1,00.
สรุป: จากการคำนวณที่ได้รับ เราสามารถสรุปได้ว่าคุณลักษณะที่มีประสิทธิผล Y (ผลิตภัณฑ์มวลรวมในภูมิภาค) มีการพึ่งพาอย่างมากกับปัจจัย X1 (การลงทุนในทุนถาวร) (100%)
อ้างอิง
- 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. เศรษฐมิติ. หลักสูตรเริ่มต้น บทช่วยสอน- ฉบับที่ 2 - ม.: เดโล, 2541. - หน้า. 69 - 74.
- 2. การประชุมเชิงปฏิบัติการเรื่องเศรษฐมิติ: หนังสือเรียน / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko และคณะ 2545. - หน้า 49 - 105.
- 3. Dougherty K. เศรษฐมิติเบื้องต้น: การแปล จากภาษาอังกฤษ - ม.: INFRA-M, 1999. - XIV, หน้า. 262 - 285.
- 4. Ayvyzyan S.A., Mikhtiryan V.S. คณิตศาสตร์ประยุกต์และพื้นฐานของเศรษฐมิติ -1998., หน้า 115-147.
- 5. Kremer N.Sh., ปุตโก B.A. เศรษฐมิติ. -2007. ตั้งแต่ 175-251.
ปัจจัยที่สัมพันธ์กัน...
สารละลาย:
ตัวแปรทั้งสองถือว่ามีความสอดคล้องกันอย่างชัดเจน กล่าวคือ อยู่ในของกันและกัน การพึ่งพาเชิงเส้น, ถ้า . ในแบบจำลองของเรามีเพียงค่าสัมประสิทธิ์ของคู่เท่านั้น การถดถอยเชิงเส้นระหว่างปัจจัยและมากกว่า 0.7 ซึ่งหมายความว่าปัจจัยอยู่ในแนวเดียวกัน
4. ในแบบจำลองการถดถอยพหุคูณ ดีเทอร์มิแนนต์ของเมทริกซ์ของสัมประสิทธิ์สหสัมพันธ์คู่ระหว่างปัจจัย และมีค่าใกล้เคียงกับศูนย์ ซึ่งหมายความว่าปัจจัยและ...
มัลติคอลลิเนียร์
เป็นอิสระ
เชิงปริมาณ
สารละลาย:
ในการประเมินปัจจัยหลายเส้นตรง สามารถใช้ปัจจัยกำหนดเมทริกซ์ของสัมประสิทธิ์สหสัมพันธ์คู่ระหว่างปัจจัยต่างๆ ได้ หากปัจจัยไม่สัมพันธ์กัน เมทริกซ์ของสัมประสิทธิ์สหสัมพันธ์คู่ระหว่างปัจจัยต่างๆ จะเป็นหน่วย เนื่องจากองค์ประกอบที่ไม่ใช่เส้นทแยงมุมทั้งหมด จะเท่ากับศูนย์
เนื่องจาก = = และ = = =0
หากมีความสัมพันธ์เชิงเส้นตรงอย่างสมบูรณ์ระหว่างปัจจัยและค่าสัมประสิทธิ์สหสัมพันธ์คู่ทั้งหมดเท่ากับหนึ่ง ดังนั้นดีเทอร์มิแนนต์ของเมทริกซ์ดังกล่าวจะเท่ากับศูนย์
ยิ่งดีเทอร์มิแนนต์ของเมทริกซ์สหสัมพันธ์ระหว่างปัจจัยระหว่างปัจจัยเข้าใกล้ศูนย์มากเท่าใด ปัจจัยหลายเส้นตรงของปัจจัยก็จะยิ่งแข็งแกร่งขึ้น และผลลัพธ์ของการถดถอยพหุคูณก็ไม่น่าเชื่อถือมากขึ้นเท่านั้น และในทางกลับกัน ยิ่งดีเทอร์มิแนนต์ของเมทริกซ์สหสัมพันธ์ระหว่างปัจจัยระหว่างปัจจัยใกล้ชิดกับหนึ่งมากเท่าใด ปัจจัยหลายเส้นตรงก็จะยิ่งน้อยลงเท่านั้น
5. สำหรับแบบจำลองเศรษฐมิติ สมการเชิงเส้นการถดถอยพหุคูณของประเภท เมทริกซ์ของสัมประสิทธิ์คู่ถูกสร้างขึ้น ความสัมพันธ์เชิงเส้น (ย– ตัวแปรตาม x (1),เอ็กซ์ (2), เอ็กซ์ (3), เอ็กซ์ (4)– ตัวแปรอิสระ):
Collinear (เกี่ยวข้องอย่างใกล้ชิด) ตัวแปรอิสระ (อธิบาย) ไม่ได้ …
เอ็กซ์(2)และ เอ็กซ์(3)
เอ็กซ์ (1)และ เอ็กซ์(3)
เอ็กซ์ (1)และ เอ็กซ์ (4)
เอ็กซ์(2)และ เอ็กซ์ (4)
สารละลาย:
เมื่อสร้างแบบจำลองการถดถอยพหุคูณ จำเป็นต้องยกเว้นความเป็นไปได้ของการมีอยู่ของความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอิสระ (อธิบาย) ซึ่งนำไปสู่ปัญหาพหุคอลลิเนียร์ ในกรณีนี้ จะมีการตรวจสอบค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นสำหรับตัวแปรอิสระ (อธิบาย) แต่ละคู่ ค่าเหล่านี้สะท้อนให้เห็นในเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่ เชื่อกันว่าการมีค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ระหว่างตัวแปรอธิบายที่เกิน 0.7 ในค่าสัมบูรณ์สะท้อนถึงความสัมพันธ์ที่ใกล้ชิดระหว่างตัวแปรเหล่านี้ (ความใกล้ชิดของความสัมพันธ์กับตัวแปร ยไม่พิจารณาในกรณีนี้) ตัวแปรอิสระดังกล่าวเรียกว่าคอลลิเนียร์ หากค่าของสัมประสิทธิ์สหสัมพันธ์แบบคู่ระหว่างตัวแปรอธิบายไม่เกิน 0.7 ในค่าสัมบูรณ์ ตัวแปรอธิบายดังกล่าวจะไม่เป็นแบบเชิงเส้น ให้เราพิจารณาค่าของค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างแฟคเตอร์ที่จับคู่: ระหว่าง เอ็กซ์ (1)และ เอ็กซ์(2)ค่าคือ 0.45; ระหว่าง เอ็กซ์ (1)และ เอ็กซ์(3)– เท่ากับ 0.82; ระหว่าง เอ็กซ์ (1)และ เอ็กซ์ (4)– เท่ากับ 0.94; ระหว่าง เอ็กซ์(2)และ เอ็กซ์(3)– เท่ากับ 0.3; ระหว่าง เอ็กซ์(2)และ เอ็กซ์ (4)– เท่ากับ 0.7; ระหว่าง เอ็กซ์(3)และ เอ็กซ์ (4)– เท่ากับ 0.12 ดังนั้นค่าของ , , จะต้องไม่เกิน 0.7 ดังนั้นคอลลิเนียร์ ไม่ได้ปัจจัย เอ็กซ์ (1)และ เอ็กซ์(2), เอ็กซ์(2)และ เอ็กซ์(3), เอ็กซ์(3)และ เอ็กซ์ (4)- จากคู่ที่อยู่ในรายการสุดท้าย ตัวเลือกคำตอบจะมีคู่อยู่ เอ็กซ์(2)และ เอ็กซ์(3)– นี่คือคำตอบที่ถูกต้อง สำหรับคู่รักอื่นๆ: x (1และ เอ็กซ์(3), เอ็กซ์ (1)และ เอ็กซ์ (4), เอ็กซ์(2)และ เอ็กซ์ (4)– ค่าของสัมประสิทธิ์สหสัมพันธ์อินเทอร์แฟคเตอร์ที่จับคู่เกิน 0.7 และปัจจัยเหล่านี้เป็นเส้นตรง
หัวข้อที่ 3: ตัวแปรจำลอง
1. ให้ตารางข้อมูลเริ่มต้นสำหรับการสร้างแบบจำลองการถดถอยทางเศรษฐมิติ:
ตัวแปรจำลอง ไม่ได้ …
ประสบการณ์การทำงาน
ผลิตภาพแรงงาน
ระดับการศึกษา
ระดับคุณสมบัติของพนักงาน
สารละลาย:
เมื่อสร้างแบบจำลองการถดถอย สถานการณ์อาจเกิดขึ้นเมื่อจำเป็นต้องรวมไว้ในสมการ นอกเหนือจากตัวแปรเชิงปริมาณ ตัวแปรที่สะท้อนถึงคุณลักษณะบางอย่าง (เพศ การศึกษา ภูมิภาค ฯลฯ) ตัวแปรเชิงคุณภาพประเภทนี้เรียกว่าตัวแปร "จำลอง" ในการสร้างแบบจำลองที่ระบุในคำสั่งงาน จะใช้ตัวแปรจำลอง: ระดับการศึกษาและระดับทักษะของพนักงาน ตัวแปรอื่นๆ ไม่ได้สมมุติว่าจากตัวเลือกที่นำเสนอคือระยะเวลาในการให้บริการและผลิตภาพแรงงาน
2. เมื่อศึกษาการพึ่งพาการบริโภคเนื้อสัตว์ในระดับรายได้และเพศของผู้บริโภคเราสามารถแนะนำ...
ใช้ตัวแปรจำลอง – เพศของผู้บริโภค
แบ่งประชากรออกเป็นสองส่วน คือ สำหรับผู้บริโภคเพศหญิงและผู้บริโภคชาย
ใช้ตัวแปรจำลอง-ระดับรายได้
แยกเพศของผู้บริโภคออกจากการพิจารณา เนื่องจากปัจจัยนี้ไม่สามารถวัดได้ในเชิงปริมาณ
สารละลาย:
เมื่อสร้างแบบจำลองการถดถอย สถานการณ์อาจเกิดขึ้นเมื่อจำเป็นต้องรวมไว้ในสมการ นอกเหนือจากตัวแปรเชิงปริมาณ ตัวแปรที่สะท้อนถึงคุณลักษณะบางอย่าง (เพศ การศึกษา ภูมิภาค ฯลฯ) ตัวแปรเชิงคุณภาพประเภทนี้เรียกว่าตัวแปร "จำลอง" สิ่งเหล่านี้สะท้อนถึงความหลากหลายของประชากรทางสถิติภายใต้การศึกษา และใช้สำหรับการสร้างแบบจำลองการพึ่งพาที่ดีขึ้นในวัตถุการสังเกตที่ต่างกันดังกล่าว เมื่อสร้างแบบจำลองการขึ้นต่อกันแต่ละรายการสำหรับข้อมูลที่ต่างกัน คุณยังสามารถใช้วิธีการแบ่งการรวบรวมข้อมูลที่ต่างกันทั้งหมดออกเป็นคอลเลกชันแยกกันหลายๆ คอลเลกชัน ซึ่งจำนวนจะเท่ากับจำนวนสถานะของตัวแปรจำลอง ดังนั้น ตัวเลือกคำตอบที่ถูกต้องคือ: "ใช้ตัวแปรจำลอง - เพศของผู้บริโภค" และ "แบ่งประชากรออกเป็นสองส่วน: สำหรับผู้บริโภคเพศหญิงและสำหรับผู้บริโภคชาย"
3. เราศึกษาการพึ่งพาราคาอพาร์ทเมนต์ ( ที่) จากพื้นที่อยู่อาศัยของเธอ ( เอ็กซ์) และประเภทของบ้าน แบบจำลองประกอบด้วยตัวแปรจำลองที่สะท้อนถึงประเภทของบ้านที่กำลังพิจารณา: เสาหิน แผง อิฐ ได้รับสมการการถดถอย: ,
ที่ไหน ,
สมการการถดถอยโดยเฉพาะสำหรับอิฐและเสาหินคือ ...
สำหรับอิฐแบบบ้าน
สำหรับบ้านประเภทเสาหิน
สำหรับอิฐแบบบ้าน
สำหรับบ้านประเภทเสาหิน
สารละลาย:
จำเป็นต้องค้นหาสมการการถดถอยเฉพาะสำหรับบ้านอิฐและเสาหิน สำหรับบ้านอิฐมีค่าตัวแปรจำลองดังนี้ , . สมการจะอยู่ในรูปแบบ: หรือ สำหรับประเภทบ้าน: อิฐ
สำหรับ บ้านเสาหินค่าของตัวแปรจำลองคือ , . จะได้สมการออกมาเป็นรูปร่าง
หรือ สำหรับประเภทของบ้านเสาหิน
ย | x (1) | x (2) | x (3) | x (4) | x (5) | |
ย | 1.00 | 0.43 | 0.37 | 0.40 | 0.58 | 0.33 |
x (1) | 0.43 | 1.00 | 0.85 | 0.98 | 0.11 | 0.34 |
x (2) | 0.37 | 0.85 | 1.00 | 0.88 | 0.03 | 0.46 |
x (3) | 0.40 | 0.98 | 0.88 | 1.00 | 0.03 | 0.28 |
x (4) | 0.58 | 0.11 | 0.03 | 0.03 | 1.00 | 0.57 |
x (5) | 0.33 | 0.34 | 0.46 | 0.28 | 0.57 | 1.00 |
การวิเคราะห์เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่แสดงให้เห็นว่าตัวบ่งชี้ที่มีประสิทธิผลมีความเกี่ยวข้องอย่างใกล้ชิดกับตัวบ่งชี้มากที่สุด x(4) - ปริมาณปุ๋ยที่ใช้ต่อ 1 เฮกตาร์ ()
ในขณะเดียวกัน การเชื่อมโยงระหว่างแอตทริบิวต์-อาร์กิวเมนต์ก็ค่อนข้างใกล้เคียงกัน ดังนั้นจึงมีความสัมพันธ์ในทางปฏิบัติระหว่างจำนวนรถแทรกเตอร์แบบมีล้อ ( x(1)) และจำนวนเครื่องมือเตรียมดิน .
การมีอยู่ของ multicollinearity ยังระบุด้วยค่าสัมประสิทธิ์สหสัมพันธ์ และ โดยพิจารณาถึงความสัมพันธ์อันใกล้ชิดระหว่างตัวชี้วัด x (1) , x(2) และ x(3) สามารถรวมได้เพียงหนึ่งรายการในแบบจำลองการถดถอยของผลผลิต
เพื่อแสดงให้เห็นถึงผลกระทบเชิงลบของความหลากหลาย ให้พิจารณาแบบจำลองการถดถอยของผลผลิต รวมถึงตัวบ่งชี้อินพุตทั้งหมด:
F obs = 121.
ค่าของการประมาณค่าที่แก้ไขแล้วของส่วนเบี่ยงเบนมาตรฐานของการประมาณค่าสัมประสิทธิ์ของสมการจะแสดงอยู่ในวงเล็บ .
พารามิเตอร์ความเพียงพอต่อไปนี้แสดงไว้ภายใต้สมการการถดถอย: สัมประสิทธิ์การกำหนดหลายค่า; การประมาณค่าความแปรปรวนคงเหลือที่แก้ไขแล้ว ความคลาดเคลื่อนสัมพัทธ์โดยเฉลี่ยของการประมาณ และค่าที่คำนวณได้ของเกณฑ์ F obs = 121
สมการถดถอยมีความสำคัญเพราะว่า F obs = 121 > F kp = 2.85 พบจากตาราง เอฟ-การกระจายตัวที่ a=0.05; n 1 = 6 และ n 2 = 14
จากนี้ไป Q¹0 คือ และอย่างน้อยหนึ่งค่าสัมประสิทธิ์ของสมการ q เจ (เจ= 0, 1, 2, ..., 5) ไม่เป็นศูนย์
เพื่อทดสอบสมมติฐานเกี่ยวกับความสำคัญของสัมประสิทธิ์การถดถอยส่วนบุคคล H0: q j =0 โดยที่ เจ=1,2,3,4,5, เปรียบเทียบค่าวิกฤต ที kp = 2.14 หาได้จากตาราง ที-การกระจายตัวที่ระดับนัยสำคัญ a=2 ถาม=0.05 และจำนวนองศาอิสระ n=14 โดยมีค่าที่คำนวณได้ จากสมการที่ว่าค่าสัมประสิทธิ์การถดถอยจะมีนัยสำคัญทางสถิติก็ต่อเมื่อเท่านั้น x(4) ตั้งแต่ ½ ที 4 ½=2.90 > ทีกิโลกรัม = 2.14.
พวกเขาไม่ยอม การตีความทางเศรษฐกิจสัญญาณลบของสัมประสิทธิ์การถดถอยที่ x(1) และ x(5) . จากค่าลบของสัมประสิทธิ์ตามมาว่าการเพิ่มความอิ่มตัวของการเกษตรด้วยรถแทรกเตอร์แบบมีล้อ ( x(1)) และผลิตภัณฑ์สุขภาพพืช ( x(5)) มีผลเสียต่อผลผลิต ดังนั้นสมการการถดถอยที่เกิดขึ้นจึงไม่เป็นที่ยอมรับ
เพื่อให้ได้สมการการถดถอยที่มีค่าสัมประสิทธิ์ที่มีนัยสำคัญ เราใช้อัลกอริทึมทีละขั้นตอน การวิเคราะห์การถดถอย- เริ่มแรกเราใช้อัลกอริธึมทีละขั้นตอนพร้อมการกำจัดตัวแปร
เรามาแยกตัวแปรออกจากโมเดลกันดีกว่า x(1) ซึ่งสอดคล้องกับค่าสัมบูรณ์ขั้นต่ำที่ ½ ที 1 ½=0.01. สำหรับตัวแปรที่เหลือ เราจะสร้างสมการถดถอยอีกครั้ง:
สมการที่ได้จึงมีนัยสำคัญเพราะว่า F ที่สังเกตได้ = 155 > F kp = 2.90 พบที่ระดับนัยสำคัญ a=0.05 และจำนวนองศาอิสระ n 1 = 5 และ n 2 = 15 ตามตาราง เอฟ-การกระจายสินค้า เช่น เวกเตอร์ q¹0 แต่จะมีเฉพาะค่าสัมประสิทธิ์การถดถอยเท่านั้น x(4) . ค่าประมาณ ½ ที j ½ สำหรับค่าสัมประสิทธิ์อื่นๆ จะน้อยกว่า ที kr = 2.131 หาได้จากตาราง ที-การกระจายตัวที่ a=2 ถาม=0.05 และn=15
โดยแยกตัวแปรออกจากโมเดล x(3) ซึ่งสอดคล้องกับค่าต่ำสุด ที 3 =0.35 และเราได้สมการการถดถอย:
(2.9)
ในสมการผลลัพธ์ ค่าสัมประสิทธิ์ที่ x(5) . โดยการยกเว้น x(5) เราได้สมการการถดถอย:
(2.10)
เราได้รับสมการถดถอยที่มีนัยสำคัญพร้อมสัมประสิทธิ์ที่มีนัยสำคัญและตีความได้
อย่างไรก็ตาม สมการผลลัพธ์ไม่ใช่เพียงแบบจำลองผลตอบแทนที่ “ดี” เท่านั้น และไม่ใช่แบบจำลองผลตอบแทนที่ “ดีที่สุด” ในตัวอย่างของเรา
มาแสดงกันเถอะ ในสภาวะหลายคอลลิเนียริตี้ อัลกอริธึมแบบขั้นตอนพร้อมตัวแปรจะมีประสิทธิภาพมากกว่าขั้นตอนแรกในแบบจำลองผลผลิต ยรวมตัวแปรด้วย x(4) ซึ่งมีค่าสัมประสิทธิ์สหสัมพันธ์สูงสุดด้วย ยอธิบายโดยตัวแปร - ร(ย,x(4))=0.58. ในขั้นตอนที่สองรวมทั้งสมการด้วย x(4) ตัวแปร x(1) หรือ x(3) เราจะได้แบบจำลองที่เกิน (2.10) ด้วยเหตุผลทางเศรษฐกิจและลักษณะทางสถิติ:
(2.11)
(2.12)
การรวมตัวแปรตัวใดตัวหนึ่งในสามตัวที่เหลือในสมการจะทำให้คุณสมบัติของมันแย่ลง ดูตัวอย่างสมการ (2.9)
ดังนั้นเราจึงมีแบบจำลองผลตอบแทนที่ "ดี" สามแบบ ซึ่งเราต้องเลือกแบบจำลองหนึ่งอันด้วยเหตุผลทางเศรษฐกิจและทางสถิติ
ตามเกณฑ์ทางสถิติ แบบจำลอง (2.11) มีความเหมาะสมมากที่สุด สอดคล้องกับค่าต่ำสุดของความแปรปรวนที่เหลือ = 2.26 และข้อผิดพลาดสัมพัทธ์โดยเฉลี่ยของการประมาณและ ค่าสูงสุดและ F obs = 273
โมเดล (2.12) มีตัวชี้วัดความเพียงพอที่แย่กว่าเล็กน้อย ตามด้วยโมเดล (2.10)
ตอนนี้เราจะเลือกรุ่นที่ดีที่สุด (2.11) และ (2.12) โมเดลเหล่านี้แตกต่างกันในแง่ของตัวแปร x(1) และ x(3) . อย่างไรก็ตามในโมเดลผลผลิตตัวแปร x(1) (จำนวนรถไถแบบมีล้อต่อ 100 เฮกตาร์) จะดีกว่าแบบแปรผัน x(3) (จำนวนการไถพรวนที่พื้นผิวต่อ 100 เฮกตาร์) ซึ่งถือเป็นรอง (หรือได้มาจาก x (1)).
ด้วยเหตุผลทางเศรษฐกิจ ควรให้ความสำคัญกับแบบจำลอง (2.12) ดังนั้น หลังจากใช้อัลกอริธึมการวิเคราะห์การถดถอยแบบขั้นตอนโดยรวมตัวแปรต่างๆ แล้ว และคำนึงถึงข้อเท็จจริงที่ว่ามีเพียง 1 ใน 3 ตัวแปรที่เกี่ยวข้องกันเท่านั้นที่ควรเข้าสู่สมการ ( x (1) , x(2) หรือ x(3)) เลือกสมการถดถอยสุดท้าย:
สมการนี้มีนัยสำคัญที่ a=0.05 เพราะ F obs = 266 > F kp = 3.20 พบได้จากตาราง เอฟ-การกระจายตัวที่ a= ถาม=0.05; ไม่มี 1 =3 และ ไม่มี 2 =17. สัมประสิทธิ์การถดถอยทั้งหมดในสมการ ½ ก็มีความสำคัญเช่นกัน ทีเจ½> ทีเคพี(a=2 ถาม=0.05; n=17)=2.11. ค่าสัมประสิทธิ์การถดถอย q 1 ควรได้รับการพิจารณาว่ามีนัยสำคัญ (q 1 ¹0) ด้วยเหตุผลทางเศรษฐกิจ ที 1 =2.09 น้อยกว่าเพียงเล็กน้อยเท่านั้น ทีกิโลกรัม = 2.11
จากสมการถดถอยจะตามมาว่าการเพิ่มขึ้น 1 ในจำนวนรถแทรกเตอร์ต่อพื้นที่เพาะปลูก 100 เฮกตาร์ (ที่ค่าคงที่ x(4)) ส่งผลให้ผลผลิตเมล็ดพืชเพิ่มขึ้นโดยเฉลี่ย 0.345 c/เฮกตาร์
การคำนวณโดยประมาณของค่าสัมประสิทธิ์ความยืดหยุ่น e 1 »0.068 และ e 2 »0.161 แสดงให้เห็นว่าด้วยตัวบ่งชี้ที่เพิ่มขึ้น x(1) และ x(4) ขึ้น 1% ผลผลิตเมล็ดพืชเพิ่มขึ้นโดยเฉลี่ย 0.068% และ 0.161% ตามลำดับ
สัมประสิทธิ์หลายตัวการกำหนดบ่งชี้ว่ามีเพียง 46.9% ของความแปรผันของผลผลิตเท่านั้นที่ถูกอธิบายโดยตัวบ่งชี้ที่รวมอยู่ในแบบจำลอง ( x(1) และ x(4)) นั่นคือความอิ่มตัวของการผลิตพืชผลด้วยรถแทรกเตอร์และปุ๋ย ความแปรผันที่เหลือเกิดจากการกระทำของปัจจัยที่ไม่สามารถนับได้ ( x (2) , x (3) , x(5) สภาพอากาศ ฯลฯ) ข้อผิดพลาดสัมพัทธ์โดยเฉลี่ยของการประมาณแสดงถึงความเพียงพอของแบบจำลอง เช่นเดียวกับค่าของความแปรปรวนที่เหลือ เมื่อตีความสมการถดถอยจะได้ค่าที่น่าสนใจคือ ข้อผิดพลาดที่เกี่ยวข้องการประมาณ - ให้เราระลึกว่า - ค่าแบบจำลองของตัวบ่งชี้ที่มีประสิทธิภาพจะระบุลักษณะมูลค่าผลผลิตเฉลี่ยสำหรับผลรวมของภูมิภาคที่พิจารณา โดยมีเงื่อนไขว่าค่าของตัวแปรอธิบาย x(1) และ x(4) มีการกำหนดไว้ในระดับเดียวกัน กล่าวคือ x (1) = x ฉัน(1) และ x (4) = x ฉัน(4) . จากนั้นตามค่าของ d ฉันคุณสามารถเปรียบเทียบภูมิภาคตามผลผลิตได้ พื้นที่ที่ค่า d สอดคล้องกัน ฉัน>0 มีผลผลิตสูงกว่าค่าเฉลี่ย และ d ฉัน<0 - ниже среднего.
ในตัวอย่างของเรา ในแง่ของผลผลิต การผลิตพืชผลที่มีประสิทธิภาพมากที่สุดจะดำเนินการในพื้นที่ที่สอดคล้องกับ d 7 =28% โดยที่ผลผลิตสูงกว่าค่าเฉลี่ยของภูมิภาค 28% และประสิทธิผลน้อยที่สุดคือในพื้นที่ที่มี d 20 =-27,3%.
งานและแบบฝึกหัด
2.1. จากประชากรทั่วไป ( ย, x (1) , ..., x(p)) ที่ไหน ยมีกฎการแจกแจงแบบปกติพร้อมความคาดหวังและความแปรปรวนทางคณิตศาสตร์แบบมีเงื่อนไข s 2 ซึ่งเป็นตัวอย่างแบบสุ่มของ nและให้ ( ใช่แล้ว, x ฉัน (1) , ..., x ฉัน(p)) - ผลลัพธ์ ฉันการสังเกตครั้งที่ ( ฉัน=1, 2, ..., n- กำหนด: ก) ความคาดหวังทางคณิตศาสตร์ของการประมาณค่ากำลังสองน้อยที่สุดของเวกเตอร์ ถาม- b) เมทริกซ์ความแปรปรวนร่วมของการประมาณค่ากำลังสองน้อยที่สุดของเวกเตอร์ ถาม- c) ความคาดหวังทางคณิตศาสตร์ของการประเมิน
2.2. ตามเงื่อนไขของปัญหา 2.1 ให้ค้นหาความคาดหวังทางคณิตศาสตร์ของผลรวมของการเบี่ยงเบนกำลังสองเนื่องจากการถดถอย เช่น อีคิวอาร์, ที่ไหน
.
2.3. ตามเงื่อนไขของปัญหา 2.1 ให้หาค่าคาดหวังทางคณิตศาสตร์ของผลรวมของการเบี่ยงเบนกำลังสองที่เกิดจากการเปลี่ยนแปลงที่เหลือสัมพันธ์กับเส้นการถดถอย เช่น อีคิว Ost ที่ไหน
2.4. พิสูจน์ว่าเมื่อสมมติฐาน H 0 เป็นจริง: q=0 สถิติ
มีการแจกแจงแบบ F โดยมีดีกรีอิสระ n 1 =p+1 และ n 2 =n-p-1
2.5. พิสูจน์ว่าเมื่อสมมติฐาน H 0: q j =0 เป็นจริง สถิติจะมีการแจกแจงแบบ t ด้วยจำนวนดีกรีอิสระ n=n-p-1
2.6. จากข้อมูล (ตารางที่ 2.3) ขึ้นอยู่กับการหดตัวของขนมปังอาหารสัตว์ ( ย) ตามระยะเวลาการเก็บรักษา ( x) หาค่าประมาณแบบจุดของความคาดหวังแบบมีเงื่อนไขภายใต้สมมติฐานที่ว่าสมการถดถอยทั่วไปเป็นแบบเส้นตรง
ตารางที่ 2.3.
จำเป็น: ก) หาค่าประมาณของความแปรปรวนคงเหลือ s 2 ภายใต้สมมติฐานว่าสมการถดถอยทั่วไปมีรูปแบบ ; b) ตรวจสอบที่ a=0.05 ความสำคัญของสมการถดถอย เช่น สมมุติฐาน ฮ 0: q=0; c) ด้วยความน่าเชื่อถือ g=0.9 กำหนดการประมาณช่วงของพารามิเตอร์ q 0, q 1; d) ด้วยความน่าเชื่อถือ g=0.95 ให้หาค่าประมาณช่วงเวลาของความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไขที่ เอ็กซ์ 0 =6; e) หาที่ g=0.95 ช่วงความเชื่อมั่นของการทำนาย ณ จุดนั้น เอ็กซ์=12.
2.7. จากข้อมูลการเปลี่ยนแปลงของอัตราการเติบโตของราคาหุ้นในช่วง 5 เดือน ตามตาราง 2.4.
ตารางที่ 2.4.
เดือน ( x) | |||||
ย (%) |
และสมมติฐานที่ว่าสมการการถดถอยทั่วไปมีรูปแบบ จำเป็นต้องมี: ก) กำหนดค่าประมาณของทั้งพารามิเตอร์ของสมการถดถอยและความแปรปรวนคงเหลือ s 2 ; b) ตรวจสอบที่ a=0.01 ความสำคัญของสัมประสิทธิ์การถดถอย เช่น สมมติฐาน H 0: q 1 =0;
c) ด้วยความน่าเชื่อถือ g=0.95 ค้นหาการประมาณช่วงของพารามิเตอร์ q 0 และ q 1 d) ด้วยความน่าเชื่อถือ g=0.9 ให้สร้างการประมาณช่วงของความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไขที่ x 0 =4; e) หาที่ g=0.9 ช่วงความเชื่อมั่นของการทำนาย ณ จุดนั้น x=5.
2.8. ผลการศึกษาพลวัตของการเพิ่มน้ำหนักของสัตว์เล็กแสดงไว้ในตารางที่ 2.5
ตารางที่ 2.5.
สมมติว่าสมการการถดถอยทั่วไปเป็นแบบเส้นตรง จำเป็นต้องมี: ก) กำหนดค่าประมาณของทั้งพารามิเตอร์ของสมการถดถอยและความแปรปรวนคงเหลือ s 2 ; b) ตรวจสอบที่ a=0.05 ความสำคัญของสมการถดถอย เช่น สมมติฐาน H 0: q=0;
c) ด้วยความน่าเชื่อถือ g=0.8 ค้นหาการประมาณช่วงของพารามิเตอร์ q 0 และ q 1 d) ด้วยความน่าเชื่อถือ g=0.98 ให้กำหนดและเปรียบเทียบการประมาณช่วงของความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไขที่ x 0 =3 และ x 1 =6;
e) หาที่ g=0.98 ช่วงความเชื่อมั่นของการทำนาย ณ จุดนั้น x=8.
2.9. ค่าใช้จ่าย ( ย) สำเนาหนังสือหนึ่งเล่มขึ้นอยู่กับการจำหน่าย ( x) (พันสำเนา) มีลักษณะเฉพาะโดยข้อมูลที่รวบรวมโดยสำนักพิมพ์ (ตารางที่ 2.6) หาค่าประมาณกำลังสองน้อยที่สุดและพารามิเตอร์ของสมการการถดถอยไฮเปอร์โบลิก โดยมีความน่าเชื่อถือ g=0.9 สร้างช่วงความเชื่อมั่นสำหรับพารามิเตอร์ q 0 และ q 1 ตลอดจนค่าคาดหวังแบบมีเงื่อนไขที่ x=10.
ตารางที่ 2.6.
กำหนดค่าประมาณและพารามิเตอร์ของสมการการถดถอยของรูปแบบ ทดสอบสมมติฐาน H 0 ที่ a = 0.05: q 1 = 0 และสร้างช่วงความเชื่อมั่นด้วยความน่าเชื่อถือ g = 0.9 สำหรับพารามิเตอร์ q 0 และ q 1 และความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไขที่ x=20.
2.11. ในตาราง 2.8 นำเสนอข้อมูลอัตราการเติบโต (%) ของตัวชี้วัดเศรษฐกิจมหภาคดังต่อไปนี้ n=10 ประเทศที่พัฒนาแล้วของโลกสำหรับปี 1992: GNP - x(1) การผลิตภาคอุตสาหกรรม - x(2) , ดัชนีราคา - x (3) .
ตารางที่ 2.8.
ประเทศ | x และพารามิเตอร์ของสมการถดถอย การประมาณค่าความแปรปรวนคงเหลือ b) ตรวจสอบที่ a=0.05 ความสำคัญของสัมประสิทธิ์การถดถอย เช่น ชม 0: ค 1 =0; c) ด้วยความน่าเชื่อถือ g=0.9 ค้นหาการประมาณช่วง q 0 และ q 1 d) หาที่ g=0.95 ช่วงความเชื่อมั่น ณ จุดนั้น เอ็กซ์ 0 =x ฉัน, ที่ไหน ฉัน=5; e) เปรียบเทียบลักษณะทางสถิติของสมการการถดถอย: 1, 2 และ 3 2.12. แก้ปัญหา 2.11 โดยการใช้ ( ที่) ตัวบ่งชี้ x(1) และสำหรับการอธิบาย ( เอ็กซ์) ตัวแปร x (3) . 1. Ayvazyan S.A., มคิตาร์ยาน V.S. สถิติประยุกต์และพื้นฐานของเศรษฐมิติ: หนังสือเรียน M. , UNITY, 1998 (ฉบับที่ 2 พ.ศ. 2544); 2. Ayvazyan S.A., มคิตาร์ยาน V.S. สถิติประยุกต์ปัญหาและแบบฝึกหัด: หนังสือเรียน เอ็ม. ยูนิตี้ - ดาน่า, 2544; 3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. สถิติประยุกต์ การวิจัยแบบพึ่งพา ม., การเงินและสถิติ, 2528, 487 หน้า; 4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. สถิติประยุกต์ การจำแนกประเภทและการลดขนาด อ. การเงินและสถิติ 2532 หน้า 607; 5. วิธีทางเศรษฐมิติของ Johnston J., M.: สถิติ, 1980, 446 หน้า; 6. ดูบรอฟ เอ.วี., มคิทาร์ยาน VS, ทรอชิน แอล.ไอ. วิธีการทางสถิติหลายตัวแปร ม. การเงินและสถิติ 2543; 7. มคิตาร์ยาน VS ทรอชิน แอล.ไอ. ศึกษาการพึ่งพาโดยใช้วิธีสหสัมพันธ์และการถดถอย ม., เมซี่, 1995, 120 หน้า; 8. มคิตาร์ยาน VS, ดูบรอฟ เอ.เอ็ม., โทรชิน แอล.ไอ. วิธีการทางสถิติหลายตัวแปรทางเศรษฐศาสตร์ ม., เมซี่, 1995, 149 หน้า; 9. ดูบรอฟ เอ.เอ็ม., มคิทาร์ยาน VS, โทรชิน แอล.ไอ. สถิติทางคณิตศาสตร์สำหรับนักธุรกิจและผู้จัดการ ม., เมซี่, 2000, 140 หน้า; 10. ลูกาชิน ยู.ไอ. วิธีการพยากรณ์การถดถอยและการปรับตัว: หนังสือเรียน, M., MESI, 1997 11. ลูกาชิน ยู.ไอ. วิธีการพยากรณ์ระยะสั้นแบบปรับเปลี่ยนได้ - ม., สถิติ, 2522. แอปพลิเคชัน ภาคผนวก 1- ตัวเลือกสำหรับงานสำหรับการวิจัยคอมพิวเตอร์อิสระ |
ค่าสัมประสิทธิ์สหสัมพันธ์สะท้อนถึงระดับความสัมพันธ์ระหว่างตัวบ่งชี้สองตัว โดยจะใช้ค่าตั้งแต่ -1 ถึง 1 เสมอ หากค่าสัมประสิทธิ์อยู่ที่ประมาณ 0 แสดงว่าไม่มีการเชื่อมต่อระหว่างตัวแปร
หากค่าใกล้กับหนึ่ง (เช่น จาก 0.9) แสดงว่ามีความสัมพันธ์โดยตรงที่ชัดเจนระหว่างวัตถุที่สังเกตได้ หากค่าสัมประสิทธิ์อยู่ใกล้กับจุดสุดขั้วอีกจุดหนึ่งของช่วง (-1) แสดงว่าตัวแปรเหล่านี้มีความสัมพันธ์แบบผกผันอย่างมาก เมื่อค่าอยู่ระหว่าง 0 ถึง 1 หรือ 0 ถึง -1 เรากำลังพูดถึงการเชื่อมต่อที่อ่อนแอ (โดยตรงหรือย้อนกลับ) โดยปกติแล้วจะไม่คำนึงถึงความสัมพันธ์นี้: เชื่อกันว่าไม่มีอยู่จริง
การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ใน Excel
ลองดูตัวอย่างวิธีคำนวณค่าสัมประสิทธิ์สหสัมพันธ์คุณลักษณะของความสัมพันธ์โดยตรงและผกผันระหว่างตัวแปร
ค่าของตัวบ่งชี้ x และ y:
Y เป็นตัวแปรอิสระ x เป็นตัวแปรตาม จำเป็นต้องค้นหาจุดแข็ง (แรง / อ่อนแอ) และทิศทาง (ตรง / ผกผัน) ของการเชื่อมต่อระหว่างสิ่งเหล่านั้น สูตรสัมประสิทธิ์สหสัมพันธ์มีลักษณะดังนี้:
เพื่อให้เข้าใจง่ายขึ้น เราจะแบ่งมันออกเป็นองค์ประกอบง่ายๆ หลายๆ ส่วน
ความสัมพันธ์โดยตรงที่ชัดเจนจะถูกกำหนดระหว่างตัวแปรต่างๆ
ฟังก์ชัน CORREL ในตัวหลีกเลี่ยงการคำนวณที่ซับซ้อน มาคำนวณค่าสัมประสิทธิ์สหสัมพันธ์คู่ใน Excel โดยใช้มัน เรียกตัวช่วยสร้างฟังก์ชัน เราพบสิ่งที่ถูกต้อง อาร์กิวเมนต์ของฟังก์ชันคืออาร์เรย์ของค่า y และอาร์เรย์ของค่า x:
เรามาแสดงค่าของตัวแปรบนกราฟกัน:
มองเห็นความสัมพันธ์ที่ชัดเจนระหว่าง y และ x เนื่องจาก เส้นขนานกันเกือบขนานกัน ความสัมพันธ์เป็นแบบตรง: y เพิ่มขึ้น - x เพิ่มขึ้น, y ลดลง - x ลดลง
เมทริกซ์สัมประสิทธิ์สหสัมพันธ์คู่ใน Excel
เมทริกซ์สหสัมพันธ์เป็นตารางที่จุดตัดของแถวและคอลัมน์ซึ่งมีค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างค่าที่สอดคล้องกัน มันสมเหตุสมผลแล้วที่จะสร้างมันขึ้นมาสำหรับตัวแปรหลายตัว
เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์ใน Excel สร้างขึ้นโดยใช้เครื่องมือ "สหสัมพันธ์" จากแพ็คเกจ "การวิเคราะห์ข้อมูล"
พบความสัมพันธ์โดยตรงที่ชัดเจนระหว่างค่า y และ x1 มีการตอบรับที่ดีระหว่าง x1 และ x2 ไม่มีการเชื่อมต่อกับค่าในคอลัมน์ x3 ในทางปฏิบัติ
ซี 1 (เสื้อ) |
ซี 2 (เสื้อ) |
ที |
ใช่(t) |
|
ซี 1 (เสื้อ) | ||||
ซี 2 (เสื้อ) | ||||
ที | ||||
ใช่(t) |
ภารกิจหลักที่ต้องเผชิญในการเลือกปัจจัยที่รวมอยู่ในแบบจำลองสหสัมพันธ์คือการแนะนำปัจจัยหลักทั้งหมดที่มีอิทธิพลต่อระดับของปรากฏการณ์ที่กำลังศึกษาในการวิเคราะห์ อย่างไรก็ตาม การแนะนำปัจจัยจำนวนมากเข้าสู่แบบจำลองนั้นทำไม่ได้จริง การเลือกปัจจัยหลักจำนวนค่อนข้างน้อยเท่านั้นที่น่าจะสัมพันธ์กับตัวบ่งชี้การทำงานที่เลือกนั้นถูกต้องกว่า
ซึ่งสามารถทำได้โดยใช้สิ่งที่เรียกว่าการเลือกสองขั้นตอน ตามนั้นปัจจัยที่เลือกไว้ล่วงหน้าทั้งหมดจะรวมอยู่ในแบบจำลอง จากนั้นในหมู่พวกเขาบนพื้นฐานของการประเมินเชิงปริมาณพิเศษและการวิเคราะห์เชิงคุณภาพเพิ่มเติมจะมีการระบุปัจจัยที่มีอิทธิพลที่ไม่มีนัยสำคัญซึ่งจะค่อยๆ ละทิ้งไปจนกว่าจะยังคงอยู่ซึ่งสามารถโต้แย้งได้ว่าวัสดุทางสถิติที่มีอยู่นั้นสอดคล้องกับสมมติฐานของข้อต่อของพวกเขา อิทธิพลที่สำคัญต่อตัวแปรตามกับรูปแบบการเชื่อมต่อที่เลือก
การเลือกสองขั้นตอนได้รับการแสดงออกที่สมบูรณ์ที่สุดในเทคนิคที่เรียกว่าการวิเคราะห์การถดถอยแบบหลายขั้นตอนซึ่งการกำจัดปัจจัยที่ไม่สำคัญเกิดขึ้นบนพื้นฐานของตัวบ่งชี้นัยสำคัญโดยเฉพาะอย่างยิ่งบนพื้นฐานของค่าของ t f - ค่าที่คำนวณได้ของการทดสอบของนักเรียน
ลองคำนวณ t f โดยใช้สัมประสิทธิ์สหสัมพันธ์คู่ที่พบ และเปรียบเทียบกับค่าวิกฤตสำหรับระดับนัยสำคัญ 5% (สองด้าน) และองศาอิสระ 18 องศา (ν = n-2)
โดยที่ r คือค่าของสัมประสิทธิ์สหสัมพันธ์คู่
n – จำนวนการสังเกต (n=20)
เมื่อเปรียบเทียบค่า t f ของแต่ละสัมประสิทธิ์ด้วย ที cr = 2,101 เราพบว่าค่าสัมประสิทธิ์ที่พบถือว่ามีนัยสำคัญเพราะว่า เสื้อ f > เสื้อ cr.
เสื้อ f สำหรับ r yx 1 = 2, 5599 ;
เสื้อ f สำหรับ r yx 2 = 7,064206 ;
เสื้อ f สำหรับ r yx 3 = 2,40218 ;
เสื้อ f สำหรับ r x1 x 2 = 4,338906 ;
เสื้อ f สำหรับ r x1 x 3 = 15,35065;
เสื้อ f สำหรับ r x2 x 3 = 4,749981
เมื่อเลือกปัจจัยที่จะรวมไว้ในการวิเคราะห์ จะมีการกำหนดข้อกำหนดเฉพาะสำหรับปัจจัยเหล่านั้น ประการแรก ตัวชี้วัดที่แสดงถึงปัจจัยเหล่านี้จะต้องวัดได้ในเชิงปริมาณ
ปัจจัยที่รวมอยู่ในแบบจำลองไม่ควรมีความสัมพันธ์เชิงหน้าที่หรือใกล้ชิดซึ่งกันและกัน การมีอยู่ของความสัมพันธ์ดังกล่าวมีลักษณะเป็นหลายสาย
Multicollinearity บ่งชี้ว่าปัจจัยบางอย่างมีลักษณะเฉพาะของปรากฏการณ์ที่กำลังศึกษาอยู่ ดังนั้นการรวมไว้ในแบบจำลองพร้อมกันจึงไม่เหมาะสมเนื่องจากซ้ำกันในระดับหนึ่ง หากไม่มีสมมติฐานพิเศษจากวิทยากรที่สนับสนุนปัจจัยใดปัจจัยหนึ่งเหล่านี้ ควรให้ความสำคัญกับปัจจัยที่มีลักษณะเป็นค่าสัมประสิทธิ์สหสัมพันธ์ขนาดใหญ่ (หรือบางส่วน)
เชื่อกันว่าค่าสูงสุดของสัมประสิทธิ์สหสัมพันธ์ระหว่างสองปัจจัยคือ 0.8
ความเป็นหลายเส้นตรงมักจะนำไปสู่ความเสื่อมของเมทริกซ์ของตัวแปร และด้วยเหตุนี้ ปัจจัยหลักจึงลดค่าของมันลง และในขีดจำกัดจะเข้าใกล้ศูนย์ การประมาณค่าสัมประสิทธิ์ของสมการถดถอยขึ้นอยู่กับความแม่นยำในการค้นหาแหล่งข้อมูลและเปลี่ยนค่าอย่างรวดเร็วเมื่อจำนวนการสังเกตเปลี่ยนแปลง