การถดถอยสมการพหุคูณ

ในระหว่างการศึกษานักเรียนมักจะพบกับสมการที่หลากหลาย หนึ่งในนั้น - สมการการถดถอย - ได้รับการพิจารณาในบทความนี้ สมการประเภทนี้ใช้เพื่ออธิบายลักษณะของความสัมพันธ์ระหว่างพารามิเตอร์ทางคณิตศาสตร์โดยเฉพาะ ความเท่าเทียมกันประเภทนี้ใช้ในสถิติและเศรษฐมิติ

ความหมายของการถดถอย

ในวิชาคณิตศาสตร์ การถดถอยเป็นที่เข้าใจกันว่าเป็นปริมาณที่อธิบายถึงการพึ่งพาค่าเฉลี่ยของชุดข้อมูลกับค่าของปริมาณอื่น สมการถดถอยแสดงเป็นฟังก์ชันของคุณลักษณะเฉพาะ ค่าเฉลี่ยของคุณลักษณะอื่น ฟังก์ชันการถดถอยมีรูปแบบของสมการอย่างง่าย y \u003d x ซึ่ง y ทำหน้าที่เป็นตัวแปรตาม และ x เป็นตัวแปรอิสระ (ปัจจัยคุณลักษณะ) อันที่จริง การถดถอยจะแสดงเป็น y = f (x)

ประเภทของความสัมพันธ์ระหว่างตัวแปรคืออะไร

โดยทั่วไปแล้ว ความสัมพันธ์ที่ตรงกันข้ามมี 2 ประเภทที่แตกต่างกัน ได้แก่ ความสัมพันธ์และการถดถอย

ประการแรกคือลักษณะความเท่าเทียมกันของตัวแปรตามเงื่อนไข ในกรณีนี้ ยังไม่ทราบแน่ชัดว่าตัวแปรใดขึ้นอยู่กับตัวแปรอื่น

หากไม่มีความเท่าเทียมกันระหว่างตัวแปรและเงื่อนไขที่บอกว่าตัวแปรใดอธิบายได้และตัวแปรใดขึ้นอยู่กับเราสามารถพูดถึงการเชื่อมต่อประเภทที่สองได้ เพื่อสร้างสมการ การถดถอยเชิงเส้นจำเป็นต้องค้นหาว่ามีการสังเกตการเชื่อมต่อประเภทใด

ประเภทของการถดถอย

ในปัจจุบัน การถดถอยมี 7 ประเภทที่แตกต่างกัน: ไฮเปอร์โบลิก เชิงเส้น พหุคูณ ไม่เชิงเส้น จับคู่ ผกผัน ลอการิทึมเชิงเส้น

ไฮเปอร์โบลิก เชิงเส้น และลอการิทึม

สมการถดถอยเชิงเส้นใช้ในสถิติเพื่ออธิบายพารามิเตอร์ของสมการอย่างชัดเจน ดูเหมือนว่า y = c + m * x + E สมการไฮเปอร์โบลามีรูปแบบของไฮเปอร์โบลาปกติ y \u003d c + m / x + E สมการเชิงเส้นลอการิทึมแสดงความสัมพันธ์โดยใช้ฟังก์ชันลอการิทึม: ใน y \u003d ใน c + m * ใน x + ใน E

หลายรายการและไม่เป็นเชิงเส้น

อีกสอง ประเภทที่ซับซ้อนการถดถอยเป็นแบบทวีคูณและไม่เป็นเชิงเส้น สมการถดถอยพหุคูณแสดงโดยฟังก์ชัน y \u003d f (x 1, x 2 ... x c) + E ในสถานการณ์นี้ y เป็นตัวแปรตาม และ x เป็นตัวแปรอธิบาย ตัวแปร E สุ่มและรวมถึงอิทธิพลของปัจจัยอื่นๆ ในสมการ สมการการถดถอยแบบไม่เชิงเส้นนั้นไม่สอดคล้องกันเล็กน้อย ในด้านหนึ่ง ในแง่ของตัวบ่งชี้ที่นำมาพิจารณา จะไม่เป็นเชิงเส้น และในทางกลับกัน ในบทบาทของการประเมินตัวบ่งชี้ จะเป็นเชิงเส้น

การถดถอยผกผันและคู่

อินเวอร์สเป็นฟังก์ชันชนิดหนึ่งที่ต้องแปลงเป็นรูปแบบเชิงเส้น ในโปรแกรมประยุกต์แบบดั้งเดิมส่วนใหญ่มีรูปแบบของฟังก์ชัน y \u003d 1 / c + m * x + E สมการถดถอยแบบจับคู่แสดงความสัมพันธ์ระหว่างข้อมูลในรูปฟังก์ชันของ y = f(x) + E เช่นเดียวกับสมการอื่นๆ y ขึ้นอยู่กับ x และ E เป็นพารามิเตอร์สุ่ม

แนวคิดของความสัมพันธ์

นี่คือตัวบ่งชี้ที่แสดงให้เห็นถึงการมีอยู่ของความสัมพันธ์ระหว่างสองปรากฏการณ์หรือกระบวนการ ความแข็งแกร่งของความสัมพันธ์จะแสดงเป็นค่าสัมประสิทธิ์สหสัมพันธ์ ค่าของมันผันผวนภายในช่วงเวลา [-1;+1] ตัวบ่งชี้เชิงลบบ่งชี้ถึงการมีอยู่ ข้อเสนอแนะ, บวก - เกี่ยวกับเส้นตรง หากค่าสัมประสิทธิ์มีค่าเท่ากับ 0 แสดงว่าไม่มีความสัมพันธ์ ยิ่งค่าเข้าใกล้ 1 มากเท่าไหร่ ความสัมพันธ์ระหว่างพารามิเตอร์ยิ่งแน่นแฟ้นมากขึ้นเท่านั้น ยิ่งเข้าใกล้ 0 มากเท่าไหร่ก็ยิ่งอ่อนแอลงเท่านั้น

วิธีการ

สัมพันธ์กัน วิธีพาราเมตริกสามารถประเมินความแข็งแกร่งของความสัมพันธ์ได้ พวกมันถูกใช้บนพื้นฐานของการประมาณการกระจายเพื่อศึกษาพารามิเตอร์ที่เป็นไปตามกฎการกระจายแบบปกติ

พารามิเตอร์ของสมการถดถอยเชิงเส้นมีความจำเป็นในการระบุประเภทของการพึ่งพา ฟังก์ชันของสมการถดถอย และประเมินตัวบ่งชี้ของสูตรความสัมพันธ์ที่เลือก ฟิลด์ความสัมพันธ์ถูกใช้เป็นวิธีการระบุความสัมพันธ์ ในการทำเช่นนี้ ข้อมูลที่มีอยู่ทั้งหมดจะต้องแสดงเป็นภาพกราฟิก ในระบบพิกัดสองมิติสี่เหลี่ยม ข้อมูลที่ทราบทั้งหมดจะต้องลงจุด นี่คือวิธีสร้างฟิลด์ความสัมพันธ์ ค่าของปัจจัยที่อธิบายจะถูกทำเครื่องหมายตาม abscissa ในขณะที่ค่าของปัจจัยที่ขึ้นต่อกันจะถูกทำเครื่องหมายไว้ตามพิกัด หากมีความสัมพันธ์เชิงฟังก์ชันระหว่างพารามิเตอร์ พารามิเตอร์จะเรียงกันเป็นเส้น

หากค่าสัมประสิทธิ์สหสัมพันธ์ของข้อมูลดังกล่าวน้อยกว่า 30% เราสามารถพูดถึงการขาดการเชื่อมต่อเกือบทั้งหมดได้ หากอยู่ระหว่าง 30% ถึง 70% แสดงว่ามีลิงก์ที่มีความใกล้ชิดปานกลาง ตัวบ่งชี้ 100% เป็นหลักฐานของการเชื่อมต่อการทำงาน

สมการถดถอยที่ไม่ใช่เชิงเส้น เช่นเดียวกับสมการเชิงเส้น จะต้องเสริมด้วยดัชนีสหสัมพันธ์ (R)

ความสัมพันธ์สำหรับการถดถอยพหุคูณ

ค่าสัมประสิทธิ์ของการกำหนดเป็นตัวบ่งชี้ของกำลังสอง ความสัมพันธ์ที่หลากหลาย. เขาพูดเกี่ยวกับความสัมพันธ์ที่แน่นแฟ้นของชุดตัวบ่งชี้ที่นำเสนอกับลักษณะที่กำลังศึกษาอยู่ นอกจากนี้ยังสามารถพูดคุยเกี่ยวกับลักษณะของอิทธิพลของพารามิเตอร์ที่มีต่อผลลัพธ์ สมการถดถอยพหุคูณได้รับการประเมินโดยใช้ตัวบ่งชี้นี้

ในการคำนวณดัชนีสหสัมพันธ์หลายรายการ จำเป็นต้องคำนวณดัชนีของมัน

วิธีกำลังสองน้อยที่สุด

วิธีนี้เป็นวิธีการประมาณค่าปัจจัยการถดถอย สาระสำคัญอยู่ที่การลดผลรวมของการเบี่ยงเบนกำลังสองที่ได้รับเนื่องจากการพึ่งพาปัจจัยในฟังก์ชัน

สมการถดถอยเชิงเส้นคู่สามารถประมาณได้โดยใช้วิธีดังกล่าว สมการประเภทนี้ใช้ในกรณีที่ตรวจพบระหว่างตัวบ่งชี้ของความสัมพันธ์เชิงเส้นคู่

ตัวเลือกสมการ

พารามิเตอร์แต่ละตัวของฟังก์ชันการถดถอยเชิงเส้นมีความหมายเฉพาะ สมการถดถอยเชิงเส้นคู่ประกอบด้วยพารามิเตอร์สองตัว: c และ m พารามิเตอร์ t แสดงการเปลี่ยนแปลงเฉลี่ยในตัวบ่งชี้สุดท้ายของฟังก์ชัน y ซึ่งขึ้นอยู่กับการลดลง (เพิ่มขึ้น) ในตัวแปร x หนึ่งหน่วยทั่วไป ถ้าตัวแปร x เป็นศูนย์ ฟังก์ชันจะเท่ากับพารามิเตอร์ c ถ้าตัวแปร x ไม่เป็นศูนย์ แสดงว่าตัวประกอบ c ไม่สมเหตุสมผลทางเศรษฐศาสตร์ อิทธิพลเพียงอย่างเดียวของฟังก์ชันคือเครื่องหมายที่อยู่หน้าตัวประกอบ c หากมีลบเราสามารถพูดเกี่ยวกับการเปลี่ยนแปลงช้าของผลลัพธ์เมื่อเทียบกับปัจจัย หากมีเครื่องหมายบวกแสดงว่ามีการเปลี่ยนแปลงอย่างรวดเร็วในผลลัพธ์

พารามิเตอร์แต่ละตัวที่เปลี่ยนค่าของสมการการถดถอยสามารถแสดงในรูปของสมการได้ ตัวอย่างเช่น ตัวประกอบ c มีรูปแบบ c = y - mx

ข้อมูลที่จัดกลุ่ม

มีเงื่อนไขดังกล่าวของงานที่ข้อมูลทั้งหมดถูกจัดกลุ่มตามแอตทริบิวต์ x แต่ในขณะเดียวกันสำหรับบางกลุ่มจะมีการระบุค่าเฉลี่ยที่สอดคล้องกันของตัวบ่งชี้ที่ขึ้นต่อกัน ในกรณีนี้ ค่าเฉลี่ยระบุว่าตัวบ่งชี้ขึ้นอยู่กับ x อย่างไร ดังนั้นข้อมูลที่จัดกลุ่มจะช่วยค้นหาสมการการถดถอย ใช้เป็นข้อมูลวิเคราะห์ความสัมพันธ์ อย่างไรก็ตามวิธีนี้มีข้อเสีย น่าเสียดายที่ค่าเฉลี่ยมักขึ้นอยู่กับความผันผวนภายนอก ความผันผวนเหล่านี้ไม่ใช่ภาพสะท้อนของรูปแบบความสัมพันธ์ แต่เป็นเพียงการปกปิด "เสียงรบกวน" ค่าเฉลี่ยแสดงรูปแบบความสัมพันธ์ที่แย่กว่าสมการถดถอยเชิงเส้นมาก อย่างไรก็ตามสามารถใช้เป็นพื้นฐานในการหาสมการได้ คูณขนาดของประชากรด้วยค่าเฉลี่ยที่เกี่ยวข้อง คุณจะได้ผลรวมของ y ภายในกลุ่ม ถัดไปคุณต้องกำจัดจำนวนเงินที่ได้รับทั้งหมดและค้นหาตัวบ่งชี้สุดท้าย y การคำนวณด้วยตัวบ่งชี้ผลรวม xy นั้นยากขึ้นเล็กน้อย ในกรณีที่ช่วงเวลามีขนาดเล็ก เราสามารถใช้ตัวบ่งชี้ x อย่างมีเงื่อนไขสำหรับทุกหน่วย (ภายในกลุ่ม) เหมือนกัน คูณด้วยผลรวมของ y เพื่อหาผลรวมของผลคูณของ x และ y นอกจากนี้ผลรวมทั้งหมดจะถูกเคาะเข้าด้วยกันและได้ผลรวม xy ทั้งหมด

การถดถอยสมการหลายคู่: การประเมินความสำคัญของความสัมพันธ์

ตามที่กล่าวไว้ก่อนหน้านี้ การถดถอยพหุคูณมีฟังก์ชันในรูปแบบ y \u003d f (x 1, x 2, ..., x m) + E ส่วนใหญ่มักใช้สมการดังกล่าวเพื่อแก้ปัญหาอุปสงค์และอุปทานของสินค้า ดอกเบี้ยรับจากหุ้นที่ซื้อคืน ศึกษาสาเหตุและประเภทของฟังก์ชันต้นทุนการผลิต นอกจากนี้ยังใช้อย่างแข็งขันในการศึกษาเศรษฐศาสตร์มหภาคและการคำนวณที่หลากหลาย แต่ในระดับของเศรษฐศาสตร์จุลภาค สมการนี้ใช้บ่อยน้อยกว่าเล็กน้อย

ภารกิจหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองข้อมูลที่ประกอบด้วยข้อมูลจำนวนมากเพื่อกำหนดเพิ่มเติมว่าสิ่งใดที่มีอิทธิพลต่อปัจจัยแต่ละอย่างแยกกันและในผลรวมทั้งหมดที่มีต่อตัวบ่งชี้ที่จะสร้างแบบจำลองและค่าสัมประสิทธิ์ สมการถดถอยสามารถรับค่าได้หลากหลาย ในกรณีนี้ มักใช้ฟังก์ชันสองประเภทในการประเมินความสัมพันธ์: เชิงเส้นและแบบไม่เชิงเส้น

ฟังก์ชันเชิงเส้นแสดงในรูปแบบของความสัมพันธ์ดังกล่าว: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m ในกรณีนี้ a2, a m ถือเป็นค่าสัมประสิทธิ์ของการถดถอย "บริสุทธิ์" จำเป็นต้องกำหนดลักษณะการเปลี่ยนแปลงเฉลี่ยในพารามิเตอร์ y โดยมีการเปลี่ยนแปลง (ลดลงหรือเพิ่มขึ้น) ในแต่ละพารามิเตอร์ที่สอดคล้องกัน x โดยหนึ่งหน่วยโดยมีเงื่อนไขของค่าคงที่ของตัวบ่งชี้อื่น ๆ

สมการไม่เชิงเส้นมีรูปแบบ ตัวอย่างเช่น ฟังก์ชั่นพลังงาน y=ขวาน 1 b1 x 2 b2 ...x m bm ในกรณีนี้ตัวบ่งชี้ b 1, b 2 ..... b m - เรียกว่าค่าสัมประสิทธิ์ความยืดหยุ่นซึ่งแสดงให้เห็นว่าผลลัพธ์จะเปลี่ยนไปอย่างไร (โดยมาก%) โดยเพิ่มขึ้น (ลดลง) ในตัวบ่งชี้ที่เกี่ยวข้อง x 1% และด้วยตัวบ่งชี้ที่มั่นคงของปัจจัยอื่นๆ

ปัจจัยใดที่ควรพิจารณาเมื่อสร้างการถดถอยพหุคูณ

เพื่อสร้างการถดถอยพหุคูณอย่างถูกต้อง จำเป็นต้องค้นหาว่าปัจจัยใดควรให้ความสนใจเป็นพิเศษ

จำเป็นต้องมีความเข้าใจธรรมชาติของความสัมพันธ์ระหว่างปัจจัยทางเศรษฐกิจและตัวแบบ ปัจจัยที่จะรวมต้องเป็นไปตามเกณฑ์ต่อไปนี้:

  • จะต้องสามารถวัดผลได้ ในการใช้ปัจจัยอธิบายคุณภาพของวัตถุ ในกรณีใด ๆ ก็ตาม ควรกำหนดรูปแบบเชิงปริมาณ
  • ไม่ควรมีความสัมพันธ์ระหว่างปัจจัยหรือความสัมพันธ์เชิงหน้าที่ การกระทำเหล่านี้มักส่งผลให้ ผลที่ตามมากลับไม่ได้- ระบบสมการธรรมดาจะไม่มีเงื่อนไข และสิ่งนี้นำมาซึ่งความไม่น่าเชื่อถือและการประมาณค่าที่คลุมเครือ
  • ในกรณีของตัวบ่งชี้ความสัมพันธ์ขนาดใหญ่ ไม่มีทางที่จะค้นหาอิทธิพลของปัจจัยที่แยกจากกันที่มีต่อผลลัพธ์สุดท้ายของตัวบ่งชี้ ดังนั้นค่าสัมประสิทธิ์จึงไม่สามารถตีความได้

วิธีการก่อสร้าง

มีวิธีการและวิธีการมากมายที่จะอธิบายว่าคุณสามารถเลือกปัจจัยสำหรับสมการได้อย่างไร อย่างไรก็ตาม วิธีการทั้งหมดนี้ขึ้นอยู่กับการเลือกค่าสัมประสิทธิ์โดยใช้ดัชนีสหสัมพันธ์ ในหมู่พวกเขาคือ:

  • วิธีการยกเว้น
  • เปิดวิธีการ
  • การวิเคราะห์การถดถอยแบบขั้นตอน

วิธีแรกเกี่ยวข้องกับการกรองค่าสัมประสิทธิ์ทั้งหมดออกจากชุดผลรวม วิธีที่สองเกี่ยวข้องกับการแนะนำปัจจัยเพิ่มเติมมากมาย ประการที่สามคือการกำจัดปัจจัยที่เคยใช้กับสมการ แต่ละวิธีเหล่านี้มีสิทธิ์ที่จะมีอยู่ พวกเขามีข้อดีและข้อเสีย แต่พวกเขาสามารถแก้ปัญหาการคัดกรองตัวบ่งชี้ที่ไม่จำเป็นด้วยวิธีของพวกเขาเอง ตามกฎแล้วผลลัพธ์ที่ได้จากแต่ละวิธีนั้นค่อนข้างใกล้เคียงกัน

วิธีการวิเคราะห์หลายตัวแปร

วิธีการกำหนดปัจจัยดังกล่าวขึ้นอยู่กับการพิจารณาลักษณะที่สัมพันธ์กันของแต่ละบุคคล ซึ่งรวมถึงการวิเคราะห์จำแนก การจดจำรูปแบบ การวิเคราะห์องค์ประกอบหลัก และการวิเคราะห์คลัสเตอร์ นอกจากนี้ยังมีการวิเคราะห์ปัจจัย แต่ปรากฏว่าเป็นผลจากการพัฒนาวิธีส่วนประกอบ สิ่งเหล่านี้ทั้งหมดถูกนำไปใช้ในบางสถานการณ์ภายใต้เงื่อนไขและปัจจัยบางประการ

2 การถดถอยเชิงเส้นพหุคูณ

2.1 การหาพารามิเตอร์ของสมการถดถอย

ตัวบ่งชี้ทางเศรษฐกิจใด ๆ มักจะได้รับอิทธิพลจากปัจจัยหลายอย่าง ในกรณีนี้ เราจะพิจารณาแทนการถดถอยแบบคู่ การถดถอยพหุคูณ

งานประเมินความสัมพันธ์ทางสถิติของตัวแปร และ
มีสูตรคล้ายกับกรณีของการถดถอยแบบคู่ สมการถดถอยพหุสามารถแสดงเป็น:

, (2.2)

ที่ไหน
เป็นเวกเตอร์ของตัวแปรอิสระ (อธิบาย); – เวกเตอร์ของพารามิเตอร์ (ที่จะกำหนด); – ข้อผิดพลาดแบบสุ่ม (เบี่ยงเบน); – ขึ้นอยู่กับ (อธิบาย) ตัวแปร

พิจารณาแบบจำลองการถดถอยพหุคูณที่ใช้บ่อยที่สุดและง่ายที่สุด นั่นคือ แบบจำลองการถดถอยเชิงเส้นพหุคูณ

สมการถดถอยเชิงเส้นเชิงทฤษฎีมีรูปแบบ:

หรือเพื่อการสังเกตเป็นรายบุคคล
:

ที่นี่
คือเวกเตอร์มิติ
พารามิเตอร์ที่ไม่รู้จัก
เรียกว่า - ค่าสัมประสิทธิ์การถดถอยตามทฤษฎี (ค่าสัมประสิทธิ์การถดถอยบางส่วน) มันแสดงลักษณะความไวของปริมาณต่อการเปลี่ยนแปลงของปริมาณ , เช่น. สะท้อนถึงผลกระทบต่อความคาดหวังแบบมีเงื่อนไข
ตัวแปรตามของตัวแปรอธิบาย โดยมีเงื่อนไขว่าตัวแปรอธิบายอื่นๆ ทั้งหมดของแบบจำลองยังคงที่ เป็นคำอิสระที่กำหนดในกรณีที่ตัวแปรอธิบายทั้งหมดมีค่าเท่ากับศูนย์

หลังจากเลือกฟังก์ชันเชิงเส้นเป็นแบบจำลองการพึ่งพาแล้ว จำเป็นต้องประมาณค่าพารามิเตอร์การถดถอย ปล่อยให้มี เวกเตอร์การสังเกตของตัวแปรอธิบายและตัวแปรตาม :

เพื่อแก้ปัญหาการค้นหาพารามิเตอร์โดยเฉพาะ
(เช่น หาเวกเตอร์ที่ดีที่สุด ) อสมการจะต้องคงอยู่
. หากอสมการนี้ไม่มีอยู่ แสดงว่ามีเวกเตอร์พารามิเตอร์ที่แตกต่างกันมากมายนับไม่ถ้วน สูตรเชิงเส้นการสื่อสารระหว่าง
และจะตรงกับข้อสังเกตที่มีอยู่อย่างแน่นอน

ตัวอย่างเช่น หากต้องการหาค่าประมาณของพารามิเตอร์ของสมการการถดถอยโดยไม่ซ้ำกัน ก็เพียงพอแล้วที่จะมีตัวอย่างการสังเกตสามตัวอย่าง ในกรณีนี้ ค่าพารามิเตอร์ที่พบ
กำหนดระนาบดังกล่าวในพื้นที่สามมิติซึ่งจะผ่านจุดสามจุดพอดี ในทางกลับกัน การเพิ่มข้อสังเกตเข้าไปอีก 1 ข้อในการสังเกตที่มีอยู่ 3 ข้อจะนำไปสู่ข้อเท็จจริงที่ว่าข้อที่ 4
เกือบจะแน่นอนอยู่นอกระนาบที่สร้างขึ้นซึ่งจะต้องมีการประเมินพารามิเตอร์อีกครั้ง

ตัวเลข
เรียกว่า จำนวนองศาอิสระ. หากจำนวนองศาอิสระมีน้อย ความน่าเชื่อถือทางสถิติของสูตรโดยประมาณจะต่ำ ตัวอย่างเช่น ความน่าจะเป็นของข้อสรุปที่ถูกต้อง (ได้รับการประมาณการที่แม่นยำยิ่งขึ้น) สำหรับการสังเกต 3 ครั้งจะต่ำกว่า 30 ครั้งอย่างมีนัยสำคัญ เป็นที่เชื่อกันว่าเมื่อประมาณการถดถอยเชิงเส้นพหุคูณ เพื่อให้มั่นใจถึงความน่าเชื่อถือทางสถิติ จำเป็นต้องมีจำนวนการสังเกตอย่างน้อยสามเท่าของจำนวนพารามิเตอร์ที่ประมาณไว้

วิธีทั่วไปในการประมาณค่าพารามิเตอร์ของสมการถดถอยพหุคูณคือวิธี กำลังสองน้อยที่สุด(ม.ป.ป).

พื้นหลัง OLS:

ในกรณีของการถดถอยแบบคู่ค่าที่แท้จริงของพารามิเตอร์ ไม่สามารถรับตัวอย่างได้ ในกรณีนี้ แทนที่จะใช้สมการถดถอยเชิงทฤษฎี สมการถดถอยเชิงประจักษ์จะประมาณ:

ที่นี่
– การประมาณค่าทางทฤษฎีของสัมประสิทธิ์การถดถอย (สัมประสิทธิ์การถดถอยเชิงประจักษ์) – ค่าประมาณการเบี่ยงเบน สำหรับการสังเกตรายบุคคล เรามี:

เมื่อเป็นไปตามสมมติฐาน LSM เกี่ยวกับข้อผิดพลาด ค่าประมาณของพารามิเตอร์ของการถดถอยเชิงเส้นพหุคูณโดย LSM จะไม่เอนเอียง มีประสิทธิภาพ และสอดคล้องกัน

ขึ้นอยู่กับ (2.6): . (2.7)

จากนั้น ใช้วิธีกำลังสองน้อยที่สุดเพื่อหาค่าประมาณ ฟังก์ชันต่อไปนี้จะถูกย่อให้เล็กสุด:

. (2.8)

เงื่อนไขที่จำเป็นสำหรับการย่อขนาดฟังก์ชัน คือความเท่าเทียมกันถึงศูนย์ของอนุพันธ์ย่อยทั้งหมดที่เกี่ยวกับ , เช่น.:

(2.9)

เราได้รับระบบเท่ากับศูนย์
สมการเชิงเส้นด้วยความไม่รู้ ระบบดังกล่าวมักจะมีวิธีแก้ปัญหาเฉพาะและเรียกว่าระบบสมการปกติ วิธีแก้ปัญหาที่ชัดเจนสามารถแสดงได้ชัดเจนที่สุดในรูปแบบเมทริกซ์เวกเตอร์

2.2 การคำนวณค่าสัมประสิทธิ์การถดถอยเชิงเส้นพหุคูณ

ข้อมูลเชิงสังเกตและค่าสัมประสิทธิ์ที่เกี่ยวข้องในรูปเมทริกซ์มีดังนี้




.

ที่นี่
เวกเตอร์คอลัมน์มิติของการสังเกตของตัวแปรตาม ; - เมทริกซ์มิติ
ที่ซึ่ง -th บรรทัด
แสดงถึงการสังเกตเวกเตอร์ของค่าของตัวแปรอิสระ ; หน่วยสอดคล้องกับตัวแปรที่มีสมาชิกอิสระ ; คือเวกเตอร์คอลัมน์ของมิติของพารามิเตอร์ของสมการถดถอย – เวกเตอร์คอลัมน์ของมิติของการเบี่ยงเบนของค่าตัวอย่าง (จริง) ตัวแปรตามค่า ได้จากสมการถดถอย

การทำงาน
ในรูปแบบเมทริกซ์สามารถแสดงเป็นผลคูณของเวกเตอร์แถว
ไปยังเวกเตอร์คอลัมน์ เวกเตอร์คอลัมน์สามารถแสดงได้ดังนี้:

. (2.11)

ที่นี่
เป็นเวกเตอร์และเมทริกซ์ที่ย้ายไป
ตามลำดับ เมื่อได้รับสูตร จะใช้ความสัมพันธ์ที่รู้จักกันดีของพีชคณิตเชิงเส้นต่อไปนี้:

เงื่อนไขที่จำเป็นสำหรับสุดขั้วของฟังก์ชันคือความเท่าเทียมกันของอนุพันธ์ย่อยของฟังก์ชันเท่ากับศูนย์
ทุกประการ
. เวกเตอร์คอลัมน์ อนุพันธ์ย่อยในรูปเมทริกซ์มีดังนี้

. (2.12)

มาดูการค้นหากันดีกว่า เห็นได้ชัดว่า

จึงไม่ขึ้นอยู่กับ
.

แสดงเวกเตอร์คอลัมน์
มิติผ่าน . แล้ว
, องค์ประกอบที่เกี่ยวข้องของเวกเตอร์อยู่ที่ไหน นั่นเป็นเหตุผล
.

แสดงเมทริกซ์
มิติผ่าน . แล้ว



.

ดังนั้นอนุพันธ์ย่อย
.

เป็นผลให้เรามี
.

ดังนั้น สูตร (2.12) จึงใช้ได้ เท่ากับศูนย์ เราได้รับ:

(2.13)

(2.14)

ที่นี่
เป็นเมทริกซ์ที่ผกผันกับ .

ความสัมพันธ์ทั่วไปที่เป็นผลลัพธ์นั้นใช้ได้สำหรับสมการถดถอยด้วยจำนวนที่กำหนด
ตัวแปรอธิบาย ให้เราวิเคราะห์ผลลัพธ์ที่ได้รับสำหรับกรณีต่างๆ:


,
,
, .

จาก (2.11) ดังนี้: , เช่น

.

จาก (2.14) เป็นไปตามนี้

(2.15)


(2.16)

วิธีแก้ปัญหาของระบบนี้มีรูปแบบ:

(2.17)

2.3 การวิเคราะห์คุณภาพของสมการเชิงประจักษ์ของการถดถอยเชิงเส้นพหุคูณ

การสร้างสมการถดถอยเชิงประจักษ์เป็นขั้นตอนเริ่มต้นของการวิเคราะห์ทางเศรษฐมิติ สมการถดถอยตัวแรกที่สร้างขึ้นบนพื้นฐานของตัวอย่างนั้นไม่ค่อยเป็นที่พอใจในแง่ของลักษณะเฉพาะอย่างใดอย่างหนึ่ง ดังนั้นการประเมินที่สำคัญที่สุดต่อไปคือการตรวจสอบคุณภาพของสมการถดถอย ในเศรษฐมิติมีการใช้รูปแบบการตรวจสอบที่เป็นที่ยอมรับซึ่งดำเนินการในพื้นที่ต่อไปนี้:

    ตรวจสอบนัยสำคัญทางสถิติของค่าสัมประสิทธิ์ของสมการถดถอย

    ตรวจสอบคุณภาพโดยรวมของสมการถดถอย

    การตรวจสอบคุณสมบัติของข้อมูลซึ่งสันนิษฐานความเป็นไปได้เมื่อประเมินสมการ (การตรวจสอบความเป็นไปได้ของข้อกำหนดเบื้องต้นของ LSM)

ก่อนที่จะวิเคราะห์คุณภาพของสมการการถดถอย จำเป็นต้องกำหนดความแปรปรวนและข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์ รวมถึงการประมาณช่วงเวลาของค่าสัมประสิทธิ์

ความแปรปรวนตัวอย่างของสัมประสิทธิ์การถดถอยเชิงประจักษ์สามารถกำหนดได้ดังนี้:

. (2.18)

ที่นี่ – -องค์ประกอบทแยงมุมของเมทริกซ์
.

ประเด็น:

, (2.19)

โดยที่จำนวนของตัวแปรอธิบายในแบบจำลอง บางครั้งในสูตร (2.19) ตัวส่วนจะแสดงเป็น
ความหมายโดย จำนวนของพารามิเตอร์แบบจำลอง (กำหนดโดยค่าสัมประสิทธิ์การถดถอย)

โดยเฉพาะอย่างยิ่งสำหรับสมการ
ด้วยตัวแปรอธิบายสองตัว จะใช้สูตรต่อไปนี้:

,

,

,
,
. (2.20)

ที่นี่ – ตัวอย่างค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรอธิบาย และ
; มาตรฐานบกพร่องค่าสัมประสิทธิ์การถดถอย เป็นข้อผิดพลาดมาตรฐานของการถดถอย (การประมาณแบบไม่เอนเอียง)

โดยเปรียบเทียบกับการถดถอยแบบคู่หลังจากกำหนด การประมาณจุดค่าสัมประสิทธิ์ (
) ของสมการถดถอยเชิงทฤษฎี สามารถคำนวณค่าประมาณช่วงเวลาของค่าสัมประสิทธิ์ที่ระบุได้ ช่วงความเชื่อมั่นที่ครอบคลุมด้วยความน่าเชื่อถือ
ค่าที่ไม่รู้จักของพารามิเตอร์ ถูกกำหนดเป็น

(2.21)

ตรวจสอบนัยสำคัญทางสถิติของสัมประสิทธิ์ของสมการถดถอย

เช่นในกรณีของการถดถอยแบบคู่ นัยสำคัญทางสถิติทดสอบค่าสัมประสิทธิ์การถดถอยเชิงเส้นพหุคูณพร้อมตัวแปรอธิบาย - สถิติ:

, (2.22)

ในกรณีนี้ การกระจายตัวของนักศึกษาด้วยจำนวนองศาอิสระ ที่ระดับนัยสำคัญที่กำหนด ค่าที่สังเกตได้ของ -statistic จะถูกเปรียบเทียบกับค่าวิกฤตที่แน่นอน
การแจกแจงของนักเรียน

ถ้า
จากนั้นจะมีการยืนยันนัยสำคัญทางสถิติของค่าสัมประสิทธิ์การถดถอยที่เกี่ยวข้อง ซึ่งหมายความว่าปัจจัยที่เกี่ยวข้องเชิงเส้นกับตัวแปรตาม หากมีการสร้างข้อเท็จจริงที่ไม่มีนัยสำคัญของค่าสัมประสิทธิ์ ขอแนะนำให้แยกตัวแปรออกจากสมการ สิ่งนี้จะไม่นำไปสู่การสูญเสียคุณภาพของแบบจำลองอย่างมีนัยสำคัญ แต่จะทำให้เฉพาะเจาะจงมากขึ้น

เมื่อประเมินความสำคัญของค่าสัมประสิทธิ์การถดถอยเชิงเส้นบน ชั้นต้นคุณยังสามารถใช้กฎ "หยาบ" ที่กล่าวถึงในบทที่ 1.3 เพื่อหลีกเลี่ยงตาราง

ตรวจสอบคุณภาพโดยรวมของสมการถดถอย

เพื่อจุดประสงค์นี้ เราใช้ในกรณีของการถดถอยแบบคู่ขนาน ค่าสัมประสิทธิ์การตัดสินใจ
:

(2.23)

อัตราส่วนที่ยุติธรรม
. ยิ่งค่าสัมประสิทธิ์นี้เข้าใกล้ค่าหนึ่งมากเท่าใด สมการการถดถอยก็ยิ่งอธิบายลักษณะการทำงานมากขึ้นเท่านั้น

สำหรับการถดถอยพหุคูณ ค่าสัมประสิทธิ์ของการกำหนดเป็นฟังก์ชันที่ไม่ลดลงของจำนวนตัวแปรอธิบาย การเพิ่มตัวแปรอธิบายใหม่จะไม่ลดค่าของ เนื่องจากแต่ละตัวแปรที่ตามมาสามารถเพิ่มได้ แต่ไม่สามารถลดข้อมูลที่อธิบายพฤติกรรมของตัวแปรตามได้ สามารถรับค่าลบได้จากนั้นเกณฑ์ multicollinearity สามารถรับได้ ... ภายใน 5. การตรวจสอบสมมติฐานเกี่ยวกับค่าสัมประสิทธิ์ สมการการถดถอย (การตรวจสอบความสำคัญของพารามิเตอร์หลายตัว สมการการถดถอย). 1) t-สถิติ...

  • บทคัดย่อวินัย (12)

    บทคัดย่อวิทยานิพนธ์

    เครือข่ายสารสนเทศอินเทอร์เน็ต. บท 14 . เครือข่ายข้อมูลองค์กร ส่วน...หลาย การถดถอย. ไอน้ำเชิงเส้น การถดถอย. เชิงเส้นหลายตัว การถดถอย. การตรวจสอบคุณภาพสมการการถดถอย. โมเดลไม่เชิงเส้น การถดถอยและเส้นตรง...

  • งบประมาณทางการศึกษาของรัฐบาลกลาง (44)

    งาน

    ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์ของกลุ่มตัวอย่าง การตรวจสอบคุณภาพสมการการถดถอย. แบบจำลองการถดถอยแบบคลาสสิก ข้อกำหนดเบื้องต้น... ค่าประมาณคงที่ของพารามิเตอร์การกระจาย 3 6 14 ,15 4 3 3 จาก–6 14 การตรวจสอบ สมมติฐานทางสถิติ 3 6 16 2 1 ...

  • ปัญหาของการวิเคราะห์การถดถอยสหสัมพันธ์พหุคูณและการสร้างแบบจำลองมักมีการศึกษาโดยละเอียดในหลักสูตรพิเศษ หลักสูตร "ทฤษฎีสถิติทั่วไป" เกี่ยวข้องกับประเด็นทั่วไปที่สุดของปัญหาที่ซับซ้อนนี้เท่านั้น และให้แนวคิดเบื้องต้นเกี่ยวกับวิธีการสร้างสมการถดถอยพหุคูณและตัวบ่งชี้การสื่อสาร ให้เราพิจารณารูปแบบเชิงเส้นของความสัมพันธ์หลายปัจจัย ไม่เพียงแต่เป็นรูปแบบที่ง่ายที่สุด แต่ยังเป็นรูปแบบที่จัดทำโดยแพ็คเกจซอฟต์แวร์แอปพลิเคชันสำหรับพีซี หากการเชื่อมต่อของปัจจัยแต่ละรายการกับแอตทริบิวต์ของผลลัพธ์ไม่เป็นเส้นตรง สมการจะถูกทำให้เป็นเส้นตรงโดยการแทนที่หรือแปลงค่าของแอตทริบิวต์ของปัจจัย

    แบบฟอร์มทั่วไปสมการถดถอยหลายตัวแปรมีดังต่อไปนี้:


    9.11. การวัดความหนาแน่นของการเชื่อมต่อในระบบหลายปัจจัย

    ระบบหลายปัจจัยไม่ต้องการระบบเดียวอีกต่อไป แต่มีตัวบ่งชี้มากมายของความใกล้ชิดของความสัมพันธ์ที่มีความหมายและการใช้งานที่แตกต่างกัน พื้นฐานในการวัดความสัมพันธ์คือเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ (ตารางที่ 9.9)

    จากเมทริกซ์นี้ เราสามารถตัดสินความใกล้ชิดของความสัมพันธ์ของปัจจัยกับคุณลักษณะที่มีประสิทธิผลและในหมู่พวกเขาเอง แม้ว่าตัวบ่งชี้ทั้งหมดเหล่านี้อ้างถึงความสัมพันธ์แบบคู่ แต่เมทริกซ์ยังสามารถใช้เพื่อเลือกปัจจัยล่วงหน้าเพื่อรวมไว้ในสมการการถดถอย ไม่แนะนำให้รวมไว้ในปัจจัยสมการที่เกี่ยวข้องกับลักษณะการทำงานเพียงเล็กน้อย แต่สัมพันธ์อย่างใกล้ชิดกับปัจจัยอื่นๆ

    กลับไปที่โต๊ะกันเถอะ 9.11. การวิเคราะห์ความแปรปรวนระบบลิงก์ได้รับการออกแบบมาเพื่อประเมินความน่าเชื่อถือของข้อมูลเริ่มต้นที่พิสูจน์ความเชื่อมโยงระหว่างฟีเจอร์ที่มีประสิทธิภาพและปัจจัยทั้งหมดที่รวมอยู่ในสมการ เมื่อต้องการทำสิ่งนี้ จะเปรียบเทียบความแปรปรวน y - อธิบายและส่วนที่เหลือ: ผลรวมของการเบี่ยงเบนกำลังสองที่สอดคล้องกัน pnho-

    379

    381

    9.13 น. แบบจำลองสหสัมพันธ์-การถดถอยและการประยุกต์ใช้ในการวิเคราะห์และการพยากรณ์

    แบบจำลองการถดถอยสหสัมพันธ์ (CRM) ของระบบคุณลักษณะที่สัมพันธ์กันคือสมการการถดถอยที่มีปัจจัยหลักที่ส่งผลต่อการแปรผันของคุณลักษณะที่เป็นผลลัพธ์ มีค่าสัมประสิทธิ์การกำหนดและค่าสัมประสิทธิ์การถดถอยสูง (ไม่ต่ำกว่า 0.5) ตีความตาม พร้อมความรู้ทางทฤษฎีเกี่ยวกับธรรมชาติของความสัมพันธ์ในระบบที่ศึกษา

    คำจำกัดความที่กำหนดของ CRM รวมถึงเงื่อนไขที่ค่อนข้างเข้มงวด: ไม่ใช่ทุกสมการถดถอยที่สามารถถือเป็นแบบจำลองได้ โดยเฉพาะอย่างยิ่ง สมการที่ได้รับข้างต้นสำหรับฟาร์ม 16 แห่งไม่เป็นไปตามข้อกำหนดสุดท้าย เนื่องจากเครื่องหมายขัดแย้งกับเศรษฐศาสตร์การเกษตรที่ปัจจัย x2 - ส่วนแบ่งที่ดินทำกิน อย่างไรก็ตามเพื่อการศึกษาเราจะถือเป็นต้นแบบ

    1. ปัจจัยสัญญาณต้องมีความสัมพันธ์เชิงสาเหตุกับสัญญาณที่มีประสิทธิผล (ผลที่ตามมา) ดังนั้นจึงไม่สามารถยอมรับได้ ตัวอย่างเช่น การแนะนำค่าสัมประสิทธิ์ความสามารถในการทำกำไรเป็นหนึ่งในปัจจัย xj ในรูปแบบต้นทุน y แม้ว่าการรวม "ปัจจัย" ดังกล่าวจะเพิ่มค่าสัมประสิทธิ์ของการพิจารณาอย่างมีนัยสำคัญ

    2. ปัจจัยสัญญาณไม่ควรเป็น ส่วนประกอบคุณสมบัติหรือฟังก์ชั่นที่มีประสิทธิภาพ

    3. ปัจจัยสัญญาณไม่ควรซ้ำกันเช่น เป็นเส้นตรง (มีค่าสัมประสิทธิ์สหสัมพันธ์มากกว่า 0.8) ดังนั้น เราไม่ควรรวมอัตราส่วนพลังงานและทุนต่อแรงงานของคนงานในแบบจำลองผลิตภาพแรงงาน เนื่องจากปัจจัยเหล่านี้เกี่ยวข้องอย่างใกล้ชิดในวัตถุส่วนใหญ่

    4. ไม่ควรรวมปัจจัยในระดับต่างๆ ของลำดับชั้นในแบบจำลอง เช่น ตัวประกอบของคำสั่งที่ใกล้ที่สุดและปัจจัยย่อยของมัน ตัวอย่างเช่น แบบจำลองต้นทุนธัญพืชไม่ควรรวมผลผลิตของธัญพืช ปริมาณปุ๋ยสำหรับพวกเขาหรือต้นทุนการแปรรูปต่อหนึ่งเฮกตาร์ ตัวบ่งชี้คุณภาพของเมล็ดพันธุ์ ความอุดมสมบูรณ์ของดิน เช่น ปัจจัยย่อยของผลตอบแทน

    5. เป็นที่พึงปรารถนาว่าสำหรับคุณลักษณะและปัจจัยที่มีประสิทธิภาพจะต้องสังเกตความสามัคคีของหน่วยประชากรที่ได้รับมอบหมาย ตัวอย่างเช่น หาก y เป็นรายได้รวมขององค์กร ปัจจัยทั้งหมดควรนำไปใช้กับองค์กรด้วย: ต้นทุนของสินทรัพย์การผลิต ระดับความเชี่ยวชาญ จำนวนพนักงาน เป็นต้น ถ้า y คือเงินเดือนเฉลี่ยของพนักงานในองค์กร ปัจจัยต่างๆ ควรเกี่ยวข้องกับพนักงาน: อันดับหรือระดับ ประสบการณ์การทำงาน อายุ ระดับการศึกษา แหล่งจ่ายไฟ ฯลฯ กฎนี้ไม่มีหมวดหมู่ในแบบจำลอง ค่าจ้างตัวอย่างเช่นสามารถรวมคนงานและระดับความเชี่ยวชาญขององค์กรได้ อย่างไรก็ตามเราต้องไม่ลืมคำแนะนำก่อนหน้านี้

    6. รูปแบบทางคณิตศาสตร์ของสมการถดถอยต้องสอดคล้องกับตรรกะของการเชื่อมโยงปัจจัยกับผลลัพธ์ในวัตถุจริง ตัวอย่างเช่น ปัจจัยด้านผลผลิต เช่น ปริมาณปุ๋ยต่างๆ ระดับความอุดมสมบูรณ์ จำนวนวัชพืช ฯลฯ ทำให้ผลผลิตเพิ่มขึ้นโดยพึ่งพาอาศัยกันเพียงเล็กน้อย ผลผลิตสามารถอยู่ได้โดยไม่มีปัจจัยเหล่านี้ ลักษณะของความสัมพันธ์นี้สอดคล้องกับสมการการถดถอยเพิ่มเติม:

    คำแรกทางด้านขวาของความเท่าเทียมกันคือค่าเบี่ยงเบนที่เกิดขึ้นเนื่องจากความแตกต่างระหว่างค่าแต่ละค่าของปัจจัยในหน่วยที่กำหนดของประชากรจากค่าเฉลี่ยสำหรับประชากร เรียกได้ว่าเป็นผลจากเหตุปัจจัย ระยะที่สองคือความเบี่ยงเบนที่เกิดขึ้นเนื่องจากปัจจัยที่ไม่ได้รวมอยู่ในแบบจำลองและความแตกต่างระหว่างประสิทธิภาพของปัจจัยแต่ละอย่างในหน่วยที่กำหนดของประชากรกับประสิทธิภาพเฉลี่ยของปัจจัยในประชากร โดยวัดจากค่าสัมประสิทธิ์

    ตารางที่ 9.12 การวิเคราะห์อุปทานของปัจจัยและผลตอบแทนของปัจจัยตามแบบจำลองการถดถอยของระดับรายได้รวม

    การถดถอยที่จับบริสุทธิ์ จะเรียกว่ารีเทิร์นแฟกเตอร์ก็ได้

    ตัวอย่าง. ให้เราพิจารณาการคำนวณและการวิเคราะห์การเบี่ยงเบนตามแบบจำลองที่สร้างไว้ก่อนหน้านี้ของระดับรายได้รวมใน 16 ฟาร์ม สัญญาณของการเบี่ยงเบนเหล่านั้นและการเบี่ยงเบนอื่น ๆ เกิดขึ้น 8 ครั้งและไม่ตรงกัน 8 ครั้ง ค่าสัมประสิทธิ์สหสัมพันธ์ของอันดับความเบี่ยงเบนของทั้งสองประเภทคือ 0.156 ซึ่งหมายความว่าความสัมพันธ์ระหว่างความผันแปรของการจัดหาปัจจัยและความแปรผันของผลตอบแทนของปัจจัยนั้นอ่อนแอและไม่มีนัยสำคัญ (ตารางที่ 9.12)

    ให้ความสนใจกับฟาร์มหมายเลข 15 ที่มีข้อเท็จจริงสูง

    ความปลอดภัย (อันดับที่ 15) และปัจจัยที่แย่ที่สุด

    เดชา (อันดับ 1) เนื่องจากฟาร์มได้รับน้อยลง

    1 22 ถู รายได้จาก 1 เฮกตาร์ ตรงกันข้าม ฟาร์มหมายเลข 5 มี

    คลังสินค้าต่ำกว่าค่าเฉลี่ย แต่เนื่องจากการใช้ปัจจัยที่มีประสิทธิภาพมากขึ้น จึงได้รับ 125 รูเบิล รายได้จาก 1 เฮกตาร์สูงกว่าที่จะได้รับด้วยประสิทธิภาพเฉลี่ยของปัจจัยทั้งหมด ประสิทธิภาพที่สูงขึ้นของปัจจัย x\ (ต้นทุนแรงงาน) อาจหมายถึงคุณสมบัติของคนงานที่สูงขึ้นและความสนใจในคุณภาพของงานที่ทำมากขึ้น ประสิทธิภาพที่สูงขึ้นของปัจจัย xs ในแง่ของความสามารถในการทำกำไรอาจเป็นเพราะนมคุณภาพสูง (ปริมาณไขมัน การแช่เย็น) เนื่องจากขายในราคาที่สูงขึ้น ค่าสัมประสิทธิ์การถดถอยที่ x2 ตามที่ระบุไว้แล้ว ไม่สมเหตุสมผลทางเศรษฐกิจ

    การใช้แบบจำลองการถดถอยสำหรับการพยากรณ์ประกอบด้วยการแทนที่ค่าที่คาดหวังของคุณลักษณะปัจจัยลงในสมการการถดถอยเพื่อคำนวณจุดคาดการณ์ของคุณลักษณะผลลัพธ์หรือ/และช่วงความเชื่อมั่นด้วยความน่าจะเป็นที่กำหนดตามที่กล่าวไว้แล้วใน 9.6 ข้อจำกัดของการพยากรณ์โดยสมการการถดถอยที่กำหนดขึ้นนั้นยังคงใช้ได้สำหรับแบบจำลองหลายปัจจัย นอกจากนี้ยังจำเป็นต้องสังเกตความสอดคล้องระหว่างค่าของลักษณะปัจจัยที่แทนที่ในแบบจำลอง

    สูตรสำหรับการคำนวณข้อผิดพลาดโดยเฉลี่ยในการประมาณตำแหน่งของไฮเปอร์เพลนการถดถอยที่จุดหลายมิติที่กำหนดและสำหรับค่าแต่ละค่าของคุณลักษณะที่เป็นผลลัพธ์นั้นซับซ้อนมาก ต้องใช้พีชคณิตเมทริกซ์และไม่ได้พิจารณาในที่นี้ ข้อผิดพลาดเฉลี่ยในการประมาณค่าของคุณลักษณะที่มีประสิทธิภาพ คำนวณโดยใช้โปรแกรม Microstat PC และกำหนดในตาราง 9.7 เท่ากับ 79.2 รูเบิล ต่อ 1 เฮกตาร์ นี่เป็นเพียงค่าเบี่ยงเบนมาตรฐานของค่ารายได้จริงจากค่าที่คำนวณตามสมการซึ่งไม่ได้คำนึงถึงข้อผิดพลาดในตำแหน่งของไฮเปอร์เพลนการถดถอยเมื่อทำการประมาณค่าของสัญญาณปัจจัย ดังนั้นเราจึงจำกัดตัวเองให้ชี้การคาดการณ์ในรูปแบบต่างๆ (ตารางที่ 9.13)

    ในการเปรียบเทียบการคาดการณ์กับระดับฐานของค่าเฉลี่ยของคุณลักษณะ บรรทัดแรกของตารางจะถูกนำมาใช้ การคาดการณ์ในระยะสั้นได้รับการออกแบบมาสำหรับการเปลี่ยนแปลงปัจจัยเล็กน้อยในช่วงเวลาสั้นๆ และอุปทานแรงงานที่ลดลง

    ตารางที่ 9.13 ประมาณการรายได้รวมตามแบบจำลองการถดถอย

    ผลเสียคือรายได้ลดลง การคาดการณ์ระยะยาว A นั้น "ระมัดระวัง" โดยถือว่ามีความคืบหน้าในระดับปานกลางในปัจจัยต่างๆ และด้วยเหตุนี้รายได้จึงเพิ่มขึ้นเล็กน้อย ตัวเลือก B - "ในแง่ดี" ได้รับการออกแบบมาสำหรับการเปลี่ยนแปลงที่สำคัญในปัจจัยต่างๆ ตัวเลือกที่ 5 สร้างขึ้นตามวิธีที่ Agafya Tikhonovna ในภาพยนตร์ตลกเรื่อง "การแต่งงาน" ของ N.V. Gogol สร้างภาพเหมือนของ "เจ้าบ่าวในอุดมคติ" ทางจิตใจ: รับจมูกจากผู้สมัครคนหนึ่ง, คางจากอีกคนหนึ่ง, ความสูงจากตัวละครที่สาม จากที่สี่; ตอนนี้ ถ้าคุณสามารถรวมคุณสมบัติทั้งหมดที่เธอชอบไว้ในคนเดียวได้ เธอจะไม่ลังเลเลยที่จะแต่งงาน ในทำนองเดียวกัน เมื่อคาดการณ์ เรารวมค่าที่ดีที่สุด (จากมุมมองของแบบจำลองรายได้) ของปัจจัยที่สังเกตได้: เราใช้ค่า X จากฟาร์มหมายเลข 10 ค่า x2 จากฟาร์มหมายเลข 2 และ ค่า x3 จากฟาร์มหมายเลข 16 ค่าปัจจัยทั้งหมดเหล่านี้มีอยู่แล้วในจำนวนทั้งหมดที่ศึกษา ไม่ได้ "คาดหวัง" ไม่ใช่ "นำมาจากเพดาน" ดีจัง. อย่างไรก็ตามค่าปัจจัยเหล่านี้สามารถรวมกันในองค์กรเดียวได้หรือไม่ค่าเหล่านี้เป็นระบบหรือไม่? วิธีแก้ปัญหานี้อยู่นอกเหนือขอบเขตของสถิติ ซึ่งต้องใช้ความรู้เฉพาะเกี่ยวกับเป้าหมายของการพยากรณ์

    หากนอกเหนือจากปัจจัยเชิงปริมาณแล้ว ในการวิเคราะห์การถดถอยหลายตัวแปร ปัจจัยที่ไม่ใช่เชิงปริมาณจะรวมอยู่ในสมการด้วย จากนั้นจึงใช้วิธีการต่อไปนี้: การปรากฏตัวของปัจจัยที่ไม่ใช่เชิงปริมาณในหน่วยของประชากรจะแสดงโดย หนึ่ง ขาดศูนย์นั่นคือ เข้าสู่สิ่งที่เรียกว่า

    จำนวนของตัวแปรจำลองควรน้อยกว่าจำนวนการไล่ระดับของปัจจัยเชิงคุณภาพ (ไม่ใช่เชิงปริมาณ) หนึ่งตัว การใช้เทคนิคนี้ เป็นไปได้ที่จะวัดอิทธิพลของระดับการศึกษา สถานที่อยู่อาศัย ประเภทของที่อยู่อาศัย และปัจจัยทางสังคมหรือทางธรรมชาติอื่น ๆ ที่ไม่สามารถวัดปริมาณได้ โดยแยกออกจากอิทธิพลของปัจจัยเชิงปริมาณ

    สรุป

    ความสัมพันธ์ที่ไม่ปรากฏในแต่ละกรณี แต่เฉพาะในจำนวนรวมของข้อมูลเท่านั้น เรียกว่าทางสถิติ พวกเขาแสดงในความจริงที่ว่าเมื่อค่าของปัจจัย x เปลี่ยนแปลง การกระจายตามเงื่อนไขของคุณสมบัติที่มีประสิทธิภาพ y ก็จะเปลี่ยนไปด้วย: ค่าที่แตกต่างกันตัวแปรหนึ่ง (ปัจจัย x) สอดคล้องกับการแจกแจงที่แตกต่างกันของตัวแปรอื่น (ผลลัพธ์ y)

    ความสัมพันธ์เป็นกรณีพิเศษของความสัมพันธ์ทางสถิติ ซึ่งค่าต่างๆ ของตัวแปร x หนึ่งตัวสอดคล้องกับค่าเฉลี่ยที่แตกต่างกันของตัวแปร y

    ความสัมพันธ์แสดงให้เห็นว่าตัวแปรภายใต้การศึกษามีนิพจน์เชิงปริมาณ

    การเชื่อมต่อทางสถิติ - เพิ่มเติม แนวคิดกว้างๆไม่รวมข้อ จำกัด ในระดับการวัดตัวแปร ตัวแปรซึ่งเป็นความสัมพันธ์ระหว่างที่ศึกษาสามารถเป็นได้ทั้งเชิงปริมาณและไม่ใช่เชิงปริมาณ

    ความสัมพันธ์ทางสถิติสะท้อนถึงการเปลี่ยนแปลงในสัญญาณ x และ y ซึ่งอาจไม่ได้เกิดจากความสัมพันธ์เชิงสาเหตุ แต่เกิดจากความสัมพันธ์ที่ผิดพลาด ตัวอย่างเช่น ในการเปลี่ยนแปลงร่วมใน x และ y พบรูปแบบบางอย่าง แต่ไม่ได้เกิดจากอิทธิพล

    390

    คำอธิบายทางคณิตศาสตร์ของการพึ่งพาสหสัมพันธ์ของตัวแปรผลลัพธ์บนตัวแปรแฟกทอเรียลหลายตัวเรียกว่าสมการถดถอยพหุคูณ พารามิเตอร์ของสมการถดถอยจะประมาณค่าด้วยวิธีกำลังสองน้อยที่สุด (LSM) สมการถดถอยต้องเป็นเชิงเส้นในพารามิเตอร์

    ถ้าสมการถดถอยสะท้อนความไม่เชิงเส้นของความสัมพันธ์ระหว่างตัวแปร ดังนั้น การถดถอยจะลดลงเป็น รูปแบบเชิงเส้น(เชิงเส้น) โดยการเปลี่ยนตัวแปรหรือใช้ลอการิทึม

    ด้วยการแนะนำตัวแปรจำลองในสมการถดถอย เป็นไปได้ที่จะคำนึงถึงอิทธิพลของตัวแปรที่ไม่ใช่เชิงปริมาณ โดยแยกตัวแปรเหล่านั้นออกจากอิทธิพลของปัจจัยเชิงปริมาณ

    หากค่าสัมประสิทธิ์ของการกำหนดมีค่าใกล้เคียงกับค่าหนึ่ง จากนั้นใช้สมการถดถอย คุณสามารถทำนายว่าค่าของตัวแปรตามจะเป็นค่าใดสำหรับค่าที่คาดหวังของตัวแปรอิสระหนึ่งค่าหรือมากกว่านั้น

    1. Eliseeva I. I. วิธีการทางสถิติสำหรับการวัดการเชื่อมต่อ - L.: สำนักพิมพ์เลนินกราด อังตา, 2525.

    2. Eliseeva I. I. , Rukavishnikov V. O. ตรรกะของการวิเคราะห์ทางสถิติประยุกต์ - ม.: การเงินและสถิติ, 2525.

    3. O. P. Krastin, การพัฒนาและการตีความแบบจำลองความสัมพันธ์ทางเศรษฐศาสตร์. - ริกา: Zinatne, 1983

    4. Kulaichev A. P. วิธีการและวิธีการวิเคราะห์ข้อมูลในสภาพแวดล้อม Windows สตาเดีย 6.0 - ม.: สช. "สารสนเทศและคอมพิวเตอร์", 2539.

    5. การสร้างแบบจำลองทางสถิติและการพยากรณ์: Proc. เบี้ยเลี้ยง/กศน. เอ. จี. แกรนเบิร์ก. - ม.: การเงินและสถิติ, 2533.

    6. Foerster E, Renz B. วิธีการวิเคราะห์ความสัมพันธ์และการถดถอย คู่มือสำหรับนักเศรษฐศาสตร์: ต่อ. กับเขา. - ม.: การเงินและสถิติ, 2526.

    งานของการถดถอยเชิงเส้นพหุคูณคือการสร้างแบบจำลองเชิงเส้นของความสัมพันธ์ระหว่างชุดของตัวทำนายแบบต่อเนื่องและตัวแปรตามแบบต่อเนื่อง มักใช้สมการถดถอยต่อไปนี้:

    ที่นี่ ฉัน- ค่าสัมประสิทธิ์การถดถอย ข 0- สมาชิกฟรี (ถ้าใช้) อี- สมาชิกที่มีข้อผิดพลาด - มีการตั้งสมมติฐานต่าง ๆ เกี่ยวกับมันซึ่งมักจะลดลงสู่ภาวะปกติของการแจกแจงด้วยเสื่อเวกเตอร์ศูนย์ เมทริกซ์ความคาดหวังและความสัมพันธ์

    แบบจำลองเชิงเส้นดังกล่าวอธิบายงานจำนวนมากในสาขาวิชาต่างๆ ได้ดี ตัวอย่างเช่น เศรษฐศาสตร์ อุตสาหกรรม และการแพทย์ เนื่องจากงานบางอย่างมีลักษณะเป็นเส้นตรง

    ลองมาเป็นตัวอย่างง่ายๆ จำเป็นต้องทำนายค่าใช้จ่ายในการวางถนนตามพารามิเตอร์ที่ทราบ ในขณะเดียวกัน เราก็มีข้อมูลของถนนที่ปูไว้แล้ว โดยระบุความยาว ความลึกของการโรย ปริมาณวัสดุที่ใช้งาน จำนวนคนงาน และอื่นๆ

    เป็นที่ชัดเจนว่าในที่สุดต้นทุนของถนนจะเท่ากับผลรวมของต้นทุนของปัจจัยเหล่านี้ทั้งหมดแยกกัน จะต้องใช้เงินจำนวนหนึ่ง เช่น หินบด ซึ่งมีต้นทุนที่ทราบต่อตัน ยางมะตอยจำนวนหนึ่ง ซึ่งมีค่าใช้จ่ายที่ทราบเช่นกัน

    เป็นไปได้ว่าป่าไม้จะต้องถูกตัดลงเพื่อวางซึ่งจะนำไปสู่ค่าใช้จ่ายเพิ่มเติม ทั้งหมดนี้จะเป็นค่าใช้จ่ายในการสร้างถนน

    ในกรณีนี้ โมเดลจะรวมสมาชิกฟรี ซึ่งจะรับผิดชอบค่าใช้จ่ายขององค์กร (ซึ่งประมาณเดียวกันสำหรับงานก่อสร้างและติดตั้งทั้งหมด ระดับที่กำหนด) หรือภาษี

    ข้อผิดพลาดจะรวมถึงปัจจัยที่เราไม่ได้นำมาพิจารณาเมื่อสร้างแบบจำลอง (เช่น สภาพอากาศระหว่างการก่อสร้าง - ไม่สามารถนำมาพิจารณาได้เลย)

    ตัวอย่าง: การวิเคราะห์การถดถอยพหุคูณ

    สำหรับตัวอย่างนี้ ความสัมพันธ์ที่เป็นไปได้หลายประการของอัตราความยากจนและอำนาจที่คาดการณ์เปอร์เซ็นต์ของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจนจะได้รับการวิเคราะห์ ดังนั้น เราจะพิจารณาตัวแปรที่แสดงลักษณะร้อยละของครอบครัวที่อยู่ต่ำกว่าเส้นความยากจนเป็นตัวแปรตาม และตัวแปรที่เหลือเป็นตัวทำนายต่อเนื่อง

    ค่าสัมประสิทธิ์การถดถอย

    หากต้องการทราบว่าตัวแปรอิสระตัวใดมีส่วนในการทำนายระดับความยากจนมากกว่ากัน เราตรวจสอบ ค่าสัมประสิทธิ์มาตรฐาน(หรือเบต้า) การถดถอย

    ข้าว. 1. ค่าประมาณของพารามิเตอร์ของสัมประสิทธิ์การถดถอย

    ค่าสัมประสิทธิ์เบต้าคือค่าสัมประสิทธิ์ที่คุณจะได้รับหากคุณปรับตัวแปรทั้งหมดให้มีค่าเฉลี่ยเป็น 0 และส่วนเบี่ยงเบนมาตรฐานเป็น 1 ดังนั้น ขนาดของค่าสัมประสิทธิ์เบต้าเหล่านี้ทำให้คุณสามารถเปรียบเทียบส่วนสัมพันธ์ของตัวแปรอิสระแต่ละตัวกับตัวแปรตามได้ . ดังที่เห็นได้จากตารางที่แสดงด้านบน การเปลี่ยนแปลงของประชากรตั้งแต่ปี 1960 (POP_CHING) เปอร์เซ็นต์ของประชากรที่อาศัยอยู่ในพื้นที่ชนบท (PT_RURAL) และจำนวนคนที่ทำงานในภาคเกษตรกรรม (N_Empld) เป็นปัจจัยทำนายที่สำคัญที่สุดของอัตราความยากจน , เช่น เท่านั้นที่มีนัยสำคัญทางสถิติ (95% ช่วงความมั่นใจไม่รวม 0) ค่าสัมประสิทธิ์การถดถอยของการเปลี่ยนแปลงประชากรตั้งแต่ปี 1960 (Pop_Chng) เป็นค่าลบ ดังนั้นยิ่งจำนวนประชากรเพิ่มขึ้นน้อยลง ครอบครัวที่อาศัยอยู่ต่ำกว่าเส้นแบ่งความยากจนในเทศมณฑลนั้นก็ยิ่งมีมากขึ้นเท่านั้น ค่าสัมประสิทธิ์การถดถอยของประชากร (%) ที่อาศัยอยู่ในหมู่บ้าน (Pt_Rural) เป็นค่าบวก กล่าวคือ ยิ่งมีประชากรในชนบทมากเท่าใด อัตราความยากจนก็จะยิ่งมากขึ้นเท่านั้น

    ความสำคัญของผลทำนาย

    มาดูตารางที่มีเกณฑ์นัยสำคัญกัน

    ข้าว. 2. ผลลัพธ์พร้อมกันสำหรับแต่ละตัวแปรที่กำหนด

    จากตารางนี้ ผลกระทบของตัวแปร 2 ตัวเท่านั้นที่มีนัยสำคัญทางสถิติ: การเปลี่ยนแปลงของประชากรตั้งแต่ปี 1960 (Pop_Chng) และเปอร์เซ็นต์ของประชากรที่อาศัยอยู่ในหมู่บ้าน (Pt_Rural), p< .05.

    การวิเคราะห์สารตกค้าง หลังจากปรับสมการถดถอยแล้ว จำเป็นต้องตรวจสอบค่าที่คาดการณ์ไว้และค่าที่เหลือเกือบทุกครั้ง ตัวอย่างเช่น ค่าผิดปกติขนาดใหญ่สามารถบิดเบือนผลลัพธ์อย่างมากและนำไปสู่ข้อสรุปที่ผิดพลาดได้

    กราฟเส้นของการปล่อยมลพิษ

    โดยปกติแล้วจำเป็นต้องตรวจสอบส่วนที่เหลือดั้งเดิมหรือมาตรฐานสำหรับค่าผิดปกติขนาดใหญ่

    ข้าว. 3. จำนวนการสังเกตและจำนวนคงเหลือ

    สเกลของแกนตั้งของกราฟนี้ถูกพล็อตโดยค่าของซิกมา นั่นคือ ส่วนเบี่ยงเบนมาตรฐานของเหลือ หากการสังเกตอย่างน้อยหนึ่งรายการไม่อยู่ในช่วง ±3 เท่าของซิกมา ดังนั้น การยกเว้นการสังเกตเหล่านั้นอาจคุ้มค่า (ซึ่งสามารถทำได้ง่ายผ่านเงื่อนไขการเลือกสำหรับการสังเกต) และเรียกใช้การวิเคราะห์อีกครั้งเพื่อให้แน่ใจว่าผลลัพธ์จะไม่เปลี่ยนแปลงโดย ค่าผิดปกติเหล่านี้

    ระยะทาง Mahalanobis

    หนังสือเรียนทางสถิติส่วนใหญ่ใช้เวลาส่วนใหญ่ไปกับค่าผิดปกติและค่าที่เหลือของตัวแปรตาม อย่างไรก็ตาม บทบาทของค่าผิดปกติในตัวทำนายมักจะไม่ได้รับการระบุ ที่ด้านข้างของตัวแปรทำนาย มีรายการของตัวแปรที่มีน้ำหนักต่างกัน (ค่าสัมประสิทธิ์การถดถอย) ในการทำนายตัวแปรตาม คุณสามารถคิดว่าตัวแปรอิสระเป็นพื้นที่หลายมิติซึ่งการสังเกตใด ๆ จะถูกเลื่อนออกไป ตัวอย่างเช่น หากคุณมีตัวแปรอิสระสองตัวที่มีค่าสัมประสิทธิ์การถดถอยเท่ากัน คุณก็สามารถวางพล็อตกระจายของตัวแปรสองตัวนี้และวางการสังเกตแต่ละตัวบนพล็อตนั้น จากนั้นเราสามารถทำเครื่องหมายค่าเฉลี่ยบนกราฟนี้และคำนวณระยะทางจากการสังเกตแต่ละครั้งถึงค่าเฉลี่ยนี้ (ที่เรียกว่าจุดศูนย์ถ่วง) ในปริภูมิสองมิติ นี่คือแนวคิดหลักเบื้องหลังการคำนวณระยะทาง Mahalanobis ตอนนี้ดูที่ฮิสโตแกรมของตัวแปรการเปลี่ยนแปลงประชากรตั้งแต่ปี 1960

    ข้าว. 4. ฮิสโตแกรมของการกระจายระยะทาง Mahalanobis

    จากกราฟพบว่ามีค่าผิดปกติหนึ่งค่าที่ระยะ Mahalanobis

    ข้าว. 5. สังเกต ทำนาย และมูลค่าคงเหลือ

    สังเกตว่าเชลบีเคาน์ตี้ (แถวแรก) โดดเด่นกว่าเคาน์ตีอื่นๆ อย่างไร หากคุณดูข้อมูลดิบ คุณจะพบว่าแท้จริงแล้ว Shelby County มีผู้คนจำนวนมากที่ทำงานในภาคการเกษตร (ตัวแปร N_Empld) อาจเป็นวิธีที่ฉลาดกว่าหากแสดงเป็นเปอร์เซ็นต์มากกว่าตัวเลขสัมบูรณ์ ซึ่งในกรณีนี้ระยะทาง Mahalanobis ของ Shelby County อาจจะไม่มากเมื่อเทียบกับมณฑลอื่นๆ เห็นได้ชัดว่า Shelby County เป็นคนนอกกรอบ

    เศษซากที่ถูกลบออก

    สถิติที่สำคัญอีกประการหนึ่งที่ช่วยให้สามารถวัดความรุนแรงของปัญหาที่ผิดปกติได้คือจำนวนคงเหลือที่ถูกลบออก สิ่งเหล่านี้คือส่วนที่เหลือที่เป็นมาตรฐานสำหรับกรณีที่เกี่ยวข้อง ซึ่งได้มาจากการลบกรณีนั้นออกจากการวิเคราะห์ โปรดจำไว้ว่าขั้นตอนการถดถอยพหุจะปรับพื้นผิวการถดถอยเพื่อแสดงความสัมพันธ์ระหว่างตัวแปรตามและตัวทำนาย หากการสังเกตอย่างหนึ่งเป็นค่าผิดปกติ (เช่น Shelby County) แสดงว่ามีแนวโน้มที่จะ "ดึง" พื้นผิวการถดถอยไปสู่ค่าผิดปกตินั้น ดังนั้น หากการสังเกตที่เกี่ยวข้องถูกลบออก ก็จะได้พื้นผิวอื่น (และค่าสัมประสิทธิ์เบต้า) ดังนั้น หากสิ่งตกค้างที่ถูกลบออกไปนั้นแตกต่างจากสิ่งตกค้างมาตรฐานอย่างมาก คุณจะมีเหตุผลที่จะสันนิษฐานว่า การวิเคราะห์การถดถอยผิดเพี้ยนไปอย่างมากจากข้อสังเกตที่เกี่ยวข้อง ในตัวอย่างนี้ ส่วนที่เหลือที่ถูกลบออกสำหรับ Shelby County แสดงว่านี่เป็นค่าผิดปกติที่บิดเบือนการวิเคราะห์อย่างมาก พล็อตกระจายแสดงค่าผิดปกติอย่างชัดเจน

    ข้าว. 6. ตัวแปร Initial Residuals และ Displaced Residuals บ่งชี้เปอร์เซ็นต์ของครอบครัวที่อาศัยอยู่ใต้เส้นความยากจน

    ส่วนใหญ่มีการตีความที่ชัดเจนไม่มากก็น้อย อย่างไรก็ตาม เรามาดูกราฟความน่าจะเป็นแบบปกติกัน

    ดังที่กล่าวไปแล้ว การถดถอยพหุคูณถือว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรในสมการและการแจกแจงแบบปกติของเศษเหลือ หากสมมติฐานเหล่านี้ถูกละเมิด ข้อสรุปอาจไม่ถูกต้อง แผนภาพความน่าจะเป็นปกติของส่วนที่เหลือจะบอกคุณว่ามีการละเมิดสมมติฐานเหล่านี้อย่างร้ายแรงหรือไม่

    ข้าว. 7. กราฟความน่าจะเป็นปกติ ของเหลือเดิม

    แผนภูมินี้สร้างขึ้นด้วยวิธีต่อไปนี้ ประการแรก ส่วนที่เหลือมาตรฐานจะถูกจัดลำดับ จากอันดับเหล่านี้ เราสามารถคำนวณค่า z (เช่น ค่ามาตรฐานของการแจกแจงแบบปกติ) ตามสมมติฐานว่าข้อมูลเป็นไปตาม การแจกแจงแบบปกติ. ค่า z เหล่านี้จะลงจุดตามแกน y บนกราฟ

    หากส่วนที่เหลือที่สังเกตได้ (ลงจุดตามแนวแกน x) กระจายตามปกติ ค่าทั้งหมดจะอยู่ในเส้นตรงบนกราฟ บนกราฟของเรา จุดทั้งหมดอยู่ใกล้กันมากเมื่อเทียบกับเส้นโค้ง หากส่วนที่เหลือไม่ได้รับการแจกจ่ายตามปกติ ก็จะเบี่ยงเบนไปจากบรรทัดนี้ ค่าผิดปกติจะสังเกตเห็นได้ในกราฟนี้

    หากมีการสูญหายของข้อตกลงและข้อมูลปรากฏเป็นเส้นโค้งที่ชัดเจน (เช่น ในรูปตัว S) รอบเส้น ดังนั้นตัวแปรตามสามารถแปลงได้ด้วยวิธีใดวิธีหนึ่ง (เช่น การแปลงลอการิทึมเพื่อ "ลด" หางของการกระจาย ฯลฯ ) การอภิปรายเกี่ยวกับวิธีการนี้อยู่นอกขอบเขตของตัวอย่างนี้ (Neter, Wasserman และ Kutner, 1985, หน้า 134-141, การอภิปรายเกี่ยวกับการแปลงที่ลบความไม่ปกติและความไม่เชิงเส้นของข้อมูลถูกนำเสนอ) อย่างไรก็ตาม นักวิจัยมักจะทำการวิเคราะห์โดยตรงโดยไม่ทดสอบสมมติฐานที่เกี่ยวข้อง ซึ่งนำไปสู่ข้อสรุปที่ผิดพลาด


    การบรรยายครั้งที่ 3 การถดถอยพหุคูณ

      เงื่อนไขในการใช้วิธีและข้อจำกัด

    การถดถอยแบบคู่สามารถให้ผลลัพธ์ที่ดีในการสร้างแบบจำลองหากละเลยอิทธิพลของปัจจัยอื่น ๆ ที่ส่งผลต่อวัตถุประสงค์ของการศึกษา ไม่สามารถควบคุมพฤติกรรมของตัวแปรทางเศรษฐกิจแต่ละตัวได้ ไม่สามารถรับประกันความเท่าเทียมกันของเงื่อนไขอื่น ๆ ทั้งหมดสำหรับการประเมินอิทธิพลของปัจจัยหนึ่งภายใต้การศึกษา ในกรณีนี้ เราควรพยายามระบุอิทธิพลของปัจจัยอื่นๆ สร้างสมการถดถอยพหุคูณ:

    เป้าหมายหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองที่มีปัจจัยจำนวนมาก ในขณะที่กำหนดอิทธิพลของแต่ละปัจจัยแยกกัน ตลอดจนผลกระทบสะสมที่มีต่อตัวบ่งชี้แบบจำลอง ข้อมูลจำเพาะของแบบจำลองประกอบด้วยคำถามสองประเด็น: การเลือกปัจจัยและการเลือกประเภทของสมการถดถอย

    ข้อกำหนดปัจจัย:

      ควรวัดได้ หากจำเป็น ให้รวมปัจจัยเชิงคุณภาพไว้ในแบบจำลองที่ไม่มีการวัดเชิงปริมาณ จะต้องระบุความแน่นอนเชิงปริมาณ (เช่น ในแบบจำลองผลผลิต คุณภาพของดินจะได้รับในรูปของคะแนน)

      พวกเขาไม่ควรมีความสัมพันธ์กันและยิ่งกว่านั้นควรอยู่ในความสัมพันธ์เชิงหน้าที่ที่แน่นอน รวมอยู่ในแบบจำลองของปัจจัยที่มีความสัมพันธ์กันสูงเมื่อ

    สำหรับการเสพติด

    สามารถนำไปสู่ผลที่ไม่พึงประสงค์ นำไปสู่ความไม่แน่นอนและไม่น่าเชื่อถือของการประมาณค่าสัมประสิทธิ์การถดถอย หากมีความสัมพันธ์ระหว่างปัจจัยต่างๆ สูง ก็จะไม่สามารถระบุอิทธิพลที่แยกได้จากปัจจัยเหล่านี้ต่อตัวบ่งชี้ประสิทธิภาพ ดังนั้นพารามิเตอร์ของสมการถดถอยจึงไม่สามารถตีความได้

      พหุลักษณ์

    เฉพาะสำหรับระบบหลายปัจจัยคือเงื่อนไขของการไม่สามารถยอมรับได้ของการเชื่อมต่อที่ใกล้ชิดเกินไประหว่างคุณลักษณะของปัจจัย เงื่อนไขนี้มักเรียกว่าปัญหาความสอดคล้องกันของปัจจัย Collinearity หมายถึงความสัมพันธ์เชิงเส้นตรงแบบไม่สุ่มที่ค่อนข้างใกล้เคียงกันของปัจจัยบางอย่างกับปัจจัยอื่นๆ มักจะแนะนำให้แยกปัจจัยที่เกี่ยวข้องกับปัจจัยอื่นที่ จากปัจจัยทั้งสองที่เกี่ยวข้องอย่างใกล้ชิด มีเหตุผลที่จะไม่รวมปัจจัยที่อ่อนแอกว่าที่เกี่ยวข้องกับคุณลักษณะที่มีประสิทธิภาพ

    ต้องใช้เทคนิคที่ซับซ้อนมากขึ้นในการค้นหาและแยกปัจจัยที่ไม่มีความสัมพันธ์ใกล้ชิดกับปัจจัยแต่ละอย่าง แต่มีความสัมพันธ์แบบหลายปัจจัยอย่างใกล้ชิดกับปัจจัยที่ซับซ้อนอื่นๆ ตำแหน่งนี้เรียกว่า ในการวัด เราควรคำนวณค่าสัมประสิทธิ์ของสหสัมพันธ์พหุคูณ (หรือการกำหนด) ของแต่ละปัจจัยตามลำดับ (ในบทบาทของผลลัพธ์) กับปัจจัยอื่นๆ ทั้งหมด (ในบทบาทของตัวแปรอธิบาย) เมื่อค้นพบปัจจัยหลายกลุ่มเชิงเส้นหรือหลายปัจจัยแล้ว เราควรพิจารณาความเป็นไปได้ที่จะไม่รวมปัจจัยส่วนใหญ่ที่ขึ้นอยู่กับความซับซ้อนของปัจจัยที่เหลือ หากสิ่งนี้ไม่นำไปสู่การสูญเสีย ความรู้สึกทางเศรษฐกิจโมเดล

    ความเป็นเส้นตรงและหลายเส้นตรงของปัจจัยต่างๆ ในระบบเศรษฐกิจไม่ได้เกิดขึ้นโดยบังเอิญ ในชุดขององค์กรหรือภูมิภาคที่เป็นเนื้อเดียวกันตามกฎแล้วเนื่องจากกฎหมายเศรษฐศาสตร์ลักษณะปัจจัยที่ผันแปรขนานกันเกิดขึ้น: องค์กรเหล่านั้นที่มีค่าที่ดีที่สุดของปัจจัยบางอย่างเช่นดีที่สุด สภาพธรรมชาติในขณะเดียวกันก็มีอัตราส่วนทุนและกำลังต่อน้ำหนักที่สูงกว่า คุณสมบัติของบุคลากรที่สูงกว่า เทคโนโลยีที่ดีกว่า ฯลฯ ดังนั้นปัจจัยการผลิตทั้งหมดหรือเงื่อนไขทางเศรษฐกิจและสังคมของชีวิตจึงหลีกเลี่ยงไม่ได้มากหรือน้อย

    การปรากฏตัวของ collinearity ในระบบทำให้คุณภาพทางคณิตศาสตร์ของแบบจำลองแย่ลงอาจนำไปสู่ความไม่แน่นอนของพารามิเตอร์ผลลัพธ์ซึ่งเปลี่ยนแปลงอย่างมากโดยมีการเปลี่ยนแปลงเล็กน้อยในค่าของปัจจัย

    ปัญหาเฉพาะของการวิเคราะห์หลายตัวแปรคือคำถามของความเป็นไปได้ในการแทนที่ปัจจัยที่ไม่มีข้อมูลด้วยปัจจัยอื่นและผลที่ตามมาของการแทนที่ดังกล่าว

    หากเป็นไปได้ให้ค้นหาตัวแปรอื่นที่ทราบค่าและมีความสัมพันธ์ใกล้ชิดกับปัจจัยที่ขาดหายไป ตัวอย่างเช่น หากไม่มีข้อมูลสำหรับภูมิภาคเกี่ยวกับค่าจ้างเฉลี่ย ก็สามารถแทนที่ด้วยมูลค่าของผลิตภัณฑ์มวลรวมของภูมิภาคต่อหัว โดยคำนึงว่าควรมีความสัมพันธ์ที่ใกล้ชิด (แม้ว่าจะไม่ทราบแน่ชัด) ระหว่างเศรษฐกิจเหล่านี้ ตัวชี้วัด

    สิ่งสำคัญคือต้องพิจารณาถึงวัตถุประสงค์ในการสร้างแบบจำลอง หากเป้าหมายเป็นเพียงการคาดการณ์คุณลักษณะที่มีประสิทธิผล การแทนที่ตัวประกอบด้วยตัวแปรอื่น หากมีความเกี่ยวข้องอย่างใกล้ชิดกับตัวประกอบที่ถูกแทนที่ จะไม่ทำให้เกิดข้อผิดพลาดที่มีนัยสำคัญ แต่ถ้าเป้าหมายของแบบจำลองคือการตัดสินใจเกี่ยวกับนโยบายเศรษฐกิจโดยผู้จัดการ การแทนที่ปัจจัยที่ควบคุมด้วยปัจจัยทดแทนที่เกี่ยวข้องอย่างใกล้ชิด แต่ไม่มีการจัดการจะทำให้แบบจำลองไม่มีความหมาย แม้ว่าจะมีความมุ่งมั่นสูงก็ตาม

      การเลือกประเภทของตัวแบบหลายปัจจัยและคุณสมบัติของตัวประกอบ

    ความสัมพันธ์ของคุณลักษณะที่มีประสิทธิภาพ ด้วยปัจจัย x 1 , x 2 , …, x เค แสดงโดยสมการ:

    (22)

    ที่ไหน คือเทอมว่างของสมการ

    เค– จำนวนปัจจัย

    เจ– เลขตัวประกอบ

    ฉันคือจำนวนหน่วยประชากร

    เจเป็นค่าสัมประสิทธิ์การถดถอยบริสุทธิ์แบบมีเงื่อนไขพร้อมตัวประกอบ x เจซึ่งวัดการเปลี่ยนแปลงในผลลัพธ์เมื่อปัจจัยเปลี่ยนแปลงตามหน่วยของมัน และด้วยค่าคงที่ของปัจจัยอื่นๆ ที่รวมอยู่ในแบบจำลอง

    ε ฉัน- รูปแบบสุ่ม ฉัน, ไม่ได้อธิบายโดยแบบจำลอง

    แบบจำลองในรูป (22) เป็นแบบเติมแต่ง ซึ่งหมายความว่าตัวแบบขึ้นอยู่กับสมมติฐานที่ว่าแต่ละปัจจัยบวกหรือลบบางอย่างออกจากค่าของแอตทริบิวต์ที่เป็นผลลัพธ์ สมมติฐานดังกล่าวเกี่ยวกับประเภทของความเชื่อมโยงระหว่างเหตุและผลสะท้อนถึงระบบเศรษฐกิจจำนวนหนึ่งที่มีลักษณะสัมพันธ์กันอย่างสมบูรณ์ ตัวอย่างเช่น ถ้า คือผลผลิตพืชและ x 1 , x 2 , …, x เค- ปัจจัยทางเทคนิคทางการเกษตร: ปริมาณของปุ๋ยประเภทต่างๆ จำนวนวัชพืช การรดน้ำ สัดส่วนของการสูญเสียระหว่างการเก็บเกี่ยว จากนั้น ปัจจัยเหล่านี้แต่ละอย่างจะเพิ่มหรือลดผลผลิต และผลลัพธ์สามารถดำรงอยู่ได้โดยไม่มีปัจจัยเหล่านี้

    อย่างไรก็ตาม แบบจำลองเพิ่มเติมไม่เหมาะสำหรับทุกความสัมพันธ์ในระบบเศรษฐกิจ หากมีการศึกษาความสัมพันธ์ดังกล่าวว่าขึ้นอยู่กับปริมาณการผลิตขององค์กร จากพื้นที่ยึดครอง x 1 , จำนวนพนักงาน x 2 ต้นทุนของสินทรัพย์ถาวร x 3 (หรือทุนทั้งหมด) จากนั้นปัจจัยแต่ละอย่างจำเป็นต่อการดำรงอยู่ของผลลัพธ์ ไม่ใช่ส่วนเพิ่มเติม ในสถานการณ์เช่นนี้ เราต้องดำเนินการต่อจากสมมติฐานของรูปแบบการคูณของตัวแบบ:

    (23)

    ตามผู้สร้างคนแรกแบบจำลองดังกล่าวเรียกว่า "แบบจำลอง Cobb-Douglas"

    รูปแบบผสมของแบบจำลองก็เป็นไปได้เช่นกัน ซึ่งปัจจัยบางอย่างจะป้อนแบบบวก ในขณะที่ปัจจัยอื่นๆ จะป้อนแบบทวีคูณ

    เมื่อเลือกลักษณะปัจจัยควรดำเนินการตามบทบัญญัติต่อไปนี้

      ปัจจัยควรเป็นเหตุและสัญญาณที่เป็นผลลัพธ์ควรเป็นผลของมัน เป็นที่ยอมรับไม่ได้ที่จะรวมคุณลักษณะจำนวนหนึ่งซึ่งครอบครองสถานที่ในเศรษฐกิจจริงที่ "เอาต์พุต" ของระบบเช่น ขึ้นอยู่กับรุ่น ตัวอย่างเช่น กำลังสร้างแบบจำลองราคาหนึ่งร้อยเมล็ดข้าว ปัจจัยที่นำมาคือผลผลิตของธัญญพืชและความเข้มแรงงานของ centner แต่ค่าสัมประสิทธิ์ของการกำหนดมีขนาดเล็ก แบบจำลองไม่ดี ในการ "ปรับปรุง" นั้น ผลกำไรของการผลิตธัญพืชได้เพิ่มเข้าไปในจำนวนของปัจจัยต่างๆ ค่าสัมประสิทธิ์ของความมุ่งมั่นเพิ่มขึ้นเป็น 0.88 ทันที แต่โมเดลไม่ได้ดีขึ้น มันไม่มีความหมาย เนื่องจากความสามารถในการทำกำไรขึ้นอยู่กับราคาต้นทุน ไม่ใช่ในทางกลับกัน

      เครื่องหมายปัจจัยไม่ควรเป็นส่วนประกอบของเครื่องหมายผลลัพธ์ ในรูปแบบต้นทุนเดียวกัน ค่าจ้างต่อเปอร์เซ็นต์ของเมล็ดพืช ค่าใช้จ่ายในการขนส่งหนึ่งเปอร์เซ็นต์ของเมล็ดพืช ฯลฯ ไม่สามารถนำมาเป็นปัจจัยได้ ความสัมพันธ์ของส่วนรวมกับชิ้นส่วนโครงสร้างไม่ควรวิเคราะห์ด้วยความช่วยเหลือ การวิเคราะห์ความสัมพันธ์แต่ด้วยความช่วยเหลือของระบบดัชนี

      ควรหลีกเลี่ยงความซ้ำซ้อนของปัจจัย แต่ละปัจจัยที่แท้จริงควรแสดงด้วยตัวบ่งชี้เดียว ตัวอย่างเช่น ปัจจัยด้านแรงงานในแบบจำลองปริมาณการผลิตสามารถแสดงด้วยจำนวนพนักงานโดยเฉลี่ย หรือโดยต้นทุนของวันทำงาน (ชั่วโมงทำงาน) สำหรับการผลิต แต่ไม่ใช่โดยตัวบ่งชี้ทั้งสอง ความซ้ำซ้อนของปัจจัยนำไปสู่การแยกส่วน อิทธิพลของปัจจัยและอาจไม่น่าเชื่อถือเนื่องจากการแยกส่วนดังกล่าว

      ควรหลีกเลี่ยงปัจจัยที่เกี่ยวข้องอย่างใกล้ชิดกับผู้อื่นทุกครั้งที่ทำได้

      ควรรวมปัจจัยของลำดับชั้นหนึ่งระดับ ไม่ควรรวมปัจจัยของระดับที่สูงกว่าและปัจจัยย่อย ตัวอย่างเช่น ในแบบจำลองต้นทุนธัญพืช เรารวมผลผลิต ความเข้มข้นของแรงงาน แต่เราไม่ได้เพิ่มคะแนนความอุดมสมบูรณ์ ปริมาณปุ๋ย การจัดหาพลังงานของคนงาน เช่น ปัจจัยย่อย - สาเหตุที่ส่งผลต่อผลผลิตและความเข้มของแรงงาน การรวมปัจจัยย่อยก็เป็นการซ้ำซ้อนของปัจจัยเช่นกัน

      มีเหตุผลในการสร้างแบบจำลองซึ่งสัญญาณทั้งหมดถูกกำหนดให้กับหน่วยเดียวกันของประชากรทั้งสัญญาณที่มีประสิทธิภาพและปัจจัยต่างๆ ตัวอย่างเช่น หากมีการสร้างแบบจำลองปริมาณการผลิตขององค์กร ปัจจัยต่างๆ ควรอ้างอิงถึงองค์กรด้วย: จำนวนพนักงาน พื้นที่ที่ดิน สินทรัพย์ถาวร เป็นต้น หากมีการสร้างแบบจำลองค่าจ้างของพนักงาน ปัจจัยต่างๆ ควรเกี่ยวข้องกับพนักงานด้วย: อายุงาน อายุ การศึกษา อัตราค่าไฟฟ้า (มาตราส่วน) อัตราส่วนกำลังต่อน้ำหนัก ฯลฯ

      ใช้หลักการของความเรียบง่ายของแบบจำลอง หากสามารถสร้างได้ แบบจำลองที่ดีด้วยปัจจัย 5 ประการ คุณไม่ควรไล่ตามโมเดลในอุดมคติด้วยปัจจัย 10 ประการ โดยปกติแล้วปัจจัยเพิ่มเติมจะทำให้โมเดลแย่ลง

      ดัชนีชี้วัดสหสัมพันธ์และการถดถอยหลายตัวแปร

    ลองพิจารณาระบบตัวชี้วัดนี้ในตัวอย่างความสัมพันธ์ระหว่างผลผลิตธัญญพืชในบริษัทเกษตร 51 แห่งในภูมิภาค Oryol ในขั้นต้น มีการเลือกลักษณะปัจจัย 8 ประการที่อาจส่งผลต่อการเปลี่ยนแปลงของผลผลิต:

    x 1 - ขนาดของพื้นที่หว่านของธัญพืช ฮ่า;

    x 2 แรงดึงดูดเฉพาะธัญพืชในพื้นที่ทั้งหมด %;

    x 3 – ค่าใช้จ่ายต่อ 1 เฮกตาร์ของธัญพืช พันรูเบิล/เฮกตาร์

    x 4 - ค่าแรงต่อ 1 เฮกตาร์, ชั่วโมงทำงาน;.

    x 5 – ระดับค่าตอบแทน rub./คน-ชั่วโมง;

    x 6 – แหล่งพลังงาน แรงม้า/100 เฮกตาร์ของที่ดินทำกิน

    x 7 - จำนวนของการรวมกันต่อ 1,000 เฮกตาร์ของเมล็ดพืช, ชิ้น;

    x 8 - จำนวนคนขับรถแทรกเตอร์ต่อที่ดินทำกิน 100 เฮกตาร์ คน

    สมการถดถอยเดิมคือ:

    อย่างไรก็ตาม เฉพาะค่าสัมประสิทธิ์ที่ x 3 (ที-เกณฑ์เท่ากับ 10.5) และเมื่อ x 8 (ที-เกณฑ์เท่ากับ 2.72) มีความน่าเชื่อถือมากกว่าปัจจัยอื่นๆ และ x 5 .

    หลังจากกรองปัจจัยที่ไม่น่าเชื่อถือออกแล้ว เช่น ลบออกจากสมการ สมการถดถอยสุดท้ายคือ:

    ดังนั้น ความแตกต่างของผลผลิตในข้อมูลของบริษัทเกษตร 51 แห่งจึงได้รับอิทธิพลอย่างมากและเชื่อถือได้มากที่สุดจากความแตกต่างระหว่างวิสาหกิจในด้านต้นทุนต่อ 1 เฮกตาร์ ในระดับค่าจ้างและความพร้อมของแรงงานที่มีทักษะ

    แต่ละค่าสัมประสิทธิ์ที่เรียกว่าสัมประสิทธิ์การถดถอยบริสุทธิ์ ถูกตีความเป็นปริมาณการเปลี่ยนแปลงของผลผลิต โดยมีเงื่อนไขว่าปัจจัยนี้เปลี่ยนแปลงตามหน่วยการวัดที่ยอมรับ และปัจจัยอีกสองอย่างคงที่ที่ระดับค่าเฉลี่ย ตัวอย่างเช่น, 3 หมายความว่าด้วยต้นทุนที่เพิ่มขึ้นต่อพืชผล 1 เฮกตาร์ และด้วยค่าจ้างและความพร้อมของคนขับรถแทรกเตอร์เท่าเดิม ผลผลิตเฉลี่ยเพิ่มขึ้นโดยเฉลี่ย 4.6 เซ็นต์ต่อเฮกตาร์ คำว่า "การถดถอยบริสุทธิ์แบบมีเงื่อนไข" หมายความว่าอิทธิพลของปัจจัยเดียวถูกหักล้างการแปรผันร่วมของปัจจัยเหล่านั้นเท่านั้นที่เข้าสู่สมการ แต่ไม่หักล้างการแปรผันร่วมที่เป็นไปได้ของปัจจัยอื่น

    ค่าของสัมประสิทธิ์การถดถอยบริสุทธิ์แบบมีเงื่อนไขขึ้นอยู่กับหน่วยการวัดที่ยอมรับ ถ้าปัจจัย x 3 ไม่ได้วัดเป็นพันรูเบิลต่อเฮกตาร์ แต่เป็นรูเบิลต่อเฮกตาร์ แล้วค่าสัมประสิทธิ์ 3 จะเท่ากับ 0.00461 รูเบิล/เฮกตาร์ ดังนั้นจึงเป็นไปไม่ได้ที่จะเปรียบเทียบค่าสัมประสิทธิ์ของการถดถอยอย่างมีเงื่อนไขระหว่างกัน เพื่อให้ได้ค่าสัมประสิทธิ์ที่เทียบเคียงได้ของอิทธิพลของการแปรผันของปัจจัยที่มีต่อการแปรผันของผลลัพธ์ เราควรกำจัดหน่วยวัดออก แล้วนำไปรวมหน่วยธรรมดาหนึ่งหน่วย วิธีนี้สามารถใช้ได้สองวิธี

    วิธีแรกเรียกว่าการสร้างมาตรฐาน คำนี้มีที่มาจาก ชื่อภาษาอังกฤษส่วนเบี่ยงเบนมาตรฐาน. ค่าสัมประสิทธิ์การถดถอยที่เป็นมาตรฐานจะแสดงเป็นเศษส่วนหรือค่าต่างๆ ถ้าเกินหนึ่ง - ในรูปของ σ . ค่าสัมประสิทธิ์มาตรฐานแสดงถึง อักษรกรีกβ และเรียกว่าค่าสัมประสิทธิ์เบต้า สูตรของพวกเขาคือ:

    ในตัวอย่างของเรา เราได้รับ:

    β 3 = 0,772;

    β 5 = 0,147;

    β 8 = 0,223.

    การตีความค่าสัมประสิทธิ์เบต้ามีดังนี้: เมื่อปัจจัยเปลี่ยนแปลง x 3 สำหรับหนึ่งในค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยและด้วยค่าคงที่ของปัจจัยอื่นๆ ลักษณะที่มีประสิทธิผล (ผลผลิต) จะเบี่ยงเบนจากระดับเฉลี่ย 0.772 ของค่าเบี่ยงเบนมาตรฐาน เนื่องจากค่าสัมประสิทธิ์มาตรฐานทั้งหมดแสดงอยู่ในหน่วยเดียวกัน ในหน่วย σ , ซึ่งเปรียบเทียบกันได้ และสรุปได้ว่าความแปรผันของผลผลิตได้รับอิทธิพลอย่างมากในกลุ่มวิสาหกิจที่ศึกษา โดยความแปรผันของต้นทุนต่อเฮกตาร์ของการหว่าน

    อีกวิธีในการนำค่าสัมประสิทธิ์การถดถอยมาอยู่ในรูปที่เทียบเคียงได้คือการแปลงเป็นค่าสัมประสิทธิ์ความยืดหยุ่น สูตรค่าสัมประสิทธิ์ความยืดหยุ่น ℓ เจ :

    (25)

    ค่าสัมประสิทธิ์ความยืดหยุ่นถูกตีความดังนี้: เมื่อปัจจัยเปลี่ยนแปลง x เจด้วยค่าเฉลี่ยและค่าคงที่ของปัจจัยอื่นๆ ที่รวมอยู่ในสมการ แอตทริบิวต์ที่เป็นผลลัพธ์จะเปลี่ยนแปลงโดยเฉลี่ย ℓ เจส่วนของค่าเฉลี่ย (หรือ ℓ เจ ค่าเฉลี่ยถ้า ℓ เจ>1 ซึ่งเกิดขึ้นน้อยกว่า) มักจะพูดว่า "จะเปลี่ยนเป็น ℓ เจเปอร์เซ็นต์ต่อการเปลี่ยนแปลง 1% ในปัจจัย

    ในตัวอย่างของเรา เรามี:

    ค่าสัมประสิทธิ์ความยืดหยุ่นจะออกเสียงเป็น β เจในหน่วยงานเดียวกันและเปรียบเทียบกันได้ สะดวกกว่าค่าสัมประสิทธิ์ β เพื่อใช้ในการวางแผนและคาดการณ์ ไม่น่าเป็นไปได้ที่ผู้จัดการจะวางแผนที่จะเพิ่มปัจจัยเช่นการลงทุน 0.6 sigma โดยปกติแล้วพวกเขาวางแผนที่จะเปลี่ยนแปลงปัจจัยหลายๆ เปอร์เซ็นต์ของระดับที่สำเร็จ หากสามารถจัดการได้ ตัวอย่างเช่น หากเราวางแผนที่จะเพิ่มต้นทุนต่อเฮกตาร์ของธัญญพืช 10% ค่าจ้าง 30% และความพร้อมของคนขับรถแทรกเตอร์ที่มีคุณสมบัติ 20% เราก็สามารถคาดหวังการเปลี่ยนแปลงของผลผลิตได้โดย
    , ที่ไหน เค เจ– อัตราการเติบโตที่วางแผนไว้ของปัจจัยต่างๆ

    ตอนนี้ให้พิจารณาระบบตัวบ่งชี้ความหนาแน่นของความสัมพันธ์หลายปัจจัย ก่อนอื่น สร้างเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ (ตารางที่ 1)

    ตารางที่ 1 เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่

    สัญญาณ

    x 3

    x 5

    x 8

    x 3

    x 5

    x 8

    เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ให้อินพุตสำหรับตัวบ่งชี้อื่นๆ ของความแน่นของการเชื่อมต่อ และสำหรับการตรวจสอบเบื้องต้นสำหรับความเป็นเส้นตรง ในกรณีนี้ ความสัมพันธ์ทั้งหมดระหว่างปัจจัยอ่อนแอ ความสอดคล้องกันจะไม่ทำให้โมเดลเสีย

    ตัวบ่งชี้ที่สำคัญที่สุดของความใกล้ชิดของการสื่อสารในระบบหลายปัจจัยคือค่าสัมประสิทธิ์ของการกำหนดหลายตัว 2 . เป็นการวัดความแน่นโดยรวมของความสัมพันธ์ของความแปรผันของลักษณะที่เป็นผลลัพธ์ ด้วยการเปลี่ยนแปลงของปัจจัยทั้งระบบที่รวมอยู่ในแบบจำลอง ค่าสัมประสิทธิ์ของการกำหนดหลายค่าสามารถคำนวณได้หลายวิธี

    1. การคำนวณตามเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่

    ,

    โดยที่Δ * - เมทริกซ์ดีเทอร์มิแนนต์;

    , (26)

    และ Δ คือดีเทอร์มิแนนต์ของเมทริกซ์ที่ไม่รวมแถวแรก Δ * และคอลัมน์สุดท้าย นั่นคือ:

    ด้วยสองปัจจัย จะได้สูตรการคำนวณอย่างง่าย:

    (27)

    จากข้อ (27) ว่าหากปัจจัยต่างๆ เป็นอิสระจากกัน กล่าวคือ ค่าสัมประสิทธิ์ของการกำหนดหลายค่าคือผลรวมของค่าสัมประสิทธิ์คู่ของการกำหนด

    การใช้สูตร (27) เราสามารถคำนวณค่าสัมประสิทธิ์การกำหนดสองปัจจัยที่เป็นไปได้สามค่า:

    2. การคำนวณตามค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่และค่าสัมประสิทธิ์ β:

    ในตัวอย่าง: 2 \u003d 0.86 0.772 + 0.35 0.147 + 0.433 0.223 \u003d 0.8119

    3. การคำนวณเป็นความสัมพันธ์แบบสหสัมพันธ์ เช่น อัตราส่วนของการแปรผันของแอตทริบิวต์ผลลัพธ์ ที่เกี่ยวข้องกับการแปรผันของระบบปัจจัยที่รวมอยู่ในแบบจำลอง (ในสมการถดถอย) ไปจนถึงการแปรผันทั่วไปของแอตทริบิวต์ผลลัพธ์ทั้งหมด:

    . (30)

    ตัวเศษของสูตร (30) คือผลรวมของส่วนเบี่ยงเบนกำลังสองของค่าที่คำนวณแต่ละค่าของแอตทริบิวต์ที่มีประสิทธิผลจากค่าเฉลี่ย และตัวส่วนคือผลรวมของกำลังสองของค่าจริงของแอตทริบิวต์ที่มีประสิทธิผลจาก ค่าเฉลี่ยสำหรับทุกหน่วยของประชากร

    ค่าสัมประสิทธิ์บางส่วนของการกำหนดเป็นตัวบ่งชี้ที่วัดตามสัดส่วนที่ความแปรผันที่ไม่ได้อธิบายลดลงจากปัจจัยที่มีอยู่แล้วในแบบจำลอง เมื่อปัจจัยนี้รวมอยู่ในแบบจำลอง x . สูตรสำหรับค่าสัมประสิทธิ์บางส่วนของการกำหนดมีดังนี้:

    ในตัวอย่างของเรา:

    การตีความมีดังนี้: การรวมอยู่ในรูปแบบของปัจจัย x 3 หลังจาก x 5 และ x 8 74%; ปัจจัยการรวม x 5 หลังจาก x 3 และ x 8 ลดความแปรปรวนที่ไม่ได้อธิบาย 10%; ปัจจัยการรวม x 8 หลังจาก x 3 และ x 5 ลดความแปรปรวนที่ไม่ได้อธิบาย โดย 20%

    ค่าสัมประสิทธิ์ของการกำหนดส่วนตัวนั้นหาที่เปรียบไม่ได้เนื่องจากสิ่งเหล่านี้เป็นเศษส่วนของค่าส่วนที่แตกต่างกัน

    แยกค่ารากที่สองของค่าสัมประสิทธิ์ใด ๆ จะได้ค่าสัมประสิทธิ์ของความสัมพันธ์ที่สอดคล้องกัน: หลายคู่หรือบางส่วน

    5. การรวมปัจจัยที่ไม่ใช่เชิงปริมาณในแบบจำลองหลายปัจจัย

    ปัจจัยการผลิตทางการเกษตรที่ไม่ใช่เชิงปริมาณ ได้แก่ พื้นที่ธรรมชาติรูปแบบของการเป็นเจ้าของกิจการ ทิศทางการผลิตที่โดดเด่น (อุตสาหกรรม) และอื่นๆ เป็นการดีกว่าที่จะไม่ผสมองค์กรหรือภูมิภาคที่มีลักษณะเชิงคุณภาพเหล่านี้ในประชากรเริ่มต้น แต่อาจจำเป็นต้องสร้างแบบจำลองที่มีหน่วยต่างกันของประชากร เช่น ถ้าจำนวนหน่วยที่เป็นเนื้อเดียวกันในแง่ของคุณภาพนั้นน้อยเกินไปสำหรับการเชื่อมต่อที่เชื่อถือได้ บางครั้งเป้าหมายอาจเป็นการวัดอิทธิพลสุทธิของปัจจัยที่ไม่ใช่เชิงปริมาณ เช่น ความเป็นเจ้าของ ต่อผลผลิต และสิ่งนี้จำเป็นต้องรวมปัจจัยเชิงคุณภาพไว้ในแบบจำลองหลายปัจจัย

    ในกรณีดังกล่าว การไล่ระดับเชิงคุณภาพของคุณลักษณะสามารถเข้ารหัสได้โดยตัวแปรพิเศษ ซึ่งมักเรียกว่าตัวแปร "จำลอง" หรือ "โครงสร้าง" สิ่งเหล่านี้สะท้อนให้เห็นถึงความแตกต่างของโครงสร้างเชิงคุณภาพของประชากร สมมติว่าจำเป็นต้องสร้างแบบจำลองการถดถอยของความสามารถในการทำกำไรของผลิตภัณฑ์ขององค์กร และในภูมิภาคนี้มีรัฐวิสาหกิจ 16 แห่ง เอกชน 28 แห่ง รูปแบบการเป็นเจ้าของสหกรณ์ 13 แห่ง

    หากเราเพิกเฉยต่อความแตกต่างที่เกี่ยวข้องกับรูปแบบความเป็นเจ้าของ ความแตกต่างเหล่านั้นจะเข้าสู่การเปลี่ยนแปลงที่เหลือ ทำให้รูปแบบความสามารถในการทำกำไรแย่ลง หรืออาจผสมผสานกับอิทธิพลของปัจจัยเชิงคุณภาพบางอย่างในสัดส่วนที่ไม่รู้จัก ซึ่งบิดเบือนการวัดอิทธิพลของพวกมัน

    จำเป็นสำหรับ ปัจจัยที่ไม่ใช่เชิงปริมาณหรือการไล่ระดับของปัจจัยดังกล่าวที่จะแนะนำ -1 ตัวแปรโครงสร้างแสดงโดย ยู เจ. ข้อมูลการคำนวณจะมีลักษณะดังนี้: =3 (ตารางที่ 2).

    ตารางที่ 2 ข้อมูลเริ่มต้นพร้อมตัวแปรโครงสร้าง

    ประเภทกรรมสิทธิ์

    หน่วยประชากร

    คุณลักษณะเชิงปริมาณ

    ตัวแปรโครงสร้าง

    เอ็กซ์ 1

    เอ็กซ์ 2

    เอ็กซ์ เค

    ยู 1

    ยู 2

    สถานะ

    ความหมายของสัญญาณเหล่านี้

    ความหมายของสัญญาณเหล่านี้

    สหกรณ์

    ความหมายของสัญญาณเหล่านี้

    ผลของการแก้ปัญหาจะได้รับแบบจำลองของแบบฟอร์ม:

    ที่ไหน x เค +1 ตรงกับตัวแปร ยู 1 , ก x เค +2 - ตัวแปร ยู 2 .

    มาเขียนแบบจำลองใหม่ด้วยสัญกรณ์พิเศษ:

    ความหมายของค่าสัมประสิทธิ์สำหรับตัวแปรโครงสร้างมีดังนี้ ค่าสัมประสิทธิ์ 1 หมายความว่าองค์กรเอกชนที่มีค่าปัจจัยเชิงปริมาณเท่ากัน x 1 x เคมีความสามารถในการทำกำไร 1 มากกว่ารัฐวิสาหกิจที่นำมาเป็นฐานเปรียบเทียบ (ไม่มีตัวแปรเชิงโครงสร้าง ยู 1 และ ยู 2 ). วิสาหกิจในรูปแบบความเป็นเจ้าของสหกรณ์มีความสามารถในการทำกำไร 2 มากกว่าของรัฐ ปริมาณ 1 และ 2 เป็นได้ทั้งบวกและลบ

    แทนที่จะเป็นแบบจำลองทั่วไป สามารถเขียนแบบจำลองเฉพาะสามแบบสำหรับวิสาหกิจของกลุ่มที่แยกจากกันตามรูปแบบความเป็นเจ้าของ โดยการเพิ่มค่าสัมประสิทธิ์ของตัวแปรโครงสร้างลงในเทอมว่างของสมการ:

    ก) สำหรับองค์กรภาครัฐ

    b) สำหรับองค์กรภาคเอกชน

    c) สำหรับวิสาหกิจของภาคสหกรณ์

    6. การประยุกต์ใช้แบบจำลองการถดถอยแบบหลายปัจจัยสำหรับการวิเคราะห์องค์กรและการพยากรณ์

    การประเมินประสิทธิภาพตามแบบจำลองการถดถอยเมื่อเปรียบเทียบกับวิธีการประเมินที่ง่ายที่สุด - การเปรียบเทียบผลลัพธ์ที่ได้รับจากองค์กรที่กำหนดกับผลลัพธ์เฉลี่ยสำหรับประชากรที่เป็นเนื้อเดียวกัน - ให้ข้อดีเพิ่มเติม

    ตามตัวอย่างของเรา ผลผลิตเฉลี่ยของบริษัทเกษตร 51 แห่งคือ 22.9 c/ha ของธัญพืช

    Agrofirm 1 ได้รับ 17.6 คิว/เฮกตาร์ ดังนั้น บริษัท นี้จึงล้าหลัง อย่างไรก็ตาม คำถามเกิดขึ้น: บางทีเงื่อนไขการผลิตของ บริษัท นี้อาจแย่กว่าค่าเฉลี่ย? การเปรียบเทียบกับค่าเฉลี่ยของประชากรจะละเลยความแตกต่างใน "การจัดหาปัจจัย" ขององค์กรโดยสิ้นเชิง และในความเป็นจริงแล้ว องค์กรไม่ได้อยู่ในสภาพเดียวกันเสมอไป

    การประเมินกิจกรรมตามแบบจำลองการถดถอยเกี่ยวข้องกับการพิจารณาความไม่เท่าเทียมกันของเงื่อนไขการผลิต ตัวอย่างเช่น ความอุดมสมบูรณ์ของดิน สถานการณ์ทางการเงิน ความพร้อมของบุคลากรที่มีคุณภาพ และอื่นๆ เป็นไปไม่ได้ที่จะคำนึงถึงความแตกต่างของเงื่อนไขการผลิตระหว่างองค์กรทั้งหมด เนื่องจากแบบจำลองใด ๆ ไม่ได้คำนึงถึงปัจจัยทั้งหมดของการแปรผันของผลผลิต การประเมินตามแบบจำลองนั้นทำโดยการเปรียบเทียบผลลัพธ์จริง (ผลตอบแทน) กับผลลัพธ์ที่องค์กรจะบรรลุได้ด้วยปัจจัยจริงและค่าเฉลี่ยเหนือผลรวมของประสิทธิภาพ ซึ่งแสดงด้วยค่าสัมประสิทธิ์การถดถอยบริสุทธิ์แบบมีเงื่อนไข พิจารณาผลการคำนวณผลตอบแทนของสอง บริษัท (ตารางที่ 3)

    ตารางที่ 3. ผลลัพธ์ที่เกิดขึ้นจริงและโดยประมาณของการผลิต

    อโกรเฟิร์มมา

    ปัจจัยสัญญาณ

    ผลผลิต c/ha

    x 3

    x 5

    x 8

    แท้จริง

    โดยประมาณ

    ตัวอย่างค่าเฉลี่ย

    ทั้งสอง บริษัท มีค่าเฉลี่ยในกลุ่มตัวอย่างที่แย่กว่าค่าเฉลี่ยซึ่งเป็นค่าของปัจจัยหลัก x 3 และ x 8 และดังนั้นค่าของผลตอบแทนที่คำนวณได้จึงต่ำกว่าค่าเฉลี่ย แต่ในขณะเดียวกัน บริษัทที่ 1 ก็มีผลผลิตที่ประมาณการได้เท่ากับที่ได้รับจริง ไม่มีเหตุผลใดที่จะต้องพิจารณาว่าบริษัทนี้ล้าหลัง บริษัท 2 มีอัตราผลตอบแทนที่แท้จริงต่ำกว่าที่คำนวณได้จากปัจจัยที่มีอยู่ ซึ่งหมายความว่าปัจจัยที่ไม่รู้จักที่ไม่รวมอยู่ในแบบจำลองนั้นแย่กว่าค่าเฉลี่ยสำหรับ บริษัท นี้หรือระดับการใช้ปัจจัยหลัก - ต้นทุนต่อเฮกตาร์และความพร้อมของแรงงานที่มีทักษะต่ำกว่าค่าเฉลี่ย

    การพยากรณ์ตามแบบจำลองการถดถอยขึ้นอยู่กับสมมติฐานว่าปัจจัยต่างๆ สามารถควบคุมได้และอาจใช้อย่างใดอย่างหนึ่งหรืออย่างอื่นที่วางแผนไว้ ค่าที่คาดหวัง และเงื่อนไขที่ไม่ทราบอื่นๆ จะยังคงอยู่ในระดับเฉลี่ยของประชากร ความสามารถในการควบคุมปัจจัยไม่ได้หมายความว่าค่าใด ๆ ของพวกมันสามารถถูกแทนที่ในแบบจำลองเมื่อทำการพยากรณ์ สมการถดถอยสะท้อนถึงเงื่อนไขที่มีอยู่ในผลรวมตามที่สมการได้รับ หากค่าของสัญญาณปัจจัยสูงกว่า 2-3 เท่าก็ไม่อาจโต้แย้งได้ว่าค่าสัมประสิทธิ์การถดถอยบริสุทธิ์แบบมีเงื่อนไขจะยังคงเหมือนเดิม

    ดังนั้น ขอแนะนำเมื่อคาดการณ์โดยใช้สมการถดถอย อย่าเกินขีดจำกัดของค่าที่สังเกตได้จริงของปัจจัยในผลรวม หรือไม่เกินขีดจำกัดเหล่านี้ไม่เกิน 10-15% ของค่าเฉลี่ย ค่า ข้อกำหนดที่สำคัญไม่แพ้กันในการพยากรณ์คือข้อกำหนดที่ค่าที่คาดการณ์ของปัจจัยต่างๆ สอดคล้องกัน จำเป็นต้องคำนึงถึงสัญญาณและความใกล้ชิดของความสัมพันธ์ระหว่างปัจจัยต่างๆ ตัวอย่างเช่น หากคาดการณ์ว่าจะเพิ่มระดับการจัดหาแรงงานที่มีคุณสมบัติเหมาะสม ก็จะเป็นไปไม่ได้ที่จะปล่อยให้ระดับค่าจ้างไม่เปลี่ยนแปลง ลดน้อยลงมาก ค่าที่คาดการณ์ไว้ของระดับค่าจ้าง เมื่อวางแผนการเติบโตของอัตราส่วนกำลังต่อน้ำหนักจำเป็นต้องเพิ่มอัตราส่วนทุนต่อแรงงานโดยประมาณในสัดส่วนที่เท่ากัน

    โดยมุ่งเน้นไปที่ค่าของปัจจัยที่ระบุในตารางที่ 3 เราถือว่าเมื่อคาดการณ์ผลผลิตเราวางแผนต้นทุนต่อเฮกตาร์ ( x 3 ) ที่ระดับ 3,000 rubles การปรากฏตัวของคนขับรถแทรกเตอร์ต่อ 100 เฮกตาร์ของที่ดินทำกิน 0.8; ค่าจ้างรายชั่วโมง 20 รูเบิล เวลาบ่ายโมง การแทนที่ค่าเหล่านี้ในแบบจำลองการถดถอย เราได้รับการคาดการณ์จุดสำหรับผลผลิตของพืชผล:

    การคาดการณ์แบบจุดคือความคาดหวังทางคณิตศาสตร์ (ค่าเฉลี่ย) ของค่าที่เป็นไปได้ของแอตทริบิวต์ที่คาดการณ์ไว้ซึ่งมีความน่าจะเป็นต่างกัน จำเป็นต้องเสริมการคาดการณ์จุดด้วยการคำนวณขีดจำกัดความเชื่อมั่นที่มีความน่าจะเป็นสูงเพียงพอ ในการทำเช่นนี้ ให้ใช้ค่าของค่าเฉลี่ยข้อผิดพลาดในการประมาณกำลังสอง ซึ่งคำนวณโดยสูตร:

    (33)

    ตัวเศษของนิพจน์รากคือจำนวนที่เหลือซึ่งไม่ได้อธิบายโดยแบบจำลอง ผลรวมของการเบี่ยงเบนกำลังสองของคุณลักษณะที่เป็นผลลัพธ์ และตัวส่วนคือจำนวนองศาอิสระของการแปรผันที่เหลือ ในตัวอย่างของเรา ผลรวมที่เหลือของความเบี่ยงเบนกำลังสองคือ 814.3 เรามี:

    ดังนั้น ด้วยความน่าเชื่อถือที่ 0.95 ผลผลิตที่คาดการณ์ไว้จะอยู่ที่ 25.4±4.16·2 หรือตั้งแต่ 17.8 ถึง 33.72 c/ha การคำนวณทั้งหมดนี้อ้างถึงการคาดการณ์ผลผลิตสำหรับบริษัทเกษตรแต่ละแห่ง หากเรากำลังพูดถึงอัตราผลตอบแทนเฉลี่ยของ บริษัท เกษตร 51 แห่ง หมายถึงข้อผิดพลาดค่าเฉลี่ยเลขคณิตเท่ากับส่วนเบี่ยงเบนมาตรฐานหารด้วยรากที่สองของขนาดตัวอย่าง , เช่น. จะ:

    การตีความค่าของข้อผิดพลาดการคาดการณ์โดยเฉลี่ยมีดังนี้: หากบริษัทเกษตร 51 แห่งได้รับปัจจัย x 3 , x 5 , x 8 ที่ระดับ 3, 20, 0.8 ตามลำดับ จะได้ผลผลิตเฉลี่ยรวม 25.4 ± 0.583 c/ha ด้วยความน่าจะเป็นที่ 0.95 ผลผลิตมวลรวมเฉลี่ยที่คาดหวังจะอยู่ที่ 25.4±0.583·2 หรือตั้งแต่ 23.7 ถึง 27.1 c/ha

    แบบจำลองการถดถอยสหสัมพันธ์ทางเศรษฐมิติของระบบคุณลักษณะที่สัมพันธ์กันของประชากรที่ศึกษาคือสมการถดถอยที่รวมถึงปัจจัยหลักที่มีผลต่อการแปรผันของคุณลักษณะผลลัพธ์ในประชากรมีค่าสัมประสิทธิ์การกำหนดสูง (ไม่ต่ำกว่า 0.5) มีความน่าเชื่อถือและตีความได้อย่างถูกต้องตาม (โดยเครื่องหมายและตามลำดับความสำคัญ) กับทฤษฎีของระบบที่ศึกษาโดยค่าสัมประสิทธิ์การถดถอย และเนื่องจากคุณสมบัติเหล่านี้ จึงเหมาะสำหรับการประเมินกิจกรรมของหน่วยประชากรและสำหรับการพยากรณ์

    หลายรายการ การถดถอย (2)บทคัดย่อ >> การตลาด

    แนะนำให้รู้จักกับโมเดล เช่น สร้างสมการ หลายรายการ การถดถอย. หลายรายการ การถดถอยใช้กันอย่างแพร่หลายในการแก้ปัญหาอุปสงค์...



    ข้อผิดพลาด:เนื้อหาได้รับการคุ้มครอง!!