การคำนวณการถดถอยเชิงเส้น การวิเคราะห์การถดถอย

ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณระบุลักษณะความหนาแน่นของความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งกับชุดของตัวแปรอื่นภายใต้การพิจารณา
สิ่งที่สำคัญเป็นพิเศษคือการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ คุณลักษณะผลลัพธ์ y ที่มีตัวประกอบ x 1 , x 2 ,…, x m ,สูตรสำหรับกำหนดว่าใน กรณีทั่วไปมีแบบฟอร์ม

โดยที่ ∆ r เป็นตัวกำหนดของเมทริกซ์สหสัมพันธ์ ∆ 11 เป็นส่วนเติมเต็มเชิงพีชคณิตขององค์ประกอบ r yy ของเมทริกซ์สหสัมพันธ์
หากพิจารณาสัญญาณปัจจัยเพียงสองสัญญาณ สามารถใช้สูตรต่อไปนี้เพื่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณได้:

แนะนำให้สร้างค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณเฉพาะในกรณีที่ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วนมีนัยสำคัญ และความสัมพันธ์ระหว่างคุณลักษณะที่เป็นผลลัพธ์กับปัจจัยที่รวมอยู่ในแบบจำลองนั้นมีอยู่จริง

ค่าสัมประสิทธิ์การกำหนด

สูตรทั่วไป: R 2 = RSS/TSS=1-ESS/TSS
โดยที่ RSS - ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายได้ ESS - ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายไม่ได้ (ส่วนที่เหลือ) TSS - ผลรวมทั้งหมดของการเบี่ยงเบนกำลังสอง (TSS=RSS+ESS)

,
โดยที่ r ij - จับคู่ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง regressor x i และ x j , a r i 0 - จับคู่ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง regressor x i และ y ;
- แก้ไขค่าสัมประสิทธิ์ (ปกติ) ของการกำหนด

กำลังสองของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ เรียกว่า ค่าสัมประสิทธิ์หลายตัว; มันแสดงสัดส่วนของความแปรปรวนของแอตทริบิวต์ผลลัพธ์ อธิบายได้จากอิทธิพลของสัญญาณปัจจัย x 1 , x 2 , …, x m . โปรดทราบว่าสูตรสำหรับการคำนวณค่าสัมประสิทธิ์ของการกำหนดผ่านอัตราส่วนของความแปรปรวนที่เหลือและความแปรปรวนทั้งหมดของแอตทริบิวต์ผลลัพธ์จะให้ผลลัพธ์เดียวกัน
ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณและค่าสัมประสิทธิ์ของการกำหนดจะแปรผันตั้งแต่ 0 ถึง 1 ยิ่งค่าเข้าใกล้ 1 มากเท่าไหร่ ความสัมพันธ์ก็จะแน่นแฟ้นมากขึ้นเท่านั้น ดังนั้น สมการถดถอยที่สร้างขึ้นด้านล่างจะอธิบายการพึ่งพาได้แม่นยำยิ่งขึ้น จาก x 1 , x 2 , …,x ม. หากค่าของสัมประสิทธิ์สหสัมพันธ์พหุคูณมีค่าน้อย (น้อยกว่า 0.3) หมายความว่าชุดคุณลักษณะปัจจัยที่เลือกไม่อธิบายความแปรผันของคุณลักษณะผลลัพธ์อย่างเพียงพอ หรือความสัมพันธ์ระหว่างปัจจัยและตัวแปรผลลัพธ์ไม่เป็นเชิงเส้น

คำนวณ หลายปัจจัยความสัมพันธ์กับเครื่องคิดเลข ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณและค่าสัมประสิทธิ์การหาค่าตรวจสอบโดยใช้การทดสอบของฟิชเชอร์

ตัวเลขใดต่อไปนี้เป็นค่าสัมประสิทธิ์ของการหาค่าพหุคูณได้:
ก) 0.4;
ข) -1;
ค) -2.7;
ง) 2.7.

หลายรายการ ค่าสัมประสิทธิ์เชิงเส้นความสัมพันธ์คือ 0.75 เปอร์เซ็นต์ของการแปรผันของตัวแปรตาม y ถูกนำมาพิจารณาในแบบจำลองและเกิดจากอิทธิพลของปัจจัย x 1 และ x 2
ก) 56.2 (R 2 =0.75 2 =0.5625);

สาระสำคัญของวิธีการพยากรณ์เชิงสาเหตุคือการสร้างความสัมพันธ์ทางคณิตศาสตร์ระหว่างตัวแปรผลลัพธ์และตัวแปรปัจจัย

เงื่อนไขที่จำเป็นสำหรับการประยุกต์ใช้วิธีการพยากรณ์เชิงสาเหตุคือความพร้อมใช้งานของข้อมูลจำนวนมาก หากสามารถอธิบายความสัมพันธ์ระหว่างตัวแปรต่างๆ ได้อย่างถูกต้องทางคณิตศาสตร์ ความแม่นยำของการพยากรณ์เชิงสาเหตุจะค่อนข้างสูง
วิธีการพยากรณ์เชิงสาเหตุประกอบด้วย:


  • แบบจำลองการถดถอยหลายตัวแปร

  • การสร้างแบบจำลองจำลอง
วิธีการพยากรณ์เชิงสาเหตุที่พบมากที่สุดคือแบบจำลองการถดถอยหลายตัวแปร .

1.4.1 แบบจำลองการถดถอยพหุตัวแปร

แบบจำลองการถดถอยหลายตัวแปรคือสมการที่มีตัวแปรอิสระหลายตัว

ในการสร้างแบบจำลองการถดถอยหลายตัวแปร สามารถใช้ฟังก์ชันต่างๆ ได้ ฟังก์ชันที่พบบ่อยที่สุดคือการขึ้นต่อกันเชิงเส้นและกำลัง:

ในแบบจำลองเชิงเส้น พารามิเตอร์(b 1 , b 2 , … b n) ถูกตีความว่าเป็นผลกระทบของตัวแปรอิสระแต่ละตัวที่มีต่อค่าที่ทำนาย ถ้าตัวแปรอิสระอื่นๆ ทั้งหมดมีค่าเท่ากับศูนย์

ใน โมเดลพลังงานพารามิเตอร์คือค่าสัมประสิทธิ์ความยืดหยุ่น พวกเขาแสดงจำนวนเปอร์เซ็นต์ที่ผลลัพธ์ (y) จะเปลี่ยนแปลงโดยเฉลี่ยโดยมีการเปลี่ยนแปลงในปัจจัยที่เกี่ยวข้อง 1% ในขณะที่การกระทำของปัจจัยอื่น ๆ ยังคงไม่เปลี่ยนแปลง ในการคำนวณพารามิเตอร์ของสมการ การถดถอยพหุคูณยังใช้ วิธี กำลังสองน้อยที่สุด.

เมื่อสร้างแบบจำลองการถดถอย คุณภาพของข้อมูลมีบทบาทชี้ขาด การรวบรวมข้อมูลสร้างรากฐานสำหรับการคาดการณ์ ดังนั้นจึงมีข้อกำหนดและกฎหลายข้อที่ต้องปฏิบัติตามเมื่อรวบรวมข้อมูล


  1. ประการแรก ข้อมูลจะต้อง สังเกตได้, เช่น. ได้รับจากการวัดผล ไม่ใช่การคำนวณ

  1. ประการที่สองจำเป็นต้องมีจากอาร์เรย์ข้อมูล ไม่รวมข้อมูลที่ซ้ำกันและแตกต่างกันอย่างมาก. ยิ่งข้อมูลไม่ซ้ำกันและจำนวนประชากรที่เป็นเนื้อเดียวกันมากเท่าใด สมการก็จะยิ่งดีขึ้นเท่านั้นค่าที่แตกต่างกันอย่างมากถือเป็นข้อสังเกตที่ไม่เข้ากับชุดข้อมูลทั่วไป ตัวอย่างเช่น ข้อมูลเกี่ยวกับค่าจ้างสำหรับคนงานมีตัวเลขสี่และห้าหลัก (7,000, 10,000, 15,000) แต่พบตัวเลขหกหลักหนึ่งตัว (250,000) เห็นได้ชัดว่านี่เป็นความผิดพลาด

  1. กฎข้อที่สาม (ความต้องการ) คือ ข้อมูลจำนวนมากพอสมควร. นักสถิติไม่เห็นด้วยกับข้อมูลที่จำเป็นในการสร้างสมการที่ดี ตามที่บางคนต้องการข้อมูล อีก 4-6 เท่าจำนวนปัจจัย คนอื่นอ้างว่า อีกอย่างน้อย 10 เท่าจำนวนปัจจัยจากนั้นกฎของจำนวนมากที่มีผลใช้บังคับอย่างเต็มที่ช่วยให้มั่นใจได้ถึงการชำระคืนอย่างมีประสิทธิภาพของการเบี่ยงเบนแบบสุ่มจากลักษณะปกติของความสัมพันธ์

การสร้างแบบจำลองการถดถอยพหุตัวแปรในนางสาวเก่ง
ในสเปรดชีต Excel คุณสามารถสร้างได้เท่านั้น เชิงเส้นแบบจำลองการถดถอยหลายตัวแปร
, (1.19)
เมื่อต้องการทำเช่นนี้ เลือก "การวิเคราะห์ข้อมูล",จากนั้นในหน้าต่างที่ปรากฏ - เครื่องมือ "ถดถอย"


รูปที่ 1.45 - กล่องโต้ตอบของเครื่องมือ "การถดถอย"
ในหน้าต่างที่ปรากฏขึ้น คุณต้องกรอกข้อมูลในฟิลด์ต่างๆ รวมถึง:


  • ช่วงเวลาอินพุต วาย – ช่วงข้อมูลจากหนึ่งคอลัมน์ที่มีค่าของตัวแปรผลลัพธ์ Y

  • ช่วงเวลาอินพุต X คือช่วงของข้อมูลที่ประกอบด้วยค่าของตัวแปรตัวประกอบ

หากแถวแรกหรือคอลัมน์แรกของช่วงเวลาอินพุตมีหัวเรื่อง คุณต้องทำเครื่องหมายในช่อง "แท็ก" .

ใช้ค่าเริ่มต้นแล้ว ระดับความน่าเชื่อถือ 95%หากคุณต้องการตั้งค่าระดับอื่น ให้เลือกช่องทำเครื่องหมายและป้อนระดับความน่าเชื่อถือที่ต้องการในช่องถัดจากระดับนั้น

ช่องทำเครื่องหมาย "ศูนย์คงที่"จำเป็นต้องตรวจสอบเฉพาะกรณีที่คุณต้องการรับสมการถดถอยโดยไม่มีการสกัดกั้น เพื่อให้เส้นถดถอยผ่านจุดกำเนิด
ผลลัพธ์ของผลลัพธ์การคำนวณสามารถจัดระเบียบได้ 3 วิธี:


  • วี ช่วงเซลล์ของเวิร์กชีตนี้ (สำหรับสิ่งนี้ในสนาม "ช่วงเอาท์พุท"กำหนดเซลล์ซ้ายบนของช่วงที่จะแสดงผลการคำนวณ)

  • บน แผ่นงานใหม่ (คุณสามารถป้อนชื่อที่ต้องการของแผ่นงานนี้ได้ในช่องถัดจากนั้น)

  • วี สมุดงานใหม่ .

ช่องทำเครื่องหมาย "ยังคงอยู่"และ "ซากศพที่ได้มาตรฐาน"สั่งให้รวมอยู่ในช่วงเอาต์พุต
หากต้องการลงจุดที่เหลือสำหรับตัวแปรอิสระแต่ละตัว ให้ทำเครื่องหมายในช่อง กราฟที่เหลือยังคงอยู่หรือที่เรียกว่าข้อผิดพลาดในการทำนาย พวกเขาถูกกำหนดให้เป็นความแตกต่างระหว่างค่า Y จริงและที่คาดการณ์ไว้
การตีความแผนที่เหลือ
ไม่ควรมีรูปแบบในแผนภูมิที่เหลือ หากมีการติดตามรูปแบบนั่นหมายความว่าแบบจำลองไม่ได้รวมบางส่วนที่เราไม่รู้จัก แต่เป็นปัจจัยการแสดงโดยธรรมชาติซึ่งไม่มีข้อมูล

เมื่อทำเครื่องหมายในช่อง "กำหนดการคัดเลือก"ชุดของกราฟจะแสดงขึ้นเพื่อแสดงให้เห็นว่าเส้นการถดถอยทางทฤษฎีเหมาะสมกับเส้นที่สังเกตได้ดีเพียงใด เช่น ข้อมูลจริง

การตีความการเลือกกราฟ
ใน Excel บนแผนภูมิการเลือก จุดสีแดงระบุค่าทางทฤษฎี วาย, จุดสีน้ำเงิน - ข้อมูลเริ่มต้น หากจุดสีแดงเหลื่อมกัน จุดสีน้ำเงินแล้วสิ่งนี้แสดงให้เห็นสมการการถดถอยที่ประสบความสำเร็จ
ขั้นตอนที่จำเป็นในการพยากรณ์โดยใช้แบบจำลองการถดถอยหลายตัวแปรคือการประเมินนัยสำคัญทางสถิติของสมการการถดถอย กล่าวคือ ความเหมาะสมของสมการถดถอยที่สร้างขึ้นเพื่อใช้ในการพยากรณ์ เพื่อแก้ปัญหานี้ MS Excel จะคำนวณค่าสัมประสิทธิ์จำนวนหนึ่ง คือ:


  1. ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ

เป็นลักษณะความหนาแน่นและทิศทางของความสัมพันธ์ระหว่างผลลัพธ์และ หลายตัวแปรปัจจัย ด้วยการพึ่งพาสองปัจจัย ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณจะคำนวณโดยสูตร:
, (1.20)


  1. ค่าสัมประสิทธิ์พหุคูณ ( 2 ).

R 2 คือสัดส่วนของการเปลี่ยนแปลงของค่าทางทฤษฎีที่สัมพันธ์กับค่าที่แท้จริงของ y ซึ่งอธิบายโดยปัจจัยที่รวมอยู่ในแบบจำลอง ค่าทางทฤษฎีที่เหลือขึ้นอยู่กับปัจจัยอื่น ๆ ที่ไม่เกี่ยวข้องกับแบบจำลอง R 2 สามารถรับค่าได้ตั้งแต่ 0 ถึง 1 ถ้า คุณภาพของแบบจำลองนั้นสูง ตัวบ่งชี้นี้มีประโยชน์อย่างยิ่งสำหรับการเปรียบเทียบรุ่นต่างๆ และเลือกรุ่นที่ดีที่สุด


  1. ค่าสัมประสิทธิ์มาตรฐานของการกำหนด 2

ตัวบ่งชี้ R 2 มีข้อเสียเปรียบซึ่งประกอบด้วยค่าสัมประสิทธิ์การกำหนดจำนวนมากสามารถทำได้เนื่องจากการสังเกตจำนวนน้อย ทำให้เป็นมาตรฐาน ให้ข้อมูลเกี่ยวกับค่าที่คุณจะได้รับในชุดข้อมูลอื่นที่มีขนาดใหญ่กว่าในกรณีนี้มาก

Normalized คำนวณโดยสูตร:

, (1.21)

ค่าสัมประสิทธิ์ทวีคูณของการกำหนดมาตรฐานอยู่ที่ไหน

ค่าสัมประสิทธิ์หลายตัว

ปริมาณของประชากร

จำนวนตัวแปรตัวประกอบ


  1. ข้อผิดพลาดมาตรฐานการถดถอย ระบุจำนวนข้อผิดพลาดในการทำนายโดยประมาณ ใช้เป็นปริมาณหลักในการวัดคุณภาพของแบบประมาณการ คำนวณตามสูตร:
, (1.22)

ผลรวมของกำลังสองของเศษเหลืออยู่ที่ไหน

จำนวนระดับความเป็นอิสระของสิ่งตกค้าง
นั่นคือ ข้อผิดพลาดมาตรฐานของการถดถอยจะแสดงค่าของกำลังสองของข้อผิดพลาดต่อหนึ่งระดับความเป็นอิสระ


ผลลัพธ์

สถิติการถดถอย

หลายอาร์

0.973101

R-สแควร์

0.946926

R-Square ที่ปรับให้เป็นมาตรฐาน

0.940682

มาตรฐานบกพร่อง

0.59867

ข้อสังเกต

20

การวิเคราะห์ความแปรปรวน

ดีเอฟ

สส

นางสาว



นัยสำคัญฉ

การถดถอย

2

108.7071

54.35355

151.6535

1.45E-11

ส่วนที่เหลือ

17

6.092905

0.358406

ทั้งหมด

19

114.8

อัตราต่อรอง

มาตรฐานบกพร่อง

t-สถิติ

ค่า P

ด้านล่าง 95%

สูงสุด 95%

ด้านล่าง 95.0%

สูงสุด 95.0%

สี่แยกตัววาย

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

วิธี การวิเคราะห์ความแปรปรวนประกอบด้วยการขยายผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ยออกเป็นสองส่วนคือ


  1. อธิบายได้โดยการถดถอย (หรือแฟคทอเรียล)

  2. ที่เหลือ
, (1.2 3)
ความเหมาะสมของแบบจำลองการถดถอยสำหรับการทำนายขึ้นอยู่กับความแปรปรวนทั้งหมดของลักษณะ บัญชีสำหรับรูปแบบที่อธิบายโดยการถดถอย เห็นได้ชัดว่า ถ้าผลรวมของค่าเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอยมากกว่าค่าที่เหลือ ก็จะสรุปได้ว่ามีนัยสำคัญทางสถิติของสมการถดถอย นี่เทียบเท่ากับข้อเท็จจริงที่ว่าค่าสัมประสิทธิ์ของความมุ่งมั่นเข้าใกล้ความเป็นเอกภาพ
การกำหนดในตาราง "การวิเคราะห์ความแปรปรวน":
คอลัมน์ที่สองของตารางเรียกว่าและหมายถึงจำนวนองศาอิสระ สำหรับความแปรปรวนทั้งหมด จำนวนองศาอิสระคือ: , สำหรับความแปรปรวนของตัวประกอบ (หรือความแปรปรวนที่อธิบายได้โดยการถดถอย), , สำหรับความแปรปรวนที่เหลือ

โดยที่ n คือจำนวนการสังเกต

m คือจำนวนตัวแปรแฟกทอเรียลของโมเดล
คอลัมน์ที่สามของตารางเรียกว่า มันแสดงถึงผลรวมของการเบี่ยงเบนกำลังสอง ผลรวมของการเบี่ยงเบนกำลังสองถูกกำหนดโดยสูตร:

, (1.24)
ผลรวมของตัวประกอบกำลังสอง:

, (1.26)
คอลัมน์ที่สี่เรียกว่า - ค่าเฉลี่ยของส่วนเบี่ยงเบนกำลังสอง กำหนดโดยสูตร:

ด้วยความช่วยเหลือของเกณฑ์ F ของฟิชเชอร์ นัยสำคัญทางสถิติค่าสัมประสิทธิ์การกำหนดสมการถดถอย สำหรับสิ่งนี้ สมมติฐานว่างถูกหยิบยกขึ้นมา ซึ่งระบุว่าระหว่างตัวแปรผลลัพธ์และตัวแปรปัจจัย ไม่มีการเชื่อมต่อ. สิ่งนี้เป็นไปได้ก็ต่อเมื่อพารามิเตอร์ทั้งหมดของสมการหลายตัว การถดถอยเชิงเส้นและค่าสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์

ในการทดสอบสมมติฐานนี้ จำเป็นต้องคำนวณค่าที่แท้จริงของการทดสอบ Fisher's F-test และเปรียบเทียบกับตาราง ค่าที่แท้จริงของเกณฑ์ F คำนวณโดยสูตร:

, (1.28)

คัดเลือกจากตารางสถิติพิเศษโดย:


  • กำหนดระดับนัยสำคัญ () และ

  • จำนวนองศาอิสระ

ใน MS Excel ค่าแบบตารางของเกณฑ์ F สามารถกำหนดได้โดยใช้ฟังก์ชัน: = FINV(ความน่าจะเป็น; องศาอิสระ1; องศาอิสระ2)

ตัวอย่างเช่น: =FDISP(0.05;df1;df2)
ระดับนัยสำคัญ 1 ถูกเลือกสำหรับอันเดียวกับที่ใช้คำนวณพารามิเตอร์ของแบบจำลองการถดถอย ค่าเริ่มต้นคือ 95%

ถ้า สมมติฐานที่เสนอถูกปฏิเสธและรับรู้ถึงนัยสำคัญทางสถิติของสมการถดถอย ในกรณีของการคาดการณ์ที่สำคัญเป็นพิเศษ ขอแนะนำให้เพิ่มค่าตารางของเกณฑ์ F เป็น 4 เท่า นั่นคือมีการตรวจสอบเงื่อนไข:
=151.65; = 3.59
ค่าที่คำนวณได้มีค่าเกินกว่าค่าในตารางอย่างมาก ซึ่งหมายความว่าค่าสัมประสิทธิ์ของการกำหนดแตกต่างจากศูนย์อย่างมีนัยสำคัญ ดังนั้นควรปฏิเสธสมมติฐานที่ว่าไม่มีการพึ่งพาการถดถอย
ตอนนี้เรามาประเมินความสำคัญของค่าสัมประสิทธิ์การถดถอยตาม ที- เกณฑ์ของนักเรียนช่วยให้คุณกำหนดได้ว่าตัวแปรปัจจัยใด (x) มี อิทธิพลที่ยิ่งใหญ่ที่สุดไปยังตัวแปรผลลัพธ์ (y)

ข้อผิดพลาดมาตรฐานมักจะแสดงด้วย ตัวห้อยระบุพารามิเตอร์ของสมการถดถอยที่คำนวณข้อผิดพลาดนี้

คำนวณตามสูตร:

, (1.29)

โดยที่ - RMS สำหรับตัวแปรผลลัพธ์

RMS สำหรับคุณสมบัติ ,

ค่าสัมประสิทธิ์ของการกำหนดสมการพหุคูณ

การถดถอย,

ค่าสัมประสิทธิ์ของการพิจารณาการพึ่งพาปัจจัยด้วย

ปัจจัยอื่นๆ ทั้งหมดในสมการ

จำนวนองศาอิสระสำหรับผลรวมกำลังสองที่เหลือ

การเบี่ยงเบน
ที่มสธ มาตรฐานเอ็กเซลข้อผิดพลาดจะถูกคำนวณโดยอัตโนมัติ (อยู่ในคอลัมน์ที่ 3 ของตารางที่ 3)
มูลค่าที่แท้จริงที- เกณฑ์ของนักเรียนใน MS Excel จะอยู่ในคอลัมน์ที่ 4 ของตารางที่ 3 และเรียกว่า t-สถิติ
(คอลัมน์ที่ 4) = (คอลัมน์ที่ 2) / (คอลัมน์ที่ 3)

t-statistic = ค่าสัมประสิทธิ์/ข้อผิดพลาดมาตรฐาน
ค่าตารางที- เกณฑ์ของนักเรียนขึ้นอยู่กับระดับนัยสำคัญที่ยอมรับได้ (ปกติคือ 0.05; 0.01) และจำนวนระดับความอิสระ

โดยที่ n คือจำนวนหน่วยประชากร

m คือจำนวนตัวประกอบในสมการ
ใน MS Excel ค่าตารางของเกณฑ์ของนักเรียนสามารถกำหนดได้โดยใช้ฟังก์ชัน:

STUDRASP(ความน่าจะเป็น จำนวนองศาอิสระ)
ตัวอย่างเช่น: =STUDISP(0.05,7)
ถ้า สรุปได้ว่าค่าสัมประสิทธิ์ของสมการถดถอยมีนัยสำคัญทางสถิติ (เชื่อถือได้) และสามารถรวมไว้ในแบบจำลองและใช้ในการพยากรณ์ได้

1.4.2 วิธีการจำลองแบบมอนติคาร์โล

วิธีการจำลองได้ชื่อเพื่อเป็นเกียรติแก่เมืองมอนติคาร์โลซึ่งตั้งอยู่ในราชรัฐโมนาโกซึ่งเป็นหนึ่งในประเทศที่เล็กที่สุดในโลกที่ตั้งอยู่บนชายฝั่ง ทะเลเมดิเตอร์เรเนียนใกล้กับชายแดนฝรั่งเศสและอิตาลี

วิธีการจำลองแบบมอนติคาร์โลเกี่ยวข้องกับการสร้าง ค่าสุ่มตามข้อจำกัดที่กำหนด การเริ่มต้นสร้างแบบจำลองการจำลอง ก่อนอื่นจำเป็นต้องพัฒนาแบบจำลองทางเศรษฐศาสตร์และคณิตศาสตร์ (EMM) ของตัวบ่งชี้ที่คาดการณ์ ซึ่งสะท้อนถึงความสัมพันธ์ระหว่างตัวแปรปัจจัย ตลอดจนระดับและลักษณะของอิทธิพลที่มีต่อผลลัพธ์ เนื่องจากในเงื่อนไขของสภาวะตลาดสมัยใหม่ เรื่องของความสัมพันธ์ทางเศรษฐกิจได้รับผลกระทบพร้อมกันจากปัจจัยหลายอย่างในลักษณะและทิศทางที่แตกต่างกัน และระดับของอิทธิพลของพวกเขาไม่ได้เป็นตัวกำหนด ดูเหมือนว่าจำเป็นต้องแบ่งตัวแปร EMM ออกเป็นสองกลุ่ม: สุ่ม และแน่นอน;

ถัดไป คุณควรกำหนดประเภทของการแจกแจงความน่าจะเป็นสำหรับตัวแปรสุ่มแต่ละตัวและพารามิเตอร์อินพุตที่เกี่ยวข้อง จำลองค่าของตัวแปรสุ่มโดยใช้เครื่องสร้างตัวเลขสุ่ม MS Excel หรือเครื่องมือซอฟต์แวร์อื่นๆ

เครื่องมือ "การสร้างตัวเลขสุ่ม" มีให้สำหรับผู้ใช้ MS Excel 2007 หลังจากเปิดใช้งาน Add-in ชุดวิเคราะห์. ลำดับการเปิดใช้งานส่วนเสริมได้อธิบายไว้ข้างต้น (ดูหน้า 10 รูปที่ 1.5-1.8) เพื่อเรียกใช้การจำลองในเมนู ข้อมูลต้องเลือกรายการ "การวิเคราะห์ข้อมูล"ในกล่องโต้ตอบที่ปรากฏขึ้น ให้เลือกเครื่องมือจากรายการ "การสร้างตัวเลขสุ่ม"แล้วคลิกตกลง

รูปที่ 1.46 - อินเทอร์เฟซเมนูการวิเคราะห์ข้อมูล
ในกล่องโต้ตอบที่ปรากฏขึ้น คุณต้องเลือกชนิดของการกระจายความน่าจะเป็นสำหรับตัวแปรสโทแคสติกแต่ละตัว และตั้งค่าพารามิเตอร์อินพุตที่เหมาะสม

รูปที่ 1.47 - กล่องโต้ตอบตัวสร้างตัวเลขสุ่ม
ขั้นตอนนี้เป็นหนึ่งในขั้นตอนที่ยากที่สุดดังนั้นในการแสดงจำเป็นต้องใช้ความรู้และประสบการณ์ของผู้เชี่ยวชาญ การเลือกประเภทของการแจกแจงความน่าจะเป็นนอกจากนี้ยังสามารถดำเนินการบนพื้นฐานของข้อมูลทางสถิติที่มีอยู่ ในทางปฏิบัติ การแจกแจงความน่าจะเป็นประเภทต่างๆ เช่น แบบปกติ แบบสามเหลี่ยมและแบบเดียวกันมักถูกใช้บ่อยที่สุด

การแจกแจงแบบปกติ (หรือกฎของ Moivre-Gauss-Laplace)สันนิษฐานว่าตัวแปรของพารามิเตอร์ที่คาดการณ์นั้นเคลื่อนเข้าหาค่าเฉลี่ย ค่าตัวแปรที่แตกต่างกันอย่างมากจากค่าเฉลี่ยซึ่งอยู่ใน "ส่วนท้าย" ของการแจกแจงมีความเป็นไปได้ต่ำ

การกระจายแบบสามเหลี่ยมเป็นอนุพันธ์ของการแจกแจงแบบปกติและถือว่าการแจกแจงที่เพิ่มขึ้นเป็นเชิงเส้นเมื่อเข้าใกล้ค่าเฉลี่ย

กระจายสม่ำเสมอจะใช้ในกรณีที่ค่าทั้งหมดของตัวบ่งชี้ตัวแปรมีความน่าจะเป็นในการรับรู้เท่ากัน

ด้วยความสำคัญของตัวแปรและ ความเป็นไปไม่ได้ที่จะเลือกกฎการกระจายมันสามารถมองในแง่ของ การกระจายแบบไม่ต่อเนื่องประเภทของการแจกแจงความน่าจะเป็นตามรายการด้านบนต้องการคำนิยามของพารามิเตอร์อินพุตที่แสดงในตาราง 1.11
ตารางที่ 1.11 - พารามิเตอร์อินพุตของการแจกแจงความน่าจะเป็นประเภทหลัก


ประเภทของความน่าจะเป็น

การกระจาย


พารามิเตอร์อินพุต

1 การแจกแจงแบบปกติ

  • ค่าเฉลี่ย;

  • ส่วนเบี่ยงเบนมาตรฐาน;

2 การกระจายแบบสามเหลี่ยม

  • ค่าเฉลี่ย;


3 การกระจายอย่างสม่ำเสมอ

  • ขีด จำกัด ของช่วงค่าที่เป็นไปได้

4 การกระจายแบบไม่ต่อเนื่อง

  • ค่าเฉพาะของตัวแปร

  • ตรงกับความน่าจะเป็นที่กำหนด

จากผลการทดลองหลายชุดจะได้การกระจายของค่าของตัวแปรสโตแคสติกโดยพิจารณาจากค่าของตัวบ่งชี้ที่คาดการณ์ไว้

ขั้นตอนต่อไปที่จำเป็นคือการวิเคราะห์ทางเศรษฐกิจและสถิติของผลการจำลอง ซึ่งแนะนำให้คำนวณลักษณะทางสถิติต่อไปนี้:


  • ค่าเฉลี่ย;

  • ส่วนเบี่ยงเบนมาตรฐาน;

  • การกระจาย;

  • ค่าต่ำสุดและสูงสุด

  • ช่วงความผันผวน

  • ค่าสัมประสิทธิ์ความไม่สมดุล

  • ส่วนเกิน.
สามารถใช้ตัวบ่งชี้ข้างต้นเพื่อทดสอบสมมติฐานของการแจกแจงแบบปกติ หากสมมติฐานได้รับการยืนยัน คุณสามารถใช้กฎ "ซิกมาสามตัว" เพื่อคาดการณ์ช่วงเวลาได้ กฎซิกมาสามข้อระบุว่าหากเป็นตัวแปรสุ่ม เอ็กซ์อยู่ภายใต้กฎการแจกแจงแบบปกติพร้อมพารามิเตอร์ และเกือบจะแน่นอนว่าค่าของมันอยู่ในช่วงเวลา นั่นคือ เพื่อปรับปรุงความชัดเจนและทำให้การตีความง่ายขึ้น ขอแนะนำให้สร้างฮิสโตแกรม


รูปที่ 1.48 - ฮิสโตแกรมของค่าตัวบ่งชี้ที่คาดการณ์ไว้

การดำเนินการตามขั้นตอนเหล่านี้จะทำให้สามารถรับค่าประมาณความน่าจะเป็นของค่าของตัวบ่งชี้ที่คาดการณ์ได้ (การคาดการณ์ช่วงเวลา)

ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณของตัวแปรสามตัวเป็นตัวบ่งชี้ความใกล้ชิดของความสัมพันธ์เชิงเส้นระหว่างคุณลักษณะอย่างใดอย่างหนึ่ง (ตัวอักษรดัชนีก่อนเส้นประ) และการรวมกันของคุณลักษณะอื่น ๆ อีกสองอย่าง (ตัวอักษรดัชนีหลังเส้นประ):

; (12.7)

(12.8)

สูตรเหล่านี้ทำให้ง่ายต่อการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์หลายค่าสำหรับค่าที่ทราบของค่าสัมประสิทธิ์สหสัมพันธ์คู่ r xy , r xz และ r yz.

ค่าสัมประสิทธิ์ ไม่เป็นลบและอยู่ระหว่าง 0 ถึง 1 เสมอ เมื่อเข้าใกล้ ระดับของความสัมพันธ์เชิงเส้นของคุณลักษณะทั้งสามจะเพิ่มขึ้น ระหว่างอัตราส่วน ความสัมพันธ์ที่หลากหลาย, ตัวอย่างเช่น R y-xzและค่าสัมประสิทธิ์สหสัมพันธ์สองคู่ r yxและ r yzมีความสัมพันธ์ดังต่อไปนี้: ค่าสัมประสิทธิ์แต่ละคู่ต้องไม่เกินค่าสัมบูรณ์ R y-xz.

กำลังสองของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ R2เรียกว่าค่าสัมประสิทธิ์ของการกำหนดพหุคูณ แสดงสัดส่วนการเปลี่ยนแปลงของตัวแปรตามภายใต้อิทธิพลของปัจจัยที่ศึกษา

ความสำคัญของความสัมพันธ์พหุสัมพันธ์นั้นประเมินโดย
– เกณฑ์:

, (12.9)

คือขนาดตัวอย่าง

เค- จำนวนสัญญาณ ในกรณีของเรา เค = 3.

ค่าทางทฤษฎี – เกณฑ์นำมาจากตารางการสมัครสำหรับ ν 1 = k-1 และ ν 2 \u003d n–kระดับของเสรีภาพและระดับความสำคัญที่ยอมรับได้ สมมติฐานว่างเกี่ยวกับความเท่าเทียมกันของค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณในประชากรเป็นศูนย์ ( H0:ร= 0) เป็นที่ยอมรับถ้า ข้อเท็จจริง F.< F табл . และปฏิเสธถ้า ข้อเท็จจริง F. ตาราง ≥ F.

สิ้นสุดการทำงาน -

หัวข้อนี้เป็นของ:

สถิติคณิตศาสตร์

สถานศึกษา..โกมล มหาวิทยาลัยของรัฐ.. ตั้งชื่อตาม Francis Skaryna Yu M Zhuchenko ..

ถ้าคุณต้องการ วัสดุเพิ่มเติมในหัวข้อนี้ หรือคุณไม่พบสิ่งที่คุณกำลังมองหา เราขอแนะนำให้ใช้การค้นหาในฐานข้อมูลผลงานของเรา:

เราจะทำอย่างไรกับเนื้อหาที่ได้รับ:

หากเนื้อหานี้มีประโยชน์สำหรับคุณ คุณสามารถบันทึกลงในเพจของคุณบนโซเชียลเน็ตเวิร์ก:

หัวข้อทั้งหมดในส่วนนี้:

กวดวิชา
สำหรับนักศึกษามหาวิทยาลัยที่เรียนพิเศษ 1-31 01 01 "ชีววิทยา" Gomel 2010

วิชาและวิธีการทางสถิติทางคณิตศาสตร์
วิชาสถิติทางคณิตศาสตร์เป็นวิชาที่ศึกษาคุณสมบัติของปรากฏการณ์ทางมวลในวิชาชีววิทยา เศรษฐศาสตร์ เทคโนโลยีและสาขาอื่นๆ ปรากฏการณ์เหล่านี้มักจะซับซ้อนเนื่องจากความหลากหลาย (ความแปรปรวน

แนวคิดของเหตุการณ์สุ่ม
การอนุมานทางสถิติหรือการอนุมานทางสถิติเป็นหลัก ส่วนประกอบวิธีการศึกษาปรากฏการณ์มวลมีลักษณะเฉพาะของตนเอง ข้อสรุปทางสถิติทำด้วยตัวเลข

ความน่าจะเป็นของเหตุการณ์สุ่ม
คุณลักษณะเชิงตัวเลขของเหตุการณ์สุ่มซึ่งมีคุณสมบัติที่สำหรับการทดสอบชุดใหญ่เพียงพอ ความถี่ของเหตุการณ์แตกต่างจากคุณลักษณะนี้เพียงเล็กน้อยเท่านั้น เรียกว่า

การคำนวณความน่าจะเป็น
บ่อยครั้งที่จำเป็นต้องเพิ่มและคูณความน่าจะเป็นพร้อมกัน ตัวอย่างเช่น คุณต้องการกำหนดความน่าจะเป็นที่จะได้ 5 แต้มเมื่อคุณทอยลูกเต๋า 2 ลูกพร้อมกัน มีแนวโน้มว่าจำนวนเงินที่ต้องการ

แนวคิดของตัวแปรสุ่ม
หลังจากกำหนดแนวคิดของความน่าจะเป็นและชี้แจงคุณสมบัติหลักของมันแล้ว เรามาพิจารณาแนวคิดที่สำคัญที่สุดประการหนึ่งของทฤษฎีความน่าจะเป็น นั่นคือแนวคิดของตัวแปรสุ่ม ให้เราถือว่าเป็นผล

ตัวแปรสุ่มแบบไม่ต่อเนื่อง
ตัวแปรสุ่มจะไม่ต่อเนื่องกันหากชุดของค่าที่เป็นไปได้นั้นจำกัด หรืออย่างน้อยก็นับได้ สมมติว่าตัวแปรสุ่ม X สามารถรับค่า x1

ตัวแปรสุ่มต่อเนื่อง
ตรงกันข้ามกับตัวแปรสุ่มแบบไม่ต่อเนื่องที่กล่าวถึงในหัวข้อย่อยก่อนหน้านี้ ชุดของค่าที่เป็นไปได้สำหรับตัวแปรสุ่มแบบต่อเนื่องนั้นไม่เพียงแต่ไม่มีขอบเขตเท่านั้น แต่ยังไม่สามารถแก้ไขได้

ความคาดหวังและความแปรปรวนทางคณิตศาสตร์
บ่อยครั้งที่จำเป็นต้องกำหนดลักษณะของการแจกแจงของตัวแปรสุ่มโดยใช้ตัวบ่งชี้ตัวเลขหนึ่งหรือสองตัวที่แสดงคุณสมบัติที่สำคัญที่สุดของการแจกแจงนี้ เพื่อดังกล่าว

ช่วงเวลา
สิ่งที่สำคัญอย่างยิ่งในสถิติทางคณิตศาสตร์คือช่วงเวลาที่เรียกว่าการแจกแจงของตัวแปรสุ่ม ในความคาดหวังทางคณิตศาสตร์ ค่าขนาดใหญ่ของตัวแปรสุ่มจะไม่ถูกนำมาพิจารณาอย่างเพียงพอ

การแจกแจงแบบทวินามและการวัดความน่าจะเป็น
ในหัวข้อนี้ เราจะพิจารณาประเภทหลักของการแจกแจงของตัวแปรสุ่มแบบไม่ต่อเนื่อง สมมติว่าความน่าจะเป็นของการเกิดเหตุการณ์สุ่ม A ในการทดลองครั้งเดียวเท่ากับ

การกระจายรูปสี่เหลี่ยมผืนผ้า (สม่ำเสมอ)
การแจกแจงแบบสี่เหลี่ยมผืนผ้า (แบบสม่ำเสมอ) เป็นการแจกแจงแบบต่อเนื่องที่ง่ายที่สุด ถ้าตัวแปรสุ่ม X สามารถรับค่าจริงใดๆ ในช่วง (a, b) โดยที่ a และ b เป็นจำนวนจริง

การแจกแจงแบบปกติ
การแจกแจงแบบปกติมีบทบาทสำคัญในสถิติทางคณิตศาสตร์ นี่ไม่ใช่การสุ่มน้อยที่สุด: ในความเป็นจริงตามวัตถุประสงค์มักพบสัญญาณต่างๆ

การกระจายล็อกปกติ
ตัวแปรสุ่ม Y มีลอการิทึม การแจกแจงแบบปกติด้วยพารามิเตอร์ μ และ σ หากตัวแปรสุ่ม X = lnY มีการแจกแจงแบบปกติด้วยพารามิเตอร์ μ และ &

ค่าเฉลี่ย
ในบรรดาคุณสมบัติของกลุ่มทั้งหมด ระดับเฉลี่ยซึ่งวัดโดยค่าเฉลี่ยของลักษณะ มีความสำคัญทางทฤษฎีและทางปฏิบัติมากที่สุด ค่าเฉลี่ยของคุณสมบัติเป็นแนวคิดที่ลึกซึ้งมาก

คุณสมบัติทั่วไปของค่าเฉลี่ย
สำหรับการใช้ค่าเฉลี่ยอย่างถูกต้องจำเป็นต้องทราบคุณสมบัติของตัวบ่งชี้เหล่านี้: ตำแหน่งมัธยฐาน, ความเป็นนามธรรมและเอกภาพของการกระทำทั้งหมด โดยค่าตัวเลขของมัน

ค่าเฉลี่ยเลขคณิต
ค่าเฉลี่ยเลขคณิตซึ่งมีคุณสมบัติทั่วไปของค่าเฉลี่ยมีลักษณะเฉพาะของตัวเองซึ่งสามารถแสดงได้ด้วยสูตรต่อไปนี้:

อันดับเฉลี่ย (ค่าเฉลี่ยที่ไม่ใช่พารามิเตอร์)
อันดับเฉลี่ยถูกกำหนดสำหรับคุณสมบัติดังกล่าวที่ยังไม่พบวิธีการวัดเชิงปริมาณ ตามระดับของการแสดงออกของคุณสมบัติดังกล่าว วัตถุสามารถจัดลำดับได้ เช่น ตั้งอยู่

ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก
โดยปกติแล้ว ในการคำนวณค่าเฉลี่ยเลขคณิต ค่าทั้งหมดของคุณลักษณะจะถูกรวมเข้าด้วยกันและผลรวมที่ได้จะถูกหารด้วยจำนวนตัวเลือก ในกรณีนี้ แต่ละค่าที่ป้อนผลรวมจะเพิ่มค่าเต็ม

รากหมายถึงกำลังสอง
ค่าเฉลี่ยรากที่สองคำนวณโดยสูตร: , (6.5) ซึ่งเท่ากับรากที่สองของผลรวม

ค่ามัธยฐาน
ค่ามัธยฐานคือค่าคุณลักษณะที่แบ่งกลุ่มทั้งหมดออกเป็นสองส่วนเท่าๆ กัน ส่วนหนึ่งมีค่าคุณลักษณะน้อยกว่าค่ามัธยฐาน และอีกส่วนหนึ่งมีค่ามากกว่า ตัวอย่างเช่น ถ้าฉันมี

เฉลี่ยเรขาคณิต
ในการรับค่าเฉลี่ยเรขาคณิตสำหรับกลุ่มที่มีข้อมูล n คุณต้องคูณตัวเลือกทั้งหมดและแยกจากผลคูณที่ได้ รากที่ nองศา:

ฮาร์มอนิกเฉลี่ย
ค่าเฉลี่ยฮาร์มอนิกคำนวณโดยสูตร (6.14) สำหรับห้าตัวเลือก: 1, 4, 5, 5 ปานกลาง

จำนวนองศาอิสระ
จำนวนองศาอิสระเท่ากับจำนวนองค์ประกอบฟรีวาไรตี้ในกลุ่ม เท่ากับจำนวนรายการศึกษาที่มีอยู่ทั้งหมดโดยไม่มีข้อจำกัดด้านจำนวน ตัวอย่างเช่นสำหรับการวิจัย

ค่าสัมประสิทธิ์ของการแปรผัน
ส่วนเบี่ยงเบนมาตรฐานคือค่าที่มีชื่อ ซึ่งแสดงเป็นหน่วยเดียวกับค่าเฉลี่ยเลขคณิต ดังนั้นเพื่อเปรียบเทียบคุณสมบัติต่างๆที่แสดงในหน่วยต่างๆจาก

ขีดจำกัดและขอบเขต
สำหรับการประเมินระดับความหลากหลายอย่างรวดเร็วและโดยประมาณมักใช้ตัวบ่งชี้ที่ง่ายที่สุด: lim = (min ¸ max) - ขีด จำกัด เช่น น้อยที่สุดและ ค่าที่ยิ่งใหญ่ที่สุดคุณลักษณะ พี =

ค่าเบี่ยงเบนปกติ
โดยปกติแล้วระดับของการพัฒนาลักษณะจะพิจารณาจากการวัดและแสดงด้วยหมายเลขที่กำหนด: น้ำหนัก 3 กก., ความยาว 15 ซม., 20 ตะขอบนปีกผึ้ง, ไขมัน 4% ในนม, 15 กก. การตัด

ค่าเฉลี่ยและซิกม่าของกลุ่มสรุป
บางครั้งจำเป็นต้องกำหนดค่าเฉลี่ยและซิกมาสำหรับการแจกแจงผลรวมที่ประกอบด้วยการแจกแจงหลายรายการ ในกรณีนี้ ไม่ทราบการแจกแจงตัวเอง แต่มีเพียงวิธีการและซิกมาเท่านั้น

ความเบ้ (ความเบ้) และความชัน (คูร์โทซิส) ของเส้นโค้งการกระจาย
สำหรับตัวอย่างขนาดใหญ่ (n > 100) จะมีการคำนวณสถิติอีกสองรายการ ความเบ้ของเส้นโค้งเรียกว่าอสมมาตร:

ชุดรูปแบบต่างๆ
เมื่อขนาดของกลุ่มที่ศึกษาเพิ่มขึ้น ความสม่ำเสมอของความหลากหลายจะชัดเจนขึ้นเรื่อย ๆ ซึ่งในกลุ่มเล็ก ๆ ถูกซ่อนไว้โดยรูปแบบสุ่มของการสำแดง

ฮิสโตแกรมและเส้นโค้งการแปรผัน
ฮิสโตแกรมคือ ชุดการเปลี่ยนแปลงนำเสนอในรูปแบบของไดอะแกรมซึ่งแสดงค่าความถี่ที่แตกต่างกันด้วยความสูงของแท่งที่แตกต่างกัน ฮิสโตแกรมการกระจายข้อมูลแสดงในหน้า

นัยสำคัญของความแตกต่างของการกระจาย
สมมติฐานทางสถิติเป็นสมมติฐานเฉพาะเกี่ยวกับการแจกแจงความน่าจะเป็นที่อยู่ภายใต้ตัวอย่างข้อมูลที่สังเกตได้ การตรวจสอบ สมมติฐานทางสถิติเป็นกระบวนการยอมรับ

เกณฑ์ความเบ้และความโด่ง
สัญญาณบางอย่างของพืช สัตว์ และจุลินทรีย์ เมื่อวัตถุรวมกันเป็นกลุ่ม จะให้การกระจายที่แตกต่างจากปกติอย่างมาก ในกรณีที่ใดๆ

ประชากรทั่วไปและกลุ่มตัวอย่าง
กลุ่มบุคคลทั้งหมดในหมวดหมู่ใดหมวดหมู่หนึ่งเรียกว่าประชากรทั่วไป ปริมาณ ประชากรกำหนดโดยวัตถุประสงค์ของการศึกษา หากมีการศึกษาสัตว์ป่าชนิดใด

ความเป็นตัวแทน
การศึกษาโดยตรงของกลุ่มของวัตถุที่เลือก อันดับแรกคือวัสดุหลักและคุณลักษณะของตัวอย่าง ข้อมูลตัวอย่างและตัวเลขสรุปทั้งหมดมีความเกี่ยวข้องดังนี้

ข้อผิดพลาดในการเป็นตัวแทนและข้อผิดพลาดในการวิจัยอื่นๆ
การประเมินพารามิเตอร์ทั่วไปตามตัวบ่งชี้ที่เลือกมีลักษณะเฉพาะของตนเอง ส่วนหนึ่งไม่สามารถแสดงลักษณะทั้งหมดได้อย่างสมบูรณ์ ดังนั้น ลักษณะเฉพาะของประชากรทั่วไป

ขอบเขตความเชื่อมั่น
จำเป็นต้องกำหนดค่าของข้อผิดพลาดในการเป็นตัวแทนเพื่อใช้ตัวบ่งชี้ตัวอย่างเพื่อค้นหาค่าที่เป็นไปได้ของพารามิเตอร์ทั่วไป กระบวนการนี้เรียกว่า o

ขั้นตอนการประเมินทั่วไป
สามค่าที่จำเป็นในการประเมินพารามิเตอร์ทั่วไป - ตัวบ่งชี้ตัวอย่าง () เกณฑ์ความน่าเชื่อถือ

การประมาณค่าเฉลี่ยเลขคณิต
การประมาณค่าเฉลี่ยมีวัตถุประสงค์เพื่อสร้างค่าเฉลี่ยทั่วไปสำหรับประเภทของวัตถุที่ศึกษา ข้อผิดพลาดของตัวแทนที่จำเป็นสำหรับจุดประสงค์นี้ถูกกำหนดโดยสูตร:

การประมาณความแตกต่างของค่าเฉลี่ย
ในบางการศึกษา ความแตกต่างระหว่างการวัดสองครั้งถือเป็นข้อมูลหลัก นี่อาจเป็นกรณีที่แต่ละกลุ่มตัวอย่างได้รับการศึกษาในสองสถานะ - หรือใน อายุต่างกันหรือหน้า

ค่าประมาณความแตกต่างของค่าเฉลี่ยที่ไม่น่าเชื่อถือและเชื่อถือได้
ผลลัพธ์ของการศึกษาแบบคัดเลือกดังกล่าวซึ่งเป็นไปไม่ได้ที่จะได้รับค่าประมาณที่แน่นอนของพารามิเตอร์ทั่วไป (ไม่ว่าจะมากกว่าศูนย์หรือน้อยกว่าหรือเท่ากับศูนย์) เรียกว่าไม่น่าเชื่อถือ

การประมาณค่าผลต่างของค่าเฉลี่ยทั่วไป
ในการวิจัยทางชีววิทยา ความแตกต่างระหว่างสองปริมาณมีความสำคัญเป็นพิเศษ โดยความแตกต่าง เปรียบเทียบประชากร เชื้อชาติ สายพันธุ์ สายพันธุ์ สายพันธุ์ ครอบครัว กลุ่มทดลองและกลุ่มควบคุมที่แตกต่างกัน (วิธี gr

เกณฑ์ความน่าเชื่อถือที่แตกต่างกัน
ในเวลาเดียวกัน ความสำคัญอย่างยิ่งซึ่งมีไว้สำหรับนักวิจัยที่ได้รับความแตกต่างที่เชื่อถือได้ มีความจำเป็นที่จะต้องเชี่ยวชาญในวิธีการที่ช่วยในการพิจารณาว่าสิ่งที่ได้รับนั้นมีความน่าเชื่อถือและเป็นจริงหรือไม่

ความเป็นตัวแทนในการศึกษาคุณลักษณะเชิงคุณภาพ
ลักษณะเชิงคุณภาพมักไม่สามารถแบ่งระดับการแสดงออกมาให้เห็นได้: มีอยู่หรือไม่มีอยู่ในแต่ละบุคคล เช่น เพศ เพศ การมีหรือไม่มีคุณลักษณะใด ๆ ความอัปลักษณ์

ความน่าเชื่อถือของส่วนต่างในหุ้น
ความน่าเชื่อถือของความแตกต่างของการแบ่งกลุ่มตัวอย่างถูกกำหนดในลักษณะเดียวกับความแตกต่างของค่าเฉลี่ย: (10.34)

ค่าสัมประสิทธิ์สหสัมพันธ์
ในการศึกษาจำนวนมากจำเป็นต้องศึกษาสัญญาณหลายอย่างในความสัมพันธ์ซึ่งกันและกัน หากเราทำการศึกษาดังกล่าวโดยสัมพันธ์กับสองลักษณะ เราจะเห็นว่าความแปรปรวนของลักษณะหนึ่งไม่ได้

ข้อผิดพลาดค่าสัมประสิทธิ์สหสัมพันธ์
เช่นเดียวกับค่าตัวอย่างอื่นๆ ค่าสัมประสิทธิ์สหสัมพันธ์มีข้อผิดพลาดในการเป็นตัวแทน ซึ่งคำนวณสำหรับตัวอย่างขนาดใหญ่โดยใช้สูตร:

ความเชื่อมั่นของค่าสัมประสิทธิ์สหสัมพันธ์ของกลุ่มตัวอย่าง
เกณฑ์สำหรับค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างถูกกำหนดโดยสูตร: (11.9) โดยที่:

ขีดจำกัดความเชื่อมั่นของค่าสัมประสิทธิ์สหสัมพันธ์
พบขีดจำกัดความเชื่อมั่นของค่าทั่วไปของค่าสัมประสิทธิ์สหสัมพันธ์ ในทางทั่วไปตามสูตร:

ความน่าเชื่อถือของผลต่างระหว่างค่าสัมประสิทธิ์สหสัมพันธ์สองค่า
ความน่าเชื่อถือของความแตกต่างของค่าสัมประสิทธิ์สหสัมพันธ์ถูกกำหนดในลักษณะเดียวกับความน่าเชื่อถือของความแตกต่างของค่าเฉลี่ยตามสูตรปกติ

สมการถดถอยแบบเส้นตรง
ความสัมพันธ์เชิงเส้นตรงจะแตกต่างกันเมื่อเชื่อมต่อในรูปแบบนี้ การเปลี่ยนแปลงเดียวกันแต่ละรายการในแอตทริบิวต์แรกจะสอดคล้องกับการเปลี่ยนแปลงที่กำหนดไว้อย่างดีและยังรวมถึงการเปลี่ยนแปลงโดยเฉลี่ยเดียวกันในแอตทริบิวต์อื่นๆ

ข้อผิดพลาดขององค์ประกอบของสมการถดถอยเชิงเส้นตรง
ในสมการถดถอยแบบเส้นตรงอย่างง่าย: y = a + bx มีข้อผิดพลาดสามประการเกี่ยวกับความเป็นตัวแทน 1 ข้อผิดพลาดค่าสัมประสิทธิ์การถดถอย:

ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน
ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วนเป็นตัวบ่งชี้ที่วัดระดับการผันคำกริยาของสัญญาณสองสัญญาณด้วยค่าคงที่ของสัญญาณที่สาม สถิติทางคณิตศาสตร์ช่วยให้คุณสร้างความสัมพันธ์ได้

สมการถดถอยพหุคูณเชิงเส้น
สมการทางคณิตศาสตร์สำหรับความสัมพันธ์แบบเส้นตรงระหว่างสามตัวแปรเรียกว่า สมการ สมการเชิงเส้นระนาบการถดถอย มีรูปแบบทั่วไปดังนี้

ความสัมพันธ์
หากความสัมพันธ์ระหว่างปรากฏการณ์ภายใต้การศึกษาเบี่ยงเบนไปอย่างมากจากความสัมพันธ์เชิงเส้น ซึ่งง่ายต่อการสร้างจากกราฟ แสดงว่าค่าสัมประสิทธิ์สหสัมพันธ์นั้นไม่เหมาะที่จะใช้เป็นตัวชี้วัดความสัมพันธ์ สามารถบ่งบอกถึงการขาดงาน

คุณสมบัติความสัมพันธ์ของความสัมพันธ์
อัตราส่วนสหสัมพันธ์จะวัดระดับของความสัมพันธ์ในรูปแบบใดๆ นอกจากนี้ อัตราส่วนสหสัมพันธ์ยังมีคุณสมบัติอื่นๆ อีกมากมายที่น่าสนใจในเชิงสถิติ

ข้อผิดพลาดของตัวแทนอัตราส่วนความสัมพันธ์
ยังไม่มีการพัฒนาสูตรที่แน่นอนสำหรับข้อผิดพลาดของการเป็นตัวแทนของอัตราส่วนสหสัมพันธ์ สูตรที่มักจะให้ไว้ในตำรามีข้อเสียที่ไม่สามารถละเลยได้เสมอ สูตรนี้ไม่ได้

เกณฑ์ความสัมพันธ์เชิงเส้น
ในการกำหนดระดับการประมาณของการขึ้นต่อกันของเส้นโค้งกับเส้นตรง จะใช้เกณฑ์ F ซึ่งคำนวณโดยสูตร:

คอมเพล็กซ์การกระจาย
Dispersion Complex คือชุดของการไล่ระดับสีที่มีข้อมูลที่เกี่ยวข้องสำหรับการศึกษาและค่าเฉลี่ยของข้อมูลสำหรับการไล่ระดับสีแต่ละครั้ง (ค่าเฉลี่ยส่วนตัว) และสำหรับคอมเพล็กซ์ทั้งหมด (ค่าเฉลี่ยทั่วไป)

อิทธิพลทางสถิติ
อิทธิพลทางสถิติเป็นภาพสะท้อนในความหลากหลายของคุณลักษณะที่เกิดจากความหลากหลายของปัจจัย (การไล่ระดับสี) ซึ่งจัดในการศึกษา เพื่อประเมินอิทธิพลของนีโอ

อิทธิพลแฟกทอเรียล
อิทธิพลของแฟกทอเรียลเป็นอิทธิพลทางสถิติที่เรียบง่ายหรือรวมกันของปัจจัยที่ศึกษา ในคอมเพล็กซ์ปัจจัยเดียว อิทธิพลอย่างง่ายของปัจจัยเดียวได้รับการศึกษาในระดับองค์กรที่แน่นอน

คอมเพล็กซ์การกระจายตัวแบบปัจจัยเดียว
การวิเคราะห์ความแปรปรวนได้รับการพัฒนาและนำเข้าสู่การปฏิบัติการวิจัยทางการเกษตรและชีวภาพโดยนักวิทยาศาสตร์ชาวอังกฤษ อาร์. เอ. ฟิชเชอร์ ผู้ค้นพบกฎการกระจายของอัตราส่วนของกำลังสองเฉลี่ย

คอมเพล็กซ์การกระจายหลายปัจจัย
ความคิดที่ชัดเจนของ แบบจำลองทางคณิตศาสตร์การวิเคราะห์ความแปรปรวนทำให้ง่ายต่อการเข้าใจการดำเนินการคำนวณที่จำเป็น โดยเฉพาะอย่างยิ่งเมื่อประมวลผลข้อมูลจากการทดลองหลายตัวแปรซึ่งมีมากกว่า

การเปลี่ยนแปลง
การใช้งานที่ถูกต้องการวิเคราะห์ความแปรปรวนสำหรับการประมวลผลของวัสดุทดลองจะถือว่าความสม่ำเสมอของความแปรปรวนสำหรับตัวเลือก (ตัวอย่าง) การกระจายปกติหรือใกล้เคียงกับมันใน

ตัวบ่งชี้ความแข็งแกร่งของอิทธิพล
การกำหนดความแข็งแกร่งของอิทธิพลตามผลลัพธ์นั้นจำเป็นต้องใช้ในชีววิทยา การเกษตร การแพทย์ เพื่อเลือกมากที่สุด วิธีที่มีประสิทธิภาพการสัมผัส สำหรับปริมาณของสารทางกายภาพและเคมี - เซนต์

ข้อผิดพลาดของการเป็นตัวแทนของตัวบ่งชี้หลักของอำนาจของอิทธิพล
ยังไม่พบสูตรที่แน่นอนสำหรับข้อผิดพลาดของตัวบ่งชี้หลักของความแข็งแกร่งของอิทธิพล ในคอมเพล็กซ์แบบปัจจัยเดียว เมื่อข้อผิดพลาดของตัวแทนถูกกำหนดสำหรับตัวบ่งชี้แฟกทอเรียลเพียงตัวเดียว

จำกัด ค่าของตัวบ่งชี้อำนาจของอิทธิพล
ตัวบ่งชี้หลักของอำนาจของอิทธิพลเท่ากับส่วนแบ่งของหนึ่งเทอมจากผลรวมทั้งหมดของเงื่อนไข นอกจากนี้ ตัวบ่งชี้นี้จะเท่ากับกำลังสองของอัตราส่วนสหสัมพันธ์ ด้วยเหตุผลสองประการนี้ ไฟแสดงสถานะ

ความน่าเชื่อถือของอิทธิพล
ตัวบ่งชี้หลักของพลังแห่งอิทธิพลที่ได้รับจากการศึกษาแบบเลือกลักษณะประการแรกคือระดับของอิทธิพลที่จริง ๆ แล้วแสดงออกมาในกลุ่มของวัตถุที่ศึกษา

การวิเคราะห์จำแนก
การวิเคราะห์จำแนกเป็นวิธีการหนึ่งของการวิเคราะห์ทางสถิติหลายตัวแปร จุดประสงค์ของการวิเคราะห์จำแนกคือการวัดลักษณะต่างๆ (คุณลักษณะ, คู่

คำแถลงปัญหา วิธีการแก้ไข ข้อจำกัด
สมมติว่ามีวัตถุ n รายการที่มีลักษณะ m ผลจากการวัด วัตถุแต่ละชิ้นมีลักษณะเฉพาะด้วยเวกเตอร์ x1 ... xm, m >1 งานก็คือว่า

สมมติฐานและข้อ จำกัด
การวิเคราะห์จำแนก "ทำงาน" ภายใต้สมมติฐานจำนวนหนึ่ง สมมติฐานที่ว่าปริมาณที่สังเกตได้ - ลักษณะที่วัดได้ของวัตถุ - มีการแจกแจงแบบปกติ นี้

อัลกอริทึมการวิเคราะห์จำแนกประเภท
การแก้ปัญหาการเลือกปฏิบัติ (การวิเคราะห์จำแนก) ประกอบด้วยการแบ่งพื้นที่ตัวอย่างทั้งหมด (ชุดของการสำนึกของการพิจารณาหลายมิติทั้งหมด ตัวแปรสุ่ม) สำหรับบางจำนวน

การวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์เป็นการรวมขั้นตอนต่างๆ ที่ใช้ในการจำแนกประเภท จากการใช้ขั้นตอนเหล่านี้ ชุดเริ่มต้นของวัตถุจะถูกแบ่งออกเป็นคลัสเตอร์หรือกลุ่ม

วิธีการวิเคราะห์คลัสเตอร์
ในทางปฏิบัติ มักจะใช้วิธีการจัดกลุ่มแบบรวมกลุ่ม โดยปกติแล้ว ก่อนที่จะเริ่มการจัดหมวดหมู่ ข้อมูลจะถูกทำให้เป็นมาตรฐาน (ค่าเฉลี่ยจะถูกหักออกและรากที่สองจะถูกหาร)

อัลกอริทึมการวิเคราะห์คลัสเตอร์
การวิเคราะห์คลัสเตอร์เป็นชุดของวิธีการจำแนกการสังเกตหรือวัตถุหลายมิติตามคำจำกัดความของแนวคิดของระยะห่างระหว่างวัตถุ ตามด้วยการเลือกกลุ่มจากวัตถุเหล่านั้น &

ทุกวันนี้ ทุกคนที่สนใจการทำเหมืองข้อมูลอย่างน้อยก็เคยได้ยินเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย มีการเขียนเกี่ยวกับ Habré ไว้แล้ว และ Andrew Ng ยังได้พูดถึงรายละเอียดในหลักสูตรแมชชีนเลิร์นนิงที่มีชื่อเสียงของเขาด้วย การถดถอยเชิงเส้นเป็นหนึ่งในพื้นฐานและสำคัญที่สุด วิธีการง่ายๆแมชชีนเลิร์นนิง อย่างไรก็ตาม วิธีการประเมินคุณภาพของโมเดลที่สร้างขึ้นมักไม่ค่อยมีการกล่าวถึง ในบทความนี้ ฉันจะพยายามแก้ไขการละเว้นที่น่ารำคาญนี้เล็กน้อยโดยใช้ตัวอย่างการแยกวิเคราะห์ผลลัพธ์ของฟังก์ชัน summary.lm() ในภาษา R ในการทำเช่นนั้นฉันจะพยายามจัดเตรียมสูตรที่จำเป็น ดังนั้นทั้งหมด การคำนวณสามารถตั้งโปรแกรมในภาษาอื่นได้อย่างง่ายดาย บทความนี้มีไว้สำหรับผู้ที่เคยได้ยินว่าเป็นไปได้ที่จะสร้างการถดถอยเชิงเส้น แต่ยังไม่พบขั้นตอนทางสถิติสำหรับการประเมินคุณภาพ

แบบจำลองการถดถอยเชิงเส้น

ดังนั้น ให้มีตัวแปรสุ่มอิสระหลายตัว X1, X2, ..., Xn (ตัวทำนาย) และตัวแปร Y ขึ้นอยู่กับตัวแปรเหล่านั้น (สันนิษฐานว่ามีการแปลงตัวทำนายที่จำเป็นทั้งหมดแล้ว) นอกจากนี้ เราถือว่าการพึ่งพาเป็นแบบเส้นตรงและข้อผิดพลาดถูกกระจายตามปกติ เช่น

โดย I คือเมทริกซ์เอกลักษณ์กำลังสอง n xn

ดังนั้นเราจึงมีข้อมูลที่ประกอบด้วยการสังเกต k ของค่า Y และ Xi และเราต้องการประมาณค่าสัมประสิทธิ์ วิธีมาตรฐานในการหาค่าประมาณสัมประสิทธิ์คือวิธีกำลังสองน้อยที่สุด และ โซลูชันการวิเคราะห์ซึ่งสามารถรับได้โดยใช้วิธีนี้ มีลักษณะดังนี้:

ที่ไหน ด้วย cap - การประมาณค่าสัมประสิทธิ์เวกเตอร์ เป็นเวกเตอร์ของค่าของตัวแปรตาม และ X คือเมทริกซ์ขนาด k x n+1 (n คือจำนวนตัวทำนาย k คือจำนวนการสังเกต) ซึ่งคอลัมน์แรกประกอบด้วยคอลัมน์ คอลัมน์ที่สอง - ค่าของตัวทำนายตัวแรกตัวที่สาม - ตัวที่สองและอื่น ๆ และแถวที่สอดคล้องกับการสังเกตที่มีอยู่

ฟังก์ชัน summary.lm() และการประเมินผลลัพธ์

พิจารณาตัวอย่างการสร้างแบบจำลองการถดถอยเชิงเส้นในภาษา R:
> ห้องสมุด (ห่างไกล) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) >ข้อมูลสรุป (lm1) โทร: lm (สูตร = สปีชีส์ ~ พื้นที่ + ระดับความสูง + ใกล้ที่สุด + Scruz + ที่อยู่ติดกัน ข้อมูล = gala) ส่วนที่เหลือ: ต่ำสุด 1Q ค่ามัธยฐาน 3Q สูงสุด -111.679 -34.898 -7.862 33.460 182.584 ค่าสัมประสิทธิ์: ค่าประมาณ Std Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- ลงชื่อ รหัส: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ข้อผิดพลาดมาตรฐานที่เหลือ: 60.98 บน 24 องศาอิสระ หลาย R-squared: 0.7658, ปรับ R-squared: 0.7171 F- สถิติ: 15.7 ใน 5 และ 24 DF, p-value: 6.838e-07
ตารางงานกาล่าประกอบด้วยข้อมูลบางส่วนเกี่ยวกับ 30 เกาะกาลาปาโกส เราจะพิจารณาแบบจำลองโดยที่สปีชีส์เป็นหมายเลข ประเภทต่างๆพืชบนเกาะขึ้นอยู่กับตัวแปรอื่น ๆ อีกหลายตัว

พิจารณาผลลัพธ์ของฟังก์ชัน summary.lm()
อันดับแรกคือบรรทัดที่ระลึกถึงวิธีสร้างโมเดล
จากนั้นข้อมูลเกี่ยวกับการกระจายของส่วนที่เหลือ: ต่ำสุด, ควอร์ไทล์แรก, ค่ามัธยฐาน, ควอร์ไทล์ที่สาม, สูงสุด ณ จุดนี้ การดูปริมาณของสารตกค้างจะมีประโยชน์ไม่เพียงเท่านั้น แต่ยังตรวจสอบความปกติได้ด้วย เช่น ใช้การทดสอบ Shapiro-Wilk
ถัดไป - ข้อมูลที่น่าสนใจที่สุดเกี่ยวกับค่าสัมประสิทธิ์ จำเป็นต้องมีทฤษฎีเล็กน้อยที่นี่
ก่อนอื่นเราเขียนผลลัพธ์ต่อไปนี้:

โดยที่ sigma กำลังสองด้วยตัวพิมพ์ใหญ่เป็นตัวประมาณค่าที่เป็นกลางสำหรับ sigma กำลังสองจริง ที่นี่ คือเวกเตอร์จริงของสัมประสิทธิ์ และเอปไซลอนปิดคือเวกเตอร์ของเศษเหลือ ถ้าเราใช้ค่าประมาณกำลังสองน้อยที่สุดเป็นค่าสัมประสิทธิ์ นั่นคือ ภายใต้สมมุติฐานว่าข้อผิดพลาดถูกกระจายตามปกติ เวกเตอร์ของสัมประสิทธิ์จะถูกกระจายตามปกติรอบๆ ค่าจริง และความแปรปรวนของมันสามารถประมาณค่าได้แบบไม่เอนเอียง ซึ่งหมายความว่าคุณสามารถทดสอบสมมติฐานสำหรับความเท่าเทียมกันของค่าสัมประสิทธิ์เป็นศูนย์ได้ และตรวจสอบความสำคัญของตัวทำนาย นั่นคือ ค่าของ Xi มีผลอย่างมากต่อคุณภาพของแบบจำลองที่สร้างขึ้นหรือไม่
ในการทดสอบสมมติฐานนี้ เราต้องการสถิติต่อไปนี้ ซึ่งมีการกระจายของนักเรียน ถ้าค่าจริงของสัมประสิทธิ์ bi เป็น 0:

ที่ไหน
คือข้อผิดพลาดมาตรฐานของการประมาณค่าสัมประสิทธิ์ และ t(k-n-1) คือการกระจายของนักเรียนที่มีองศาอิสระ k-n-1

ตอนนี้เราพร้อมที่จะแยกวิเคราะห์เอาต์พุตของฟังก์ชัน summary.lm() ต่อไป
ดังนั้น ต่อไปคือการประมาณค่าสัมประสิทธิ์ที่ได้จากวิธีกำลังสองน้อยที่สุด ข้อผิดพลาดมาตรฐาน, ค่าสถิติ t และค่า p สำหรับมัน โดยทั่วไปแล้ว ค่า p จะถูกเปรียบเทียบกับเกณฑ์ที่เลือกไว้ล่วงหน้าที่มีขนาดเล็กเพียงพอ เช่น 0.05 หรือ 0.01 และถ้าค่าของ p-statistics น้อยกว่าเกณฑ์ สมมติฐานก็จะถูกปฏิเสธ ถ้ามากกว่านั้น น่าเสียดายที่ไม่มีอะไรเป็นรูปธรรมที่สามารถพูดได้ ฉันขอเตือนคุณว่าในกรณีนี้ เนื่องจากการกระจายตัวของนักเรียนมีความสมมาตรประมาณ 0 ค่า p จะเท่ากับ 1-F(|t|)+F(-|t|) โดยที่ F คือการกระจายตัวของนักเรียน ฟังก์ชันที่มีองศาอิสระ k-n-1 นอกจากนี้ โปรดทำเครื่องหมาย R ด้วยเครื่องหมายดอกจันสำหรับค่าสัมประสิทธิ์นัยสำคัญซึ่งค่า p นั้นน้อยพอสมควร นั่นคือค่าสัมประสิทธิ์ที่ไม่น่าเป็น 0 ในบรรทัด Signif รหัสประกอบด้วยการถอดรหัสของเครื่องหมายดอกจัน: หากมีสามค่า p-value จะอยู่ระหว่าง 0 ถึง 0.001 หากมีสองค่าก็จะอยู่ระหว่าง 0.001 ถึง 0.01 และอื่น ๆ หากไม่มีไอคอน แสดงว่าค่า p มีค่ามากกว่า 0.1

ในตัวอย่างของเรา เราสามารถพูดได้อย่างมั่นใจอย่างยิ่งว่าตัวทำนายระดับความสูงและตำแหน่งที่อยู่ติดกันมีแนวโน้มที่จะส่งผลกระทบต่อค่าของสปีชีส์จริง ๆ แต่ไม่มีอะไรสามารถพูดได้อย่างชัดเจนเกี่ยวกับตัวทำนายที่เหลือ โดยปกติแล้ว ในกรณีเช่นนี้ ตัวทำนายจะถูกลบออกทีละตัวและดูว่าตัวบ่งชี้ตัวแบบอื่นๆ เปลี่ยนแปลงอย่างไร เช่น BIC หรือ R-squared ที่ปรับแล้ว ซึ่งจะกล่าวถึงในภายหลัง

ค่าของข้อผิดพลาดมาตรฐานที่เหลือสอดคล้องกับการประมาณอย่างง่ายของซิกมาด้วยค่าสูงสุด และองศาอิสระจะคำนวณเป็น k-n-1

และตอนนี้สถิติที่สำคัญที่สุดซึ่งควรค่าแก่การดูเป็นอันดับแรก: R-squared และ R-squared ที่ปรับแล้ว:

โดยที่ Yi คือค่า Y จริงในการสังเกตแต่ละครั้ง Yi ที่มีตัวพิมพ์ใหญ่คือค่าที่ทำนายโดยแบบจำลอง Y ที่มีแถบคือค่าเฉลี่ยของค่า Yi จริงทั้งหมด

เรามาเริ่มกันที่ค่าสถิติ R-squared หรือที่บางครั้งเรียกว่า ค่าสัมประสิทธิ์ของการกำหนด มันแสดงให้เห็นว่าความแปรปรวนตามเงื่อนไขของโมเดลแตกต่างจากความแปรปรวนของค่าจริงของ Y อย่างไร หากค่าสัมประสิทธิ์นี้ใกล้เคียงกับ 1 แสดงว่าความแปรปรวนตามเงื่อนไขของโมเดลนั้นค่อนข้างน้อยและมีความเป็นไปได้สูงที่โมเดลจะเหมาะกับ ข้อมูลได้เป็นอย่างดี หากค่าสัมประสิทธิ์ R-squared น้อยกว่ามากเช่นน้อยกว่า 0.5 ดังนั้นด้วยความมั่นใจระดับสูงแบบจำลองจะไม่สะท้อนถึงสถานการณ์จริง

อย่างไรก็ตาม สถิติ R-squared มีข้อเสียอย่างหนึ่ง: เมื่อจำนวนตัวทำนายเพิ่มขึ้น สถิตินี้จะยิ่งเพิ่มขึ้นเท่านั้น ดังนั้น อาจดูเหมือนว่าโมเดลที่มีตัวทำนายมากกว่าจะดีกว่าตัวแบบที่มีน้อยกว่า แม้ว่าตัวทำนายใหม่ทั้งหมดจะไม่ส่งผลกระทบต่อตัวแปรตามก็ตาม ที่นี่เราสามารถระลึกถึงหลักการของมีดโกนของ Occam หากเป็นไปได้ คุณควรกำจัดตัวทำนายที่ไม่จำเป็นในโมเดล เนื่องจากมันจะง่ายขึ้นและเข้าใจได้มากขึ้น เพื่อจุดประสงค์เหล่านี้ สถิติ R-squared ที่ปรับแล้วจึงถูกคิดค้นขึ้น มันเป็น R-Square ธรรมดา แต่มีโทษสำหรับ จำนวนมากตัวทำนาย วาม ิดหลัก: ถ้าตัวแปรอิสระใหม่ให้ มีส่วนร่วมอย่างมากตามแบบจำลอง ค่าของสถิตินี้จะเพิ่มขึ้น ถ้าไม่ก็ลดลงในทางกลับกัน

ตัวอย่างเช่น พิจารณาโมเดลเดิมแต่ตอนนี้แทนที่จะเป็นตัวทำนายห้าตัว เราจะเหลือสองตัว:
>lm2<-lm(Species~Elevation+Adjacent, data=gala) >ข้อมูลสรุป (lm2) โทร: lm (สูตร = สปีชีส์ ~ ระดับความสูง + ที่อยู่ติดกัน ข้อมูล = กาลา) ส่วนที่เหลือ: ต่ำสุด 1Q ค่ามัธยฐาน 3Q สูงสุด -103.41 -34.33 -11.43 22.57 203.65 ค่าสัมประสิทธิ์: ค่าประมาณ Std ค่า Error t Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Adjacent -0.06889 0.01549 -4.447 0.000134 *** --- Signif. รหัส: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ข้อผิดพลาดมาตรฐานที่เหลือ: 60.86 บน 27 องศาอิสระ หลาย R-squared: 0.7376, ปรับ R-squared: 0.7181 F- สถิติ: 37.94 ใน 2 และ 27 DF, p-value: 1.434e-08
อย่างที่คุณเห็น ค่าของสถิติ R-square ลดลง แต่ค่าของ R-square ที่ปรับแล้วเพิ่มขึ้นเล็กน้อย

ทีนี้ลองทดสอบสมมติฐานที่ว่าค่าสัมประสิทธิ์ของตัวทำนายทั้งหมดเท่ากับศูนย์ นั่นคือสมมติฐานว่าค่าของ Y โดยทั่วไปขึ้นอยู่กับค่าของ Xi เชิงเส้นหรือไม่ ในการทำเช่นนี้คุณสามารถใช้สถิติต่อไปนี้ซึ่งหากสมมติฐานว่าค่าสัมประสิทธิ์ทั้งหมดเท่ากับศูนย์เป็นจริง

ใน สถิติการถดถอยมีการระบุค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ (หลายตัว R)และความมุ่งมั่น (R-กำลังสอง)ระหว่าง Y และคุณสมบัติอาร์เรย์ของปัจจัย (ซึ่งสอดคล้องกับค่าที่ได้รับก่อนหน้านี้ในการวิเคราะห์ความสัมพันธ์)

ส่วนตรงกลางของตาราง (อโนวา)จำเป็นต้องทดสอบความสำคัญของสมการการถดถอย

ด้านล่างของตารางคือ

ประมาณค่า bi ของค่าสัมประสิทธิ์การถดถอยทั่วไป Вi ตรวจสอบความสำคัญและการประมาณช่วงเวลา

การประมาณเวกเตอร์ของสัมประสิทธิ์ b (คอลัมน์ อัตราต่อรอง):

จากนั้นการประมาณสมการถดถอยจะมีรูปแบบดังนี้

จำเป็นต้องตรวจสอบความสำคัญของสมการการถดถอยและค่าสัมประสิทธิ์การถดถอยที่เกิดขึ้น

ให้เราตรวจสอบที่ระดับ b=0.05 ถึงความสำคัญของสมการถดถอย เช่น สมมติฐาน H0: в1=в2=в3=…=вk=0 ในการทำเช่นนี้ ค่าที่สังเกตได้ของสถิติ F จะถูกคำนวณ:

Excel ให้สิ่งนี้ในผลลัพธ์ การวิเคราะห์ความแปรปรวน:

QR=527.4296; คิว=1109.8673 =>

ในคอลัมน์ มีการระบุค่า ออบ.

จากตารางการกระจาย F หรือใช้สถิติในตัว การกระจายสำหรับระดับนัยสำคัญ b=0.05 และจำนวนองศาอิสระของตัวเศษ n1=k=4 และตัวส่วน n2=n-k-1=45 เราพบค่าวิกฤตของสถิติ F เท่ากับ

Fcr = 2.578739184

เนื่องจากค่าที่สังเกตได้ของสถิติ F เกินค่าวิกฤต 8.1957 > 2.7587 สมมติฐานเกี่ยวกับความเท่าเทียมกันของเวกเตอร์ของสัมประสิทธิ์จึงถูกปฏิเสธโดยมีค่าความน่าจะเป็นผิดพลาดเท่ากับ 0.05 ดังนั้น อย่างน้อยหนึ่งองค์ประกอบของเวกเตอร์ в=(в1,в2,в3,в4)T แตกต่างจากศูนย์อย่างมีนัยสำคัญ

ตรวจสอบความสำคัญของแต่ละค่าสัมประสิทธิ์ของสมการถดถอย เช่น สมมติฐาน .

การทดสอบนัยสำคัญของค่าสัมประสิทธิ์การถดถอยดำเนินการบนพื้นฐานของสถิติ t สำหรับระดับนัยสำคัญ

ค่าที่สังเกตได้ของสถิติ t ระบุไว้ในตารางผลลัพธ์ในคอลัมน์ ที-สถิติ.

ค่าสัมประสิทธิ์ (ไบ)

สถิติ t (tobs)

สี่แยกตัววาย

ตัวแปร X5

ตัวแปร X7

ตัวแปร X10

ตัวแปร X15

จะต้องเปรียบเทียบกับค่าวิกฤต tcr ที่พบในระดับนัยสำคัญ b = 0.05 และจำนวนองศาอิสระ n = n - k - 1

ในการทำเช่นนี้ เราใช้สถิติในตัว ฟังก์ชันเอกเซล STUDRASPOBR,โดยเข้าสู่เมนูที่เสนอความน่าจะเป็น b=0.05 และจำนวนองศาอิสระ n= n–k-1=50-4-1=45 (คุณสามารถหาค่า tcr ได้จากตารางสถิติทางคณิตศาสตร์

เราได้ tcr = 2.014103359

สำหรับค่าที่สังเกตได้ของสถิติ t นั้นน้อยกว่าค่าวิกฤตในโมดูโล 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |

ดังนั้น สมมติฐานที่ว่าค่าสัมประสิทธิ์เหล่านี้เท่ากับศูนย์จะไม่ถูกปฏิเสธโดยมีความน่าจะเป็นผิดพลาดเท่ากับ 0.05 นั่นคือ ค่าสัมประสิทธิ์ที่เกี่ยวข้องนั้นไม่มีนัยสำคัญ

สำหรับค่าที่สังเกตได้ของสถิติ t มากกว่าค่าวิกฤต โมดูโล |3.7658|>2.0141 ดังนั้น สมมติฐาน H0 จึงถูกปฏิเสธ นั่นคือ - สำคัญ.

ความสำคัญของค่าสัมประสิทธิ์การถดถอยจะถูกตรวจสอบโดยคอลัมน์ต่อไปนี้ของตารางผลลัพธ์ด้วย:

คอลัมน์ หน้า-ความหมายแสดงความสำคัญของพารามิเตอร์แบบจำลองตามระดับขอบเขต 5% เช่น ถ้า p≤0.05 แสดงว่าสัมประสิทธิ์ที่เกี่ยวข้องถือว่ามีนัยสำคัญ ถ้า p>0.05 แสดงว่าไม่มีนัยสำคัญ

และคอลัมน์สุดท้าย - ด้านล่าง 95%และ สูงสุด 95%และ ด้านล่าง 98%และ สูงสุด 98% -นี่คือค่าประมาณช่วงเวลาของค่าสัมประสิทธิ์การถดถอยที่มีระดับความน่าเชื่อถือที่กำหนดสำหรับ r=0.95 (ออกเสมอ) และ r=0.98 (ออกเมื่อตั้งค่าความน่าเชื่อถือเพิ่มเติมที่สอดคล้องกัน)

หากขีดล่างและขีดบนมีเครื่องหมายเหมือนกัน (ไม่รวมศูนย์ใน ช่วงความมั่นใจ) ดังนั้นค่าสัมประสิทธิ์การถดถอยที่สอดคล้องกันจะถือว่ามีนัยสำคัญ มิฉะนั้นจะไม่มีนัยสำคัญ

ดังที่เห็นได้จากตาราง สำหรับค่าสัมประสิทธิ์ใน 3 p-value p=0.0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

ตามอัลกอริธึมการวิเคราะห์การถดถอยแบบขั้นตอนโดยไม่รวมตัวถดถอยที่ไม่มีนัยสำคัญ ในขั้นต่อไป จำเป็นต้องแยกตัวแปรที่มีค่าสัมประสิทธิ์การถดถอยที่ไม่มีนัยสำคัญออกจากการพิจารณา

ในกรณีที่มีการระบุค่าสัมประสิทธิ์ที่ไม่มีนัยสำคัญหลายค่าในระหว่างการประเมินการถดถอย ตัวถดถอยที่ค่าสถิติ t () มีค่าน้อยที่สุดจะถูกแยกออกจากสมการการถดถอยก่อน ตามหลักการนี้ ในขั้นตอนต่อไป จำเป็นต้องแยกตัวแปร X5 ซึ่งมีค่าสัมประสิทธิ์การถดถอยที่ไม่มีนัยสำคัญเท่ากับ 2

ขั้นตอนที่ II ของการวิเคราะห์การถดถอย

แบบจำลองนี้รวมถึงเครื่องหมายปัจจัย X7, X10, X15, X5 ไม่รวมอยู่ด้วย

ผลลัพธ์

สถิติการถดถอย

หลายอาร์

R-สแควร์

R-Square ที่ปรับให้เป็นมาตรฐาน

มาตรฐานบกพร่อง

ข้อสังเกต

การวิเคราะห์ความแปรปรวน

(จำนวนองศาอิสระ n)

(ผลรวมของการเบี่ยงเบนกำลังสอง Q)

(ค่าเฉลี่ยตาราง MS=SS/n)

(Fobs= MSR/MSres)

นัยสำคัญฉ

การถดถอย

ค่าสัมประสิทธิ์

มาตรฐานบกพร่อง

t-สถิติ

ค่า P

95% สูงสุด (bimax)

ต่ำกว่า 98% (วิมิน)

สี่แยกตัววาย

ตัวแปร X7

ตัวแปร X10

ตัวแปร X15



ข้อผิดพลาด:เนื้อหาได้รับการคุ้มครอง!!