عوامل آزمون اقتصاد سنجی برای چند خطی. چند خطی و پیامدهای آن

صفحه اصلی / سیستم عامل ها

یک نشانه خارجی وجود چند خطی، مقادیر عناصر ماتریس است که خیلی بزرگ هستند (X T X)~ 1 .تعریف ماتریس بیشتر (X T X) Xو استفاده از آن به فصل مراجعه کنید. 4، بند 4.2.

نشانه اصلی چند خطی بودن:تعیین کننده ماتریس همبستگی R x x.نزدیک به صفر اگر همه متغیرهای توضیحی با یکدیگر همبستگی نداشته باشند، پس R XjX .| = 1، اینچ در غیر این صورت 0 R x. x |

چندین نشانه وجود دارد که توسط آنها می توان وجود چند خطی را تعیین کرد.

1. ضریب تعیین K 2آماره f بسیار بالا و بالا، اما برخی (گاهی اوقات همه) از ضرایب معادله رگرسیون خطی چندگانه از نظر آماری ناچیز هستند (آمار 7 پایینی دارند).
2. ضرایب همبستگی زوجی بالا و ضرایب همبستگی جزئی بالا.

تعریف 7.1.ضریب همبستگی جزئیضریب همبستگی بین دو متغیر توضیحی نامیده می شود که از تأثیر سایر متغیرها پاک شده است.

به عنوان مثال، با سه متغیر توضیحی X 1y X 2، X 3ضریب همبستگی جزئی بین X (و X 3، "تصفیه شده" از X 2، با فرمول محاسبه می شود

نکته 7.2.ضریب همبستگی جزئی ممکن است به طور قابل توجهی با ضریب همبستگی "معمول" (جفتی) متفاوت باشد. برای نتیجه گیری منطقی تر در مورد همبستگی بین جفت متغیرهای توضیحی، لازم است همه ضرایب همبستگی جزئی محاسبه شوند.

بیان کلی برای تعیین ضریب همبستگی جزئی

کجا Cjj-عناصر ماتریس با = R~ x -ماتریس معکوس به ماتریس همبستگی جفت فاکتور R VjX . (7.1).

3. رگرسیون قوی بین متغیرهای توضیحی. هر یک از متغیرهای توضیحی ترکیبی از متغیرهای توضیحی دیگر (خطی یا تقریباً خطی) است.
4. نشانه های ضرایب رگرسیون مخالف با آنچه از مقدمات اقتصادی انتظار می رود است.
5. افزودن یا حذف مشاهدات از نمونه، مقادیر تخمین ها را به شدت تغییر می دهد.

بیایید به چند مثال برای تشریح موارد فوق نگاه کنیم.

مثال 7.4

برای حجم تولید درعوامل اصلی زیر تأثیر می گذارد: x x- تعداد کارکنان شاغل در شرکت؛ x 2- هزینه دارایی های ثابت؛ x 3- میانگین حقوق کارکنان معادله رگرسیون چندگانه خطی شکل دارد y = b 0 + b ( x x + b 2 x 2 + b 3 x 3 .

ماتریس ضرایب همبستگی جفتی برای این مدل

تعیین کننده ماتریس |D | = 0.302. در این مدل عوامل و x 2،و همچنین X (و x 3عوامل به طور ضعیفی مرتبط هستند، برعکس، x 2و x 3به شدت متصل هستند: r^z = 0.8. احتمالاً ارتباط قوی بین عوامل x 2و x lاین با این واقعیت توضیح داده می شود که کارگران بسیار ماهر که دستمزد بالاتری دارند روی تجهیزات گران قیمت کار می کنند.

ضرایب همبستگی زوجی متغیر حاصل با عوامل برابر بود: t yY| =0.7; آه.^ =0,8; گرم اوهرتز= 0.75. ماتریس کامل ضرایب همبستگی جفت دارای فرم است

همه عوامل تاثیر بسزایی در نتیجه دارند. از آنجایی که مدل رگرسیون باید شامل عواملی باشد که ارتباط نزدیکی با نتیجه و ارتباط ضعیفی با یکدیگر دارند، در این مثال دو مدل رگرسیون به طور همزمان مناسب هستند: y، = f(x v x 2) و y 2 = f (x v x 3).

مثال 7.5

اجازه دهید وجود چند خطی بودن برای داده های نمونه ارائه شده در جدول را دریابیم. 7.2.

داده های ورودی به عنوان مثال 7.2

جدول 7.2


X،

راه حل.ضرایب همبستگی زوجی محاسبه شده با استفاده از فرمول (7.2) در جدول آورده شده است. 7.3.

جدول 73

ضرایب همبستگی زوجی

با توجه به داده های ارائه شده در جدول مشخص می شود که همبستگی قوی بین متغیرها وجود دارد.G[ و x 2.ضرایب همبستگی زوجی را نیز می توان با استفاده از ابزار تحلیل تعیین کرد. مایکروسافت اکسل (ابزار همبستگی)

بیایید همبستگی بین متغیرهای توضیح داده شده و توضیحی را بررسی کنیم، برای این منظور از ابزار "همبستگی" استفاده خواهیم کرد مایکروسافت اکسل(شما می توانید ضرایب همبستگی را محاسبه کنید g X1/،با استفاده از فرمول (7.2)). نتایج در شکل ارائه شده است. 7.1.

برنج. 7.1.نتایج محاسبه همبستگی بین متغیرهای توضیحی و توضیحی در مایکروسافت اکسل

بیایید ضرایب همبستگی جزئی را با استفاده از فرمول (7.4) محاسبه کنیم، زیرا در این مثال تنها سه متغیر توضیحی وجود دارد (شما می توانید ضرایب همبستگی جزئی را با استفاده از فرمول (7.5) پیدا کنید، ابتدا ماتریس معکوس را پیدا کرده اید. C=R():

ضریب همبستگی جزئی بین متغیرها بیشترین مقدار را نشان داد x x 2 تا از آنها وجود دارد.ضریب همبستگی جزئی g XxX ^ X2کوچکترین و مخالف ضریب جفت g x x.

پاسخ دهید.بین متغیرهای مدل همبستگی قوی وجود دارد x xو x 2.

پدیده چند خطی در مورد مدل رگرسیون خطی نقض یکی از مقدمات آن است، یعنی. وجود رابطه خطی بین عوامل

چند خطی- این همبستگی متقابل بالایی از متغیرهای توضیحی است.

_______________________________________________________________________

چند خطی می تواند به دو شکل ظاهر شود:

1) در فرم عملکردی / صریح چند خطی بودن، حداقل یکی از روابط زوجی بین متغیرهای توضیحی یک رابطه تابعی خطی است.

2) شکل تصادفی / پنهان در تحقیقات اقتصادی زمانی بیشتر ظاهر می شود که بین دو متغیر توضیحی همبستگی نزدیک وجود داشته باشد.

برای تجزیه و تحلیل رگرسیون بر اساس OLS برای ارائه بهترین نتایج، فرض می شود که مقادیر Xمتغیرهای تصادفی نیستند و همبستگی ندارند، یعنی. هر متغیر شامل اطلاعات منحصر به فرد O y،که در دیگران وجود ندارد. وقتی چنین وضعیت ایده آلی وجود دارد، هیچ خطی چندگانه وجود ندارد. همخطی کامل زمانی اتفاق می افتد که یک متغیر را بتوان دقیقاً بر حسب متغیر دیگری برای همه عناصر مجموعه داده بیان کرد.

دلایل چند خطی بودن:

1) روشی برای جمع آوری داده ها و انتخاب متغیرها در مدل بدون در نظر گرفتن معنا و ماهیت آنها(با در نظر گرفتن روابط احتمالی بین آنها). به عنوان مثال، هنگام ارزیابی تأثیر درآمد خانواده و اندازه خانواده بر اندازه مسکن، اگر داده ها را فقط در بین خانواده ها جمع آوری کنیم اندازه بزرگو با درآمدهای بالا و خانواده های کوچک با درآمد کم را در مدل لحاظ نکنید، نتیجه مدلی با اثر چند خطی خواهد بود. راه حل مشکل بهبود طرح نمونه گیری است. در صورتی که متغیرها مکمل یکدیگر باشند، تنظیم نمونه کمکی نخواهد کرد. راه حل حذف یکی از متغیرها خواهد بود.

2) قدرت بالامتغیربه عنوان مثال، برای تغییر ظاهر یک مدل، ممکن است یک عبارت اضافی به مدلی که قبلاً حاوی $ است، وارد شود

3) رگرسیون هایی که تقریباً یک چیز را اندازه می گیرند:نرخ ارز در ابتدا و انتهای روز؛

4) روابط طبیعی بین رگرسیون ها:سن، تجربه و تعداد سال های تحصیل.

پیامدهای چند خطی:

1) هنگام آزمایش فرضیه صفر در مورد بی اهمیت بودن ضرایب رگرسیون با استفاده از آزمون t، در اکثر موارد پذیرفته می شود، اما خود معادله رگرسیون، زمانی که با استفاده از آزمون F آزمایش می شود، معنی دار می شود، که نشان دهنده تخمین بیش از حد است. ضریب رگرسیون؛ فواصل اطمینان بیش از حد گسترده است.

2) تخمین‌های به‌دست‌آمده از پارامترهای معادله عموماً به طور غیرمنطقی متورم هستند یا علائم نادرستی دارند.

3) افزودن یا حذف 1-2 مشاهدات از داده های اصلی تأثیر زیادی بر برآورد ضرایب دارد.

4) وجود چند خطی در مدل ممکن است آن را برای استفاده بیشتر نامناسب کند.

مشکل اصلی چند خطی، کاهش ارزش واریانس در برآورد ضریب رگرسیون است. برای اندازه گیری اثر چند خطی، از شاخص استفاده می شود VIF (ضریب تورم متغیر) - عامل تورم واریانس در مقایسه با واریانسی که اگر هم خط با سایر متغیرهای مستقل در رگرسیون نبود، وجود داشت:

که در آن مقدار ضریب تعیین چندگانه برای رگرسیون روی همه موارد دیگر است.

به عنوان مثال، ارزش VIF=6به این معنی که پراکندگی ضرایب 6 برابر بیشتر از چیزی است که باید باشد غیبت کاملهم خطی بودن اعتقاد بر این است که ارزش بحرانی است VIF=10 –بین عوامل همبستگی زیادی وجود دارد.

مثال.

برای رگرسیون بر روی دیگر رگرسیون ها

برای پسرفت

آیا چند خطی وجود دارد؟

با متغیرهای باقی مانده کاملاً ضعیف توضیح داده شده است.

متغیرها به صورت خطی وابسته، زیاد هستند.

1. در مدلی با دو متغیر یکی از نشانه های چند خطی بودن است مقدار ضریب همبستگی زوج نزدیک به واحد. اگر مقدار حداقل یکی از ضرایب همبستگی زوجی بیشتر از 0.8 باشد، چند خطی بودن یک مشکل جدی است.

با این حال، در مدلی با بیش از دو متغیر مستقل، ضریب همبستگی زوجی ممکن است حتی در حضور چند خطی بودن مقدار کمی به خود بگیرد. در این حالت بهتر است ضرایب همبستگی جزئی در نظر گرفته شود.

2. برای بررسی چند خطی، می توانید در نظر بگیرید عوامل تعیین کننده ماتریس ضرایب همبستگی جفت|r|. به این تعیین کننده همبستگی |r| می گویند ∈(0; 1). اگر |r| = 0، پس چند خطی کامل وجود دارد. اگر |r|=1 باشد، چند خطی وجود ندارد. نزدیکتر |r| به صفر، احتمال وجود چند خطی بیشتر است.

3. اگر برآوردها دارای خطاهای استاندارد بزرگ، اهمیت کم، اما مدل به عنوان یک کل قابل توجه است (دارای ضریب تعیین بالا)، پس این نشان دهنده وجود چند خطی است.

4. اگر وارد کردن یک متغیر مستقل جدید به مدل منجر به تغییر قابل توجهی در تخمین پارامترها و تغییر جزئی در ضریب تعیین شود، آنگاه متغیر جدید به صورت خطی به متغیرهای دیگر وابسته است.

65. متغیرهای ساختگی: تعریف، هدف، انواع، معنای نام ها.

متغیرهای ساختگی- اینها متغیرهایی با مجموعه ای مجزا از مقادیر هستند که به طور کمی ویژگی های کیفی را توصیف می کنند. مدل‌های اقتصادسنجی معمولاً از متغیرهای ساختگی نوع دودویی «0-1» استفاده می‌کنند.

متغیرهای ساختگی مورد نیاز استبرای ارزیابی ویژگی های کیفی بر روی یک متغیر درون زا. به عنوان مثال، هنگام ارزیابی تقاضا برای یک محصول خاص، ما یک مدل رگرسیونی ساختیم که در آن رگرسیون ها متغیرهای کمی بودند - قیمت و درآمد مصرف کننده. یکی از راه‌های اصلاح این مدل، گنجاندن ویژگی‌های کیفی مانند سلیقه مصرف‌کننده، سن، ویژگی‌های ملی، فصلی بودن و غیره است. این شاخص ها را نمی توان به صورت عددی ارائه کرد. بنابراین، مشکل انعکاس تأثیر آنها بر مقادیر متغیر درون زا ایجاد می شود که دقیقاً با معرفی متغیرهای ساختگی حل می شود.

در مورد کلیهنگامی که یک مشخصه کیفی بیش از دو مقدار داشته باشد، چندین متغیر باینری معرفی می شود. هنگام استفاده از چندین متغیر باینری، لازم است یک رابطه خطی بین متغیرها حذف شود، زیرا در غیر این صورت، هنگام تخمین پارامترها، این امر منجر به چند خطی کامل می شود. بنابراین، قاعده زیر اعمال می شود: اگر یک متغیر کیفی k مقادیر جایگزین داشته باشد، در مدل سازی فقط از متغیرهای ساختگی (k-1) استفاده می شود.

مدل های رگرسیون از دو نوع متغیر ساختگی استفاده می کنند:

1. متغیرهای شیفت ساختگی

2. متغیرهای ساختگی شیبمتغیری است که شیب خط رگرسیون را تغییر می دهد. با استفاده از چنین متغیرهای ساختگی، می توان مدل های خطی تکه ای ساخت که به فرد امکان می دهد تغییرات ساختاری در فرآیندهای اقتصادی را در نظر بگیرد (به عنوان مثال، معرفی محدودیت های قانونی یا مالیاتی جدید، تغییر در وضعیت سیاسی و غیره). زمانی استفاده می شود که تغییر در یک مشخصه کیفی منجر به جابجایی موازی نمودار رگرسیون نشود، بلکه منجر به تغییر در شیب آن شود. به همین دلیل است که چنین متغیرهای ساختگی را متغیرهای شیب می نامند.

66. Shift Dummy: مشخصات مدل رگرسیون با شیفت ساختگی.

متغیرهای شیفت ساختگی- این متغیرها در مدل‌های پویا زمانی استفاده می‌شوند که از یک نقطه زمانی مشخص، برخی از عوامل کیفی شروع به کار می‌کنند (به عنوان مثال، هنگام در نظر گرفتن بهره‌وری یک کارخانه قبل و در حین اعتصاب کارگران). این متغیرها زمانی استفاده می شوند که تغییر در یک ویژگی کیفی منجر به تغییر موازی در نمودار مدل رگرسیونی شود، به همین دلیل است که آنها را متغیرهای شیفت می نامند.

مشخصات یک مدل رگرسیون زوجی با متغیر شیفت ساختگی به صورت زیر است:

جایی که α، β، δ پارامترهای مدل هستند. - مقدار رگرسیون در مشاهده t;

متغیر ساختگی؛

δ پارامتری برای یک متغیر ساختگی است.

مقدار متغیر ساختگی dt=0 مقدار پایه (مقایسه ای) نامیده می شود. ارزش پایه را می توان با اهداف مطالعه تعیین کرد یا به صورت دلخواه انتخاب کرد. اگر مقدار پایه متغیر را جایگزین کنید، ماهیت مدل تغییر نخواهد کرد.

یک مدل رگرسیون زوجی با متغیر شیفت ساختگی توسط در نظر بگیرید مثال

بگذارید فروش بستنی تحت تأثیر وجود تبلیغات روی وانت فروشنده باشد. با استفاده از یک معادله با متغیرهای ساختگی، با استفاده از یک معادله رگرسیون واحد، می توانید هم برای فروشندگان با تبلیغات و هم برای فروشندگان بدون تبلیغات نتیجه بگیرید.

اجازه دهید مدل اولیه با مشخصات توضیح داده شود:

جایی که n تعداد فروشندگان بستنی است، تعداد فروش برای فروشنده t، مقدار رگرسیون کمی برای فروشنده t است.

اجازه دهید یک متغیر شیفت ساختگی را معرفی کنیم

بیایید فرض کنیم که ما یک معادله رگرسیون را در نظر می گیریم و داده ها برای تخمین آن شامل مشاهداتی برای اشیاء با کیفیت متفاوت است: برای مردان و زنان، برای سفید پوستان و سیاه پوستان. سوالی که در اینجا ممکن است برای ما جالب باشد این است: آیا درست است که مدل مورد بررسی برای دو نمونه مربوط به اشیاء با کیفیت متفاوت مطابقت دارد؟ با استفاده از آزمون چاو می توان به این سوال پاسخ داد.

بیایید مدل ها را در نظر بگیریم:

, من=1,…,ن (1);

, من=ن+1,…,ن+م (2).

در نمونه اول نمشاهدات، در دوم - ممشاهدات مثال: Y- دستمزد، متغیرهای توضیحی - سن، سابقه خدمت، سطح تحصیلات. آیا از داده های موجود برمی آید که مدل وابستگی دستمزد به متغیرهای توضیحی سمت راست برای مردان و زنان یکسان است؟

برای آزمایش این فرضیه، می‌توانید با مقایسه رگرسیون محدود و رگرسیون غیرمحدود، از یک طرح آزمون فرضیه عمومی استفاده کنید. رگرسیون نامحدود در اینجا اتحاد رگرسیون های (1) و (2) است، یعنی. ESS UR = ESS 1 + ESS 2، تعداد درجات آزادی - ن + م - 2ک. رگرسیون با محدودیت (یعنی رگرسیون با این فرض که فرضیه صفر برآورده شده است) یک رگرسیون برای کل مجموعه مشاهدات موجود خواهد بود:

, من = 1,…, ن+م (3).

با ارزیابی (3)، به دست می آوریم ESS R. برای آزمون فرضیه صفر از آمار زیر استفاده می کنیم:

که اگر فرضیه صفر درست باشد، دارای توزیع فیشر با تعداد درجات آزادی کسر است. کو مخرج ن+ م- 2ک.

اگر فرضیه صفر درست باشد، می‌توانیم نمونه‌های موجود را با هم ترکیب کرده و مدل را برای آن تخمین بزنیم ن+ممشاهدات اگر فرضیه صفر را رد کنیم، نمی توانیم دو نمونه را در یک نمونه ادغام کنیم و باید دو مدل را جداگانه تخمین بزنیم.

مطالعه مدل خطی کلی، که قبلا در نظر گرفتیم، همانطور که دیدیم، بر اساس دستگاه آماری بسیار قابل توجه است. با این حال، مانند همه برنامه های حصیر. آمار، قدرت یک روش بستگی به مفروضات زیربنایی آن و برای کاربرد آن ضروری است. برای مدتی موقعیت‌هایی را در نظر خواهیم گرفت که در آن یک یا چند فرضیه زیربنای مدل خطی نقض می‌شوند. در نظر خواهیم گرفت روش های جایگزینارزیابی در این موارد خواهیم دید که نقش برخی فرضیه ها در مقایسه با نقش سایر فرضیه ها پررنگ تر است. ما باید ببینیم که نقض برخی شرایط (فرض‌ها) چه عواقبی می‌تواند داشته باشد، بتوانیم بررسی کنیم که آیا آنها راضی هستند یا نه، و بدانیم که وقتی روش حداقل مربعات کلاسیک مناسب نیست، از چه روش‌های آماری می‌توان و باید استفاده کرد.

1. رابطه بین متغیرها خطی است و با معادله - خطاهای مشخصات مدل بیان می شود (عدم درج متغیرهای توضیحی قابل توجه در معادله، گنجاندن متغیرهای غیر ضروری در معادله، انتخاب نادرست شکل وابستگی بین متغیرها).

2. X 1 ,…,X k- متغیرهای قطعی - رگرسیون های تصادفی، مستقل خطی - چند خطی کامل؛

4. - ناهمسانی;

5. وقتی من ¹ ک- همبستگی خودکار خطاها

قبل از شروع گفتگو، بیایید مفاهیم زیر را در نظر بگیریم: ضریب همبستگی زوجی و ضریب همبستگی جزئی.

فرض کنید در حال مطالعه اثر یک متغیر بر متغیر دیگر هستیم ( Yو X). برای اینکه بفهمیم این متغیرها چگونه با یکدیگر مرتبط هستند، ضریب همبستگی زوجی را با استفاده از فرمول زیر محاسبه می کنیم:

اگر مقدار ضریب همبستگی نزدیک به 1 را بدست آوریم، نتیجه می گیریم که متغیرها کاملاً به یکدیگر مرتبط هستند.

با این حال، اگر ضریب همبستگی بین دو متغیر مطالعه نزدیک به 1 باشد، ممکن است واقعاً وابسته نباشند. مثال بیماران روانی و رادیوها نمونه ای از به اصطلاح "همبستگی کاذب" است. بالا بودن ضریب همبستگی ممکن است به دلیل وجود متغیر سومی نیز باشد که تأثیر زیادی بر دو متغیر اول دارد که دلیل همبستگی بالای آنهاست. بنابراین، وظیفه محاسبه همبستگی «خالص» بین متغیرها مطرح می‌شود Xو Y، یعنی همبستگی که در آن تأثیر (خطی) سایر متغیرها حذف می شود. برای این منظور مفهوم ضریب همبستگی جزئی معرفی شده است.

بنابراین، می خواهیم ضریب همبستگی جزئی بین متغیرها را تعیین کنیم Xو Y، به استثنای تأثیر خطی متغیر ز. برای تعیین آن از روش زیر استفاده می شود:

1. ما رگرسیون را تخمین می زنیم،

2. ما باقی مانده را دریافت می کنیم،

3. ما رگرسیون را تخمین می زنیم،

4. ما باقی مانده را دریافت می کنیم،

5. - ضریب همبستگی جزئی نمونه، میزان ارتباط بین متغیرها را می سنجد Xو Y، از تأثیر متغیر پاک شد ز.

محاسبات مستقیم:

اموال:

روش ساخت ضریب همبستگی جزئی به حالتی تعمیم می‌یابد که بخواهیم از تأثیر دو یا چند متغیر خلاص شویم.

1. چند خطی کامل.

یکی از الزامات گاوس مارکوف به ما می گوید که متغیرهای توضیحی نباید با هیچ رابطه دقیقی مرتبط باشند. اگر چنین رابطه ای بین متغیرها وجود داشته باشد، می گوییم چند خطی کامل در مدل وجود دارد. مثال. مدلی را در نظر بگیرید که دارای میانگین نمره امتحان شامل سه متغیر توضیحی است: من- درآمد والدین D- میانگین تعداد ساعات صرف شده برای تمرین در روز، دبلیو- میانگین تعداد ساعات صرف شده برای آموزش در هفته. بدیهی است که دبلیو=7D. و این نسبت برای هر دانش آموزی که در نمونه ما قرار می گیرد برآورده می شود. ردیابی حالت چند خطی کامل آسان است، زیرا در این مورد نمی‌توان تخمین‌ها را با استفاده از روش حداقل مربعات ساخت.

2. چند خطی جزئی یا به سادگی چند خطی.

وضعیت بسیار رایج تر زمانی است که هیچ رابطه خطی دقیقی بین متغیرهای توضیحی وجود ندارد، اما یک همبستگی نزدیک بین آنها وجود دارد - به این حالت چند خطی واقعی یا جزئی (به سادگی چند خطی) می گویند - وجود روابط آماری نزدیک بین متغیرها. باید گفت که موضوع چند خطی بودن به شدت پدیده است تا نوع آن. برآورد هر رگرسیون به یک شکل از آن رنج می‌برد مگر اینکه همه متغیرهای مستقل کاملاً نامرتبط باشند. در نظر گرفتن این مشکل تنها زمانی شروع می شود که شروع به تأثیر جدی بر نتایج تخمین رگرسیون کند (وجود روابط آماری بین رگرسیون ها لزوماً برآوردهای رضایت بخشی را ارائه نمی دهد). بنابراین، زمانی که یک همبستگی نزدیک بین رگرسیون‌ها منجر به تخمین‌های رگرسیون غیرقابل اعتماد شود، چند خطی بودن یک مشکل است.

پیامدهای چند خطی:

به طور رسمی، از زمانی که ( X"X) غیر منحط است، سپس می توانیم تخمین OLS از ضرایب رگرسیون بسازیم. با این حال، به یاد بیاوریم که چگونه واریانس های نظری برآورد ضرایب رگرسیون بیان می شود: a II - منعنصر قطری ام ماتریس. از آنجایی که ماتریس (X"X) نزدیک به مفرد و det( X"X) » 0، سپس

1) اعداد بسیار زیادی در مورب اصلی ماتریس معکوس وجود دارد، زیرا عناصر ماتریس معکوس با det نسبت معکوس دارند. X"X). بنابراین، واریانس نظری منضریب -ام بسیار بزرگ است و برآورد واریانس نیز بزرگ است، بنابراین، تی- آمار کوچک است که می تواند منجر به بی اهمیتی آماری شود من- ضریب یعنی متغیر بر متغیر مورد توضیح تاثیر بسزایی دارد و نتیجه می گیریم که ناچیز است.

2) از آنجایی که برآوردها و بستگی به ( X"X) -1 که عناصر آن با det نسبت معکوس دارند( X"X، سپس اگر یک یا دو مشاهده را اضافه یا حذف کنیم، بنابراین یک یا دو ردیف به ماتریس اضافه یا حذف می کنیم. X"X، سپس مقادیر و می تواند به طور قابل توجهی تغییر کند، تا تغییر علامت - ناپایداری نتایج ارزیابی.

3) مشکل در تفسیر معادله رگرسیون. فرض کنید دو متغیر در معادله داریم که به هم مرتبط هستند: X 1 و X 2. ضریب رگرسیون در X 1 به عنوان معیار تغییر تفسیر می شود Yبه دلیل تغییر X 1 همه چیزهای دیگر برابر هستند، یعنی. مقادیر سایر متغیرها ثابت می ماند. با این حال، از آنجایی که متغیرها X 1 و X 2 مرتبط هستند، سپس در متغیر تغییر می کند X 1 مستلزم تغییرات قابل پیش بینی در متغیر است X 2 و ارزش X 2 به همان صورت باقی نمی ماند.

مثال: کجا X 1- مساحت کل X 2 - منطقه نشیمن ما می گوییم: "اگر مساحت نشیمن 1 متر مربع افزایش یابد، در آن صورت با مساوی بودن سایر موارد، قیمت آپارتمان دلار افزایش می یابد." با این حال، در این مورد، مساحت زندگی 1 متر مربع افزایش می یابد. متر و افزایش قیمت خواهد بود. تشخیص تأثیر روی یک متغیر Yهر متغیر به طور جداگانه دیگر امکان پذیر نیست. راه خروج در این وضعیت با قیمت یک آپارتمان این است که در مدل نه مساحت کل، بلکه به اصطلاح منطقه "اضافی" یا "اضافی" را در مدل لحاظ کنید.

نشانه های چند خطی بودن

هیچ معیار دقیقی برای تعیین وجود (عدم) چند خطی وجود ندارد. با این حال، توصیه های اکتشافی برای شناسایی آن وجود دارد:

1) ماتریس ضرایب همبستگی زوجی را بین رگرسیون ها تجزیه و تحلیل کنید و اگر مقدار ضریب همبستگی نزدیک به 1 باشد، آن را نشانه ای از چند خطی در نظر می گیرند.

2) تجزیه و تحلیل ماتریس همبستگی فقط یک قضاوت سطحی در مورد وجود (عدم) چند خطی بودن است. مطالعه دقیق‌تر این موضوع با محاسبه ضرایب همبستگی جزئی یا محاسبه ضرایب تعیین هر یک از متغیرهای توضیحی برای سایر متغیرهای توضیحی در رگرسیون حاصل می‌شود.

4) (X’X) یک ماتریس قطعی مثبت متقارن است، بنابراین، تمام مقادیر ویژه آن غیر منفی هستند. اگر تعیین کننده ماتریس ( X’X) برابر با صفر است، سپس حداقل مقدار ویژه نیز صفر است و پیوستگی حفظ می شود. در نتیجه، از روی مقدار حداقل مقدار ویژه می توان قضاوت کرد که آیا تعیین کننده ماتریس نزدیک به صفر است ( X’X). علاوه بر این ویژگی، حداقل مقدار ویژه نیز مهم است زیرا خطای استاندارد ضریب نسبت معکوس دارد.

5) وجود چند خطی را می توان با علائم بیرونی که پیامدهای چند خطی هستند قضاوت کرد:

الف) برخی از برآوردها دارای علائم نادرست از نظر تئوری اقتصادی یا مقادیر غیر منطقی بزرگ هستند.

ب) یک تغییر کوچک در داده های اقتصادی اولیه منجر به تغییر قابل توجهی در برآورد ضرایب مدل می شود.

ج) اکثریت تی-آمار ضرایب به طور قابل توجهی با صفر تفاوت ندارد، در عین حال، مدل به عنوان یک کل قابل توجه است، همانطور که با ارزش بالا نشان می دهد. اف-آمار

چگونه از شر چند خطی خلاص شویم، چگونه آن را از بین ببریم:

1) استفاده از تحلیل عاملی. انتقال از مجموعه اصلی رگرسیون ها، که در میان آنها وابستگی های آماری وجود دارد، به رگرسیون های جدید ز 1 ,…,Z mبا استفاده از روش اجزای اصلی - به جای متغیرهای اصلی، به جای متغیرهای اصلی، برخی از ترکیبات خطی آنها را در نظر می گیریم که همبستگی بین آنها کم است یا اصلا وجود ندارد. وظیفه در اینجا ارائه یک تفسیر معنادار به متغیرهای جدید است ز. در صورت عدم موفقیت، با استفاده از تبدیل های معکوس به متغیرهای اصلی باز می گردیم. با این حال، تخمین‌های حاصل مغرضانه خواهند بود، اما پراکندگی کمتری خواهند داشت.

2) از بین همه متغیرهای موجود، عواملی را انتخاب کنید که بیشترین تأثیر را بر متغیر توضیح داده شده دارند. مراحل انتخاب در زیر مورد بحث قرار خواهد گرفت.

3) گذار به روش های ارزیابی مغرضانه.

هنگامی که ما با مشکل چند همخطی مواجه می شویم، محقق بی تجربه در ابتدا تمایل دارد که پسرفت های غیرضروری را که ممکن است باعث آن شده اند را حذف کند. با این حال، همیشه مشخص نیست که کدام متغیرها از این نظر زائد هستند. علاوه بر این، همانطور که در زیر نشان داده خواهد شد، دور انداختن متغیرهای به اصطلاح تأثیرگذار به طور قابل توجهی منجر به سوگیری در تخمین OLS می شود.

توجه داشته باشید که در برخی موارد، چند خطی بودن آنقدر «شر» جدی نیست که باید تلاش های قابل توجهی برای شناسایی و حذف آن صورت گیرد. اساساً همه چیز به اهداف مطالعه بستگی دارد.
اگر وظیفه اصلی مدل پیش بینی مقادیر آینده متغیر وابسته باشد، با ضریب تعیین R2 به اندازه کافی بزرگ (gt؛ 0.9)، وجود چند خطی معمولاً بر کیفیت های پیش بینی مدل تأثیر نمی گذارد (اگر در آینده همان روابط بین متغیرهای همبسته مانند قبل حفظ خواهد شد.
اگر تعیین میزان تأثیر هر متغیر توضیحی بر متغیر وابسته ضروری باشد، در آن صورت چند خطی بودن که منجر به خطاهای استاندارد بزرگتر می شود، احتمالاً روابط واقعی بین متغیرها را مخدوش می کند. در این شرایط، چند خطی بودن یک مشکل جدی است.
هیچ روش واحدی برای حذف چند خطی وجود ندارد که در هر صورت مناسب باشد. زیرا علل و پیامدهای چند خطی بودن مبهم است و تا حد زیادی به نتایج نمونه بستگی دارد.
حذف متغیر(ها) از مدل
ساده ترین روش برای حذف چند خطی، حذف یک یا تعدادی از متغیرهای همبسته از مدل است. هنگام استفاده از این روش باید کمی احتیاط کرد. در این شرایط، خطاهای مشخصات ممکن است، بنابراین در مدل‌های اقتصادسنجی کاربردی، توصیه می‌شود تا زمانی که چند خطی بودن به یک مشکل جدی تبدیل نشود، متغیرهای توضیحی حذف نشوند.
دریافت داده های بیشتر یا نمونه جدید
از آنجایی که چند خطی به طور مستقیم به نمونه بستگی دارد، ممکن است با یک نمونه متفاوت، چند خطی وجود نداشته باشد یا آنقدر جدی نباشد. گاهی برای کاهش چند خطی، کافی است حجم نمونه را افزایش دهیم. به عنوان مثال، اگر از داده های سالانه استفاده می کنید، می توانید به داده های فصلی بروید. افزایش حجم داده ها باعث کاهش واریانس ضرایب رگرسیون و در نتیجه افزایش معناداری آماری آنها می شود. با این حال، به دست آوردن یک نمونه جدید یا گسترش نمونه قدیمی همیشه امکان پذیر نیست یا با هزینه های جدی همراه است. علاوه بر این، این رویکرد ممکن است خودهمبستگی را افزایش دهد. این مشکلات استفاده از این روش را محدود می کند.
تغییر مشخصات مدل
در برخی موارد، مشکل چند خطی را می توان با تغییر مشخصات مدل حل کرد: یا تغییر شکل مدل، یا اضافه کردن متغیرهای توضیحی که در مدل اصلی در نظر گرفته نشده‌اند، اما به طور قابل توجهی بر متغیر وابسته تأثیر می‌گذارند. اگر این روشتوجیه می شود، سپس استفاده از آن مجموع انحرافات مجذور را کاهش می دهد و در نتیجه خطای استاندارد رگرسیون را کاهش می دهد. این امر منجر به کاهش خطاهای استاندارد ضرایب می شود.
استفاده از اطلاعات قبلی در مورد برخی از پارامترها
گاهی اوقات، هنگام ساخت یک مدل رگرسیون چندگانه، می توانید از اطلاعات اولیه، به ویژه مقادیر شناخته شده برخی از ضرایب رگرسیون استفاده کنید.
این احتمال وجود دارد که مقادیر ضرایب محاسبه‌شده برای برخی از مدل‌های اولیه (معمولا ساده‌تر) یا برای یک مدل مشابه بر اساس نمونه‌ای که قبلاً به‌دست‌آمده است، برای مدلی که در حال توسعه است استفاده شود. در حال حاضرمدل ها
انتخاب مهم ترین متغیرهای توضیحی. مراحل اتصال متوالی عناصر
حرکت به سمت متغیرهای توضیحی کمتر ممکن است تکرار اطلاعات ارائه شده توسط صفات بسیار وابسته به هم را کاهش دهد. این دقیقاً همان چیزی است که در مورد چند خطی بودن متغیرهای توضیحی با آن مواجه می شویم.
اجازه دهید

ضریب چندگانه
همبستگی بین متغیر وابسته Y و مجموعه متغیرهای توضیحی X 1,X 2,...,Xm. به عنوان ضریب همبستگی زوجی معمول بین Y و یک تابع خطی تعریف می شود
رگرسیون Y = b0 + KX1 + b2X2 +... + bmXm. اجازه دهید و = R-1 - ماتریس معکوس به ماتریس R:

سپس مربع ضریب Ry.X = Rr(xi,x2,..,x) را می توان با استفاده از فرمول محاسبه کرد:

تخمین R*2.X ضریب تعیین R2y.X، تصحیح شده برای unbias، به شکل زیر است:

(اگر فرمول (6.7) یک عدد منفی به دست داد، فرض کنید

حد اطمینان پایین تر برای

تعیین شده است
طبق فرمول:

در عمل، هنگام تصمیم‌گیری اینکه کدام متغیرهای توضیحی باید در یک مدل گنجانده شوند، اغلب از روشی برای اضافه کردن متوالی عناصر استفاده می‌شود.
(j = 1، 2،...، m) . در عین حال

منطبق با یک مربع منظم است
ضریب همبستگی جفتی

اجازه دهید

سپس متغیر xp آموزنده ترین خواهد بود. سپس ضریب اصلاح شده برای بی طرفی محاسبه می شود
(برای m = 1) و حد اطمینان پایین آن R2min (1) .

جفت jxp، xq آموزنده تر خواهد بود). سپس ضریب اصلاح شده برای بی طرفی محاسبه می شود (در m = 2)
و حد اطمینان پایین آن R2min (2) .

این روش تا زمانی ادامه می یابد که شرایط زیر در مرحله (تا +1) برآورده شود:
سپس آموزنده ترین متغیرهای به دست آمده در مراحل اول در مدل گنجانده شده است. توجه داشته باشید که در محاسبات از فرمول های (6.7) و (6.8) استفاده می شود که به جای m مقدار مربوط به گام شماره k گرفته می شود.
در واقع، این روش تضمین نمی کند که ما از چند خطی خلاص شویم.
روش های دیگری برای حذف چند خطی نیز استفاده می شود.
مثال 6.1. داده های مشروط زیر در دسترس هستند (جدول 6.1):
جدول 6.1
داده ها برای روش زنجیره ای دیزی

X1	X2	X3	U
1	1,5	0,7	12
2	2,5	1,2	20
3	1	1,4	15
4	5,5	1,9	41
5	3	2,5	33
6	3	3,1	35
7	2,8	3,5	38
8	0,5	4	28
9	4	3,8	47
10	2	5,3	40

اجازه دهید تأثیر متغیر وابسته هر یک از متغیرهای توضیحی را جداگانه در نظر بگیریم. با محاسبه ضرایب همبستگی جفتی، متوجه می شویم که ضریب بیشترین مقدار را دارد

سپس:

بیایید تأثیر جفت متغیرهای (x1, x2) و (x1, x3) را بر روی متغیر وابسته در نظر بگیریم. ابتدا تأثیر یک جفت متغیر (x1, x2) را در نظر بگیرید.

icuvum uvjpcuuivi، صادر شده توسط rsimsldsіtshіm msiida ііі^ісдіїслп-
هنگام اضافه کردن متغیرها، دو متغیر توضیحی باید در معادله گنجانده شود. بنابراین، معادله نظری به شکل زیر خواهد بود:
روش شانه
بیایید "روش رج" ("رگرسیون پشته") را برای حذف چند خطی در نظر بگیریم. این روش توسط A.E. Hoerl در سال 1962 پیشنهاد شد و زمانی استفاده می شود که ماتریس (xtX) نزدیک به مفرد باشد. تعدادی عدد کوچک (از 0.1 تا 0.4) به عناصر مورب ماتریس (xtX) اضافه می شود. در این مورد، تخمین های مغرضانه پارامترهای معادله به دست می آید. اما خطاهای استاندارد چنین برآوردهایی در مورد چند خطی بودن کمتر از خطاهای داده شده با روش حداقل مربعات معمولی است.
مثال 6.2. داده های اولیه در جدول 6 2 ضریب همبستگی متغیرهای توضیحی ارائه شده است

چی
چند خطی قوی را نشان می دهد.
جدول 6.2
داده های مطالعه چند خطی با استفاده از روش رج

x1	x2	U
1	1,4	7
2	3,1	12

سپس معادله y = 2.63 +1.37x1 + 1.95x2 را بدست می آوریم. عناصر قطری ماتریس معکوس به میزان قابل توجهی کاهش می یابد و برابر با z00 = 0.45264، z11 = 1.57796، z00 = 0.70842 خواهد بود که منجر به کاهش خطاهای استاندارد ضرایب می شود.
رزومه
از جمله پیامدهای اصلی که چند خطی می تواند منجر شود موارد زیر است:

هنگام آزمایش فرضیه اصلی در مورد بی اهمیت بودن ضرایب رگرسیون چندگانه با استفاده از آزمون t، در اکثر موارد پذیرفته می شود، اما خود معادله رگرسیون، زمانی که با استفاده از آزمون A آزمایش می شود، معنی دار می شود، که نشان دهنده یک مقدار بیش از حد برآورد شده است. از ضریب همبستگی چندگانه;
تخمین‌های به‌دست‌آمده از ضرایب معادله رگرسیون چندگانه معمولاً به‌طور غیرمنطقی متورم می‌شوند یا دارای علائم نادرست هستند.
افزودن یا حذف یک یا دو مشاهدات از داده های اصلی تأثیر زیادی بر تخمین ضرایب مدل دارد.
وجود چند خطی در یک مدل رگرسیون چندگانه ممکن است آن را برای استفاده بیشتر (مثلاً برای انجام پیش‌بینی) نامناسب کند.

سوالات خودآزمایی

چند خطی چیست؟
چه شاخص هایی وجود چند خطی را نشان می دهد؟
چرا برابر با تعیین کننده استماتریس های XTX در صورت چند خطی بودن کامل؟
در مورد معنی ضرایب متغیرهای توضیحی در حالت چند خطی چه می توان گفت؟
چه تبدیلی در روش رج انجام می شود، به چه چیزی منجر می شود؟
رویه افزایش متوالی متغیرهای توضیحی چگونه است؟
ضریب همبستگی چه چیزی را نشان می دهد؟
ضریب همبستگی جزئی چه چیزی را نشان می دهد؟

X1	X2	X3	U
1	1,5	0,7	12
2	2,5	1,2	20
3	1	1,4	15
4	5,5	1,9	41
5	3	2,5	33
6	3	3,1	35
7	2,8	3,5	38
8	0,5	4	28
9	4	3,8	47
10	2	5,3	40

X1	X2	X3	U
1	1,5	0,7	12
2	2,5	1,2	20
3	1	1,4	15
4	5,5	1,9	41
5	3	2,5	33
6	3	3,1	35
7	2,8	3,5	38
8	0,5	4	28
9	4	3,8	47
10	2	5,3	40

انتخاب سردبیر

X1	X2	X3	U
1	1,5	0,7	12
2	2,5	1,2	20
3	1	1,4	15
4	5,5	1,9	41
5	3	2,5	33
6	3	3,1	35
7	2,8	3,5	38
8	0,5	4	28
9	4	3,8	47
10	2	5,3	40