Factori de testare econometrică pentru multicoliniaritate. Multicoliniaritatea și consecințele ei

Acasă / Sisteme de operare

Un semn extern al prezenței multicolinearității sunt valorile elementelor matriceale prea mari (X T X) ~ 1 . Mai multă definiție a matricei (X T X) Xși utilizarea sa vezi cap. 4, paragraful 4.2.

Semnul principal al multicoliniarității: determinant al matricei de corelație R x x . aproape de zero. Dacă toate variabilele explicative sunt necorelate între ele, atunci R XjX .| = 1, in altfel 0 R x . x. |

Există mai multe semne prin care se poate determina prezența multicoliniarității.

  • 1. Coeficient de determinare K 2 destul de mare, f-statistic mare, dar unii (uneori toți) coeficienții ecuației de regresie liniară multiplă sunt nesemnificativi din punct de vedere statistic (au 7-statistici scăzute).
  • 2. Coeficienți mari de corelație perechi și coeficienți mari de corelație parțială.

Definiție 7.1.Coeficient de corelație parțială se numește coeficient de corelație între două variabile explicative, „curățate” de influența altor variabile.

De exemplu, cu trei variabile explicative X 1y X 2, X 3 coeficient de corelaţie parţială între X (și X3, „purificat” din X2, este calculat prin formula

Observația 7.2. Coeficientul de corelație parțială poate diferi semnificativ de coeficientul de corelație „obișnuit” (pereche). Pentru o concluzie mai rezonabilă despre corelația dintre perechile de variabile explicative, este necesar să se calculeze toți coeficienții de corelație parțială.

Expresie generală pentru determinarea coeficientului de corelație parțială

Unde Cjj- elemente de matrice CU = R~ x - matricea inversă matricei de corelație a perechilor de interfactori R VjX . (7.1).

  • 3. Regresie puternică între variabilele explicative. Oricare dintre variabilele explicative este o combinație de alte variabile explicative (liniare sau aproape liniare).
  • 4. Semnele coeficienților de regresie sunt opuse celor așteptate din premisele economice.
  • 5. Adăugarea sau eliminarea observațiilor din eșantion modifică foarte mult valorile estimărilor.

Să ne uităm la câteva exemple pentru a ilustra cele de mai sus.

Exemplul 7.4

Pentru volumul de producție la Următorii factori principali influențează: x x- numarul de angajati care lucreaza in intreprindere; x 2- costul mijloacelor fixe; x 3- salariul mediu al angajatilor. Ecuația de regresie multiplă liniară are forma y = b 0 + b ( x x + b 2 x 2 + b 3 x 3 .

Matricea coeficienților de corelație de pereche pentru acest model

Determinant matrice |D | = 0,302. În acest model, factorii și x 2, si de asemenea X (Şi x 3 factorii sunt slab legați, dimpotrivă, x 2Şi x 3 sunt puternic legate: r^z =0,8. Posibil o legătură puternică între factori x 2Şi x l Acest lucru se explică prin faptul că muncitorii cu înaltă calificare care au salarii mai mari lucrează cu echipamente scumpe.

Coeficienții de corelație perechi ai variabilei rezultate cu factorii s-au dovedit a fi egali: t yY| =0,7; g uh.^ =0,8; g uhz=0,75. Matricea completă a coeficienților de corelație de pereche are forma

Toți factorii au un impact semnificativ asupra rezultatului. Deoarece modelul de regresie trebuie să includă factori care sunt strâns legați de rezultat și slab legați unul de celălalt, în acest exemplu sunt potrivite două modele de regresie simultan: y, = f(x v x 2) și y 2 = f(x v x 3).

Exemplul 7.5

Să aflăm prezența multicolinearității pentru datele eșantionului prezentate în tabel. 7.2.

Date de intrare, de exemplu 7.2

Tabelul 7.2

X,

Soluţie. Coeficienții de corelație perechi calculați folosind formula (7.2) sunt dați în tabel. 7.3.

Tabelul 73

Coeficienți de corelație perechi

Din datele prezentate în tabel reiese clar că există o puternică corelație între variabile.G[ și x 2. Coeficienții de corelație în perechi pot fi, de asemenea, determinați folosind Instrumentul de analiză. Microsoft Excel (instrument de corelare),

Să verificăm corelația dintre variabilele explicate și explicative pentru aceasta vom folosi instrumentul „Corelație”. Microsoft Excel(puteți calcula coeficienți de corelație g X1/ , folosind formula (7.2)). Rezultatele sunt prezentate în Fig. 7.1.


Orez. 7.1. Rezultatele calculării corelației dintre variabilele explicate și explicative în Microsoft Excel

Să calculăm coeficienții de corelație parțială folosind formula (7.4), deoarece în acest exemplu există doar trei variabile explicative (puteți găsi coeficienții de corelație parțială folosind formula (7.5), având mai întâi găsit matricea inversă C=R():

Coeficientul de corelație parțială dintre variabile s-a dovedit a fi cel mai mare x x sunt 2. Coeficient de corelație parțială g XXX ^ X2 cel mai mic și opus în semn coeficientului de pereche g x x.

Răspuns. Există o corelație puternică între variabilele din model x xŞi x 2.

Fenomenul de multicoliniaritate în cazul unui model de regresie liniară este o încălcare a uneia dintre premisele sale, i.e. prezența unei relații liniare între factori.

Multicoliniaritate– aceasta este o corelație reciprocă ridicată a variabilelor explicative.

_______________________________________________________________________

Multicoliniaritatea poate apărea sub două forme:

1) la formă funcțională/explicită multicoliniaritate, cel puțin una dintre relațiile perechi dintre variabilele explicative este o relație funcțională liniară.

2) formă stocastică/ascunsă în cercetarea economică apare mai des atunci când există o strânsă corelaţie între două variabile explicative.

Pentru ca analiza de regresie bazată pe MCO să dea cele mai bune rezultate, se presupune că valorile X nu sunt variabile aleatoare și că nu sunt corelate, adică fiecare variabilă conţine informații unice O y, care nu contine in altele. Când există o astfel de situație ideală, nu există multicoliniaritate. Coliniaritatea completă apare atunci când o variabilă poate fi exprimată exact în termenii unei alte variabile pentru toate elementele setului de date.

Motive pentru multicoliniaritate:

1) o metodă de colectare a datelor și de selectare a variabilelor în model fără a lua în considerare semnificația și natura lor(ținând cont de posibilele relații dintre ele). De exemplu, atunci când evaluăm impactul venitului familiei și al mărimii familiei asupra mărimii locuinței, dacă colectăm date numai în rândul familiilor dimensiune mare iar cu venituri mari și nu includ în model familiile mici cu venituri mici, atunci rezultatul va fi un model cu efect de multicoliniaritate. Soluția problemei este îmbunătățirea designului de eșantionare. În cazul în care variabilele sunt complementare între ele, ajustarea eșantionului nu va ajuta. Soluția ar fi eliminarea uneia dintre variabile;

2) putere mare variabilă. De exemplu, pentru a schimba aspectul unui model, un termen suplimentar poate fi introdus într-un model care conține deja $

3) regresori care măsoară aproximativ același lucru: cursurile de schimb la începutul și la sfârșitul zilei;

4) relații naturale între regresori: vârsta, experiența și numărul de ani de studii.

Consecințele multicoliniarității:

1) la testarea ipotezei nule despre nesemnificația coeficienților de regresie folosind testul t, în majoritatea cazurilor este acceptată, dar ecuația de regresie în sine, când este testată folosind testul F, se dovedește a fi semnificativă, ceea ce indică o supraestimare a coeficientului de regresie; intervalele de încredere sunt prea largi;



2) estimările obținute ale parametrilor ecuației sunt în general umflate nerezonabil sau au semne incorecte;

3) adăugarea sau excluderea a 1-2 observații din datele originale are un impact puternic asupra estimărilor coeficienților;

4) prezența multicolinearității în model îl poate face nepotrivit pentru utilizare ulterioară.

Principala problemă a multicolinearității este deprecierea varianței în estimările coeficientului de regresie. Pentru a măsura efectul multicolinearității, se utilizează indicatorul VIF (variation inflation factor) – factor de inflație varianță în comparație cu varianța care ar fi fost dacă nu ar fi fost coliniară cu alte variabile independente în regresie:

unde este valoarea coeficientului de determinare multiplă pentru regresor pe toate celelalte.

De exemplu, valoarea VIF=6înseamnă că dispersia coeficienților este de 6 ori mai mare decât ar trebui să fie dacă absență completă coliniaritate. Se crede că valoarea critică este VIF=10 – Există prea multă corelație între factori.

Exemplu.

Pentru regresie pe alți regresori

Pentru regresie

Pentru regresie

Există multicoliniaritate?

Destul de slab explicată de variabilele rămase, variabila este liniar independentă.

Variabilele sunt dependente liniar, mari.

1. Într-un model cu două variabile, unul dintre semnele multicoliniarității este valoarea coeficientului de corelație pereche apropiată de unitate. Dacă valoarea a cel puțin unuia dintre coeficienții de corelație perechi este mai mare de 0,8, atunci multicolinearitatea este o problemă serioasă.

Cu toate acestea, într-un model cu mai mult de două variabile independente, coeficientul de corelație pe perechi poate lua o valoare mică chiar și în prezența multicolinearității. În acest caz, este mai bine să luați în considerare coeficienții de corelație parțială.

2. Pentru a verifica multicolinearitatea, puteți lua în considerare determinanți ai matricei coeficienților de corelație perechi|r|. Acest determinant se numește determinant de corelație |r| ∈(0; 1). Dacă |r| = 0, atunci există multicoliniaritate completă. Dacă |r|=1, atunci nu există multicoliniaritate. Cu cât mai aproape |r| la zero, cu atât este mai probabilă prezența multicoliniarității.

3. Dacă estimările au erori standard mari, semnificație scăzută, dar modelul în ansamblu este semnificativ (are un coeficient de determinare ridicat), atunci aceasta indică prezența multicolinearității.

4. Dacă introducerea unei noi variabile independente în model duce la o modificare semnificativă a estimărilor parametrilor și la o ușoară modificare a coeficientului de determinare, atunci noua variabilă este dependentă liniar de celelalte variabile

65. Variabile fictive: definiție, scop, tipuri, semnificația numelor.

Variabile fictive– acestea sunt variabile cu un set discret de valori care descriu cantitativ caracteristicile calitative. Modelele econometrice folosesc de obicei variabile binare de tip „0-1”.

Sunt necesare variabile fictive pentru a evalua caracteristicile calitative ale unei variabile endogene. De exemplu, la evaluarea cererii pentru un anumit produs, am construit un model de regresie în care regresorii erau variabile cantitative - prețul și venitul consumatorului. O modalitate de a rafina acest model ar fi includerea unor caracteristici calitative precum gustul consumatorului, vârsta, caracteristicile naționale, sezonalitatea etc. Acești indicatori nu pot fi prezentați în formă numerică. Prin urmare, se pune problema reflectării influenței acestora asupra valorilor variabilei endogene, care se rezolvă tocmai prin introducerea de variabile fictive.

ÎN caz general, când o caracteristică calitativă are mai mult de două valori, se introduc mai multe variabile binare. Atunci când se utilizează mai multe variabile binare, este necesar să se excludă o relație liniară între variabile, deoarece altfel, la estimarea parametrilor, aceasta va duce la o multicoliniaritate perfectă. Prin urmare, se aplică următoarea regulă: dacă o variabilă calitativă are k valori alternative, atunci numai (k-1) variabile fictive sunt utilizate în modelare.

Modelele de regresie folosesc două tipuri de variabile fictive:

1. Variabile simulate de schimbare

2. Variabile fictive de pantă este o variabilă care modifică panta dreptei de regresie. Folosind astfel de variabile fictive, este posibil să se construiască modele liniare pe bucăți care să permită luarea în considerare a schimbărilor structurale în procesele economice (de exemplu, introducerea de noi restricții legale sau fiscale, schimbări în situația politică etc.). Astfel de variabile sunt utilizat atunci când o modificare a unei caracteristici calitative nu duce la o deplasare paralelă a graficului de regresie, ci la o modificare a pantei acestuia. Acesta este de fapt motivul pentru care astfel de variabile fictive sunt numite variabile de pantă.

66. Manichin de schimbare: Specificarea unui model de regresie cu un manechin de schimbare.

Variabile simulate de schimbare– aceste variabile sunt utilizate în modelele dinamice când, de la un anumit moment în timp, un factor calitativ începe să funcționeze (de exemplu, când se ia în considerare productivitatea unei fabrici înainte și în timpul unei greve a muncitorilor). Aceste variabile sunt utilizate atunci când o modificare a unui atribut calitativ duce la o deplasare paralelă în graficul modelului de regresie, motiv pentru care sunt numite variabile de schimbare.

Specificația unui model de regresie pe perechi cu o variabilă de deplasare inactivă este:

Unde α, β, δ sunt parametrii modelului; – valoarea regresorului în observaţia t;

Variabila simulatoare;

δ este un parametru pentru o variabilă inactivă.

Valoarea variabilei fictive dt=0 se numește valoare de bază (comparativă). Valoarea de bază poate fi fie determinată de obiectivele studiului, fie aleasă în mod arbitrar. Dacă înlocuiți valoarea de bază a variabilei, esența modelului nu se va schimba semnul parametrului δ.

Luați în considerare un model de regresie pereche cu o variabilă de deplasare inactivă de exemplu.

Lăsați vânzările de înghețată să fie influențate de prezența reclamei pe duba vânzătorului. Folosind o ecuație cu variabile fictive, folosind o singură ecuație de regresie, puteți obține rezultate atât pentru vânzătorii cu publicitate, cât și pentru vânzătorii fără publicitate.

Lăsați modelul inițial să fie descris de specificație:

Unde n este numărul de vânzători de înghețată, este numărul de vânzări pentru al-lea vânzător, este valoarea regresorului cantitativ pentru al-lea vânzător

Să introducem o variabilă de schimbare fictivă

Să presupunem că luăm în considerare o ecuație de regresie și datele pentru estimarea acesteia conțin observații pentru obiecte de diferite calități: pentru bărbați și femei, pentru albi și negri. Întrebarea care ne poate interesa aici este următoarea: este adevărat că modelul luat în considerare coincide pentru două mostre referitoare la obiecte de calitate diferită? La această întrebare se poate răspunde folosind testul Chow.

Să luăm în considerare modelele:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

În prima probă N observatii, in a doua - M observatii. Exemplu: Y– salarii, variabile explicative – vârsta, vechimea în muncă, nivelul de studii. Din datele disponibile rezultă că modelul dependenței salariilor de variabilele explicative din partea dreaptă este același pentru bărbați și femei?

Pentru a testa această ipoteză, puteți utiliza o schemă generală de testare a ipotezelor prin compararea regresiei constrânse și regresiei neconstrânse. Regresia neconstrânsă aici este uniunea regresiilor (1) și (2), adică. ESS UR = ESS 1 + ESS 2, numărul de grade de libertate – N + M - 2k. Regresia cu restricții (adică regresia sub ipoteza că ipoteza nulă este satisfăcută) va fi o regresie pentru întregul set disponibil de observații:

, i = 1,…, N+M (3).

Evaluând (3), obținem ESS R. Pentru a testa ipoteza nulă folosim următoarele statistici:

Care, dacă ipoteza nulă este adevărată, are o distribuție Fisher cu numărul de grade de libertate al numărătorului kși numitorul N+ M- 2k.

Dacă ipoteza nulă este adevărată, putem combina eșantioanele disponibile într-una singură și putem estima modelul pentru N+M observatii. Dacă respingem ipoteza nulă, atunci nu putem îmbina cele două eșantioane într-una singură și va trebui să estimăm cele două modele separat.


Studiul modelului liniar general, pe care l-am luat în considerare mai devreme, este foarte semnificativ, după cum am văzut, bazat pe aparatul statistic. Cu toate acestea, ca și în cazul tuturor aplicațiilor de mat. statistici, puterea unei metode depinde de ipotezele care stau la baza acesteia și necesare pentru aplicarea ei. Pentru o vreme vom lua în considerare situațiile în care una sau mai multe dintre ipotezele care stau la baza modelului liniar sunt încălcate. Vom lua în considerare metode alternative evaluări în aceste cazuri. Vom vedea că rolul unor ipoteze este mai semnificativ în comparație cu rolul altora. Trebuie să ne uităm la ce consecințe pot duce încălcările anumitor condiții (ipoteze), să putem verifica dacă acestea sunt îndeplinite sau nu și să știm ce metode statistice pot și ar trebui utilizate atunci când metoda clasică a celor mai mici pătrate nu este potrivită.

1. Relația dintre variabile este liniară și se exprimă prin ecuația - erori de specificare a modelului (neincluderea variabilelor explicative semnificative în ecuație, includerea variabilelor inutile în ecuație, alegerea incorectă a formei de dependență între variabile);


2. X 1 ,…,Xk– variabile deterministe – regresori stocastici, liniar independente – multicolinearitate completă;

4. - heteroscedasticitate;

5. când i ¹ k– autocorelarea erorilor

Înainte de a începe conversația, să luăm în considerare următoarele concepte: coeficient de corelație de pereche și coeficient de corelație parțială.

Să presupunem că studiem efectul unei variabile asupra altei variabile ( YŞi X). Pentru a înțelege modul în care aceste variabile sunt legate între ele, calculăm coeficientul de corelație pe perechi folosind următoarea formulă:

Dacă obținem o valoare a coeficientului de corelație apropiată de 1, ajungem la concluzia că variabilele sunt destul de strâns legate între ele.

Cu toate acestea, dacă coeficientul de corelație dintre două variabile de studiu este aproape de 1, este posibil ca acestea să nu fie de fapt dependente. Exemplul bolnavilor mintal și al radiourilor este un exemplu al așa-numitei „corelații false”. Valoarea mare a coeficientului de corelație se poate datora și existenței unei a treia variabile, care are o influență puternică asupra primelor două variabile, motiv pentru care se realizează corelarea ridicată a acestora. Prin urmare, se pune sarcina de a calcula corelația „pură” între variabile XŞi Y, adică o corelație în care influența (liniară) a altor variabile este exclusă. În acest scop, este introdus conceptul de coeficient de corelație parțială.

Deci, dorim să determinăm coeficientul de corelație parțială între variabile XŞi Y, excluzând influența liniară a variabilei Z. Pentru a-l determina, se utilizează următoarea procedură:

1. Estimăm regresia,

2. Primim restul,

3. Estimăm regresia,

4. Primim restul,

5. - coeficient de corelație parțială eșantion, măsoară gradul de legătură dintre variabile XŞi Y, curățat de influența variabilei Z.

Calcule directe:

Proprietate:

Procedura de construire a coeficientului de corelație parțială este generalizată în cazul în care dorim să scăpăm de influența a două sau mai multe variabile.


1. Multicoliniaritate perfectă.

Una dintre cerințele lui Gauss-Markov ne spune că variabilele explicative nu trebuie legate prin nicio relație exactă. Dacă o astfel de relație există între variabile, spunem că există multicoliniaritate perfectă în model. Exemplu. Luați în considerare un model cu un scor mediu la examen format din trei variabile explicative: eu- venitul parintilor, D- numărul mediu de ore petrecute la antrenament pe zi, W- numărul mediu de ore petrecute la antrenament pe săptămână. Este evident că W=7D. Și acest raport va fi îndeplinit pentru fiecare elev care este inclus în eșantionul nostru. Cazul multicolinearității complete este ușor de urmărit, deoarece în acest caz este imposibil să se construiască estimări folosind metoda celor mai mici pătrate.

2. Multicoliniaritate parțială sau pur și simplu multicoliniaritate.

O situație mult mai des întâlnită este atunci când nu există o relație liniară exactă între variabilele explicative, dar există o corelație strânsă între ele - acest caz se numește multicoliniaritate reală sau parțială (pur și simplu multicoliniaritate) - existența unor relații statistice strânse între variabile. Trebuie spus că problema multicoliniarității este mai degrabă o chestiune de gradul de severitate al fenomenului decât de tipul acestuia. Estimarea oricărei regresii va avea de suferit într-o formă sau alta, cu excepția cazului în care toate variabilele independente se dovedesc a fi complet necorelate. Luarea în considerare a acestei probleme începe doar atunci când începe să afecteze serios rezultatele estimării regresiei (prezența relațiilor statistice între regresori nu dă neapărat estimări nesatisfăcătoare). Deci, multicoliniaritatea este o problemă atunci când o corelație strânsă între regresori duce la estimări de regresie nesigure.

Consecințele multicoliniarității:

Formal, din moment ce ( X"X) este nedegenerată, atunci putem construi estimări MCO ale coeficienților de regresie. Totuși, să ne amintim cum sunt exprimate variațiile teoretice ale estimărilor coeficienților de regresie: , unde a ii - i al-lea element diagonal al matricei. Deoarece matricea (X"X) este aproape de singular și det( X"X) » 0, atunci

1) există numere foarte mari pe diagonala principală a matricei inverse, deoarece elementele matricei inverse sunt invers proporționale cu det( X"X). Prin urmare, varianța teoretică i-al-lea coeficient este destul de mare și estimarea varianței este, de asemenea, mare, prin urmare, t- statisticile sunt mici, ceea ce poate duce la nesemnificativitate statistică i-al-lea coeficient. Adică, variabila are un impact semnificativ asupra variabilei care este explicată și concluzionăm că este nesemnificativă.

2) Deoarece estimări și depind de ( X"X) -1 , ale cărui elemente sunt invers proporționale cu det( X"X), atunci dacă adăugăm sau eliminăm una sau două observații, adăugând sau eliminând astfel unul sau două rânduri în matrice X"X, apoi valorile și se pot schimba semnificativ, până la schimbarea semnului - instabilitate a rezultatelor evaluării.

3) Dificultate în interpretarea ecuației de regresie. Să presupunem că avem două variabile în ecuație care sunt legate între ele: X 1 și X 2. Coeficientul de regresie la X 1 este interpretat ca o măsură a schimbării Y datorita schimbarii X 1 toate celelalte lucruri fiind egale, i.e. valorile tuturor celorlalte variabile rămân aceleași. Cu toate acestea, din moment ce variabilele X 1 și X 2 sunt legate, apoi modificări ale variabilei X 1 va atrage modificări previzibile ale variabilei X 2 și valoare X 2 nu va rămâne același.

Exemplu: , unde X 1 – suprafata totala, X 2 – zona de locuit. Spunem: „Dacă suprafața de locuit crește cu 1 mp, atunci, cu toate celelalte, prețul apartamentului va crește cu $.” Cu toate acestea, în acest caz, suprafața de locuit va crește cu 1 mp. m. iar creșterea prețului va fi . Distingeți influența asupra unei variabile Y fiecare variabilă separat nu mai este posibilă. Ieșirea în această situație cu prețul unui apartament este să includeți în model nu suprafața totală, ci așa-numita suprafață „suplimentară” sau „suplimentară”.

Semne de multicoliniaritate.

Nu există criterii exacte pentru determinarea prezenței (absenței) multicoliniarității. Cu toate acestea, există recomandări euristice pentru identificarea acestuia:

1) Analizați matricea coeficienților de corelație perechi între regresori și dacă valoarea coeficientului de corelație este apropiată de 1, atunci acesta este considerat un semn de multicoliniaritate.

2) Analiza matricei de corelație este doar o judecată superficială cu privire la prezența (absența) multicolinearității. Un studiu mai atent al acestei probleme se realizează prin calcularea coeficienților de corelație parțială sau calcularea coeficienților de determinare a fiecăreia dintre variabilele explicative pentru toate celelalte variabile explicative din regresie.

4) (XX) este o matrice definită pozitivă simetrică, prin urmare, toate valorile sale proprii sunt nenegative. Dacă determinantul matricei ( XX) este egal cu zero, atunci valoarea proprie minimă este, de asemenea, zero și continuitatea este păstrată. În consecință, din valoarea valorii proprii minime se poate aprecia dacă determinantul matricei este aproape de zero ( XX). Pe lângă această proprietate, valoarea proprie minimă este de asemenea importantă deoarece eroarea standard a coeficientului este invers proporțională.

5) Prezența multicoliniarității poate fi judecată prin semne externe care sunt consecințe ale multicoliniarității:

a) unele dintre estimări au semne incorecte din punct de vedere al teoriei economice sau valori nerezonabil de mari;

b) o mică modificare a datelor economice inițiale duce la o modificare semnificativă a estimărilor coeficienților modelului;

c) majoritar t-statisticile coeficienților nu diferă semnificativ de zero, în același timp, modelul în ansamblu este semnificativ, fapt dovedit de valoarea mare F-statistici.

Cum să scapi de multicoliniaritate, cum să o elimini:

1) Utilizarea analizei factoriale. Trecerea de la setul original de regresori, printre care se numără și cei dependenți statistic, la noi regresori Z 1 ,…,Zm folosind metoda componentelor principale - în locul variabilelor originale, în locul variabilelor originale, luăm în considerare unele dintre combinațiile lor liniare, a căror corelație este mică sau absentă deloc. Sarcina aici este de a oferi o interpretare semnificativă noilor variabile Z. Dacă eșuează, ne întoarcem la variabilele originale folosind transformări inverse. Estimările rezultate vor fi, totuși, părtinitoare, dar vor avea o dispersie mai mică.

2) Dintre toate variabilele disponibile, selectați factorii care influențează cel mai semnificativ variabila explicată. Procedurile de selecție vor fi discutate mai jos.

3) Trecerea la metode de evaluare părtinitoare.

Când ne confruntăm cu problema multicolinearității, cercetătorul neexperimentat are inițial dorința de a exclude pur și simplu regresorii inutile care ar putea fi cauza. Cu toate acestea, nu este întotdeauna clar care variabile sunt redundante în acest sens. În plus, așa cum se va arăta mai jos, eliminarea așa-numitelor variabile care influențează semnificativ duce la părtinire în estimările MCO.


Rețineți că, în unele cazuri, multicolinearitatea nu este un „rău” atât de grav încât trebuie depuse eforturi semnificative pentru a o identifica și elimina. Practic, totul depinde de obiectivele studiului.
Dacă sarcina principală a modelului este de a prezice valorile viitoare ale variabilei dependente, atunci cu un coeficient de determinare suficient de mare R2(gt; 0,9), prezența multicolinearității nu afectează de obicei calitățile predictive ale modelului (dacă in viitor se vor mentine aceleasi relatii intre variabilele corelate ca si pana acum ).
Dacă este necesar să se determine măsura în care fiecare variabilă explicativă influențează variabila dependentă, atunci multicoliniaritatea, care duce la erori standard mai mari, este probabil să denatureze relațiile adevărate dintre variabile. În această situație, multicoliniaritatea este o problemă serioasă.
Nu există o metodă unică de eliminare a multicolinearității care să fie potrivită în orice caz. Acest lucru se datorează faptului că cauzele și consecințele multicolinearității sunt ambigue și depind în mare măsură de rezultatele eșantionului.
Excluderea variabilelor din model
Cea mai simplă metodă de eliminare a multicolinearității este excluderea uneia sau a mai multor variabile corelate din model. Este necesară o anumită precauție atunci când utilizați această metodă. În această situație sunt posibile erori de specificare, așa că în modelele econometrice aplicate este indicat să nu se excludă variabilele explicative până când multicolinearitatea devine o problemă serioasă.
Obținerea de mai multe date sau un eșantion nou
Deoarece multicoliniaritatea depinde direct de eșantion, este posibil ca cu un eșantion diferit să nu existe multicoliniaritate sau să nu fie la fel de gravă. Uneori, pentru a reduce multicolinearitatea, este suficient să mărim dimensiunea eșantionului. De exemplu, dacă utilizați date anuale, puteți trece la datele trimestriale. Creșterea cantității de date reduce varianța coeficienților de regresie și, prin urmare, crește semnificația lor statistică. Cu toate acestea, obținerea unui eșantion nou sau extinderea unuia vechi nu este întotdeauna posibilă sau este asociată cu costuri serioase. În plus, această abordare poate crește autocorelația. Aceste probleme limitează utilizarea acestei metode.
Modificarea specificațiilor modelului
În unele cazuri, problema multicolinearității poate fi rezolvată prin modificarea specificației modelului: fie schimbarea formei modelului, fie adăugarea de variabile explicative care nu au fost luate în considerare în modelul original, dar afectează semnificativ variabila dependentă. Dacă această metodă este justificată, atunci utilizarea sa reduce suma abaterilor pătrate, reducând astfel eroarea standard a regresiei. Aceasta are ca rezultat o reducere a erorilor standard ale coeficienților.
Utilizarea informațiilor anticipate despre unii parametri
Uneori, atunci când construiți un model de regresie multiplă, puteți utiliza informații preliminare, în special, valorile cunoscute ale unor coeficienți de regresie.
Este probabil ca valorile coeficienților calculati pentru unele modele preliminare (de obicei mai simple) sau pentru un model similar bazat pe un eșantion obținut anterior să poată fi utilizate pentru cel în curs de dezvoltare. în acest moment modele.
Selectarea celor mai semnificative variabile explicative. Procedura de conectare secvenţială a elementelor
Trecerea la mai puține variabile explicative poate reduce duplicarea informațiilor furnizate de trăsături extrem de interdependente. Este exact ceea ce întâlnim în cazul multicoliniarității variabilelor explicative.
Lasă

Coeficient multiplu
corelații între variabila dependentă Y și mulțimea variabilelor explicative X 1,X 2,...,Xm. Este definit ca coeficientul de corelație obișnuit între Y și o funcție liniară
regresie Y = b0 + KX1 + b2X2+... + bmXm. Lasă & = R-1 - matricea inversă matricei R:


Apoi pătratul coeficientului Ry.X = Rr(xi,x2,..,x) poate fi calculat folosind formula:


Estimarea R*2.X a coeficientului de determinare R2y.X, corectată pentru unbias, are forma:

(Dacă formula (6.7) dă un număr negativ, atunci presupunem


Limită inferioară de încredere pentru

determinat
dupa formula:

În practică, atunci când se decide ce variabile explicative ar trebui incluse într-un model, este adesea utilizată o procedură de adăugare secvențială a elementelor.
(j = 1, 2,..., m) . În același timp

coincide cu un pătrat regulat
coeficient de corelație de pereche

Lasă


atunci variabila xp va fi cea mai informativă. Apoi se calculează coeficientul corectat pentru imparțialitate
(pentru m = 1) și limita sa inferioară de încredere R2min (1) .


perechea jxp,xq va fi mai informativă). Apoi se calculează coeficientul corectat pentru imparțialitate (la m = 2)
și limita sa inferioară de încredere R2min (2) .

Procedura este continuată până când următoarea condiție este îndeplinită la pas (la +1):
Apoi cele mai informative variabile obținute în primii pași sunt incluse în model. Rețineți că calculele folosesc formulele (6.7) și (6.8), în care în loc de m se ia valoarea corespunzătoare a numărului de pas k.
De fapt, această metodă nu garantează că vom scăpa de multicoliniaritate.
Se folosesc și alte metode de eliminare a multicolinearității.
Exemplul 6.1. Sunt disponibile următoarele date condiționate (Tabelul 6.1):
Tabelul 6.1
Date pentru metoda lanțului de margarete


X1

X2

X3

U

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Să luăm în considerare influența asupra variabilei dependente a fiecăreia dintre variabilele explicative separat. Calculând coeficienții de corelație de pereche, constatăm că coeficientul are cea mai mare valoare

Apoi:


Să luăm în considerare influența perechilor de variabile (x1, x2) și (x1, x3) asupra variabilei dependente. În primul rând, luați în considerare influența unei perechi de variabile (x1, x2).



icuvum uvjpcuuivi, emis de rsimsldsіtshіm msiida ііі^ісдіїслп-
Când se adaugă variabile, două variabile explicative ar trebui incluse în ecuație. Prin urmare, ecuația teoretică va lua forma:
Metoda pieptenelor
Să luăm în considerare „metoda crestei” („regresia crestei”) pentru eliminarea multicoliniarității. Metoda a fost propusă de A.E. Hoerl în 1962 și este folosită atunci când matricea (xtX) este aproape de singular. Un număr mic (de la 0,1 la 0,4) este adăugat elementelor diagonale ale matricei (xtX). În acest caz, se obțin estimări părtinitoare ale parametrilor ecuației. Dar erorile standard ale unor astfel de estimări în cazul multicoliniarității sunt mai mici decât erorile date de metoda celor mai mici pătrate obișnuite.
Exemplul 6.2. Datele inițiale sunt prezentate în „Tabelul 6 2 Coeficientul de corelație al variabilelor explicative

Ce
indică o multicoliniaritate puternică.
Tabelul 6.2
Date pentru studierea multicolinearității folosind metoda crestelor


x1

x2

U

1

1,4

7

2

3,1

12


Apoi obținem ecuația y = 2,63 +1,37x1 + 1,95x2. Elementele diagonale ale matricei inverse vor fi reduse semnificativ și vor fi egale cu z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, ceea ce duce la scăderea erorilor standard ale coeficienților.
Relua
Printre principalele consecințe la care poate duce multicoliniaritatea se numără următoarele:
  1. atunci când se testează ipoteza principală despre nesemnificația coeficienților de regresie multipli folosind testul t, în majoritatea cazurilor este acceptată, dar ecuația de regresie în sine, atunci când este testată folosind testul A, se dovedește a fi semnificativă, ceea ce indică o valoare supraestimată. a coeficientului de corelație multiplă;
  2. estimările obținute ale coeficienților ecuației de regresie multiplă sunt în general umflate nerezonabil sau au semne incorecte;
  3. adăugarea sau excluderea uneia sau a două observații din datele originale are un impact puternic asupra estimărilor coeficienților modelului;
  4. prezența multicoliniarității într-un model de regresie multiplă îl poate face nepotrivit pentru utilizare ulterioară (de exemplu, pentru realizarea de prognoze).
Întrebări de autotest
  1. Ce este multicoliniaritatea?
  2. Ce indicatori indică prezența multicolinearității?
  3. De ce este egală cu determinantul Matrici XTX în caz de multicoliniaritate perfectă?
  4. Ce se poate spune despre semnificația coeficienților pentru variabile explicative în cazul multicoliniarității?
  5. Ce transformare se realizează în metoda crestei, la ce duce?
  6. Care este procedura în metoda creșterii succesive a numărului de variabile explicative?
  7. Ce arată coeficientul de corelație?
  8. Ce arată coeficientul de corelație parțială?

© 2024 ermake.ru -- Despre repararea PC-ului - Portal de informații