Ekonometrijski test faktori za multikolinearnost. Multikolinearnost i njene posljedice

Dom / Operativni sistemi

Vanjski znak prisutnosti multikolinearnosti su prevelike vrijednosti matričnih elemenata (X T X)~ 1 . Više definicije matrice (X T X) X i njegovu upotrebu vidi pogl. 4, stav 4.2.

Glavni znak multikolinearnosti: determinanta korelacione matrice R x x . blizu nule. Ako su sve varijable koje objašnjavaju međusobno nekorelirane, onda R XjX .| = 1, in inače 0 R x . x. |

Postoji nekoliko znakova po kojima se može utvrditi prisustvo multikolinearnosti.

  • 1. Koeficijent determinacije K 2 prilično visoka, visoka f-statistika, ali neki (ponekad svi) koeficijenti jednačine višestruke linearne regresije su statistički beznačajni (imaju nisku 7-statistiku).
  • 2. Visoki koeficijenti parne korelacije i visoki parcijalni koeficijenti korelacije.

Definicija 7.1.Parcijalni koeficijent korelacije se naziva koeficijent korelacije između dve eksplanatorne varijable, „očišćene“ od uticaja drugih varijabli.

Na primjer, sa tri varijable koje objašnjavaju X 1y X 2, X 3 parcijalni koeficijent korelacije između X ( a X 3, “pročišćen” od X 2, izračunava se po formuli

Napomena 7.2. Parcijalni koeficijent korelacije može se značajno razlikovati od “uobičajenog” (uparenog) koeficijenta korelacije. Za razumniji zaključak o korelaciji između parova eksplanatornih varijabli potrebno je izračunati sve parcijalne koeficijente korelacije.

Opšti izraz za određivanje parcijalnog koeficijenta korelacije

Gdje Cjj- matričnih elemenata WITH = R~ x - matrica inverzna matrici korelacije par međufaktora R VjX . (7.1).

  • 3. Snažna regresija između eksplanatornih varijabli. Bilo koja od objašnjavajućih varijabli je kombinacija drugih eksplanatornih varijabli (linearnih ili skoro linearnih).
  • 4. Predznaci koeficijenata regresije su suprotni onima koji se očekuju iz ekonomskih premisa.
  • 5. Dodavanje ili uklanjanje zapažanja iz uzorka uvelike mijenja vrijednosti procjena.

Pogledajmo nekoliko primjera kako bismo ilustrirali gore navedeno.

Primjer 7.4

Za obim proizvodnje at Sljedeći glavni faktori utiču: x x- broj zaposlenih koji rade u preduzeću; x 2- trošak osnovnih sredstava; x 3- prosječna plata zaposlenih. Jednačina linearne višestruke regresije ima oblik y = b 0 + b ( x x + b 2 x 2 + b 3 x 3 .

Matrica koeficijenata korelacije parova za ovaj model

Matrična determinanta |D | = 0,302. U ovom modelu faktori i x 2, i takođe X ( I x 3 faktori su slabo povezani, naprotiv, x 2 I x 3 su jako povezane: r^z =0,8. Moguća je jaka veza između faktora x 2 I x l To se objašnjava činjenicom da visokokvalifikovani radnici koji imaju veće plate rade na skupoj opremi.

Pokazalo se da su upareni koeficijenti korelacije rezultirajuće varijable sa faktorima jednaki: t yY| =0,7; g uh.^ =0,8; g uhz=0,75. Potpuna matrica koeficijenata parne korelacije ima oblik

Svi faktori imaju značajan uticaj na rezultat. Budući da regresijski model mora uključivati ​​faktore koji su usko povezani s rezultatom i slabo povezani jedan s drugim, u ovom primjeru su istovremeno prikladna dva regresijska modela: y, = f(x v x 2) i y 2 = f(x v x 3).

Primjer 7.5

Otkrijmo prisustvo multikolinearnosti za podatke uzorka date u tabeli. 7.2.

Ulazni podaci na primjer 7.2

Tabela 7.2

X,

Rješenje. Upareni koeficijenti korelacije izračunati pomoću formule (7.2) dati su u tabeli. 7.3.

Tabela 73

Parni koeficijenti korelacije

Iz podataka datih u tabeli, jasno je da postoji jaka korelacija između varijabli.G[ i x 2. Koeficijenti parne korelacije se također mogu odrediti pomoću alata za analizu. Microsoft Excel (Korelacijski alat),

Provjerimo korelaciju između objašnjenih i objašnjavajućih varijabli za to ćemo koristiti alat “Korelacija”. Microsoft Excel(možete izračunati koeficijente korelacije g X1/ , koristeći formulu (7.2)). Rezultati su predstavljeni na sl. 7.1.


Rice. 7.1. Rezultati izračunavanja korelacije između objašnjenih i eksplanatornih varijabli u Microsoft Excel

Izračunajmo parcijalne koeficijente korelacije koristeći formulu (7.4), budući da u ovom primjeru postoje samo tri varijable koje objašnjavaju (parcijalne koeficijente korelacije možete pronaći pomoću formule (7.5), nakon što ste prvo pronašli inverznu matricu C=R():

Pokazalo se da je parcijalni koeficijent korelacije između varijabli najveći x x ima ih 2. Parcijalni koeficijent korelacije g XxX ^ X2 najmanji i suprotan po predznaku koeficijentu para g x x.

Odgovori. Postoji jaka korelacija između varijabli u modelu x x I x 2.

Fenomen multikolinearnosti u slučaju modela linearne regresije je kršenje jedne od njegovih premisa, tj. prisustvo linearnog odnosa između faktora.

Multikolinearnost– ovo je visoka međusobna korelacija eksplanatornih varijabli.

_______________________________________________________________________

Multikolinearnost se može pojaviti u dva oblika:

1) at funkcionalna/eksplicitna forma multikolinearnosti, barem jedan od parnih odnosa između eksplanatornih varijabli je linearni funkcionalni odnos.

2) stohastički/skriveni oblik u ekonomskim istraživanjima češće se pojavljuje kada postoji bliska korelacija između dvije eksplanatorne varijable.

Da bi regresiona analiza zasnovana na OLS dala najbolje rezultate, pretpostavlja se da su vrednosti X nisu slučajne varijable i da nisu u korelaciji, tj. svaka varijabla sadrži jedinstvene informacije O y, koje ne sadrži u drugima. Kada postoji takva idealna situacija, nema multikolinearnosti. Potpuna kolinearnost se javlja kada se jedna varijabla može tačno izraziti u terminima druge varijable za sve elemente skupa podataka.

Razlozi za multikolinearnost:

1) metoda prikupljanja podataka i odabira varijabli u model bez uzimanja u obzir njihovog značenja i prirode(uzimajući u obzir moguće odnose među njima). Na primjer, kada se procjenjuje uticaj porodičnog prihoda i veličine porodice na veličinu stanovanja, ako prikupljamo podatke samo među porodicama velika veličina i sa visokim prihodima i ne uključuju male porodice sa niskim primanjima u model, onda će rezultat biti model sa multikolinearnim efektom. Rješenje problema je poboljšanje dizajna uzorkovanja. U slučaju da su varijable komplementarne jedna drugoj, prilagođavanje uzorka neće pomoći. Rješenje bi bilo uklanjanje jedne od varijabli;

2) velike snage varijabla. Na primjer, da bi se promijenio izgled modela, dodatni termin se može uvesti u model koji već sadrži $

3) regresori koji mjere približno istu stvar: devizni kurs na početku i na kraju dana;

4) prirodni odnosi između regresora: godine, iskustvo i broj godina obrazovanja.

Posljedice multikolinearnosti:

1) kada se testira nulta hipoteza o beznačajnosti koeficijenata regresije pomoću t-testa, u većini slučajeva je prihvaćena, ali se sama jednadžba regresije, kada se testira F-testom, pokazuje značajnom, što ukazuje na precijenjenost koeficijenta regresije; intervali povjerenja su preširoki;



2) dobijene procene parametara jednačine su uglavnom neopravdano naduvane ili imaju netačne predznake;

3) dodavanje ili isključivanje 1-2 zapažanja iz originalnih podataka ima snažan uticaj na procene koeficijenata;

4) prisustvo multikolinearnosti u modelu može ga učiniti neprikladnim za dalju upotrebu.

Glavni problem multikolinearnosti je deprecijacija varijanse u procjenama koeficijenta regresije. Za mjerenje efekta multikolinearnosti koristi se indikator VIF (variation inflation factor) – faktor inflacije varijanse u poređenju sa varijansom koja bi bila da nije bila kolinearna s drugim nezavisnim varijablama u regresiji:

gdje je vrijednost koeficijenta višestruke determinacije za regresor na svim ostalima.

Na primjer, vrijednost VIF=6 znači da je disperzija koeficijenata 6 puta veća od onoga što bi trebala biti ako potpuno odsustvo kolinearnost. Vjeruje se da je kritična vrijednost VIF=10 – Previše je korelacije između faktora.

Primjer.

Za regresiju na druge regresore

Za regresiju

Za regresiju

Postoji li multikolinearnost?

Prilično loše objašnjeno preostalim varijablama, varijabla je linearno nezavisna.

Varijable su linearno zavisne, visoke.

1. U modelu sa dvije varijable, jedan od znakova multikolinearnosti je vrijednost koeficijenta korelacije para blizu jedinice. Ako je vrijednost barem jednog od koeficijenata parne korelacije veća od 0,8, multikolinearnost je ozbiljan problem.

Međutim, u modelu sa više od dvije nezavisne varijable, koeficijent parne korelacije može poprimiti malu vrijednost čak iu prisustvu multikolinearnosti. U ovom slučaju, bolje je uzeti u obzir parcijalne koeficijente korelacije.

2. Da biste provjerili multikolinearnost, možete razmotriti determinante matrice koeficijenata korelacije parova|r|. Ova determinanta se naziva korelacionom determinantom |r| ∈(0; 1). Ako |r| = 0, tada postoji potpuna multikolinearnost. Ako je |r|=1, onda nema multikolinearnosti. Što bliže |r| na nulu, to je verovatnije prisustvo multikolinearnosti.

3. Ako procjene imaju velike standardne greške, nisku značajnost, ali je model u cjelini značajan (ima visok koeficijent determinacije), onda to ukazuje na prisustvo multikolinearnosti.

4. Ako uvođenje nove nezavisne varijable u model dovodi do značajne promjene u procjenama parametara i neznatne promjene koeficijenta determinacije, tada je nova varijabla linearno zavisna od ostalih varijabli

65. Lažne varijable: definicija, svrha, tipovi, značenje imena.

Lažne varijable– to su varijable s diskretnim skupom vrijednosti koje kvantitativno opisuju kvalitativne karakteristike. Ekonometrijski modeli obično koriste binarne lažne varijable tipa “0-1”.

Lažne varijable su potrebne procijeniti kvalitativne karakteristike endogene varijable. Na primjer, prilikom procjene potražnje za određenim proizvodom izgradili smo regresijski model u kojem su regresori bile kvantitativne varijable - cijena i prihod potrošača. Jedan od načina da se precizira ovaj model bio bi uključiti takve kvalitativne karakteristike kao što su ukus potrošača, starost, nacionalne karakteristike, sezonalnost itd. Ovi indikatori se ne mogu prikazati u numeričkom obliku. Stoga se javlja problem odraza njihovog utjecaja na vrijednosti endogene varijable, što se rješava upravo uvođenjem lažnih varijabli.

IN opšti slučaj Kada kvalitativna karakteristika ima više od dvije vrijednosti, uvodi se nekoliko binarnih varijabli. Kada se koristi više binarnih varijabli, potrebno je isključiti linearni odnos između varijabli, jer će u suprotnom, prilikom procjene parametara, to dovesti do savršene multikolinearnosti. Stoga se primjenjuje sljedeće pravilo: ako kvalitativna varijabla ima k alternativnih vrijednosti, tada se u modeliranju koriste samo (k-1) lažne varijable.

Regresijski modeli koriste dvije vrste lažnih varijabli:

1. Lažne varijable pomaka

2. Lažne varijable nagiba je varijabla koja mijenja nagib linije regresije. Koristeći takve lažne varijable, moguće je konstruirati linearne modele po komadima koji omogućavaju da se uzmu u obzir strukturne promjene u ekonomskim procesima (na primjer, uvođenje novih zakonskih ili poreznih ograničenja, promjene političke situacije, itd.). Takve varijable su koristi se kada promjena kvalitativne karakteristike ne dovodi do paralelnog pomaka grafa regresije, već do promjene njegovog nagiba. To je zapravo razlog zašto se takve lažne varijable nazivaju varijable nagiba.

66. Shift Dummy: Specifikacija regresijskog modela s lutkom pomaka.

Lažne varijable pomaka– ove varijable se koriste u dinamičkim modelima kada neki kvalitativni faktor počinje djelovati od određenog trenutka (na primjer, kada se razmatra produktivnost postrojenja prije i za vrijeme štrajka radnika). Ove varijable se koriste kada promjena kvalitativnog atributa dovodi do paralelnog pomaka u grafu regresijskog modela, zbog čega se nazivaju promjenjivim varijable.

Specifikacija modela parne regresije sa lažnom varijablom pomaka je:

gdje su α, β, δ parametri modela; – vrijednost regresora u posmatranju t;

Dummy varijabla;

δ je parametar za lažnu varijablu.

Vrijednost lažne varijable dt=0 naziva se bazna (uporedna) vrijednost. Osnovna vrijednost može biti određena ciljevima studije ili odabrana proizvoljno. Ako zamijenite osnovnu vrijednost varijable, suština modela se neće promijeniti;

Razmotrimo upareni regresijski model sa lažnom promjenjivom promjenjivom za primjer.

Neka na prodaju sladoleda utiče prisustvo reklama na kombiju prodavca. Koristeći jednadžbu sa lažnim varijablama, koristeći jednu jednadžbu regresije, možete dobiti rezultate i za prodavce s oglašavanjem i za prodavce bez reklama.

Neka početni model bude opisan specifikacijom:

Gdje je n broj prodavača sladoleda, broj prodaja za t-og prodavca, vrijednost je kvantitativnog regresora za t-og prodavca

Hajde da uvedemo fiktivnu varijablu pomaka

Pretpostavimo da razmatramo jednačinu regresije i da podaci za njenu procjenu sadrže zapažanja za objekte različitog kvaliteta: za muškarce i žene, za bijelce i crnce. Pitanje koje nas ovdje može zanimati je sljedeće: da li je tačno da se model koji se razmatra koincidira za dva uzorka koji se odnose na objekte različitog kvaliteta? Na ovo pitanje se može odgovoriti pomoću Chow testa.

Razmotrimo modele:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

U prvom uzorku N zapažanja, u drugom - M zapažanja. primjer: Y– plate, objašnjavajuće varijable – starost, radni staž, stepen obrazovanja. Da li iz dostupnih podataka proizilazi da je model zavisnosti plata od eksplanatornih varijabli na desnoj strani isti za muškarce i žene?

Da biste testirali ovu hipotezu, možete koristiti opću šemu testiranja hipoteze upoređujući ograničenu regresiju i regresiju bez ograničenja. Neograničena regresija ovdje je unija regresija (1) i (2), tj. ESS UR = ESS 1 + ESS 2, broj stepeni slobode – N + M - 2k. Regresija s ograničenjima (tj. regresija pod pretpostavkom da je nulta hipoteza zadovoljena) će biti regresija za cijeli dostupni skup zapažanja:

, i = 1,…, N+M (3).

Evaluacijom (3) dobijamo ESS R. Za testiranje nulte hipoteze koristimo sljedeću statistiku:

Koja, ako je nulta hipoteza tačna, ima Fisherovu raspodjelu s brojem stupnjeva slobode brojioca k i imenilac N+ M- 2k.

Ako je nulta hipoteza tačna, možemo kombinirati dostupne uzorke u jedan i procijeniti model za N+M zapažanja. Ako odbacimo nultu hipotezu, tada ne možemo spojiti dva uzorka u jedan, već ćemo morati zasebno procijeniti dva modela.


Proučavanje opšteg linearnog modela, koje smo ranije razmatrali, veoma je značajno, kao što smo videli, zasnovano na statističkom aparatu. Međutim, kao i kod svih aplikacija za prostirke. statistike, snaga metode zavisi od pretpostavki koje su u njenoj osnovi i neophodne za njenu primenu. Neko vrijeme ćemo razmatrati situacije u kojima je jedna ili više hipoteza koje su u osnovi linearnog modela prekršene. Mi ćemo razmotriti alternativne metode procjene u ovim slučajevima. Vidjet ćemo da je uloga nekih hipoteza značajnija u odnosu na ulogu drugih. Moramo sagledati do kakvih posljedica može dovesti kršenje određenih uslova (pretpostavki), moći provjeriti jesu li oni zadovoljeni ili ne i znati koje statističke metode se mogu i trebaju koristiti kada klasična metoda najmanjih kvadrata nije prikladna.

1. Odnos između varijabli je linearan i izražava se jednadžbom - greške specifikacije modela (neuključivanje značajnih eksplanatornih varijabli u jednačinu, uključivanje nepotrebnih varijabli u jednačinu, nepravilan izbor oblika zavisnosti između varijabli);


2. X 1 ,…,X k– determinističke varijable – stohastički regresori, linearno nezavisni – potpuna multikolinearnost;

4. - heteroskedastičnost;

5. kada i ¹ k– autokorelacija grešaka

Prije nego započnemo razgovor, razmotrimo sljedeće koncepte: koeficijent korelacije parova i koeficijent parcijalne korelacije.

Pretpostavimo da proučavamo uticaj jedne varijable na drugu varijablu ( Y I X). Da bismo razumjeli kako su ove varijable povezane jedna s drugom, izračunavamo koeficijent parne korelacije koristeći sljedeću formulu:

Ako dobijemo vrijednost koeficijenta korelacije blizu 1, zaključujemo da su varijable prilično snažno povezane jedna s drugom.

Međutim, ako je koeficijent korelacije između dvije proučavane varijable blizu 1, one možda zapravo nisu zavisne. Primjer mentalno bolesnih i radija primjer je takozvane “lažne korelacije”. Visoka vrijednost koeficijenta korelacije može biti i zbog postojanja treće varijable, koja ima snažan uticaj na prve dvije varijable, što je razlog njihove visoke korelacije. Stoga se nameće zadatak izračunavanja “čiste” korelacije između varijabli X I Y, tj. korelacija u kojoj je isključen uticaj (linearni) drugih varijabli. U tu svrhu uvodi se koncept parcijalnog koeficijenta korelacije.

Dakle, želimo da odredimo parcijalni koeficijent korelacije između varijabli X I Y, isključujući linearni uticaj varijable Z. Da bi se to utvrdilo, koristi se sljedeća procedura:

1. Procjenjujemo regresiju,

2. Dobijamo ostatak,

3. Procjenjujemo regresiju,

4. Dobijamo ostatak,

5. - uzorak parcijalnog koeficijenta korelacije, mjeri stepen povezanosti varijabli X I Y, očišćen od uticaja varijable Z.

Direktne kalkulacije:

Nekretnina:

Procedura za konstruisanje parcijalnog koeficijenta korelacije generalizovana je na slučaj kada želimo da se oslobodimo uticaja dve ili više varijabli.


1. Savršena multikolinearnost.

Jedan od Gauss-Markovljevih zahtjeva nam govori da eksplanatorne varijable ne bi trebale biti povezane nikakvim egzaktnim odnosom. Ako takav odnos postoji između varijabli, kažemo da postoji savršena multikolinearnost u modelu. Primjer. Razmotrite model sa prosječnim rezultatom ispita koji se sastoji od tri varijable koje objašnjavaju: I- primanja roditelja, D- prosječan broj sati provedenih na treningu dnevno, W- prosječan broj sati utrošenih na obuku sedmično. Očigledno je da W=7D. I ovaj odnos će biti ispunjen za svakog učenika koji je uključen u naš uzorak. Slučaj potpune multikolinearnosti je lako ući u trag, jer je u ovom slučaju nemoguće konstruisati procjene koristeći metodu najmanjih kvadrata.

2. Djelomična multikolinearnost ili jednostavno multikolinearnost.

Mnogo češća situacija je kada ne postoji tačan linearni odnos između eksplanatornih varijabli, ali postoji bliska korelacija između njih - ovaj slučaj se naziva realna ili parcijalna multikolinearnost (jednostavno multikolinearnost) - postojanje bliskih statističkih odnosa između varijabli. Mora se reći da je pitanje multikolinearnosti pitanje stepena ozbiljnosti fenomena, a ne njegovog tipa. Procjena bilo koje regresije će patiti od toga u ovom ili onom obliku osim ako se ne pokaže da su sve nezavisne varijable potpuno nekorelirane. Razmatranje ovog problema počinje tek kada počne ozbiljno da utiče na rezultate procene regresije (prisustvo statističkih odnosa između regresora ne daje nužno nezadovoljavajuće procene). Dakle, multikolinearnost je problem kada bliska korelacija između regresora dovodi do nepouzdanih procjena regresije.

Posljedice multikolinearnosti:

Formalno, pošto ( X"X) nije degenerisan, onda možemo konstruisati OLS procene koeficijenata regresije. Međutim, prisjetimo se kako se izražavaju teorijske varijanse procjena regresijskih koeficijenata: , gdje a ii - i th dijagonalni element matrice. Pošto je matrica (X"X) bliska singularnoj i det( X"X) » 0, onda

1) postoje veoma veliki brojevi na glavnoj dijagonali inverzne matrice, jer su elementi inverzne matrice obrnuto proporcionalni det( X"X). Dakle, teorijska varijansa i-ti koeficijent je prilično velik i procjena varijanse je također velika, stoga, t- statistika je mala, što može dovesti do statističke beznačajnosti i-th koeficijent. Odnosno, varijabla ima značajan uticaj na varijablu koja se objašnjava, a mi zaključujemo da je beznačajan.

2) Budući da procjene i zavise od ( X"X) -1 , čiji su elementi obrnuto proporcionalni det( X"X), onda ako dodamo ili uklonimo jedno ili dva zapažanja, dodajući ili uklanjajući na taj način jedan ili dva reda u matricu X"X, tada se vrijednosti i mogu značajno promijeniti, sve do promjene predznaka - nestabilnost rezultata procjene.

3) Poteškoće u tumačenju jednačine regresije. Recimo da imamo dvije varijable u jednadžbi koje su povezane jedna s drugom: X 1 i X 2. Koeficijent regresije pri X 1 se tumači kao mjera promjene Y zbog promjene X 1 pod svim ostalim jednakim uslovima, tj. vrijednosti svih ostalih varijabli ostaju iste. Međutim, budući da su varijable X 1 i X 2 su povezane, zatim promjene u varijabli X 1 će dovesti do predvidljivih promjena u varijabli X 2 i vrijednost X 2 neće ostati isti.

Primjer: , gdje X 1 – ukupna površina, X 2 – dnevni boravak. Kažemo: „Ako se stambena površina poveća za 1 kvadratni metar, onda će, uz sve ostale stvari, cijena stana porasti za dolare.“ Međutim, u ovom slučaju stambena površina će se povećati za 1 m². m, a poskupljenje će biti . Razlikovati uticaj na varijablu Y svaka varijabla zasebno više nije moguća. Izlaz u ovoj situaciji sa cijenom stana je da se u model uključi ne ukupna površina, već takozvana “dodatna” ili “dodatna” površina.

Znakovi multikolinearnosti.

Ne postoje tačni kriterijumi za određivanje prisustva (odsustva) multikolinearnosti. Međutim, postoje heurističke preporuke za njegovu identifikaciju:

1) Analizirajte matricu uparenih koeficijenata korelacije između regresora i ako je vrijednost koeficijenta korelacije blizu 1, to se smatra znakom multikolinearnosti.

2) Analiza korelacione matrice je samo površan sud o prisustvu (odsustvu) multikolinearnosti. Pažljivije proučavanje ovog pitanja postiže se izračunavanjem parcijalnih koeficijenata korelacije ili izračunavanjem koeficijenata determinacije svake od eksplanatornih varijabli za sve druge eksplanatorne varijable u regresiji.

4) (XX) je simetrična pozitivna određena matrica, stoga su sve njene vlastite vrijednosti nenegativne. Ako je determinanta matrice ( XX) jednak nuli, tada je minimalna vlastita vrijednost također nula i kontinuitet je očuvan. Prema tome, iz vrijednosti minimalne svojstvene vrijednosti može se suditi da li je determinanta matrice blizu nule ( XX). Pored ovog svojstva važna je i minimalna svojstvena vrijednost jer je standardna greška koeficijenta obrnuto proporcionalna.

5) O prisutnosti multikolinearnosti može se suditi po vanjskim znakovima koji su posljedica multikolinearnosti:

a) neke od procjena imaju netačne predznake sa stanovišta ekonomske teorije ili nerazumno velike vrijednosti;

b) mala promjena početnih ekonomskih podataka dovodi do značajne promjene u procjenama koeficijenata modela;

c) većina t-statistika koeficijenata se ne razlikuje značajno od nule, istovremeno je model u cjelini značajan, o čemu svjedoči i visoka vrijednost F-statistika.

Kako se riješiti multikolinearnosti, kako je eliminirati:

1) Upotreba faktorske analize. Prelazak sa originalnog skupa regresora, uključujući statistički zavisne, na nove regresore Z 1 ,…,Zm koristeći metodu glavnih komponenti - umjesto originalnih varijabli, umjesto originalnih varijabli, razmatramo neke njihove linearne kombinacije, među kojima je korelacija mala ili uopće izostaje. Ovdje je zadatak dati smisleno tumačenje novih varijabli Z. Ako ne uspije, vraćamo se na originalne varijable koristeći inverzne transformacije. Rezultirajuće procjene će, međutim, biti pristrasne, ali će imati manju disperziju.

2) Među svim dostupnim varijablama odaberite faktore koji najznačajnije utiču na objašnjenu varijablu. Procedure odabira će biti razmotrene u nastavku.

3) Prelazak na pristrasne metode ocjenjivanja.

Kada se suočimo s problemom multikolinearnosti, neiskusni istraživač u početku ima želju da jednostavno isključi nepotrebne regresore koji ga mogu uzrokovati. Međutim, nije uvijek jasno koje su varijable suvišne u tom smislu. Osim toga, kao što će biti pokazano u nastavku, odbacivanje takozvanih varijabli značajnog utjecaja dovodi do pristranosti u procjenama OLS-a.


Imajte na umu da u nekim slučajevima multikolinearnost nije toliko ozbiljno „zlo“ da se moraju uložiti značajni napori da se ona identifikuje i eliminiše. U osnovi, sve ovisi o ciljevima studija.
Ako je glavni zadatak modela predviđanje budućih vrijednosti zavisne varijable, onda s dovoljno velikim koeficijentom determinacije R2(gt; 0,9), prisustvo multikolinearnosti obično ne utiče na prediktivne kvalitete modela (ako u budućnosti će se održavati isti odnosi između koreliranih varijabli kao i prije ).
Ako je potrebno utvrditi u kojoj mjeri svaka eksplanatorna varijabla utječe na zavisnu varijablu, tada će multikolinearnost, koja dovodi do većih standardnih grešaka, vjerovatno iskriviti prave odnose između varijabli. U ovoj situaciji, multikolinearnost je ozbiljan problem.
Ne postoji jedinstvena metoda za eliminaciju multikolinearnosti koja je prikladna u svakom slučaju. To je zato što su uzroci i posljedice multikolinearnosti dvosmisleni i u velikoj mjeri zavise od rezultata uzorka.
Isključujući varijable(e) iz modela
Najjednostavniji metod za eliminaciju multikolinearnosti je da se iz modela isključi jedna ili više koreliranih varijabli. Potreban je određeni oprez pri korištenju ove metode. U ovoj situaciji moguće su greške specifikacije, pa je u primijenjenim ekonometrijskim modelima preporučljivo ne isključivati ​​eksplanatorne varijable dok multikolinearnost ne postane ozbiljan problem.
Dobivanje više podataka ili novog uzorka
Pošto multikolinearnost direktno zavisi od uzorka, moguće je da sa drugim uzorkom neće biti multikolinearnosti ili neće biti tako ozbiljna. Ponekad, da bi se smanjila multikolinearnost, dovoljno je povećati veličinu uzorka. Na primjer, ako koristite godišnje podatke, možete prijeći na kvartalne podatke. Povećanje količine podataka smanjuje varijansu regresijskih koeficijenata i time povećava njihov statistički značaj. Međutim, dobivanje novog uzorka ili proširenje starog nije uvijek moguće ili je povezano s ozbiljnim troškovima. Osim toga, ovaj pristup može povećati autokorelaciju. Ovi problemi ograničavaju upotrebu ove metode.
Promjena specifikacije modela
U nekim slučajevima, problem multikolinearnosti se može riješiti promjenom specifikacije modela: ili promjenom forme modela, ili dodavanjem eksplanatornih varijabli koje nisu uzete u obzir u originalnom modelu, ali značajno utiču na zavisnu varijablu. Ako ovu metodu je opravdano, onda njegova upotreba smanjuje zbir kvadrata odstupanja, čime se smanjuje standardna greška regresije. Ovo rezultira smanjenjem standardnih grešaka koeficijenata.
Korištenje unaprijed informacija o nekim parametrima
Ponekad, kada gradite model višestruke regresije, možete koristiti preliminarne informacije, posebno poznate vrijednosti nekih regresijskih koeficijenata.
Vjerovatno je da se vrijednosti koeficijenata izračunatih za neke preliminarne (obično jednostavnije) modele ili za sličan model na osnovu prethodno dobijenog uzorka mogu koristiti za onaj koji se razvija u trenutno modeli.
Izbor najznačajnijih eksplanatornih varijabli. Postupak za uzastopno povezivanje elemenata
Prelazak na manje varijabli koje objašnjavaju može smanjiti dupliciranje informacija koje pružaju vrlo međuzavisne osobine. Upravo to susrećemo u slučaju multikolinearnosti eksplanatornih varijabli.
Neka

Višestruki koeficijent
korelacije između zavisne varijable Y i skupa eksplanatornih varijabli X 1,X 2,...,Xm. Definira se kao uobičajeni koeficijent parne korelacije između Y i linearne funkcije
regresija Y = b0 + KX1 + b2X2+... + bmXm. Neka & = R-1 - matrica inverzna matrici R:


Tada se kvadrat koeficijenta Ry.X = Rr(xi,x2,..,x) može izračunati pomoću formule:


Procjena R*2.X koeficijenta determinacije R2y.X, korigirana za nepristrasnost, ima oblik:

(Ako formula (6.7) daje negativan broj, pretpostavite


Donja granica pouzdanosti za

odlučan
prema formuli:

U praksi, kada se odlučuje koje objašnjavajuće varijable uključiti u model, često se koristi procedura sekvencijalnog dodavanja elemenata.
(j = 1, 2,..., m) . U isto vreme

poklapa se sa pravilnim kvadratom
koeficijent korelacije para

Neka


tada će varijabla xp biti najinformativnija. Zatim se izračunava koeficijent ispravljen za nepristrasnost
(za m = 1) i njegovu donju granicu pouzdanosti R2min (1) .


par jxp,xq će biti informativniji). Zatim se izračunava koeficijent ispravljen za nepristrasnost (pri m = 2)
i njegova donja granica pouzdanosti R2min (2) .

Postupak se nastavlja sve dok se u koraku ne ispuni sljedeći uvjet (do +1):
Tada su najinformativnije varijable dobijene u prvim koracima uključene u model. Imajte na umu da se u proračunima koriste formule (6.7) i (6.8), u kojima se umjesto m uzima odgovarajuća vrijednost koraka k.
Zapravo, ova metoda ne garantuje da ćemo se riješiti multikolinearnosti.
Koriste se i druge metode za eliminaciju multikolinearnosti.
Primjer 6.1. Dostupni su sljedeći uvjetni podaci (tabela 6.1):
Tabela 6.1
Podaci za metodu daisy chain


X1

X2

X3

U

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Razmotrimo uticaj na zavisnu varijablu svake od eksplanatornih varijabli posebno. Računajući koeficijente parne korelacije, nalazimo da koeficijent ima najveću vrijednost

onda:


Razmotrimo uticaj parova varijabli (x1, x2) i (x1, x3) na zavisnu varijablu. Prvo, razmotrite uticaj para varijabli (x1, x2).



icuvum uvjpcuuivi, ykhsdul rsimsldsítshím msiida ííí^ísdííslp-
Prilikom dodavanja varijabli, u jednačinu treba uključiti dvije varijable koje objašnjavaju. Prema tome, teorijska jednačina će imati oblik:
Metoda češlja
Razmotrimo „metod grebena“ („regresija grebena“) za eliminaciju multikolinearnosti. Metodu je predložio A.E. Hoerl 1962. godine i koristi se kada je matrica (xtX) bliska singularnoj. Neki mali broj (od 0,1 do 0,4) se dodaje dijagonalnim elementima matrice (xtX). U ovom slučaju se dobijaju pristrasne procjene parametara jednačine. Ali standardne greške takvih procjena u slučaju multikolinearnosti su niže od grešaka datih uobičajenom metodom najmanjih kvadrata.
Primjer 6.2. Početni podaci su prikazani u „Tabela 6 2 Koeficijent korelacije eksplanatornih varijabli

sta
ukazuje na jaku multikolinearnost.
Tabela 6.2
Podaci za proučavanje multikolinearnosti metodom grebena


x1

x2

U

1

1,4

7

2

3,1

12


Tada dobijamo jednačinu y = 2,63 +1,37x1 + 1,95x2. Dijagonalni elementi inverzne matrice bit će značajno smanjeni i bit će jednaki z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, što dovodi do smanjenja standardnih grešaka koeficijenata.
Nastavi
Među glavnim posljedicama do kojih multikolinearnost može dovesti su sljedeće:
  1. kada se testira glavna hipoteza o beznačajnosti višestrukih koeficijenata regresije pomoću t-testa, u većini slučajeva je prihvaćena, ali se sama jednadžba regresije, kada se testira pomoću A-testa, pokazuje značajnom, što ukazuje na precijenjenu vrijednost koeficijenta višestruke korelacije;
  2. dobijene procjene koeficijenata jednačine višestruke regresije su uglavnom neopravdano naduvane ili imaju netačne predznake;
  3. dodavanje ili isključivanje jednog ili dva zapažanja iz originalnih podataka ima snažan uticaj na procene koeficijenata modela;
  4. prisustvo multikolinearnosti u modelu višestruke regresije može ga učiniti neprikladnim za dalju upotrebu (na primjer, za izradu prognoza).
Pitanja za samotestiranje
  1. Šta je multikolinearnost?
  2. Koji pokazatelji ukazuju na prisustvo multikolinearnosti?
  3. Zašto jednaka je determinanti XTX matrice u slučaju savršene multikolinearnosti?
  4. Šta se može reći o značenju koeficijenata za eksplanatorne varijable u slučaju multikolinearnosti?
  5. Koja se transformacija izvodi u metodi grebena, čemu to dovodi?
  6. Kakav je postupak u metodi sukcesivnog povećanja broja eksplanatornih varijabli?
  7. Šta pokazuje koeficijent korelacije?
  8. Šta pokazuje koeficijent parcijalne korelacije?

© 2024 ermake.ru -- O popravci računara - Informativni portal