Logistička regresija: model i metode

Sadržaj:

Logistička regresija: model i metode
Logistička regresija: model i metode
Anonim

Metode logističke regresije i diskriminantne analize koriste se kada je potrebno jasno diferencirati ispitanike po ciljnim kategorijama. U ovom slučaju, same grupe su predstavljene nivoima jednog jednovarijantnog parametra. Pogledajmo izbliza model logističke regresije i saznajmo zašto je potreban.

logistička regresija
logistička regresija

Opće informacije

Primjer problema u kojem se koristi logistička regresija je klasifikacija ispitanika u grupe koje kupuju i ne kupuju senf. Diferencijacija se vrši u skladu sa socio-demografskim karakteristikama. To uključuje, posebno, starost, pol, broj srodnika, prihode, itd. U poslovanju postoje kriterijumi diferencijacije i varijabla. Potonji kodira ciljne kategorije u koje, u stvari, treba podijeliti ispitanike.

Njanse

Treba reći da je raspon slučajeva u kojima se primjenjuje logistička regresija mnogo uži nego za diskriminantnu analizu. U tom smislu, razmatra se upotreba potonjeg kao univerzalne metode diferencijacijepoželjnije. Štaviše, stručnjaci preporučuju početak studija klasifikacije sa diskriminantnom analizom. I samo u slučaju nesigurnosti u pogledu rezultata, možete koristiti logističku regresiju. Ova potreba je uzrokovana nekoliko faktora. Logistička regresija se koristi kada postoji jasno razumijevanje vrste nezavisnih i zavisnih varijabli. Shodno tome, bira se jedan od 3 moguća postupka. U diskriminantnoj analizi, istraživač se uvijek bavi jednom statičkom operacijom. Uključuje jednu zavisnu i nekoliko nezavisnih kategoričkih varijabli sa bilo kojom vrstom skale.

Pregledi

Zadatak statističke studije koja koristi logističku regresiju je da utvrdi vjerovatnoću da će određeni ispitanik biti dodijeljen određenoj grupi. Diferencijacija se vrši prema određenim parametrima. U praksi, prema vrijednostima jednog ili više nezavisnih faktora, moguće je ispitanike razvrstati u dvije grupe. U ovom slučaju dolazi do binarne logističke regresije. Također, navedeni parametri se mogu koristiti kada se dijeli na grupe od više od dvije. U takvoj situaciji dolazi do multinomske logističke regresije. Rezultirajuće grupe su izražene u nivoima jedne varijable.

logistička regresija
logistička regresija

Primjer

Recimo da postoje odgovori ispitanika na pitanje da li su zainteresovani za ponudu za kupovinu zemljišta u predgrađu Moskve. Opcije su "ne"i da. Potrebno je utvrditi koji faktori imaju dominantan uticaj na odluku potencijalnih kupaca. Da bi to učinili, ispitanicima se postavljaju pitanja o infrastrukturi teritorije, udaljenosti do glavnog grada, području lokacije, prisutnosti/odsustvu stambene zgrade itd. Koristeći binarnu regresiju, moguće je distribuirati ispitanike u dvije grupe. Prvi će obuhvatiti one koji su zainteresovani za akviziciju - potencijalne kupce, a drugi, odnosno one koji nisu zainteresovani za takvu ponudu. Za svakog ispitanika, dodatno će se izračunati vjerovatnoća da će biti raspoređen u jednu ili drugu kategoriju.

Uporedne karakteristike

Razlika od dvije gore navedene opcije je različit broj grupa i tip zavisnih i nezavisnih varijabli. U binarnoj regresiji, na primjer, proučava se ovisnost dihotomnog faktora o jednom ili više neovisnih uvjeta. Štaviše, potonji mogu imati bilo koju vrstu skale. Multinomijalna regresija se smatra varijacijom ove opcije klasifikacije. U njemu više od 2 grupe pripadaju zavisnoj varijabli. Nezavisni faktori moraju imati ordinalnu ili nominalnu skalu.

Logistička regresija u spss

U statističkom paketu 11-12 uvedena je nova verzija analize - ordinalna. Ova metoda se koristi kada zavisni faktor pripada istoimenoj (rednoj) skali. U ovom slučaju se biraju nezavisne varijable jednog specifičnog tipa. Moraju biti ili redni ili nominalni. Najviše se smatra klasifikacija u nekoliko kategorijauniverzalni. Ova metoda se može koristiti u svim studijama koje koriste logističku regresiju. Međutim, jedini način da se poboljša kvalitet modela je korištenje sve tri tehnike.

provjera kvaliteta adekvatnosti i logistička regresija
provjera kvaliteta adekvatnosti i logistička regresija

Uredna klasifikacija

Treba reći da ranije u statističkom paketu nije postojala tipična mogućnost izvođenja specijalizirane analize za zavisne faktore sa ordinalnom skalom. Za sve varijable s više od 2 grupe korištena je multinominalna varijanta. Relativno nedavno uvedena ordinalna analiza ima niz karakteristika. Uzimaju u obzir specifičnosti skale. U međuvremenu, u nastavnim sredstvima ordinalna logistička regresija se često ne smatra zasebnom tehnikom. To je zbog sljedećeg: ordinalna analiza nema značajne prednosti u odnosu na multinomsku. Istraživač može koristiti ovo drugo u prisustvu i ordinalne i nominalne zavisne varijable. Istovremeno, sami procesi klasifikacije gotovo se ne razlikuju jedan od drugog. To znači da izvođenje redovne analize neće uzrokovati poteškoće.

Opcija analize

Razmotrimo jednostavan slučaj - binarnu regresiju. Pretpostavimo da se u procesu marketinškog istraživanja procjenjuje potražnja za diplomcima određenog gradskog univerziteta. U upitniku su ispitanicima postavljana pitanja, uključujući:

  1. Jeste li zaposleni? (ql).
  2. Unesite godinu diplomiranja (q 21).
  3. Koji je prosjekrezultat diplomiranja (prosjek).
  4. Spol (q22).

Logistička regresija će procijeniti uticaj nezavisnih faktora aver, q 21 i q 22 na varijablu ql. Jednostavno rečeno, svrha analize će biti da se utvrdi vjerovatno zapošljavanje diplomaca na osnovu informacija o oblasti, godini diplomiranja i prosjeku ocjena.

indikator logističke sigmoidne regresije
indikator logističke sigmoidne regresije

Logistička regresija

Da biste postavili parametre koristeći binarnu regresiju, koristite meni Analiza►Regresija►Binary Logistic. U prozoru Logistička regresija, odaberite zavisni faktor sa liste dostupnih varijabli na lijevoj strani. To je ql. Ova varijabla mora biti smještena u Zavisno polje. Nakon toga, potrebno je uvesti nezavisne faktore u grafiku Covarijate - q 21, q 22, pros. Zatim morate odabrati kako ćete ih uključiti u svoju analizu. Ako je broj nezavisnih faktora veći od 2, onda se koristi metoda istovremenog uvođenja svih varijabli, koja je standardno postavljena, ali korak po korak. Najpopularniji način je Backward:LR. Koristeći dugme Odaberi, možete uključiti u studiju ne sve ispitanike, već samo određenu ciljnu kategoriju.

Definiraj kategoričke varijable

Dugme Kategorija treba koristiti kada je jedna od nezavisnih varijabli nominalna sa više od 2 kategorije. U ovoj situaciji, u prozoru Definiši kategoričke varijable, upravo takav parametar se postavlja u odeljak Kategoričke varijable. U ovom primjeru ne postoji takva varijabla. Nakon toga u padajućoj listi slijedi Kontrastizaberite stavku Devijacija i pritisnite dugme Promeni. Kao rezultat, nekoliko zavisnih varijabli će se formirati od svakog nominalnog faktora. Njihov broj odgovara broju kategorija početnog stanja.

Sačuvaj nove varijable

Upotrebom dugmeta Sačuvaj u glavnom dijaloškom okviru studije postavlja se kreiranje novih parametara. Oni će sadržavati indikatore izračunate u procesu regresije. Konkretno, možete kreirati varijable koje definiraju:

  1. Pripada specifičnoj klasifikacijskoj kategoriji (članstvo u grupi).
  2. Vjerovatnoća dodjeljivanja ispitanika svakoj studijskoj grupi (Vjerovatnoće).

Kada se koristi dugme Opcije, istraživač ne dobija nikakve značajne opcije. Shodno tome, može se zanemariti. Nakon klika na dugme "OK", rezultati analize će biti prikazani u glavnom prozoru.

koeficijent logističke regresije
koeficijent logističke regresije

Provjera kvaliteta za adekvatnost i logističku regresiju

Razmotrite tablicu Omnibus Testsof Model Coefficients. Prikazuje rezultate analize kvaliteta aproksimacije modela. Zbog činjenice da je postavljena opcija korak po korak, morate pogledati rezultate posljednje faze (Korak 2). Pozitivan rezultat će se smatrati ako se pri prelasku na sljedeću fazu nađe povećanje pokazatelja Hi-kvadrat sa visokim stepenom značajnosti (Sig. < 0,05). Kvalitet modela se ocjenjuje u liniji modela. Ako se dobije negativna vrijednost, ali se ne smatra značajnom uz ukupnu visoku materijalnost modela, posljednjamože se smatrati praktično prikladnim.

Stolovi

Sažetak modela omogućava procjenu ukupnog indeksa varijanse, koji je opisan konstruiranim modelom (R kvadratni indeks). Preporučuje se korištenje Nagelkerove vrijednosti. Parametar Nagelkerke R Square može se smatrati pozitivnim indikatorom ako je iznad 0,50. Nakon toga se evaluiraju rezultati klasifikacije u kojima se stvarni pokazatelji pripadnosti jednoj ili drugoj kategoriji koja se proučava upoređuju sa onima predviđenim na osnovu regresijskog modela. Za to se koristi tabela klasifikacije. Takođe nam omogućava da izvučemo zaključke o ispravnosti diferencijacije za svaku grupu koja se razmatra.

model logističke regresije
model logističke regresije

Sljedeća tabela pruža priliku da saznate statističku značajnost nezavisnih faktora unesenih u analizu, kao i svaki nestandardizirani koeficijent logističke regresije. Na osnovu ovih indikatora moguće je predvidjeti pripadnost svakog ispitanika u uzorku određenoj grupi. Koristeći dugme Sačuvaj, možete uneti nove varijable. Oni će sadržavati informacije o pripadnosti određenoj klasifikacijskoj kategoriji (Predictedcategory) i vjerovatnoći da budu uključeni u ove grupe (Predicted vjerovatnoće članstva). Nakon što kliknete na "OK", rezultati izračuna će se pojaviti u glavnom prozoru Multinomijalne logističke regresije.

Prva tabela, koja sadrži indikatore važne za istraživača, je Model Fitting Information. Visok nivo statističke značajnosti bi ukazivao na visok kvalitet iprikladnost upotrebe modela u rješavanju praktičnih problema. Još jedna značajna tabela je Pseudo R-Square. Omogućava vam da procijenite udio ukupne varijanse u zavisnom faktoru, koji je određen nezavisnim varijablama odabranim za analizu. Prema tabeli Likelihood Ratio Tests, možemo izvući zaključke o statističkoj značajnosti potonjeg. Procjene parametara odražavaju nestandardizirane koeficijente. Koriste se u konstrukciji jednadžbe. Osim toga, za svaku kombinaciju varijabli utvrđena je statistička značajnost njihovog utjecaja na zavisni faktor. U međuvremenu, u marketinškim istraživanjima često postaje neophodno da se ispitanici razlikuju po kategorijama ne pojedinačno, već kao dio ciljne grupe. Za ovo se koristi tabela posmatranih i predviđenih frekvencija.

Praktična primjena

Razmatrana metoda analize se široko koristi u radu trgovaca. Godine 1991. razvijen je indikator logističke sigmoidne regresije. To je jednostavan za korišćenje i efikasan alat za predviđanje verovatnih cena pre nego što se „pregreju“. Indikator je na grafikonu prikazan kao kanal formiran od dvije paralelne linije. Jednako su udaljeni od trenda. Širina koridora će zavisiti isključivo od vremenskog okvira. Indikator se koristi kada se radi sa gotovo svim sredstvima - od valutnih parova do plemenitih metala.

logistička regresija u spss
logistička regresija u spss

U praksi su razvijene 2 ključne strategije za korišćenje instrumenta: za probijanje iza skretanje. U potonjem slučaju, trgovac će se fokusirati na dinamiku promjena cijena unutar kanala. Kako se vrijednost približava liniji podrške ili otpora, stavlja se opklada na vjerovatnoću da će kretanje početi u suprotnom smjeru. Ako se cijena približi gornjoj granici, tada se možete riješiti imovine. Ako je na donjoj granici, onda treba razmisliti o kupovini. Strategija proboja uključuje korištenje naloga. Instaliraju se izvan granica na relativno maloj udaljenosti. Uzimajući u obzir da ih cijena u nekim slučajevima kratkotrajno krši, trebali biste igrati na sigurno i postaviti stop gubitke. U isto vrijeme, naravno, bez obzira na odabranu strategiju, trgovac treba što mirnije sagledati i ocijeniti situaciju koja je nastala na tržištu.

Zaključak

Dakle, upotreba logističke regresije vam omogućava da brzo i lako razvrstavate ispitanike u kategorije prema datim parametrima. Prilikom analize možete koristiti bilo koju posebnu metodu. Konkretno, multinomijalna regresija je univerzalna. Međutim, stručnjaci preporučuju korištenje svih gore opisanih metoda u kombinaciji. To je zbog činjenice da će u ovom slučaju kvaliteta modela biti znatno veća. Ovo će zauzvrat proširiti opseg njegove primjene.

Preporučuje se: