Pretpostavke sadržane u statističkom modeliranju opisuju skup distribucija vjerovatnoće, od kojih se za neke pretpostavlja da adekvatno aproksimiraju distribuciju. Određeni skup podataka se bira iz definicije. Distribucije vjerovatnoće svojstvene statističkom modeliranju su ono što razlikuje statističke modele od drugih, nestatističkih, matematičkih modela.
Veza s matematikom
Ova naučna metoda je prvenstveno ukorijenjena u matematici. Statističko modeliranje sistema obično se daje matematičkim jednačinama koje povezuju jednu ili više slučajnih varijabli i eventualno drugih neslučajnih varijabli. Dakle, statistički model je "formalni prikaz teorije" (Hermann Ader, citirajući Kennetha Bollena).
Svi testovi statističkih hipoteza i sve statističke procjene izvedene su iz statističkih modela. Općenito, statistički modeli su dio osnove statističkog zaključivanja.
Metode statistikemodeling
Neformalno, statistički model se može smatrati statističkom pretpostavkom (ili skupom statističkih pretpostavki) sa određenim svojstvom: ova pretpostavka nam omogućava da izračunamo vjerovatnoću bilo kojeg događaja. Kao primjer, uzmite par običnih šestostranih kockica. Proučavat ćemo dvije različite statističke pretpostavke o kosti.
Prva statistička pretpostavka čini statistički model, jer sa samo jednom pretpostavkom možemo izračunati vjerovatnoću bilo kojeg događaja. Alternativna statistička pretpostavka ne predstavlja statistički model, jer sa samo jednom pretpostavkom ne možemo izračunati vjerovatnoću svakog događaja.
U gornjem primjeru sa prvom pretpostavkom, lako je izračunati vjerovatnoću događaja. Međutim, u nekim drugim primjerima, proračun može biti složen ili čak nepraktičan (na primjer, može zahtijevati milione godina izračunavanja). Za pretpostavku koja predstavlja statistički model, ova poteškoća je prihvatljiva: izvođenje proračuna ne mora biti praktično izvodljivo, samo teoretski moguće.
Primjeri modela
Pretpostavimo da imamo populaciju školaraca sa ravnomjerno raspoređenom djecom. Visina djeteta će biti stohastički povezana s godinama: na primjer, kada znamo da dijete ima 7 godina, to utiče na vjerovatnoću da će dijete biti visoko 5 stopa (oko 152 cm). Ovu vezu možemo formalizirati u modelu linearne regresije, na primjer: rast=b0 + b1agei+ εi, gdje je b0 presjek, b1 je parametar s kojim se množi starost pri dobijanju prognoze rasta, εi je član greške. Ovo implicira da je visina predviđena godinama sa nekom greškom.
Važeći model mora odgovarati svim podacima. Dakle, ravna linija (heighti=b0 + b1agei) ne može biti jednačina za model podataka - osim ako se ne uklapa tačno u sve tačke podataka, tj. sve tačke podataka leže savršeno na liniji. Termin greške εi mora biti uključen u jednačinu kako bi model odgovarao svim tačkama podataka.
Da bismo napravili statistički zaključak, prvo moramo pretpostaviti neke distribucije vjerovatnoće za εi. Na primjer, možemo pretpostaviti da su distribucije εi Gausove, sa nultom srednjom vrijednosti. U ovom slučaju, model će imati 3 parametra: b0, b1 i varijansu Gausove distribucije.
Opšti opis
Statistički model je posebna klasa matematičkog modela. Ono što razlikuje statistički model od drugih matematičkih modela je to što je nedeterministički. Koristi se za modeliranje statističkih podataka. Dakle, u statističkom modelu definisanom matematičkim jednačinama, neke varijable nemaju specifične vrijednosti, već imaju distribuciju vjerovatnoće; to jest, neke varijable su stohastičke. U gornjem primjeru, ε je stohastička varijabla; bez ove varijable, model je biobilo bi determinističko.
Statistički modeli se često koriste u statističkoj analizi i modeliranju, čak i ako je fizički proces koji se modelira deterministički. Na primjer, bacanje novčića je u principu deterministički proces; ipak se obično modelira kao stohastički (preko Bernoullijevog procesa).
Parametrijski modeli
Parametarski modeli su najčešće korišteni statistički modeli. Što se tiče poluparametarskih i neparametarskih modela, Sir David Cox je rekao: "Oni općenito uključuju manje pretpostavki o strukturi i obliku distribucije, ali obično sadrže jake pretpostavke o nezavisnosti." Kao i svi drugi spomenuti modeli, oni se također često koriste u statističkoj metodi matematičkog modeliranja.
Modeli na više nivoa
Modeli na više nivoa (također poznati kao hijerarhijski linearni modeli, ugniježđeni modeli podataka, mješoviti modeli, slučajni koeficijenti, modeli slučajnih efekata, modeli slučajnih parametara ili particionirani modeli) su statistički modeli parametara koji variraju na više od jednog nivoa. Primjer je model postignuća učenika koji sadrži metriku za pojedinačne učenike, kao i metriku za učionice u kojima su učenici grupisani. Ovi modeli se mogu smatrati generalizacijama linearnih modela (posebno linearne regresije), iako se mogu proširiti i na nelinearne modele. Ovi modeli su postalimnogo popularniji kada su dovoljna računarska snaga i softver postali dostupni.
Modeli na više nivoa su posebno pogodni za istraživačke projekte u kojima su podaci za učesnike organizovani na više od jednog nivoa (tj. ugniježđeni podaci). Jedinice analize su obično pojedinci (na nižem nivou) koji su ugniježđeni unutar kontekstnih/agregatnih jedinica (na višem nivou). Dok je najniži nivo podataka u modelima na više nivoa obično individualan, mogu se uzeti u obzir i ponovljena mjerenja pojedinaca. Stoga, modeli na više nivoa pružaju alternativni tip analize za univarijantnu ili multivarijantnu analizu ponovljenih mjera. Individualne razlike u krivuljama rasta mogu se uzeti u obzir. Pored toga, modeli na više nivoa mogu se koristiti kao alternativa ANCOVA, gdje se rezultati zavisne varijable prilagođavaju za kovarijate (npr. individualne razlike) prije testiranja razlika u tretmanu. Modeli na više nivoa mogu analizirati ove eksperimente bez pretpostavke o uniformnim nagibima regresije koje zahtijeva ANCOVA.
Modeli na više nivoa mogu se koristiti za podatke sa više nivoa, iako su modeli na dva nivoa najčešći i ostatak ovog članka se fokusira na njih. Zavisnu varijablu treba ispitati na najnižem nivou analize.
Odabir modela
Odabir modelaje zadatak odabira iz skupa modela kandidata prema podacima, koji se provodi u okviru statističkog modeliranja. U najjednostavnijim slučajevima, razmatra se već postojeći skup podataka. Međutim, zadatak može uključivati i dizajniranje eksperimenata tako da prikupljeni podaci budu dobro prilagođeni zadatku odabira modela. S obzirom na modele kandidata sa sličnom moći predviđanja ili objašnjenja, najjednostavniji model će vjerovatno biti najbolji izbor (Occamov brijač).
Konishi & Kitagawa kaže, "Većina problema statističkog zaključivanja može se smatrati problemima povezanim sa statističkim modeliranjem." Slično, Cox je rekao: „Način na koji se vrši prevođenje predmeta u statistički model često je najvažniji dio analize.“
Odabir modela se također može odnositi na problem odabira nekoliko reprezentativnih modela iz velikog skupa računarskih modela za potrebe odlučivanja ili optimizacije pod nesigurnošću.
Grafički uzorci
Grafički model, ili probabilistički grafički model, (PGM) ili strukturirani probabilistički model, je probabilistički model za koji graf izražava strukturu uslovne veze između slučajnih varijabli. Obično se koriste u teoriji vjerovatnoće, statistici (posebno Bayesovskoj statistici) i mašinskom učenju.
Ekonometrijski modeli
Ekonometrijski modeli su statistički modeli koji se koriste uekonometrija. Ekonometrijski model definira statističke odnose za koje se vjeruje da postoje između različitih ekonomskih veličina povezanih s određenim ekonomskim fenomenom. Ekonometrijski model može biti izveden iz determinističkog ekonomskog modela koji uzima u obzir neizvjesnost ili iz ekonomskog modela koji je sam po sebi stohastički. Međutim, moguće je koristiti i ekonometrijske modele koji nisu vezani za neku posebnu ekonomsku teoriju.