Statistički model: suština metode, konstrukcija i analiza

Sadržaj:

Statistički model: suština metode, konstrukcija i analiza
Statistički model: suština metode, konstrukcija i analiza
Anonim

Statistički model je matematička projekcija koja utjelovljuje skup različitih pretpostavki o generiranju nekih uzoraka podataka. Termin se često predstavlja u mnogo idealizovanom obliku.

Pretpostavke izražene u statističkom modelu pokazuju skup distribucija vjerovatnoće. Mnogi od njih imaju za cilj da ispravno aproksimiraju distribuciju iz koje se izvlači određeni skup informacija. Distribucije vjerovatnoće svojstvene statističkim modelima su ono što razlikuje projekciju od drugih matematičkih modifikacija.

Opšta projekcija

statistički modeli procesa
statistički modeli procesa

Matematički model je opis sistema koji koristi određene koncepte i jezik. Primjenjuju se na prirodne nauke (kao što su fizika, biologija, nauke o Zemlji, hemija) i inženjerske discipline (kao što su računarstvo, elektrotehnika), kao i na društvene nauke (kao što su ekonomija, psihologija, sociologija, političke nauke).

Model može pomoći u objašnjenju sistema iproučavajte uticaj različitih komponenti i predviđajte ponašanje.

Matematički modeli mogu imati mnogo oblika, uključujući dinamičke sisteme, statističke projekcije, diferencijalne jednačine ili parametre teorijske igre. Ove i druge vrste mogu se preklapati, a ovaj model uključuje mnoge apstraktne strukture. Općenito, matematičke projekcije mogu uključivati i logičke komponente. U mnogim slučajevima, kvalitet naučne oblasti zavisi od toga koliko dobro se teorijski razvijeni matematički modeli slažu sa rezultatima ponovljenih eksperimenata. Nedostatak saglasnosti između teorijskih procesa i eksperimentalnih mjerenja često dovodi do značajnog napretka kako se razvijaju bolje teorije.

U fizičkim naukama tradicionalni matematički model sadrži veliki broj sljedećih elemenata:

  • Kontrolne jednačine.
  • Dodatni podmodeli.
  • Definirajte jednadžbe.
  • Sastavne jednadžbe.
  • Pretpostavke i ograničenja.
  • Početni i granični uslovi.
  • Klasična ograničenja i kinematičke jednačine.

Formula

Statistički model, po pravilu, postavljaju matematičke jednadžbe koje kombinuju jednu ili više slučajnih varijabli i, moguće, druge prirodne varijable. Slično, projekcija se smatra "formalnim konceptom koncepta."

Sva statistička testiranja hipoteza i statističke procjene zarađene su iz matematičkih modela.

Uvod

statistički matematički modeli
statistički matematički modeli

Neformalno, statistički model se može posmatrati kao pretpostavka (ili skup pretpostavki) sa određenim svojstvom: omogućava da se izračuna vjerovatnoća bilo kojeg događaja. Kao primjer, uzmite par običnih šestostranih kockica. Potrebno je istražiti dvije različite statističke pretpostavke o kosti.

Prva pretpostavka je:

Za svaku kocku, vjerovatnoća da ćete dobiti jedan od brojeva (1, 2, 3, 4, 5 i 6) je: 1/6.

Iz ove pretpostavke možemo izračunati vjerovatnoću obje kocke: 1:1/6×1/6=1/36.

Općenito, možete izračunati vjerovatnoću bilo kojeg događaja. Međutim, treba shvatiti da je nemoguće izračunati vjerovatnoću bilo kojeg drugog netrivijalnog događaja.

Samo prvo mišljenje prikuplja statistički matematički model: zbog činjenice da je sa samo jednom pretpostavkom moguće odrediti vjerovatnoću svake akcije.

U gornjem uzorku uz početnu dozvolu, lako je odrediti mogućnost događaja. Uz neke druge primjere, proračun može biti težak ili čak nerealan (na primjer, može zahtijevati mnogo godina proračuna). Za osobu koja dizajnira model statističke analize, takva složenost se smatra neprihvatljivom: implementacija proračuna ne bi trebala biti praktično nemoguća, a teoretski nemoguća.

Formalna definicija

U matematičkom smislu, statistički model sistema se obično smatra parom (S, P), gdje je Sskup mogućih zapažanja, tj. prostor uzorka, a P je skup distribucija vjerovatnoće na S.

Intuicija ove definicije je sljedeća. Pretpostavlja se da postoji "prava" distribucija vjerovatnoće uzrokovana procesom koji generiše određene podatke.

Set

On je taj koji određuje parametre modela. Parametarizacija općenito zahtijeva različite vrijednosti da bi rezultirala različitim distribucijama, tj.

Model Consequence
Model Consequence

mora držati (drugim riječima, mora biti injektivno). Kaže se da je parametrizacija koja ispunjava zahtjeve prepoznatljiva.

Primjer

Statistika Graf
Statistika Graf

Pretpostavimo da postoji određeni broj učenika različitih godina. Visina djeteta će biti stohastički povezana sa godinom rođenja: na primjer, kada školarac ima 7 godina, to utiče na vjerovatnoću rasta, samo tako da će osoba biti viša od 3 centimetra.

Ovaj pristup možete formalizirati u model pravolinijske regresije, na primjer, na sljedeći način: visina i=b 0 + b 1agei + εi, gdje je b 0 presjek, b 1 je parametar po kojem je starost se množi kada se dobije nadzor nadmorske visine. Ovo je termin greške. Odnosno, pretpostavlja se da je visina predviđena godinama sa određenom greškom.

Važeći obrazac mora odgovarati svim informacijama. Dakle, pravolinijski pravac (nivo i=b 0 + b 1agei) ne može biti jednačina za model podataka - ako ne odgovara jasno na apsolutno sve tačke. tjbez izuzetka, sve informacije su besprijekorno na liniji. Granica greške εi se mora unijeti u jednačinu tako da obrazac odgovara apsolutno svim stavkama informacija.

Da bismo napravili statistički zaključak, prvo moramo pretpostaviti neke distribucije vjerovatnoće za ε i. Na primjer, može se pretpostaviti da distribucije ε i imaju Gausov oblik sa nultom srednjom vrijednosti. U ovom slučaju, model će imati 3 parametra: b 0, b 1 i varijansu Gausove distribucije.

Možete formalno odrediti model kao (S, P).

U ovom primjeru, model je definiran specificiranjem S i tako se mogu napraviti neke pretpostavke o P. Postoje dvije opcije:

Ovaj rast se može aproksimirati linearnom funkcijom starosti;

Da su greške u aproksimaciji raspoređene kao unutar Gausovog.

Opće napomene

Statistički parametri modela su posebna klasa matematičke projekcije. Po čemu se jedna vrsta razlikuje od druge? Dakle, statistički model nije deterministički. Dakle, u njemu, za razliku od matematičkih jednačina, određene varijable nemaju određene vrijednosti, već imaju distribuciju mogućnosti. To jest, pojedinačne varijable se smatraju stohastičkim. U gornjem primjeru, ε je stohastička varijabla. Bez toga, projekcija bi bila deterministička.

Izgradnja statističkog modela se često koristi, čak i ako se materijalni proces smatra determinističkim. Na primjer, bacanje novčića je, u principu, predodređuje radnja. Međutim, ovo se u većini slučajeva još uvijek modelira kao stohastički (kroz Bernoullijev proces).

Prema Konishiju i Kitagawi, postoje tri cilja za statistički model:

  • Predviđanja.
  • Informaciono rudarenje.
  • Opis stohastičkih struktura.

Veličina projekcije

Pretpostavimo da postoji statistički model predviđanja, Model se naziva parametarski ako O ima konačnu dimenziju. U rješenju morate napisati da

Razlika u modelu
Razlika u modelu

gdje je k pozitivan cijeli broj (R predstavlja sve realne brojeve). Ovdje se k naziva dimenzija modela.

Kao primjer, možemo pretpostaviti da svi podaci dolaze iz univarijantne Gaussove distribucije:

Statistics Formula
Statistics Formula

U ovom primjeru, dimenzija k je 2.

I kao drugi primjer, može se pretpostaviti da se podaci sastoje od (x, y) tačaka, za koje se pretpostavlja da su raspoređene pravolinijski sa Gausovim rezidualima (sa nultom srednjom vrijednosti). Tada je dimenzija statističkog ekonomskog modela jednaka 3: presek linije, njen nagib i varijansa distribucije reziduala. Treba napomenuti da u geometriji prava linija ima dimenziju 1.

Iako je gornja vrijednost tehnički jedini parametar koji ima dimenziju k, ponekad se smatra da sadrži k različitih vrijednosti. Na primjer, s jednodimenzionalnom Gaussovom distribucijom, O je jedini parametar veličine 2, ali se ponekad smatra da sadrži dvapojedinačni parametar - srednja vrijednost i standardna devijacija.

Statistički model procesa je neparametarski ako je skup O vrijednosti beskonačno-dimenzionalan. Takođe je poluparametarski ako ima i konačno dimenzionalne i beskonačno-dimenzionalne parametre. Formalno, ako je k dimenzija O i n je broj uzoraka, poluparametarski i neparametarski modeli imaju

Model Formula
Model Formula

tada je model poluparametarski. Inače, projekcija je neparametarska.

Parametarski modeli su najčešće korištene statistike. Što se tiče poluparametarskih i neparametarskih projekcija, Sir David Cox je izjavio:

"Uobičajeno, oni uključuju najmanje hipoteza o teksturi i obliku distribucije, ali uključuju moćne teorije o samodovoljnosti."

Ugniježđeni modeli

Ne brkajte ih sa višeslojnim projekcijama.

Dva statistička modela su ugniježđena ako se prvi može pretvoriti u drugi nametanjem ograničenja na parametre prvog. Na primjer, skup svih Gaussovih distribucija ima ugniježđeni skup distribucija nulte srednje vrijednosti:

To jest, morate ograničiti srednju vrijednost u skupu svih Gaussovih distribucija da biste dobili distribucije sa nultom srednjom vrijednosti. Kao drugi primjer, kvadratni model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ima ugrađen linearni model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - tj. parametar b2 je jednak 0.

U oba ova primjera, prvi model ima veću dimenzionalnost od drugog modela. To je često, ali nije uvijek slučaj. Još jedan primjer je skup Gaussovih distribucija sa pozitivnom sredinom, koji ima dimenziju 2.

Poređenje modela

statistički model
statistički model

Pretpostavlja se da postoji "prava" distribucija vjerovatnoće koja leži u osnovi posmatranih podataka izazvanih procesom koji ih je generirao.

Takođe, modeli se mogu upoređivati jedni s drugima, korištenjem istraživačke analize ili potvrde. U istraživačkoj analizi formulišu se različiti modeli i vrši se procjena koliko dobro svaki od njih opisuje podatke. U potvrdnoj analizi, prethodno formulisana hipoteza se upoređuje sa originalnom. Uobičajeni kriteriji za ovo uključuju P 2, Bayesian faktor i relativnu vjerovatnoću.

Konishi i Kitagawa's Thought

“Većina problema u statističkom matematičkom modelu može se smatrati prediktivnim pitanjima. Obično se formulišu kao poređenja nekoliko faktora.”

Štaviše, Sir David Cox je rekao: "Kao prijevod sa teme, problem u statističkom modelu je često najvažniji dio analize."

Preporučuje se: