Statističke informacije: prikupljanje, obrada, analiza

2026 Autor: Angel Austin | [email protected]. Zadnja izmjena: 2025-01-23 12:20:58

Kroz istoriju statistike, učinjeni su različiti pokušaji da se stvori taksonomija nivoa merenja. Psihofizičar Stanley Smith Stevens definirao je nominalnu, ordinalnu, intervalnu i proporcionalnu skalu.

Nominalna mjerenja nemaju značajan redoslijed rangiranja među vrijednostima i dozvoljavaju bilo kakvu konverziju jedan-na-jedan.

Redovne dimenzije imaju neprecizne razlike između uzastopnih vrijednosti, ali imaju specifičan redoslijed tih vrijednosti i dozvoljavaju bilo kakvu transformaciju koja čuva red.

Intervalna mjerenja imaju značajne udaljenosti između tačaka, ali nulta vrijednost je proizvoljna (kao u slučaju mjerenja geografske dužine i temperature u Celzijusu ili Farenhajtu) i dozvoljava bilo kakvu linearnu transformaciju.

Dimenzije omjera imaju i značajnu nultu vrijednost i udaljenosti između različitih dimenzija i dozvoljavaju bilo kakvu transformaciju skaliranja.

Varijable i klasifikacija informacija

Zato što su varijablekoje odgovaraju samo nominalnim ili rednim mjerenjima ne mogu se razumno mjeriti numerički, a ponekad se grupišu kao kategoričke varijable. Mjerenja omjera i intervala su grupisani kao kvantitativne varijable, koje mogu biti ili diskretne ili kontinuirane zbog svoje numeričke prirode. Takve razlike su često labavo povezane sa tipom podataka u računarskoj nauci, budući da dihotomne kategoričke varijable mogu biti predstavljene booleovim vrednostima, politomne kategoričke varijable sa proizvoljnim celim brojevima u integralnom tipu podataka, i kontinuirane varijable sa realnim komponentama koje uključuju računanje s pomičnim zarezom. Ali prikaz tipova statističkih podataka zavisi od toga koja se klasifikacija primjenjuje.

Ostale klasifikacije

Druge klasifikacije statističkih podataka (informacija) su također kreirane. Na primjer, Mosteller i Tukey pravili su razliku između ocjena, rangova, brojanih udjela, brojanja, iznosa i stanja. Nelder je svojevremeno opisao kontinuirano brojanje, kontinuirane omjere, korelaciju brojanja i kategorične načine komuniciranja podataka. Sve ove metode klasifikacije se koriste u prikupljanju statističkih informacija.

Problemi

Pitanje da li je primjereno primijeniti različite vrste statističkih metoda na podatke dobijene različitim postupcima mjerenja (prikupljanja) je komplikovano pitanjima koja se odnose na konverziju varijabli i precizno tumačenje pitanjaistraživanja. “Odnos između podataka i onoga što oni opisuje jednostavno odražava činjenicu da određene vrste statističkih izjava mogu imati vrijednosti istinitosti koje nisu invarijantne pod određenim transformacijama. Da li je transformacija vrijedna razmatranja zavisi od pitanja na koje pokušavate odgovoriti.

Šta je tip podataka

Tip podataka je osnovna komponenta semantičkog sadržaja varijable i kontrolira koje se vrste distribucije vjerovatnoće mogu logički koristiti za opisivanje varijable, operacije koje su na njoj dozvoljene, tip regresione analize koja se koristi za predviđanje, itd. Koncept tipa podataka sličan je konceptu nivoa mjerenja, ali je konkretniji - na primjer, brojanje podataka zahtijeva drugačiju distribuciju (Poissonova ili binomna) nego za nenegativne realne vrijednosti, ali oba potpadaju pod istu nivo mjerenja (skala koeficijenata).

Vage

Učinjeni su različiti pokušaji da se stvori taksonomija nivoa mjerenja za obradu statističkih informacija. Psihofizičar Stanley Smith Stevens definirao je nominalnu, ordinalnu, intervalnu i proporcionalnu skalu. Nominalna mjerenja nemaju značajan redoslijed rangiranja među vrijednostima i dozvoljavaju bilo kakvu konverziju jedan na jedan. Uobičajena mjerenja imaju neprecizne razlike između uzastopnih vrijednosti, ali se razlikuju po značajnom redoslijedu tih vrijednosti i dozvoljavajusvaka transformacija koja čuva red. Intervalna mjerenja imaju značajne udaljenosti između mjerenja, ali nulta vrijednost je proizvoljna (kao u slučaju mjerenja geografske dužine i temperature u Celzijusima ili Farenhajtu) i dozvoljava bilo kakvu linearnu transformaciju. Dimenzije omjera imaju i značajnu nultu vrijednost i udaljenosti između različitih definiranih dimenzija i dozvoljavaju bilo kakvu transformaciju skaliranja.

Podaci koji se ne mogu opisati jednim brojem često su uključeni u nasumične vektore stvarnih slučajnih varijabli, iako postoji rastući trend da ih sami obrađujete. O takvim primjerima će biti riječi u nastavku.

Slučajni vektori

Pojedinačni elementi mogu ili ne moraju biti povezani. Primjeri distribucija koje se koriste za opisivanje koreliranih slučajnih vektora su multivarijantna normalna raspodjela i multivarijantna t-distribucija. Općenito, mogu postojati proizvoljne korelacije između bilo kojeg elementa, međutim to često postaje neizvodljivo iznad određene veličine, što zahtijeva dodatna ograničenja na korelirane komponente.

Slučajne matrice

Slučajne matrice mogu biti raspoređene linearno i tretirane kao slučajni vektori, međutim ovo možda nije efikasan način za predstavljanje korelacija između različitih elemenata. Neke distribucije vjerovatnoće su posebno dizajnirane za slučajne matrice, kao što je normalna matricadistribucija i Wishart distribucija.

Slučajne sekvence

Ponekad se smatraju istim kao slučajni vektori, ali u drugim slučajevima termin se posebno primjenjuje na slučajeve gdje svaka slučajna varijabla korelira samo sa obližnjim varijablama (kao u Markovljevom modelu). Ovo je poseban slučaj Bayesove mreže i koristi se za vrlo dugačke sekvence, kao što su lanci gena ili dugački tekstualni dokumenti. Brojni modeli su posebno dizajnirani za takve sekvence, kao što su skrivene Markovljeve sekvence.

Slučajni procesi

Slične su nasumičnim nizovima, ali samo kada je dužina niza neodređena ili beskonačna, a elementi u nizu se obrađuju jedan po jedan. Ovo se često koristi za podatke koji se mogu opisati kao vremenske serije. To je tačno kada je u pitanju, na primjer, cijena dionica sljedećeg dana.

Zaključak

Analiza statističkih informacija u potpunosti zavisi od kvaliteta njihovog prikupljanja. Potonje je, pak, snažno povezano s mogućnostima njegove klasifikacije. Naravno, postoji mnogo vrsta klasifikacije statističkih informacija, u koje se čitatelj mogao uvjeriti čitajući ovaj članak. Ipak, prisustvo efikasnih alata i dobro poznavanje matematike, kao i znanja iz oblasti sociologije, odradiće svoj posao, omogućavajući vam da sprovedete bilo koju anketu ili studiju bez značajnih ispravki grešaka. Izvori statističkih informacija u obrasculjudi, organizacije i drugi subjekti sociologije, srećom, zastupljeni su u velikom obilju. I nikakva poteškoća ne može stati na put pravom istraživaču.