Multidimenzionalno skaliranje: definicija, ciljevi, ciljevi i primjer

Sadržaj:

Multidimenzionalno skaliranje: definicija, ciljevi, ciljevi i primjer
Multidimenzionalno skaliranje: definicija, ciljevi, ciljevi i primjer
Anonim

Multivarijantno skaliranje (MDS) je alat za vizualizaciju nivoa sličnosti pojedinačnih slučajeva u skupu podataka. Odnosi se na skup povezanih metoda ordinacije koji se koriste u vizualizaciji informacija, posebno za prikaz informacija sadržanih u matrici udaljenosti. Ovo je oblik nelinearne redukcije dimenzionalnosti. MDS algoritam ima za cilj da svaki objekt smjesti u N-dimenzionalni prostor na takav način da se udaljenosti između objekata očuvaju što je bolje moguće. Svakom objektu se tada dodjeljuju koordinate u svakoj od N dimenzija.

Broj dimenzija MDS grafa može premašiti 2 i specificiran je a priori. Odabirom N=2 optimizira se smještaj objekta za 2D dijagram raspršenja. Primjere višedimenzionalnog skaliranja možete vidjeti na slikama u članku. Primjeri sa simbolima na ruskom jeziku su posebno ilustrativni.

Višedimenzionalno skaliranje
Višedimenzionalno skaliranje

Essence

Metoda višedimenzionalnog skaliranja (MMS,MDS) je prošireni skup klasičnih alata koji generaliziraju proceduru optimizacije za skup funkcija gubitaka i ulaznih matrica poznatih udaljenosti s težinama i tako dalje. U ovom kontekstu, korisna funkcija gubitka naziva se stres, koji se često minimizira postupkom koji se naziva majorizacija stresa.

Ručno

Postoji nekoliko opcija za višedimenzionalno skaliranje. MDS programi automatski minimiziraju opterećenje kako bi dobili rješenje. Srž nemetričkog MDS algoritma je dvostruki proces optimizacije. Prvo, mora se pronaći optimalna monotonska transformacija blizine. Drugo, konfiguracijske točke moraju biti optimalno pozicionirane tako da njihove udaljenosti odgovaraju skaliranim vrijednostima blizine što je bliže moguće.

Primjer višedimenzionalnog skaliranja
Primjer višedimenzionalnog skaliranja

Proširenje

Proširenje metričkog višedimenzionalnog skaliranja u statistici gdje je ciljni prostor proizvoljan glatki neeuklidski prostor. Gdje su razlike udaljenosti na površini, a ciljni prostor je druga površina. Tematski programi vam omogućavaju da pronađete prilog uz minimalno izobličenje jedne površine u drugu.

Koraci

Postoji nekoliko koraka u provođenju studije koristeći multivarijantno skaliranje:

  1. Formulacija problema. Koje varijable želite da uporedite? Koliko varijabli želite da uporedite? U koju svrhu će se studija koristiti?
  2. Dobijanje ulaznih podataka. Ispitanicima se postavlja niz pitanja. Za svaki par proizvoda od njih se traži da ocijene sličnost (obično na Likertovoj skali od 7 tačaka od vrlo sličnih do vrlo različitih). Prvo pitanje može biti za Coca-Colu/Pepsi, na primjer, sljedeće za pivo, sljedeće za Dr. Pepper, itd. Broj pitanja ovisi o broju marki.
Skaliranje udaljenosti
Skaliranje udaljenosti

Alternativni pristupi

Postoje još dva pristupa. Postoji tehnika pod nazivom "Perceptualni podaci: izvedeni pristup" u kojoj se proizvodi razlažu na atribute i evaluacija se vrši na semantičkoj diferencijalnoj skali. Druga metoda je „pristup podataka o preferencijama“, u kojem se ispitanici pitaju o preferencijama, a ne o sličnostima.

Sastoji se od sljedećih koraka:

  1. Pokretanje MDS statističkog programa. Softver za izvođenje procedure dostupan je u mnogim statističkim softverskim paketima. Često postoji izbor između metričkog MDS-a (koji se bavi intervalom ili podacima na nivou omjera) i nemetričkog MDS-a (koji se bavi rednim podacima).
  2. Određivanje broja mjerenja. Istraživač mora odrediti broj mjerenja koje želi napraviti na računaru. Što više mjerenja, to je bolja statistička usklađenost, ali je teže interpretirati rezultate.
  3. Prikaži rezultate i definiraj mjerenja - statistički program (ili povezani modul) će prikazati rezultate. Mapa će prikazati svaki proizvod (obično u 2D).svemir). Blizina proizvoda jedan drugom ukazuje na njihovu sličnost ili preferenciju, ovisno o tome koji je pristup korišten. Međutim, nije uvijek jasno kako mjerenja zapravo odgovaraju mjerenjima ponašanja sistema. Ovdje se može donijeti subjektivna procjena usklađenosti.
  4. Provjerite rezultate za pouzdanost i valjanost - izračunajte R-kvadrat da biste odredili proporciju skalirane varijanse podataka koja se može uzeti u obzir MDS procedurom. Kvadrat R 0,6 smatra se minimalnim prihvatljivim nivoom. R na kvadrat 0,8 se smatra dobrim za metričko skaliranje, dok se 0,9 smatra dobrim za nemetričko skaliranje.
Multivarijantni rezultati skaliranja
Multivarijantni rezultati skaliranja

Razni testovi

Drugi mogući testovi su testovi stresa tipa Kruskal, testovi podijeljenih podataka, testovi stabilnosti podataka i testovi pouzdanosti ponovnog testiranja. Napišite detaljno o rezultatima testa. Uz mapiranje, treba navesti barem mjeru udaljenosti (npr. Sorensonov indeks, Jaccardov indeks) i pouzdanosti (npr. vrijednost napona).

Takođe je veoma poželjno dati algoritam (npr. Kruskal, Mather) koji je često određen programom koji se koristi (ponekad zamjenjujući izvještaj o algoritmu), ako ste dali početnu konfiguraciju ili ste imali nasumični izbor, broj dimenzionalnih nizova, Monte Carlo rezultata, broja iteracija, rezultata stabilnosti i proporcionalne varijanse svake ose (r-kvadrat).

Vizuelne informacije i metoda analize podatakavišedimenzionalno skaliranje

Vizuelizacija informacija je proučavanje interaktivnih (vizuelnih) reprezentacija apstraktnih podataka radi poboljšanja ljudske spoznaje. Apstraktni podaci uključuju i numeričke i nenumeričke podatke kao što su tekstualne i geografske informacije. Međutim, vizualizacija informacija se razlikuje od naučne vizualizacije: „ona je informativna (vizuelizacija informacija) kada je odabrana prostorna reprezentacija, a scivis (naučna vizualizacija) kada je data prostorna reprezentacija.“

Područje vizualizacije informacija proizašlo je iz istraživanja interakcije čovjeka i računara, primjena računarskih nauka, grafike, vizualnog dizajna, psihologije i poslovnih metoda. Sve se više koristi kao bitna komponenta u naučnim istraživanjima, digitalnim bibliotekama, rudarenju podataka, finansijskim podacima, istraživanju tržišta, kontroli proizvodnje i tako dalje.

Metode i principi

Vizuelizacija informacija sugeriše da metode vizuelizacije i interakcije koriste prednosti bogatstva ljudske percepcije, omogućavajući korisnicima da istovremeno vide, istražuju i razumeju velike količine informacija. Vizualizacija informacija ima za cilj stvaranje pristupa za komuniciranje apstraktnih podataka, informacija na intuitivan način.

Višedimenzionalno skaliranje boja
Višedimenzionalno skaliranje boja

Analiza podataka je sastavni dio svih primijenjenih istraživanja i rješavanja problema u industriji. VećinaOsnovni pristupi analizi podataka su vizualizacija (histogrami, dijagrami raspršivanja, površinski dijagrami, mape stabala, paralelni koordinatni dijagrami, itd.), statistika (testiranje hipoteza, regresija, PCA, itd.), analiza podataka (podudaranje, itd.)..d.) i metode mašinskog učenja (klasterizacija, klasifikacija, stabla odlučivanja, itd.).

Među ovim pristupima, vizualizacija informacija ili vizuelna analiza podataka najviše ovisi o kognitivnim vještinama analitičkog osoblja i omogućava otkrivanje nestrukturiranih uvida koji su djelotvorni koji su ograničeni samo ljudskom maštom i kreativnošću. Analitičar ne mora naučiti bilo kakve složene tehnike da bi mogao interpretirati vizualizacije podataka. Vizualizacija informacija je takođe šema za generisanje hipoteza koja može i obično je praćena analitičkom ili formalnijom analizom kao što je statističko testiranje hipoteza.

Studij

Savremeno proučavanje vizualizacije počelo je kompjuterskom grafikom, koja se "od samog početka koristila za proučavanje naučnih problema. Međutim, u ranim godinama nedostatak grafičke snage često je ograničavao njenu korisnost. Prioritet vizualizacije je počeo razvijati 1987. godine, izdavanjem specijalnog softvera za kompjutersku grafiku i vizualizaciju u naučnom računarstvu. Od tada je bilo nekoliko konferencija i radionica koje su zajednički organizovali IEEE Computer Society i ACM SIGGRAPH".

Pokrivali su opšte teme vizualizacije podataka, vizualizacije informacija i naučne vizualizacije,kao i specifičnija područja kao što je volumenski rendering.

Višedimenzionalno skaliranje brenda
Višedimenzionalno skaliranje brenda

Sažetak

Generalizovano višedimenzionalno skaliranje (GMDS) je proširenje metričkog višedimenzionalnog skaliranja u kojem je ciljni prostor neeuklidski. Kada su razlike udaljenosti na površini, a ciljni prostor druga površina, GMDS vam omogućava da pronađete ugniježđenje jedne površine u drugu uz minimalno izobličenje.

GMDS je nova linija istraživanja. Trenutno, glavne aplikacije su prepoznavanje deformabilnih objekata (na primjer, za 3D prepoznavanje lica) i mapiranje tekstura.

Svrha višedimenzionalnog skaliranja je predstavljanje višedimenzionalnih podataka. Višedimenzionalne podatke, odnosno podatke za koje je potrebno više od dvije ili tri dimenzije da bi se predstavili, može biti teško interpretirati. Jedan pristup pojednostavljenju je pretpostaviti da podaci od interesa leže na ugrađenoj nelinearnoj mnogostrukosti u visokodimenzionalnom prostoru. Ako kolektor ima dovoljno nisku dimenziju, podaci se mogu vizualizirati u niskodimenzionalnom prostoru.

Mnoge metode smanjenja nelinearne dimenzionalnosti povezane su sa linearnim metodama. Nelinearne metode se mogu široko klasificirati u dvije grupe: one koje pružaju mapiranje (bilo od visokodimenzionalnog prostora u niskodimenzionalno ugrađivanje, ili obrnuto), i one koje jednostavno pružaju vizualizaciju. U kontekstu mašinskog učenja, metode mapiranja se mogu posmatrati kaopreliminarna faza ekstrakcije karakteristika, nakon koje se primjenjuju algoritmi za prepoznavanje obrazaca. Obično su oni koji samo daju vizualizacije zasnovani na podacima o blizini – tj. mjerenju udaljenosti. Multidimenzionalno skaliranje je također prilično uobičajeno u psihologiji i drugim humanističkim znanostima.

Dijagonalno višedimenzionalno skaliranje
Dijagonalno višedimenzionalno skaliranje

Ako je broj atributa velik, tada je prostor jedinstvenih mogućih nizova također eksponencijalno velik. Dakle, što je veća dimenzija, to postaje teže prikazati prostor. To uzrokuje mnogo problema. Algoritmi koji rade na visokodimenzionalnim podacima imaju tendenciju da imaju vrlo visoku vremensku složenost. Smanjenje podataka na manje dimenzija često čini algoritme analize efikasnijim i može pomoći algoritmima mašinskog učenja da naprave preciznija predviđanja. Zbog toga je multidimenzionalno skaliranje podataka tako popularno.

Preporučuje se: