Metoda grupisanja: opis, osnovni koncepti, karakteristike aplikacije

Sadržaj:

Metoda grupisanja: opis, osnovni koncepti, karakteristike aplikacije
Metoda grupisanja: opis, osnovni koncepti, karakteristike aplikacije
Anonim

Metoda grupisanja je zadatak grupisanja skupa objekata na takav način da su oni u istoj grupi sličniji jedni drugima nego objektima u drugim industrijama. To je primarni zadatak rudarenja podataka i opšta tehnika statističke analize koja se koristi u mnogim poljima, uključujući mašinsko učenje, prepoznavanje uzoraka, prepoznavanje slika, pronalaženje informacija, kompresiju podataka i kompjutersku grafiku.

Problem optimizacije

koristeći metodu grupisanja
koristeći metodu grupisanja

Metoda klasteriranja sama po sebi nije jedan specifičan algoritam, već opći zadatak koji treba riješiti. To se može postići različitim algoritmima koji se značajno razlikuju u razumijevanju šta čini grupu i kako je efikasno pronaći. Upotreba metode grupisanja za formiranje metasubjekata uključuje korištenje grupe samale udaljenosti između članova, guste oblasti prostora, intervali ili određene statističke distribucije. Stoga se grupiranje može formulirati kao problem optimizacije s više ciljeva.

Odgovarajuće postavke metoda i parametara (uključujući stavke kao što su funkcija udaljenosti koju treba koristiti, prag gustine ili broj očekivanih klastera) zavise od pojedinačnog skupa podataka i namjeravane upotrebe rezultata. Analiza kao takva nije automatski zadatak, već iterativni proces otkrivanja znanja ili interaktivne višeciljne optimizacije. Ova metoda grupiranja uključuje pokušaje pokušaja i greške. Često je potrebno modificirati predobradu podataka i parametre modela dok rezultat ne postigne željena svojstva.

Pored pojma "klastering", postoji niz riječi sa sličnim značenjima, uključujući automatsku klasifikaciju, numeričku taksonomiju, botriologiju i tipološku analizu. Suptilne razlike često leže u upotrebi metode grupisanja za formiranje metasubjektnih odnosa. Dok su u ekstrakciji podataka rezultirajuće grupe od interesa, u automatskoj klasifikaciji već je diskriminatorna moć ta koja obavlja ove funkcije.

Kluster analiza je zasnovana na brojnim radovima Kroebera iz 1932. godine. U psihologiju su ga uveli Zubin 1938. i Robert Tryon 1939. godine. I ove radove Cattell koristi od 1943. da ukaže na klasifikaciju metoda grupisanja u teoriji.

Termin

upotrebametoda
upotrebametoda

Koncept "klastera" se ne može precizno definisati. Ovo je jedan od razloga zašto postoji toliko mnogo metoda grupiranja. Postoji zajednički nazivnik: grupa objekata podataka. Međutim, različiti istraživači koriste različite modele. I svaka od ovih upotreba metoda grupiranja uključuje različite podatke. Koncept koji su pronašli različiti algoritmi značajno se razlikuje po svojim svojstvima.

Upotreba metode grupisanja je ključ za razumijevanje razlika između instrukcija. Tipični obrasci klastera uključuju:

  • Centroid s. Ovo je, na primjer, kada k-means grupiranje predstavlja svaki klaster sa jednim srednjim vektorom.
  • Model povezivanja s. Ovo je, na primjer, hijerarhijsko grupiranje, koje gradi modele na osnovu povezanosti na daljinu.
  • Distribucijski model s. U ovom slučaju, klasteri se modeliraju korištenjem metode klasteriranja kako bi se formirale statističke distribucije metasubjekata. Kao što je multivarijantno normalno razdvajanje, koje je primjenjivo na algoritam maksimizacije očekivanja.
  • Model gustoće s. To su, na primjer, DBSCAN (Algoritam prostornog grupisanja sa bukom) i OPTICS (Points for Structure Detection), koji definiraju klastere kao povezane guste regije u prostoru podataka.
  • Model podprostora c. U biclusteringu (takođe poznatom kao ko-klastering ili dva načina), grupe se modeliraju sa oba elementa i sa odgovarajućim atributima.
  • Model s. Neki algoritmi ne raderafinirani odnos za njihovu metodu grupiranja za generiranje rezultata meta-subjekata i jednostavno pružanje grupisanja informacija.
  • Model zasnovan na grafu s. Klika, odnosno podskup čvorova, takav da se svake dvije veze u rubnom dijelu mogu smatrati prototipom oblika klastera. Slabljenje ukupne potražnje poznato je kao kvazi klike. Potpuno isti naziv je predstavljen u HCS algoritmu klasteriranja.
  • Neuralni modeli s. Najpoznatija nenadzirana mreža je samoorganizirajuća mapa. I upravo se ovi modeli obično mogu okarakterisati kao slični jednoj ili više od gore navedenih metoda grupisanja za formiranje rezultata meta-subjekata. Uključuje sisteme podprostora kada neuronske mreže implementiraju neophodan oblik analize glavnih ili nezavisnih komponenti.

Ovaj termin je, u stvari, skup takvih grupa, koje obično sadrže sve objekte u skupu metoda klasteriranja podataka. Osim toga, može ukazati na odnos klastera jedan prema drugom, kao što je hijerarhija sistema ugrađenih jedan u drugi. Grupisanje se može podijeliti na sljedeće aspekte:

  • Tvrdi centroidni klastering metod. Ovdje svaki objekt pripada grupi ili je izvan nje.
  • Meki ili rasplinuti sistem. U ovom trenutku, svaki objekt već pripada u određenoj mjeri bilo kojem klasteru. Takođe se naziva c-means fuzzy clustering metoda.

A moguće su i suptilnije razlike. Na primjer:

  • Strogo particioniranje grupiranja. Evosvaki objekat pripada tačno jednoj grupi.
  • Strogo particioniranje grupiranja s izvanrednim vrijednostima. U ovom slučaju, objekti također možda ne pripadaju nijednom klasteru i smatraju se nepotrebnim.
  • Grupiranje preklapanja (takođe alternativno, sa više prikaza). Ovdje objekti mogu pripadati više od jedne grane. Obično uključuje čvrste klastere.
  • Hijerarhijske metode grupiranja. Objekti koji pripadaju podređenoj grupi također pripadaju roditeljskom podsistemu.
  • Formiranje podprostora. Iako su slične klasterima koji se preklapaju, unutar jedinstveno definisanog sistema, međusobne grupe ne bi trebale da se preklapaju.

Upute

koristeći metodu grupisanja za formiranje
koristeći metodu grupisanja za formiranje

Kao što je gore navedeno, algoritmi za grupisanje mogu se klasifikovati na osnovu njihovog modela klastera. Sljedeći pregled će navesti samo najistaknutije primjere ovih uputstava. Budući da može postojati preko 100 objavljenih algoritama, ne pružaju svi modele za svoje klastere i stoga se ne mogu lako klasificirati.

Ne postoji objektivno ispravan algoritam za grupisanje. Ali, kao što je gore navedeno, instrukcija je uvijek u vidnom polju posmatrača. Najprikladniji algoritam grupisanja za određeni problem često se mora odabrati eksperimentalno, osim ako ne postoji matematički razlog za preferiranje jednog modela nad drugim. Treba napomenuti da algoritam dizajniran za jedan tip obično ne radiskup podataka koji sadrži radikalno različitu temu. Na primjer, k-means ne može pronaći nekonveksne grupe.

Clustering-based Connection

metoda grupisanja
metoda grupisanja

Ova unija je poznata i po svom nazivu, hijerarhijski model. Zasniva se na tipičnoj ideji da su objekti više povezani sa susjednim dijelovima nego sa onima koji su mnogo udaljeniji. Ovi algoritmi povezuju objekte, formirajući različite klastere, ovisno o njihovoj udaljenosti. Grupa se može opisati uglavnom maksimalnom udaljenosti koja je potrebna za povezivanje različitih dijelova klastera. Na svim mogućim udaljenostima će se formirati druge grupe koje se mogu prikazati pomoću dendrograma. Ovo objašnjava odakle dolazi uobičajeni naziv "hijerarhijsko grupiranje". Odnosno, ovi algoritmi ne daju jednu particiju skupa podataka, već umjesto toga pružaju opsežan poredak ovlaštenja. Zahvaljujući njemu postoji odvod jedan s drugim na određenim udaljenostima. U dendrogramu, y-osa označava udaljenost na kojoj se klasteri spajaju. I objekti su raspoređeni duž X linije tako da se grupe ne miješaju.

Glasterisanje zasnovano na vezi je čitava porodica metoda koje se razlikuju po načinu na koji izračunavaju udaljenosti. Osim uobičajenog izbora funkcija udaljenosti, korisnik također treba odlučiti o kriteriju povezivanja. Pošto se klaster sastoji od nekoliko objekata, postoji mnogo opcija za njegovo izračunavanje. Popularan izbor poznat je kao grupiranje s jednom polugom, ovo je metodapuna veza, koja sadrži UPGMA ili WPGMA (neponderisani ili ponderisani ansambl parova sa aritmetičkom sredinom, takođe poznat kao klasteri srednje vrednosti veza). Pored toga, hijerarhijski sistem može biti aglomerativan (počevši od pojedinačnih elemenata i kombinujući ih u grupe) ili dijeljeni (počevši od kompletnog skupa podataka i razbijajući ga na sekcije).

Distributed clustering

klastering metoda za formiranje
klastering metoda za formiranje

Ovi modeli su najbliži statistikama zasnovanim na podjelama. Klasteri se mogu lako definirati kao objekti koji najvjerovatnije pripadaju istoj distribuciji. Zgodna karakteristika ovog pristupa je da je vrlo sličan načinu na koji se stvaraju vještački skupovi podataka. Uzorkovanjem nasumičnih objekata iz distribucije.

Iako je teorijska osnova ovih metoda odlična, one pate od jednog ključnog problema, poznatog kao prekomjerno prilagođavanje, osim ako se ne nametnu ograničenja složenosti modela. Veća asocijacija će obično bolje objasniti podatke, što otežava odabir prave metode.

Gausov model mješavine

Ova metoda koristi sve vrste algoritama maksimizacije očekivanja. Ovdje se skup podataka obično modelira s fiksnim (kako bi se izbjeglo nadjačavanje) brojem Gaussovih distribucija koje su nasumično inicijalizirane i čiji se parametri iterativno optimiziraju kako bi bolje odgovarali skupu podataka. Ovaj sistem će konvergirati do lokalnog optimuma. Zbog toga može dati nekoliko trčanjarazličiti rezultati. Da bi se postiglo najuže grupiranje, karakteristike se često pripisuju Gausovoj distribuciji kojoj će najvjerovatnije pripadati. A za mekše grupe to nije potrebno.

Glasterisanje zasnovano na distribuciji stvara složene modele koji na kraju mogu uhvatiti korelaciju i zavisnost između atributa. Međutim, ovi algoritmi dodatno opterećuju korisnika. Za mnoge skupove podataka u stvarnom svijetu možda neće postojati koncizno definiran matematički model (na primjer, uz pretpostavku da je Gausova distribucija prilično jaka pretpostavka).

Grupiranje zasnovano na gustini

grupisanje u formu
grupisanje u formu

U ovom primjeru, grupe su u osnovi definirane kao područja s većom nepropusnošću od ostatka skupa podataka. Objekti u ovim rijetkim dijelovima, koji su neophodni za razdvajanje svih komponenti, obično se smatraju šumom i rubnim tačkama.

Najpopularnija metoda grupisanja zasnovana na gustini je DBSCAN (Algoritam za grupisanje prostornog šuma). Za razliku od mnogih novijih metoda, ima dobro definiranu komponentu klastera koja se zove "dohvatljivost gustine". Slično grupisanju zasnovanom na linku, ono se zasniva na tačkama povezivanja unutar određenih pragova udaljenosti. Međutim, ova metoda prikuplja samo one stavke koje zadovoljavaju kriterij gustine. U originalnoj verziji, definiranoj kao minimalni broj drugih objekata u ovom radijusu, klaster se sastoji od svihstavke vezane za gustinu (koje mogu formirati grupu slobodnog oblika, za razliku od mnogih drugih metoda), i sve objekte koji su unutar dozvoljenog raspona.

Još jedno zanimljivo svojstvo DBSCAN-a je da je njegova složenost prilično niska - zahtijeva linearan broj upita opsega prema bazi podataka. Neobično je i to što će naći u suštini iste rezultate (ovo je determinističko za tačke jezgre i buke, ali ne i za granične elemente) u svakom pokretanju. Stoga, nema potrebe da ga pokrećete više puta.

Glavni nedostatak DBSCAN-a i OPTICS-a je to što očekuju pad gustine kako bi otkrili granice klastera. Na primjer, u skupovima podataka sa Gaussovim distribucijama koje se preklapaju – što je uobičajen slučaj upotrebe za umjetne objekte – granice klastera koje generiraju ovi algoritmi često izgledaju proizvoljno. To se dešava jer se gustina grupa kontinuirano smanjuje. A u skupu podataka Gausove mješavine, ovi algoritmi gotovo uvijek nadmašuju metode kao što je EM grupiranje, koje su u stanju precizno modelirati ove tipove sistema.

Srednji pomak je pristup grupisanja u kojem se svaki objekt pomiče u najgušće područje u susjedstvu na osnovu procjene cijelog kernela. Na kraju, objekti konvergiraju do maksimuma lokalne neprobojnosti. Slično k-means grupisanju, ovi "atraktori gustoće" mogu poslužiti kao predstavnici za skup podataka. Ali srednji pomakmože otkriti proizvoljno oblikovane klastere slične DBSCAN-u. Zbog skupe iterativne procedure i procjene gustine, prosječni pomak je obično sporiji od DBSCAN-a ili k-Means-a. Osim toga, primjenljivost tipičnog algoritma pomaka na visokodimenzionalne podatke je teška zbog neujednačenog ponašanja procjene gustine jezgra, što dovodi do pretjerane fragmentacije repova klastera.

Ocjena

metoda klasteriranja za formiranje metasubjekta
metoda klasteriranja za formiranje metasubjekta

Provjera rezultata grupiranja je teška kao i samo klasteriranje. Popularni pristupi uključuju "interno" bodovanje (gde se sistem svodi na jednu meru kvaliteta) i, naravno, "eksterno" bodovanje (gde se grupisanje upoređuje sa postojećom klasifikacijom "osnovne istine"). A ručni rezultat i indirektni rezultat stručnjaka za ljude nalaze se ispitivanjem korisnosti grupiranja u predviđenoj aplikaciji.

Interne mjere zastave pate od problema jer predstavljaju karakteristike koje se same mogu smatrati ciljevima klasteriranja. Na primjer, moguće je grupirati podatke date koeficijentom Silhouette, osim što ne postoji poznat efikasan algoritam za to. Koristeći takvu internu mjeru za evaluaciju, bolje je uporediti sličnost problema optimizacije.

Spoljna oznaka ima slične probleme. Ako postoje takve oznake "osnovne istine", onda nema potrebe za grupisanje. A u praktičnim primjenama takvih koncepata obično nema. S druge strane, oznake odražavaju samo jednu moguću particiju skupa podataka, što ne značida nema drugog (možda i boljeg) grupisanja.

Dakle, nijedan od ovih pristupa ne može u konačnici suditi o stvarnom kvalitetu. Ali za to je potrebna ljudska evaluacija, koja je vrlo subjektivna. Ipak, takve statistike mogu biti informativne u identifikaciji loših klastera. Ali ne treba zanemariti subjektivnu procjenu osobe.

Unutrašnja oznaka

Kada se rezultat grupiranja evaluira na osnovu podataka koji su i sami grupirani, to se naziva ovim terminom. Ove metode općenito pripisuju najbolji rezultat algoritmu koji stvara grupe s velikom sličnošću unutar i malom između grupa. Jedan od nedostataka korišćenja internih kriterijuma u evaluaciji klastera je taj što visoki rezultati ne vode nužno efikasnim aplikacijama za pronalaženje informacija. Takođe, ovaj rezultat je pristrasan prema algoritmima koji koriste isti model. Na primjer, k-means grupiranje prirodno optimizira udaljenosti karakteristika, a interni kriterij zasnovan na njemu vjerovatno će precijeniti rezultirajuće grupiranje.

Stoga, ove mjere evaluacije su najprikladnije za dobijanje ideje o situacijama u kojima jedan algoritam radi bolje od drugog. Ali to ne znači da svaka informacija daje pouzdanije rezultate od drugih. Period važenja mjeren takvim indeksom ovisi o tvrdnji da struktura postoji u skupu podataka. Algoritam razvijen za neke tipove nema šanse ako skup sadrži radikalnorazličit sastav ili ako procjena mjeri različite kriterije. Na primjer, k-means grupiranje može pronaći samo konveksne klastere, a mnogi indeksi rezultata pretpostavljaju isti format. U skupu podataka sa nekonveksnim modelima, neprikladno je koristiti k-srednje vrijednosti i tipične kriterije evaluacije.

Eksterna evaluacija

Sa ovom vrstom sastavljanja, rezultati grupisanja se procjenjuju na osnovu podataka koji nisu korišteni za grupisanje. Odnosno, kao što su poznate oznake klasa i eksterni testovi. Takva pitanja se sastoje od skupa prethodno klasifikovanih stavki i često ih kreiraju stručnjaci (ljudi). Kao takvi, referentni setovi se mogu smatrati zlatnim standardom za evaluaciju. Ove vrste metoda bodovanja mjere koliko je grupiranje blisko datim referentnim klasama. Međutim, nedavno se raspravljalo o tome da li je ovo adekvatno za stvarne podatke ili samo za sintetičke skupove sa stvarnom osnovnom istinom. Pošto klase mogu sadržavati internu strukturu, a postojeći atributi možda ne dozvoljavaju razdvajanje klastera. Također, sa stanovišta otkrivanja znanja, reprodukcija poznatih činjenica ne mora nužno proizvesti očekivani rezultat. U posebnom ograničenom scenariju grupisanja gdje se meta-informacije (kao što su oznake klasa) već koriste u procesu grupisanja, nije trivijalno zadržati sve informacije u svrhu evaluacije.

Sada je jasno šta se ne odnosi na metode grupisanja i koji se modeli koriste u ove svrhe.

Preporučuje se: