Data Mining je Koncept, analiza algoritama, svrha i primjena

Sadržaj:

Data Mining je Koncept, analiza algoritama, svrha i primjena
Data Mining je Koncept, analiza algoritama, svrha i primjena
Anonim

Razvoj informacione tehnologije donosi praktične rezultate. Ali takvi zadaci kao što su pronalaženje, analiza i korištenje informacija još nisu dobili djelotvoran visokokvalitetan alat. Postoje analitika i kvantitativni alati, oni stvarno rade. Ali kvalitativna revolucija u korištenju informacija još se nije dogodila.

Mnogo prije pojave kompjuterske tehnologije, osoba je trebala obraditi velike količine informacija i snašla se s tim na najbolji način svojim iskustvom i raspoloživim tehničkim mogućnostima.

Razvoj znanja i vještina uvijek je zadovoljavao stvarne potrebe i odgovarao aktuelnim zadacima. Data mining je skupni naziv koji se koristi za označavanje skupa metoda za otkrivanje prethodno nepoznatih, netrivijalnih, praktično korisnih i dostupnih znanja u podacima, neophodnih za donošenje odluka u različitim oblastima ljudske aktivnosti.

Ljudstvo, inteligencija, programiranje

Čovjek uvijek zna kako se ponašati u svakoj situaciji. Neznanje ili nepoznata situacija ga ne sprečava da donese odluku. Objektivnost i razumnost svake ljudske odluke može biti dovedena u pitanje, ali će biti prihvaćena.

Inteligencija se zasniva na: nasljednom "mehanizmu", stečenom, aktivnom znanju. Znanje se primjenjuje za rješavanje problema koji se pojavljuju pred osobom.

  1. Inteligencija je jedinstven skup znanja i vještina: mogućnosti i temelj za ljudski život i rad.
  2. Inteligencija se stalno razvija, a ljudske akcije utiču na druge ljude.

Programiranje je prvi pokušaj formalizacije predstavljanja podataka i procesa kreiranja algoritama.

Čovjek, inteligencija, programiranje
Čovjek, inteligencija, programiranje

Vještačka inteligencija (AI) je gubljenje vremena i resursa, ali su rezultati neuspešnih pokušaja prošlog veka u oblasti veštačke inteligencije ostali u pamćenju, korišćeni u raznim ekspertskim (inteligentnim) sistemima i transformisani, posebno u algoritme (pravila) i matematičku (logičku) analizu podataka i Data Mining.

Informacije i uobičajeno traženje rješenja

Obična biblioteka je repozitorijum znanja, a štampana reč i grafika još uvek nisu ustupili dlan kompjuterskoj tehnologiji. Knjige o fizici, hemiji, teorijskoj mehanici, dizajnu, prirodoslovlju, filozofiji, prirodnim naukama, botanici, udžbenici, monografije, radovi naučnika, materijali sa konferencija, izvještaji o razvojnom radu, itd. uvijek su relevantni i pouzdani.

Biblioteka je mnogo različitih izvora koji se razlikujuoblik prezentacije materijala, porijeklo, struktura, sadržaj, stil prezentacije, itd.

Biblioteka: knjige, časopisi i druga štampana građa
Biblioteka: knjige, časopisi i druga štampana građa

Spolja je sve vidljivo (čitljivo, dostupno) za razumevanje i upotrebu. Možete riješiti bilo koji problem, pravilno postaviti zadatak, opravdati rješenje, napisati esej ili seminarski rad, odabrati materijal za diplomu, analizirati izvore na temu disertacije ili naučnog i analitičkog izvještaja.

Svaki problem sa informacijama se može riješiti. Uz dužnu upornost i vještinu, dobit će se tačan i pouzdan rezultat. U ovom kontekstu, Data Mining je potpuno drugačiji pristup.

Pored rezultata, osoba dobija "aktivne linkove" na sve što je pogledano u procesu postizanja cilja. Izvori koje je koristio u rješavanju problema mogu se pozvati i niko neće osporiti činjenicu postojanja izvora. Ovo nije garancija autentičnosti, ali je sigurno svjedočanstvo kome je odgovornost za autentičnost "otpisana". Sa ove tačke gledišta, Data Mining znači velike sumnje u pouzdanost i nema "aktivnih" veza.

Rješavajući nekoliko problema, osoba postiže rezultate i proširuje svoj intelektualni potencijal na mnoge "aktivne veze". Ako novi zadatak "aktivira" već postojeću vezu, osoba će znati kako to riješiti: nema potrebe ponovo tražiti ništa.

"Aktivna veza" je fiksna asocijacija: kako i šta učiniti u određenom slučaju. Ljudski mozak automatski pamti sve što mu se čini potencijalno zanimljivim, korisnim.ili će vjerovatno biti potrebni u budućnosti. Na mnogo načina, to se događa na podsvjesnom nivou, ali čim se pojavi zadatak koji se može povezati s „aktivnom vezom“, on momentalno iskoči u umu i rješenje će se dobiti bez dodatne potrage za informacijama. Data Mining je uvijek ponavljanje algoritma pretraživanja i ovaj algoritam se ne mijenja.

Redovna pretraga: "umjetnički" problemi

Matematička biblioteka i traženje informacija u njoj je relativno slab zadatak. Pronalaženje jednog ili drugog načina za rješavanje integrala, izgradnju matrice ili izvođenje operacije sabiranja dva imaginarna broja je naporno, ali jednostavno. Morate sortirati niz knjiga, od kojih su mnoge napisane na određenom jeziku, pronaći pravi tekst, proučiti ga i dobiti traženo rješenje.

S vremenom će nabrajanje postati poznato, a akumulirano iskustvo će vam omogućiti da se krećete kroz bibliotečke informacije i druge matematičke probleme. Ovo je ograničen informativni prostor pitanja i odgovora. Karakteristična karakteristika: takvo traženje informacija akumulira znanje za rješavanje sličnih problema. Čovjekova potraga za informacijama ostavlja tragove ("aktivne veze") u njegovom sjećanju o mogućim rješenjima drugih problema.

U fikciji pronađite odgovor na pitanje: "Kako su ljudi živjeli u januaru 1248.?" vrlo teško. Još je teže odgovoriti na pitanje šta je bilo na policama prodavnica i kako je organizovana trgovina hranom. Čak i da je neki pisac o tome jasno i direktno pisao u svom romanu, ako bi se moglo pronaći ime ovog pisca, onda sumnja upouzdanost primljenih podataka će ostati. Pouzdanost je kritična karakteristika bilo koje količine informacija. Važan je izvor, autor i dokaz koji isključuje netačnost rezultata.

Objektivne okolnosti određene situacije

Čovjek vidi, čuje, osjeća. Neki stručnjaci tečno govore o jedinstvenom osjećaju - intuiciji. Za konstataciju problema potrebna je informacija, proces rješavanja problema najčešće je praćen doradom iskaza problema. Ovo je manji problem koji dolazi sa premeštanjem informacija u utrobu kompjuterskog sistema.

Informacije u virtuelnom prostoru
Informacije u virtuelnom prostoru

Biblioteka i radne kolege su indirektni učesnici u procesu odlučivanja. Dizajn knjige (izvora), grafika u tekstu, karakteristike podjele informacija na naslove, fusnote po frazama, predmetni indeks, lista primarnih izvora – sve izaziva asocijacije kod čovjeka koje indirektno utiču na proces rješavanja. problem.

Vrijeme i mjesto rješavanja problema je bitno. Čovjek je tako uređen da nehotice obraća pažnju na sve što ga okružuje u procesu rješavanja problema. To može biti ometajuće, ili može biti stimulativno. Data Mining nikada neće "razumjeti".

Informacije u virtuelnom prostoru

Čovjeka su oduvijek zanimale samo pouzdane informacije o događaju, pojavi, objektu, algoritmu za rješavanje problema. Čovjek je oduvijek tačno zamišljao kako može postići željeni cilj.

Pojava kompjutera i informacionih sistema trebalo je da olakša život čoveku, ali se sve samo zakomplikovalo. Informacije su migrirale u utrobu kompjuterskih sistema i nestale iz vida. Da biste odabrali potrebne podatke, potrebno je kreirati ispravan algoritam ili formulirati upit bazi podataka.

Podaci unutar informacionog sistema
Podaci unutar informacionog sistema

Pitanje mora biti tačno. Tek tada možete dobiti odgovor. Ali sumnje u autentičnost ostaju. U tom smislu, Data Mining je zapravo "iskopavanja", to je "vađenje informacija". Ovako je moderno prevesti ovu frazu. Ruska verzija je data mining ili data mining tehnologija.

U radovima autoritativnih stručnjaka, zadaci Data Mining-a su naznačeni na sljedeći način:

  • klasifikacija;
  • clustering;
  • asocijacija;
  • sekvenca;
  • prognoza.

Sa stanovišta prakse koja vodi osobu u ručnoj obradi informacija, svi ovi stavovi su diskutabilni. U svakom slučaju, osoba automatski obrađuje informacije i ne razmišlja o klasifikaciji podataka, sastavljanju tematskih grupa objekata (clustering), traženju vremenskih obrazaca (sekvence) ili predviđanju rezultata.

Sve ove pozicije u ljudskom umu su predstavljene aktivnim znanjem, koje pokriva više pozicija i dinamički koristi logiku obrade početnih podataka. Čovjekova podsvijest igra važnu ulogu, posebno kada je stručnjak u određenoj oblasti znanja.

Primjer: Veleprodaja kompjuterske opreme

Zadatak je jednostavan. Ima ih nekolikodesetine dobavljača računarske opreme i perifernih uređaja. Svaki ima cjenik u xls formatu (Excel fajl), koji se može preuzeti sa službene web stranice dobavljača. Potrebno je kreirati web resurs koji čita Excel datoteke, pretvara ih u tabele baze podataka i omogućava kupcima da izaberu željene proizvode po najnižim cijenama.

Problemi nastaju odmah. Svaki dobavljač nudi svoju verziju strukture i sadržaja xls datoteke. Datoteku možete dobiti preuzimanjem sa web stranice dobavljača, naručivanjem putem e-maila ili preuzimanjem linka za preuzimanje putem vašeg ličnog računa, odnosno službenom registracijom kod dobavljača.

Virtuelna prodavnica računara
Virtuelna prodavnica računara

Rješenje problema (na samom početku) je tehnološki jednostavno. Učitavajući fajlove (početni podaci), za svakog dobavljača se upisuje algoritam za prepoznavanje fajlova i podaci se smeštaju u jednu veliku tabelu početnih podataka. Nakon što su svi podaci primljeni, nakon što je uspostavljen mehanizam kontinuirane zamjene (dnevno, sedmično ili po promjeni) svježih podataka:

  • promjena asortimana;
  • promjene cijene;
  • pojašnjenje količine na zalihama;
  • podešavanje uslova garancije, specifikacija, itd.

Ovde počinju pravi problemi. Stvar je u tome što dobavljač može napisati:

  • notebook Acer;
  • notebook Asus;
  • Dell laptop.

Govorimo o istom proizvodu, ali različitih proizvođača. Kako uskladiti notebook=laptop ili kako ukloniti Acer, Asus i Dell iz linije proizvoda?

Zaljudski nije problem, ali kako će algoritam "shvatiti" da su Acer, Asus, Dell, Samsung, LG, HP, Sony zaštitni znakovi ili dobavljači? Kako uskladiti "štampač" i štampač, "skener" i "MFP", "kopir aparat" i "MFP", "slušalice" sa "slušalicama", "pribor" sa "dodatkom"?

Izgradnja stabla kategorije na osnovu izvornih podataka (izvornih fajlova) je već problem kada trebate sve postaviti na automatski.

Uzorkovanje podataka: iskopavanja "svježe izlivenog"

Zadatak kreiranja baze podataka dobavljača računarske opreme je riješen. Napravljeno je stablo kategorija, funkcioniše zajednička tabela sa ponudama svih dobavljača.

Tipični zadaci rudarenja podataka u kontekstu ovog primjera:

  • pronađi proizvod po najnižoj cijeni;
  • odaberite artikal sa najnižom cijenom dostave i cijenom;
  • analiza proizvoda: karakteristike i cijene po kriterijima.

U stvarnom radu menadžera koji koristi podatke od nekoliko desetina dobavljača, biće mnogo varijacija ovih zadataka, pa čak i više stvarnih situacija.

Na primjer, postoji dobavljač "A" koji prodaje ASUS VivoBook S15: plaćanje unaprijed, isporuka 5 dana nakon stvarnog prijema novca. Postoji dobavljač "B" istog proizvoda istog modela: plaćanje po prijemu, isporuka nakon zaključenja ugovora u roku od jednog dana, cijena je jedan i po puta veća.

Počinje rudarenje podataka - "iskopavanja". Slikativni izrazi: "iskopavanja" ili "vađenje podataka" su sinonimi. Radi se o tome kako dobiti razlog za donošenje odluke.

Dobavljači "A" i "B" imaju istoriju isporuka. Ocjenaavansno plaćanje u prvom slučaju protiv plaćanja po prijemu u drugom slučaju, s obzirom da je neisporuka u drugom slučaju 65% veća. Rizik od penala od strane klijenta je veći/manji. Kako i šta odrediti i kakvu odluku donijeti?

S druge strane: bazu podataka kreirali su programer i menadžer. Ako su se promijenili programer i menadžer, kako odrediti trenutno stanje baze podataka i naučiti kako je pravilno koristiti? Također ćete morati raditi rudarenje podataka. Data Mining nudi niz matematičkih i logičkih metoda kojima nije važno kakva se vrsta podataka istražuje. Ovo daje ispravno rješenje u nekim slučajevima, ali ne u svim.

Prelazak u virtuelnost i pronalaženje značenja

Metode rudarenja podataka postaju značajne čim se informacije upišu u bazu podataka i nestanu iz “vidnog polja”. Trgovina kompjuterskom opremom je zanimljiv zadatak, ali to je samo posao. Koliko je dobro organizovan u kompaniji zavisi od njenog uspeha.

Klimatske promjene na planeti i vrijeme u određenom gradu zanimaju sve, a ne samo profesionalne stručnjake za klimu. Hiljade senzora očitava vjetar, vlažnost, pritisak, podatke sa umjetnih Zemljinih satelita i postoji historija podataka godinama i vekovima.

Vremenski podaci ne odnose se samo na odluku da li da ponesete kišobran na posao ili ne. Data Mining tehnologije su siguran let aviona, stabilan rad autoputa i pouzdano snabdijevanje naftnim derivatima morem.

"Sirovi" podaci se šalju informacijisistem. Zadaci Data Mininga su da ih pretvori u sistematizovan sistem tabela, uspostavi veze, istakne grupe homogenih podataka i otkrije obrasce.

Klima, vrijeme i neobrađeni podaci
Klima, vrijeme i neobrađeni podaci

Matematičke i logičke metode još od vremena kvantitativne analitike OLAP (On-line Analytical Processing) pokazale su svoju praktičnost. Ovdje tehnologija omogućava da pronađete smisao, a ne da ga izgubite, kao u primjeru prodaje kompjuterske opreme.

Štaviše, u globalnim zadacima:

  • transnacionalno poslovanje;
  • upravljanje zračnim transportom;
  • proučavanje utrobe zemlje ili društvenih problema (na državnom nivou);
  • proučavanje uticaja droga na živi organizam;
  • predviđanje posledica izgradnje industrijskog preduzeća, itd.

Tehnologije rudnika podataka i pretvaranje "besmislenih" podataka u stvarne podatke koji vam omogućavaju da donosite objektivne odluke je jedina opcija.

Ljudske mogućnosti završavaju tamo gdje postoji velika količina sirovih informacija. Sistemi za rudarenje podataka gube svoju korisnost tamo gdje je potrebno vidjeti, razumjeti i osjetiti informacije.

Razumna raspodjela funkcija i objektivnost

Čovek i kompjuter treba da se nadopunjuju - to je aksiom. Pisanje disertacije je prioritet za čovjeka, a informacioni sistem je pomoć. Ovdje su podaci kojima raspolaže Data Mining tehnologija heuristika, pravila, algoritmi.

Izrada sedmične vremenske prognoze je prioritet informacionog sistema. Čovjek upravlja podacima, ali svoje odluke zasniva na rezultatima proračuna sistema. Kombinira metode Data Mininga, specijalističke klasifikacije podataka, ručnu kontrolu primjene algoritama, automatsko poređenje prošlih podataka, matematičko predviđanje i puno znanja i vještina stvarnih ljudi uključenih u primjenu informacionog sistema.

Čovek i kompjuter
Čovek i kompjuter

Teorija vjerovatnoće i matematička statistika nisu "najomiljenije" i najrazumljivije oblasti znanja. Mnogi stručnjaci su jako daleko od njih, ali metode razvijene u ovim oblastima daju gotovo 100% tačne rezultate. Primenom sistema zasnovanih na idejama, metodama i algoritmima Data Mininga, rešenja se mogu dobiti objektivno i pouzdano. U suprotnom, jednostavno je nemoguće dobiti rješenje.

Faraoni i misterije prošlih vekova

Historija je periodično prepisivana:

  • države - zarad svojih strateških interesa;
  • autoritativni naučnici - zarad svojih subjektivnih uvjerenja.

Teško je reći šta je istina, a šta laž. Upotreba Data Mininga nam omogućava da riješimo ovaj problem. Na primjer, tehnologiju izgradnje piramida opisali su hroničari, a proučavali su je naučnici u različitim stoljećima. Nisu svi materijali dospjeli na internet, ovdje nije sve jedinstveno, a mnogi podaci možda nemaju:

  • opisano vrijeme;
  • vrijeme pisanja opisa;
  • datumi na kojima se zasniva opis;
  • autori, mišljenja (linkovi) uzeti u obzir;
  • potvrda objektivnosti.

Bbibliotekama, hramovima i "neočekivanim mestima" možete pronaći rukopise iz različitih vekova i materijalne dokaze prošlosti.

Zanimljiv cilj: spojiti sve i otkriti "istinu". Karakteristika problema: informacije se mogu dobiti od prvog opisa hroničara, tokom života faraona, do sadašnjeg veka, u kome je ovaj problem savremenim metodama rešavan od strane mnogih naučnika.

Obrazloženje za korištenje Data Mininga: ručni rad nije moguć. Previše količina:

  • izvori informacija;
  • jezici zastupanja;
  • istraživači koji opisuju istu stvar na različite načine;
  • datumi, događaji i uslovi;
  • problemi korelacije termina;
  • analiza statistike po grupama podataka tokom vremena može se razlikovati, itd.

Krajem prošlog veka, kada je još jedan fijasko ideje veštačke inteligencije postao očigledan ne samo laiku, već i sofisticiranom stručnjaku, pojavila se ideja: „rekreirati ličnost“.

Na primjer, prema djelima Puškina, Gogolja, Čehova, formira se određeni sistem pravila, logike ponašanja i kreira se informacioni sistem koji može odgovoriti na određena pitanja kao što bi čovjek odgovorio: Puškin, Gogolj ili Čehov. Teoretski, takav zadatak je zanimljiv, ali u praksi ga je izuzetno teško implementirati.

Međutim, ideja takvog zadatka sugerira vrlo praktičnu ideju: "kako kreirati inteligentno pretraživanje informacija." Internet je mnogo resursa za razvoj, ogromna baza podataka i ovo je odlična prilika za primjenu Data Mininga u kombinaciji s ljudskimlogika u formatu zajedničkog razvoja.

Mašina i čovjek zajedno
Mašina i čovjek zajedno

Mašina i čovjek u paru odličan je zadatak i nesumnjiv uspjeh na polju "informacione arheologije", kvalitetnih iskopavanja podataka i rezultata koji će nešto dovesti u sumnju, ali će vam bez sumnje omogućiti steći nova znanja i biće traženi u društvu.

Preporučuje se: