Informacijska entropija: definicija pojma, svojstva, sistem

Sadržaj:

Informacijska entropija: definicija pojma, svojstva, sistem
Informacijska entropija: definicija pojma, svojstva, sistem
Anonim

Koncept informacione entropije implicira negativan logaritam funkcije mase vjerovatnoće za vrijednost. Dakle, kada izvor podataka ima vrijednost sa manjom vjerovatnoćom (tj. kada se dogodi događaj sa malom vjerovatnoćom), događaj nosi više "informacija" ("iznenađenja") nego kada izvorni podaci imaju vrijednost s većom vjerovatnoćom.

Količina informacija koju prenosi svaki događaj definisan na ovaj način postaje slučajna varijabla čija je očekivana vrijednost entropija informacije. Generalno, entropija se odnosi na poremećaj ili nesigurnost, a njena definicija koja se koristi u teoriji informacija je direktno analogna onoj koja se koristi u statističkoj termodinamici. Koncept IE je uveo Claude Shannon u svom radu iz 1948. godine "Matematička teorija komunikacije". Odatle dolazi izraz "Shannonova informaciona entropija".

Informacioni entropijski graf
Informacioni entropijski graf

Definicija i sistem

Osnovni model sistema za prenos podataka sastoji se od tri elementa: izvora podataka, komunikacionog kanala i prijemnika,i, kako Shannon kaže, "osnovni komunikacijski problem" je da prijemnik može identificirati koje podatke je generirao izvor na osnovu signala koji prima preko kanala. Entropija pruža apsolutno ograničenje na najkraću moguću prosječnu dužinu kodiranja bez gubitaka komprimiranih izvornih podataka. Ako je entropija izvora manja od propusnog opsega komunikacijskog kanala, podaci koje on generira mogu se pouzdano prenijeti do prijemnika (barem u teoriji, možda zanemarujući neka praktična razmatranja kao što je složenost sistema potrebnog za prijenos podataka i količinu vremena potrebnog za prijenos podataka).

Informacijska entropija se obično mjeri u bitovima (alternativno nazvanim "shanons") ili ponekad u "prirodnim jedinicama" (nats) ili decimalnim mjestima (nazvanim "dits", "bans" ili "hartleys"). Jedinica mjere zavisi od baze logaritma, koji se koristi za određivanje entropije.

Kvalitet informacija
Kvalitet informacija

Svojstva i logaritam

Distribucija log vjerovatnoće je korisna kao mjera entropije jer je aditivna za nezavisne izvore. Na primjer, entropija fer opklade novčića je 1 bit, dok je entropija m volumena m bita. U jednostavnom predstavljanju, log2(n) bitova su potrebni za predstavljanje varijable koja može poprimiti jednu od n vrijednosti ako je n stepen 2. Ako su ove vrijednosti jednako vjerovatne, entropija (u bitovima) je jednak tom broju. Ako je jedna od vrijednosti vjerovatnija od ostalih, zapažanje da jesteznačenje se javlja, manje je informativan nego ako bi se desio neki manje opšti rezultat. Suprotno tome, rjeđi događaji pružaju dodatne informacije o praćenju.

Budući da je posmatranje manje verovatnih događaja ređe, nema ničeg zajedničkog da je entropija (koja se smatra prosečnom informacijom) dobijena iz neravnomerno raspoređenih podataka uvek manja ili jednaka log2(n). Entropija je nula kada je jedan rezultat definiran.

Šenonova informaciona entropija kvantifikuje ova razmatranja kada je poznata distribucija verovatnoće osnovnih podataka. Značenje posmatranih događaja (značenje poruka) je irelevantno u definiciji entropije. Potonji uzima u obzir samo vjerovatnoću viđenja određenog događaja, tako da su informacije koje sadrži podaci o osnovnoj distribuciji mogućnosti, a ne o značenju samih događaja. Svojstva informacijske entropije ostaju ista kao što je gore opisano.

Šenonova formula
Šenonova formula

Teorija informacija

Osnovna ideja teorije informacija je da što više neko zna o nekoj temi, manje informacija može dobiti o njoj. Ako je događaj vrlo vjerojatan, nije iznenađujuće kada se dogodi i stoga pruža malo novih informacija. S druge strane, ako je događaj bio nevjerovatan, bilo je mnogo informativnije da se događaj desio. Prema tome, nosivost je rastuća funkcija inverzne vjerovatnoće događaja (1 / p).

Sada ako se dogodi više događaja, entropijamjeri prosječan sadržaj informacija koji možete očekivati ako se dogodi neki od događaja. To znači da bacanje kocke ima više entropije nego bacanje novčića jer svaki kristalni ishod ima manju vjerovatnoću od ishoda svakog novčića.

Entropija na slici
Entropija na slici

Karakteristike

Dakle, entropija je mjera nepredvidivosti stanja ili, što je isto, njegovog prosječnog sadržaja informacija. Da biste dobili intuitivno razumijevanje ovih pojmova, razmotrite primjer političke ankete. Obično se ovakve ankete dešavaju jer rezultati, na primjer, izbora još nisu poznati.

Drugim riječima, rezultati ankete su relativno nepredvidivi, a zapravo, njeno provođenje i ispitivanje podataka daje neke nove informacije; oni su samo različiti načini da se kaže da je prethodna entropija rezultata ankete velika.

Sada razmotrite slučaj kada se ista anketa izvodi drugi put ubrzo nakon prvog. Pošto je rezultat prvog istraživanja već poznat, rezultati drugog istraživanja se mogu dobro predvidjeti i rezultati ne bi trebali sadržavati mnogo novih informacija; u ovom slučaju, apriorna entropija drugog rezultata ankete je mala u odnosu na prvi.

nivoi entropije
nivoi entropije

Bacanje novčića

Sada razmotrite primjer bacanja novčića. Pod pretpostavkom da je verovatnoća repova ista kao verovatnoća glave, entropija bacanja novčića je veoma visoka, jer je to poseban primer informacione entropije sistema.

Ovo je zatoda je nemoguće predvidjeti da je ishod novčića bačen prije vremena: ako moramo birati, najbolje što možemo učiniti je predvidjeti da će novčić sletjeti na repove, a ovo predviđanje će biti tačno s vjerovatnoćom od 1 / 2. Takvo bacanje novčića ima entropiju od jednog bita, pošto postoje dva moguća ishoda koja se dešavaju sa jednakom vjerovatnoćom, a proučavanje stvarnog ishoda sadrži jedan bit informacije.

Naprotiv, bacanje novčića koristeći obje strane s repovima i bez glave ima nultu entropiju jer će novčić uvijek pasti na ovaj znak i ishod se može savršeno predvidjeti.

Informaciona entropija
Informaciona entropija

Zaključak

Ako je shema kompresije bez gubitaka, što znači da uvijek možete oporaviti cijelu originalnu poruku dekompresijom, tada komprimirana poruka ima istu količinu informacija kao originalna, ali se prenosi u manje znakova. To jest, ima više informacija ili veću entropiju po karakteru. To znači da komprimirana poruka ima manje zaliha.

Ugrubo govoreći, Shanonov teorem kodiranja izvornog koda kaže da shema kompresije bez gubitaka ne može smanjiti poruke u prosjeku tako da imaju više od jednog bita informacije po bitu poruke, ali se može postići bilo koja vrijednost manja od jednog bita informacije po bitu.poruke koristeći odgovarajuću šemu kodiranja. Entropija poruke u bitovima puta njena dužina je mjera koliko općih informacija sadrži.

Preporučuje se: