Nadmiarowość (teoria informacji)
W teorii informacji redundancja mierzy ułamkową różnicę między entropią H (X) zespołu X , a jego maksymalną możliwą wartością } . Nieformalnie jest to ilość zmarnowanej „przestrzeni” wykorzystywanej do przesyłania pewnych danych. Kompresja danych to sposób na zmniejszenie lub wyeliminowanie niepożądanej redundancji przy jednoczesnej korekcji błędów w przód to sposób na dodanie pożądanej redundancji w celu wykrywania i korygowania błędów podczas komunikacji przez zaszumiony kanał o ograniczonej przepustowości .
Definicja ilościowa
Opisując redundancję surowych danych, szybkość źródła informacji jest średnią entropią na symbol. Dla źródeł bez pamięci jest to po prostu entropia każdego symbolu, podczas gdy w najbardziej ogólnym przypadku procesu stochastycznego jest to
w granicy, gdy n dąży do nieskończoności, wspólnej entropii pierwszych n symboli podzielonych przez n . W teorii informacji często mówi się o „szybkości” lub „ entropii ” języka. Jest to właściwe, na przykład, gdy źródłem informacji jest angielska proza. Szybkość źródła bez pamięci to po prostu kolejnych komunikatów źródła bez pamięci [ potrzebne źródło ]
Bezwzględna stawka języka lub źródła jest po prostu
logarytm liczności przestrzeni wiadomości lub alfabetu . (Ta formuła jest czasami nazywana funkcją Hartleya .) Jest to maksymalna możliwa szybkość przesyłania informacji za pomocą tego alfabetu. (Logarytm należy przyjąć do podstawy odpowiedniej dla używanej jednostki miary.) Szybkość bezwzględna jest równa rzeczywistej szybkości, jeśli źródło nie ma pamięci i ma równomierny rozkład .
Bezwzględna redundancja może być wtedy zdefiniowana jako
różnica między stopą bezwzględną a stopą procentową.
Wielkość nazywana jest redundancją względną daje maksymalny możliwy współczynnik kompresji danych , wyrażony jako procent o jaki można zmniejszyć rozmiar pliku (Wyrażona jako stosunek oryginalnego rozmiaru pliku do rozmiaru skompresowanego pliku, ilość daje maksymalny współczynnik kompresji, jaki można osiągnąć). Uzupełnieniem koncepcji względnej redundancji jest wydajność , zdefiniowana jako że . Źródło bez pamięci z równomiernym rozkładem ma zerową redundancję (a tym samym 100% wydajność) i nie może być skompresowane.
Inne pojęcia
Miarą redundancji między dwiema zmiennymi jest informacja wzajemna lub wariant znormalizowany. Miarą redundancji wśród wielu zmiennych jest całkowita korelacja .
odnosi się do różnicy między oczekiwaną długością skompresowanych danych wiadomości (lub oczekiwaną szybkością transmisji danych ) i entropia (lub współczynnik entropii ). (Tutaj zakładamy, że dane są ergodyczne i stacjonarne , np. źródło bez pamięci). Chociaż różnica szybkości może być dowolnie mała, wzrosła, rzeczywista różnica nie może, chociaż teoretycznie może być ograniczona przez 1 w przypadku źródeł bez pamięci o skończonej entropii.
Redundancja w kontekstach teorii informacji może również odnosić się do informacji, które są zbędne między dwiema wzajemnymi informacjami. Na przykład, biorąc pod uwagę trzy zmienne , i , że wspólne wzajemne informacje mogą być mniejsze niż suma X krańcowych wzajemnych informacji: . tym przypadku przynajmniej część informacji o ujawnionych przez lub Jest taki sam. Takie sformułowanie redundancji jest komplementarne do pojęcia synergii, która występuje, gdy łączna wzajemna informacja jest większa niż suma marginesów, wskazując na obecność informacji ujawnianej tylko przez wspólne państwo, a nie jakikolwiek prostszy zbiór źródeł.
Zobacz też
- minimalnej redundancji Kodowanie
- Kompresja danych
- Funkcja Hartleya
- Negentropia
- Twierdzenie o kodowaniu źródłowym
- Nadmierna kompletność
- Reza, Fazlollah M. (1994) [1961]. Wprowadzenie do teorii informacji . Nowy Jork: Dover [McGraw-Hill]. ISBN 0-486-68210-2 .
- Schneier, Bruce (1996). Kryptografia stosowana: protokoły, algorytmy i kod źródłowy w C . Nowy Jork: John Wiley & Sons, Inc. ISBN 0-471-12845-7 .
- Auffarth, B; Lopez-Sanchez, M.; Cerquides, J. (2010). „Porównanie miar redundancji i istotności dla wyboru cech w klasyfikacji tkanek obrazów CT”. Postępy w eksploracji danych. Zastosowania i aspekty teoretyczne . Skoczek. s. 248–262. CiteSeerX 10.1.1.170.1528 .