Korpus Canterbury

Korpus Canterbury to zbiór plików przeznaczonych do wykorzystania jako punkt odniesienia do testowania algorytmów bezstratnej kompresji danych . Został stworzony w 1997 roku na Uniwersytecie Canterbury w Nowej Zelandii i miał zastąpić korpus Calgary . Pliki zostały wybrane na podstawie ich zdolności do zapewnienia reprezentatywnych wyników wydajności.

Zawartość

W swojej najczęściej używanej formie korpus składa się z 11 plików wybranych jako „przeciętne” dokumenty z 11 klas dokumentów, o łącznej wielkości 2 810 784 bajtów w następujący sposób.

Rozmiar (bajty) Nazwa pliku Opis
152 089 alicja 29.txt angielski tekst
125179 asyoulik .txt Szekspir
24603 cp.html źródło HTML
11150 pola.c źródło C
3721 gramatyka.lsp źródło LISP- a
1 029 744 kennedy.xls Excel arkusz kalkulacyjny
426754 lcet10.txt Techniczne pisanie
481861 plrabn12.txt Poezja ( Raj utracony )
513216 pt5 Zestaw testów CCITT
38240 suma Plik wykonywalny SPARC
4227 xargs .1 Strona podręcznika GNU

Zobacz też

Linki zewnętrzne