Korpus Canterbury
Korpus Canterbury to zbiór plików przeznaczonych do wykorzystania jako punkt odniesienia do testowania algorytmów bezstratnej kompresji danych . Został stworzony w 1997 roku na Uniwersytecie Canterbury w Nowej Zelandii i miał zastąpić korpus Calgary . Pliki zostały wybrane na podstawie ich zdolności do zapewnienia reprezentatywnych wyników wydajności.
Zawartość
W swojej najczęściej używanej formie korpus składa się z 11 plików wybranych jako „przeciętne” dokumenty z 11 klas dokumentów, o łącznej wielkości 2 810 784 bajtów w następujący sposób.
Rozmiar (bajty) | Nazwa pliku | Opis |
---|---|---|
152 089 | alicja 29.txt | angielski tekst |
125179 | asyoulik .txt | Szekspir |
24603 | cp.html | źródło HTML |
11150 | pola.c | źródło C |
3721 | gramatyka.lsp | źródło LISP- a |
1 029 744 | kennedy.xls | Excel arkusz kalkulacyjny |
426754 | lcet10.txt | Techniczne pisanie |
481861 | plrabn12.txt | Poezja ( Raj utracony ) |
513216 | pt5 | Zestaw testów CCITT |
38240 | suma | Plik wykonywalny SPARC |
4227 | xargs .1 | Strona podręcznika GNU |
Zobacz też
Linki zewnętrzne
Kategorie: