Wartości oddzielone tabulatorami
Rozszerzenie nazwy pliku |
.tsv , .tab
|
---|---|
Rodzaj mediów internetowych |
tekst/wartości oddzielone tabulatorami
|
Typ formatu | wieloplatformowe, szeregowe strumienie danych |
Pojemnik na | z bazy danych zorganizowane jako listy oddzielone polami |
Standard | Typ IANA MIME |
Wartości rozdzielane tabulatorami ( TSV ) to prosty tekstowy format plików do przechowywania danych tabelarycznych . Rekordy są oddzielone znakami nowej linii , a wartości w rekordzie są oddzielone znakami tabulacji . Format TSV jest zatem wartości oddzielonych ogranicznikami , podobnie jak wartości oddzielone przecinkami .
TSV to prosty format pliku, który jest szeroko obsługiwany, dlatego często jest używany w wymianie danych do przenoszenia danych tabelarycznych między różnymi programami komputerowymi obsługującymi ten format. Na przykład plik TSV może służyć do przesyłania informacji z bazy danych do arkusza kalkulacyjnego .
Przykład
Głowa zestawu danych kwiatu Iris może być przechowywana jako TSV przy użyciu następującego zwykłego tekstu (należy pamiętać, że renderowanie HTML może konwertować tabulatory na spacje):
Długość płatka Szerokość płatka Długość płatka Szerokość płatka Gatunek 5,1 3,5 1,4 0,2 I. setosa 4,9 3,0 1,4 0,2 I. setosa 4,7 3,2 1,3 0,2 I. setosa 4,6 3,1 1,5 0,2 I. setosa 5,0 3,6 1,4 0,2 I. setosa
Powyższy zwykły tekst TSV odpowiada następującym danym tabelarycznym:
Długość działki | Szerokość działki | Długość płatka | Szerokość płatka | Gatunek |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0,2 | I. setosa |
4.9 | 3.0 | 1.4 | 0,2 | I. setosa |
4.7 | 3.2 | 1.3 | 0,2 | I. setosa |
4.6 | 3.1 | 1.5 | 0,2 | I. setosa |
5.0 | 3.6 | 1.4 | 0,2 | I. setosa |
Ucieczka postaci
Standard typu nośnika IANA dla TSV osiąga prostotę, po prostu nie zezwalając na tabulatory w polach.
Ponieważ wartości w formacie TSV nie mogą zawierać literalnych tabulatorów ani znaków nowej linii , konieczna jest konwencja bezstratnej konwersji wartości tekstowych tymi znakami. Powszechną konwencją jest wykonywanie następujących ucieczek :
sekwencja ewakuacyjna | oznaczający |
---|---|
\N
|
wysuw linii |
\T
|
patka |
\R
|
powrót karetki |
\\
|
ukośnik wsteczny |
Inną popularną konwencją jest użycie konwencji CSV z RFC 4180 i umieszczanie wartości zawierających tabulatory lub znaki nowej linii w podwójnych cudzysłowach. Może to prowadzić do niejasności. [ wymagane wyjaśnienie ]
Inną niejasnością jest to, czy rekordy są oddzielone wysuwem wiersza, co jest typowe dla platform Unix, czy powrotem karetki i wysuwem wiersza, co jest typowe dla platform Microsoftu. Wiele programów, takich jak LibreOffice, oczekuje znaku powrotu karetki, po którym następuje znak nowej linii.
Zobacz też
- ^ „Jak korzystać z plików z wartościami rozdzielanymi tabulatorami (TSV)” . Międzynarodowy Fundusz Walutowy . Źródło 2023-02-01 .
- ^ „Definicja wartości rozdzielanych tabulatorami (tsv)” . Internetowy Urząd Numerów Przydzielonych (IANA) .
- ^ „Liniowy TSV” . Protokoły danych - Fundacja Otwartej Wiedzy .
- ^ „Podręcznik jq” . stedolan.github.io .
Bibliografia
- IANA , Text Media Types, Definition of tab-separated-values (tsv) , Paul Lindner, U of MN Internet Gopher Team, czerwiec 1993
- Tab Separated Values (TSV): format tabelarycznej wymiany danych , Jukka Korpela, utworzony 2000-09-01, ostatnia aktualizacja 2005-02-12.
Linki zewnętrzne
- Format pliku wartości rozdzielanych tabulatorami , instrukcja Gnumeric