Sformatowany tekst
W informatyce tekst sformatowany , tekst ze stylami lub tekst sformatowany , w przeciwieństwie do zwykłego tekstu , to tekst cyfrowy zawierający informacje o stylu wykraczające poza minimum elementów semantycznych: kolory, style ( pogrubienie , kursywa ) , rozmiary i specjalne funkcje w HTML ( takie jak hiperłącza ).
Terminologia
Tekst sformatowany nie może być właściwie identyfikowany z plikami binarnymi ani odróżniać się od tekstu ASCII. Wynika to z faktu, że sformatowany tekst niekoniecznie jest binarny, może zawierać tylko tekst, na przykład HTML , RTF lub wzbogacone pliki tekstowe, a także może zawierać wyłącznie kod ASCII. I odwrotnie, zwykły plik tekstowy może nie być ASCII (w kodowaniu takim jak Unicode UTF-8 ). [ potrzebne dalsze wyjaśnienia ] Tekst sformatowany wyłącznie tekstowo jest uzyskiwany dzięki znacznikom , które również są tekstowe, podczas gdy niektóre edytory sformatowanego tekstu, takie jak Microsoft Word, zapisują w formacie binarnym.
Początki tekstu sformatowanego
Tekst sformatowany ma swoją genezę w przedkomputerowym użyciu podkreśleń w celu ośmielenia fragmentów w rękopisach pisanych na maszynie . W pierwszych interaktywnych systemach wczesnej technologii komputerowej podkreślanie nie było możliwe, a użytkownicy nadrabiali ten brak (oraz brak formatowania w ASCII) stosując pewne symbole jako zamienniki. Na przykład nacisk można osiągnąć w ASCII na wiele sposobów:
- Wielkie litery: NIE zmyślam tego.
- Otoczenie podkreśleniami: _nie_ to zmyślam.
- Otoczenie gwiazdkami: *nie* to zmyślam.
- Odstępy: Nie zmyślam tego.
Otoczenie podkreśleniami było również używane w tytułach książek: Sprawdź to w _The_C_Programming_Language_.
Języki znaczników
Formatowanie można oznaczyć znacznikami odróżniającymi się od tekstu podstawowego znakami specjalnymi, takimi jak nawiasy ostrokątne w HTML . Na przykład ten tekst:
- Pies jest klasyfikowany jako Canis familiaris w taksonomii.
jest oznaczony w HTML w ten sposób:
< p > Pies jest klasyfikowany jako < i > Canis familiaris </ i > w taksonomii. </ p >
Tekst zapisany kursywą jest otoczony otwierającym i zamykającym znacznikiem kursywy. W LaTeX tekst byłby oznaczony w następujący sposób:
pies jest klasyfikowany jako \textit { Canis familiaris } .
Większość języków znaczników można edytować za pomocą dowolnego edytora tekstu , bez potrzeby stosowania specjalnego oprogramowania . Wiele języków znaczników można również edytować za pomocą specjalistycznego oprogramowania przeznaczonego do automatyzacji niektórych funkcji lub prezentowania danych wyjściowych jako WYSIWYG .
Sformatowane pliki dokumentów
Od czasu wynalezienia MacWrite , pierwszego edytora tekstu WYSIWYG , w którym maszynistka koduje formatowanie wizualnie, a nie poprzez wstawianie znaczników tekstowych, edytory tekstu mają tendencję do zapisywania w plikach binarnych . Otwarcie takich plików w edytorze tekstu ujawnia, że są one osadzone różnymi znakami binarnymi, albo wokół sformatowanego tekstu (np. w WordPerfect ), albo oddzielnie od niego, na początku lub na końcu pliku (np. w Microsoft Word ).
Sformatowane dokumenty tekstowe w plikach binarnych mają jednak wady związane z zakresem formatowania i poufnością. Podczas gdy zakres formatowania jest dokładnie oznaczony w językach znaczników, WYSIWYG opiera się na pamięci, to znaczy trzymaniu na przykład naciśnięcia przycisku pogrubionej czcionki, aż do anulowania. Może to prowadzić do błędów formatowania i problemów z konserwacją. Jeśli chodzi o poufność, sformatowane formaty plików dokumentów tekstowych są zwykle zastrzeżone i nieudokumentowane, co prowadzi do trudności w kompatybilności kodowania przez strony trzecie, a także do niepotrzebnych aktualizacji z powodu zmian wersji.
WordStar był popularnym edytorem tekstu, który nie używał plików binarnych z ukrytymi znakami.
OpenOffice.org Writer zapisuje pliki w formacie XML . Jednak wynikowy plik jest plikiem binarnym, ponieważ jest skompresowany ( tarballa ).
PDF to inny sformatowany format pliku tekstowego, który jest zwykle binarny (wykorzystujący kompresję tekstu oraz przechowywanie grafiki i czcionek w formacie binarnym). Jest to na ogół format przeznaczony dla użytkownika końcowego, napisany z aplikacji, takiej jak Microsoft Word lub OpenOffice.org Writer, i nie może być edytowany przez użytkownika po zakończeniu.