Porównanie parserów HTML
Parsery HTML to oprogramowanie do automatycznego analizowania języka Hypertext Markup Language (HTML) . Mają dwa główne cele:
- Przechodzenie HTML: oferuje programistom interfejs umożliwiający łatwy dostęp i modyfikację „kodu ciągu znaków HTML”. Przykład kanoniczny: parsery DOM .
- Czyszczenie HTML: naprawa nieprawidłowego kodu HTML oraz poprawa układu i stylu wcięć wynikowego znacznika. Przykład kanoniczny: HTML Tidy .
Parser | Licencja | Języki implementacji | Ostateczny termin* | Analiza HTML | Parsowanie zgodne z HTML5 | Czysty kod HTML** | Zaktualizuj HTML*** |
---|---|---|---|---|---|---|---|
Porządek HTML | Licencja W3C | ANSI C | 2021-03-24 | Tak | Tak | Tak | Tak |
HtmlUnit | Licencja Apache 2.0 | Jawa | 2021-05-16 | Tak | ? | NIE | NIE |
Piękna zupa | Licencja MIT | Pyton | 2021-12-08 | Tak | Tak | ? | NIE |
HtmlUnit | Licencja Apache 2.0 | Jawa | 2021-05-16 | Tak | ? | NIE | NIE |
jzupa | Licencja MIT | Jawa | 2022-08-24 | Tak | Tak | Tak | Tak |
Parser | Licencja | Języki implementacji | Ostateczny termin* | Analiza HTML | Parsowanie zgodne z HTML5 | Czysty kod HTML** | Zaktualizuj HTML*** |
- * Data ostatniego wydania (istotnych zmian).
- ** oczyszczanie (generowanie zgodnej ze standardami strony internetowej, redukcja spamu itp.) i czyszczenie (usuwanie zbędnych tagów prezentacyjnych, usuwanie kodu XSS itp.) kodu HTML.
- *** Aktualizuje HTML4.X do XHTML lub HTML5, konwertując przestarzałe tagi (np. CENTER) na prawidłowe (np. DIV with
style="text-align:center;"
).
Kategorie: