Porównanie parserów HTML

Parsery HTML to oprogramowanie do automatycznego analizowania języka Hypertext Markup Language (HTML) . Mają dwa główne cele:

  • Przechodzenie HTML: oferuje programistom interfejs umożliwiający łatwy dostęp i modyfikację „kodu ciągu znaków HTML”. Przykład kanoniczny: parsery DOM .
  • Czyszczenie HTML: naprawa nieprawidłowego kodu HTML oraz poprawa układu i stylu wcięć wynikowego znacznika. Przykład kanoniczny: HTML Tidy .
Parser Licencja Języki implementacji Ostateczny termin* Analiza HTML Parsowanie zgodne z HTML5 Czysty kod HTML** Zaktualizuj HTML***
Porządek HTML Licencja W3C ANSI C 2021-03-24 Tak Tak Tak Tak
HtmlUnit Licencja Apache 2.0 Jawa 2021-05-16 Tak ? NIE NIE
Piękna zupa Licencja MIT Pyton 2021-12-08 Tak Tak ? NIE
HtmlUnit Licencja Apache 2.0 Jawa 2021-05-16 Tak ? NIE NIE
jzupa Licencja MIT Jawa 2022-08-24 Tak Tak Tak Tak
Parser Licencja Języki implementacji Ostateczny termin* Analiza HTML Parsowanie zgodne z HTML5 Czysty kod HTML** Zaktualizuj HTML***
* Data ostatniego wydania (istotnych zmian).
** oczyszczanie (generowanie zgodnej ze standardami strony internetowej, redukcja spamu itp.) i czyszczenie (usuwanie zbędnych tagów prezentacyjnych, usuwanie kodu XSS itp.) kodu HTML.
*** Aktualizuje HTML4.X do XHTML lub HTML5, konwertując przestarzałe tagi (np. CENTER) na prawidłowe (np. DIV with style="text-align:center;" ).