XHTML + głos
XHTML+Voice (powszechnie X+V ) to język XML do opisywania multimodalnych interfejsów użytkownika . Dwie zasadnicze modalności to wzrokowa i słuchowa. Wizualna interakcja jest zdefiniowana jak większość obecnych stron internetowych za pośrednictwem XHTML . Komponenty dźwiękowe są definiowane przez podzbiór Voice XML . Połączenie elementów głosowych i wizualnych dokumentów X+V odbywa się za pomocą kombinacji ECMAScript , JavaScript i XML Events .
Wejście głosowe
Wprowadzanie głosowe lub rozpoznawanie mowy opiera się na gramatykach, które definiują zestaw możliwego tekstu wejściowego. W przeciwieństwie do podejścia probabilistycznego stosowanego w popularnych pakietach oprogramowania, takich jak Dragon Naturally Speaking , podejście oparte na gramatyce dostarcza osobie rozpoznającej ważne informacje kontekstowe, które znacznie zwiększają dokładność rozpoznawania. Specyficzne formaty gramatyk obejmują JSGF .
Wyjście głosowe
Wyjście głosowe lub synteza mowy mogą odczytać dowolny ciąg w praktycznie dowolnym momencie. Ton, głośność i inne cechy można dostosować za pomocą CSS i języka syntezy mowy (SSML), jednak przeglądarka internetowa Opera nie obsługuje obecnie wszystkich tych funkcji.
Typy MIME
Wcześniej zalecanym typem MIME dla dowolnego dokumentu X+V był application/xhtml+voice+xml, którego używa przeglądarka Opera . Opera będzie również interpretować dokumenty X+V podawane jako text/xml. Obecnie zalecanym typem MIME dla dowolnego dokumentu X+V jest application/xv+xml. Ponieważ większość serwerów internetowych kojarzy rozszerzenie .xml z text/xml, rozszerzenie xml jest dość bezpiecznym sposobem na umożliwienie przeglądania statycznych plików dokumentów X+V.
Przeglądarki obsługujące X+V
Najczęściej używaną przeglądarką X+V jest Opera . Użytkownicy przeglądarki Opera mogą włączyć obsługę X+V, wykonując czynności opisane na stronie https://web.archive.org/web/20080516174104/http://www.opera.com/voice
. Głos nie jest jeszcze obsługiwany w Operze Mini ani na platformach innych niż Windows.
Wykrywanie obsługi X+V najlepiej przeprowadzać z poziomu serwera, sprawdzając nagłówek HTTP „Accept” dla typu MIME application/xhtml+voice+xml. Oto kod PHP, który zwraca wartość „true” wtedy i tylko wtedy, gdy żądająca przeglądarka obsługuje XHTML+Voice:
<?php /* Poniższy skrypt wyświetla "true" wtedy i tylko wtedy, gdy żądająca przeglądarka obsługuje XHTML+Voice. */ // Określ, czy przeglądarka wysyła nagłówek Accept. if ( isset ( $_SERVER [ 'HTTP_ACCEPT' ])) { $accept = $_SERVER [ 'HTTP_ACCEPT' ]; // Jeśli pominą typ MIME z Akceptuj, zakładają brak wsparcia. if ( strpos ( $akceptuj ,
'application/xhtml+voice+xml' ) === false ) { echo 'false' ; } else { echo 'prawda' ; } } else { echo 'fałsz' ; } ?>
Powiązana technologia
Znaczniki języka aplikacji mowy (SALT) to bardzo podobny format opracowany przez firmę Microsoft w 2001 r. w celu konkurowania z VoiceXML i XHTML+Voice. SALT zapewnia również użytkownikom wsparcie multimodalne, w tym rozpoznawanie oparte na gramatyce i syntezę mowy. Główne różnice dotyczą dostawców wsparcia. Wiele różnych firm obsługuje VoiceXML i XHTML+Voice, dostarczając różne narzędzia programistyczne, w szczególności IBM i Opera . SALT jest wspierany prawie wyłącznie firmy Microsoft, takie jak Microsoft Speech Application SDK i Microsoft Speech Server .
Linki zewnętrzne
- XHTML+Voice v1.2
- Głos — społeczność deweloperów Opery
- Podręcznik programisty XHTML+Voice
- Pobierz przeglądarkę internetową Opera
- Projekt SpeechWeb
- RFC 4374 dotyczący typu MIME
- Demonstracja wideo strony XHTML+Voice