XHTML + głos

XHTML+Voice (powszechnie X+V ) to język XML do opisywania multimodalnych interfejsów użytkownika . Dwie zasadnicze modalności to wzrokowa i słuchowa. Wizualna interakcja jest zdefiniowana jak większość obecnych stron internetowych za pośrednictwem XHTML . Komponenty dźwiękowe są definiowane przez podzbiór Voice XML . Połączenie elementów głosowych i wizualnych dokumentów X+V odbywa się za pomocą kombinacji ECMAScript , JavaScript i XML Events .

Wejście głosowe

Wprowadzanie głosowe lub rozpoznawanie mowy opiera się na gramatykach, które definiują zestaw możliwego tekstu wejściowego. W przeciwieństwie do podejścia probabilistycznego stosowanego w popularnych pakietach oprogramowania, takich jak Dragon Naturally Speaking , podejście oparte na gramatyce dostarcza osobie rozpoznającej ważne informacje kontekstowe, które znacznie zwiększają dokładność rozpoznawania. Specyficzne formaty gramatyk obejmują JSGF .

Wyjście głosowe

Wyjście głosowe lub synteza mowy mogą odczytać dowolny ciąg w praktycznie dowolnym momencie. Ton, głośność i inne cechy można dostosować za pomocą CSS i języka syntezy mowy (SSML), jednak przeglądarka internetowa Opera nie obsługuje obecnie wszystkich tych funkcji.

Typy MIME

Wcześniej zalecanym typem MIME dla dowolnego dokumentu X+V był application/xhtml+voice+xml, którego używa przeglądarka Opera . Opera będzie również interpretować dokumenty X+V podawane jako text/xml. Obecnie zalecanym typem MIME dla dowolnego dokumentu X+V jest application/xv+xml. Ponieważ większość serwerów internetowych kojarzy rozszerzenie .xml z text/xml, rozszerzenie xml jest dość bezpiecznym sposobem na umożliwienie przeglądania statycznych plików dokumentów X+V.

Przeglądarki obsługujące X+V

Najczęściej używaną przeglądarką X+V jest Opera . Użytkownicy przeglądarki Opera mogą włączyć obsługę X+V, wykonując czynności opisane na stronie https://web.archive.org/web/20080516174104/http://www.opera.com/voice

. Głos nie jest jeszcze obsługiwany w Operze Mini ani na platformach innych niż Windows.

Wykrywanie obsługi X+V najlepiej przeprowadzać z poziomu serwera, sprawdzając nagłówek HTTP „Accept” dla typu MIME application/xhtml+voice+xml. Oto kod PHP, który zwraca wartość „true” wtedy i tylko wtedy, gdy żądająca przeglądarka obsługuje XHTML+Voice:








  
      
    
      <?php  /*  Poniższy skrypt wyświetla "true" wtedy i tylko wtedy, gdy żądająca przeglądarka  obsługuje XHTML+Voice.  */  // Określ, czy przeglądarka wysyła nagłówek Accept.  if  (  isset  (  $_SERVER  [  'HTTP_ACCEPT'  ]))  {  $accept  =  $_SERVER  [  'HTTP_ACCEPT'  ];  // Jeśli pominą typ MIME z Akceptuj, zakładają brak wsparcia.  if  (  strpos  (  $akceptuj  ,     
         
      
         
    
  
     

 'application/xhtml+voice+xml'  )  ===  false  )  {  echo  'false'  ;  }  else  {  echo  'prawda'  ;  }  }  else  {  echo  'fałsz'  ;  }  ?>

Powiązana technologia

Znaczniki języka aplikacji mowy (SALT) to bardzo podobny format opracowany przez firmę Microsoft w 2001 r. w celu konkurowania z VoiceXML i XHTML+Voice. SALT zapewnia również użytkownikom wsparcie multimodalne, w tym rozpoznawanie oparte na gramatyce i syntezę mowy. Główne różnice dotyczą dostawców wsparcia. Wiele różnych firm obsługuje VoiceXML i XHTML+Voice, dostarczając różne narzędzia programistyczne, w szczególności IBM i Opera . SALT jest wspierany prawie wyłącznie firmy Microsoft, takie jak Microsoft Speech Application SDK i Microsoft Speech Server .

Linki zewnętrzne