Weźmiemy bliżej przyjrzeć się dokładnie tak, jak robi to dalej. Największa Rozpoznawanie mowy i statystycznych Modelowanie Największa
systemy rozpoznawania mowy wczesnego próbował zastosować zestaw reguł gramatycznych i składniowych do mowy. Jeśli słowa wypowiedziane pasuje do pewnego zbioru zasad, program może określić, jakie słowa były. Jednak ludzki język ma liczne wyjątki własnymi zasadami, nawet, gdy jest używany konsekwentnie. Akcent, dialekty i maniery mogą znacznie zmienić sposób pewne słowa lub wyrażenia są wypowiedziane. Wyobraź sobie kogoś z Bostonu mówiąc słowa ". Barn " On nie będzie wymawiać " R " w ogóle, a słowo wychodzi rymuje się z ". John " Lub rozważyć zdanie, " mam zamiar zobaczyć ocean ". Większość ludzi nie ogłosić swoje słowa bardzo ostrożnie. Wynik może przyjść jako " Idę da patrz tha ocean ". Biegną kilku słów wraz z bez zauważalnej przerwy, takie jak " Idę " i ". ocean " Systemy oparte na regułach nie powiodły się, bo nie mógł znieść te zmiany. To również wyjaśnia, dlaczego wcześniejsze systemy nie mógł obsłużyć ciągły mowy. - Trzeba było mówić każde słowo oddzielnie, w krótkiej przerwie między nimi Największa
Dzisiejsze systemy rozpoznawania mowy wykorzystywać potężne i skomplikowane systemy modelowania statystycznego. Systemy te wykorzystują prawdopodobieństwa i funkcje matematyczne, aby określić najbardziej prawdopodobny wynik. Według Johna Garofolo, Kierownik Grupy przemówienie na Information Technology Laboratorium Narodowy Instytut Standardów i Technologii, dwa modele, które dominują pola są dziś Hidden Markov model i sieci neuronowe. Metody te obejmują skomplikowane funkcje matematyczne, ale zasadniczo, biorą informacje znanego systemu, aby dowiedzieć się informacji przed nim ukryty. Największa
The Hidden Markov model jest najczęściej, więc musimy przyjrzeć się bliżej w tym procesie. W tym modelu, każdy fonem jest jak ogniwo łańcucha, łańcuch i zakończona jest słowem. Jednak oddziały łańcuchowe w różnych kierunkach jak program próbuje dopasować dźwięk cyfrowy z fonem, który jest najprawdopodobniej przyszłym. Podczas tego procesu, program przypisuje wynik prawdopodobieństwo każdego fonemu, opiera się na wbudo