W tym artykule, rozmawialiśmy z Janem Garofolo, Kierownik Grupy przemówienie na Information Technology Laboratorium Narodowego Instytutu Standardów i Technologii. Chcielibyśmy również podziękować Joshua Senecal za pomoc z tego artykułu. Największa Przemówienie do danych Największa
Aby przekonwertować mowy na tekst na ekranie komputera lub polecenia, komputer musi przejść przez kilka skomplikowanych kroków , W trakcie rozmowy można utworzyć wibracje w powietrzu. Analogowo-cyfrowe (ADC) tłumaczy to falę analogowego na dane cyfrowe, które komputer może zrozumieć. Aby to zrobić, to próbki lub przekształca dźwięk poprzez precyzyjne pomiary fali w krótkich odstępach czasu. System filtruje dźwięk usunąć digitalizacji niepożądanych szumów, a czasem rozdzielać go na różnych pasmach częstotliwości (częstotliwość jest długość fali fal dźwiękowych, słyszał przez ludzi, jak różnice w skoku). Normalizuje również dźwięk lub dostosowuje je do stałego poziomu głośności. Może on mieć również być czasowo wyrównane względem siebie. Ludzie nie zawsze mówią z taką samą prędkością, więc dźwięk musi być dostosowywana do prędkości próbek dźwiękowych szablon już zapisanych w pamięci systemu. Największa
Następnie sygnał jest podzielony na małe segmenty w krótkich, jak kilka setnych sekundy, a nawet tysięczne w przypadku plosive spółgłosek - spółgłoska przystanki produkowane przez utrudnianie przepływu powietrza w głosowego - jak " P " lub ". t " Następnie program dopasowuje te segmenty znanych fonemów w odpowiednim języku. Fonem jest najmniejszym elementem języka - reprezentacja dźwięków, które podejmujemy i ułożyła do postaci wyrażeń sensownych. Istnieje około 40 fonemów w języku angielskim (różne lingwiści mają różne opinie na temat dokładnej liczby), podczas gdy inne języki mają więcej lub mniej fonemów. Największa
Kolejnym krokiem wydaje się proste, ale jest najtrudniej osiągnięcia i ostrość jest w większości badań rozpoznawania mowy. Program ten analizuje fonemy w kontekście innych fonemów wokół nich. Działa pod kontekstowe fonem działki za pomocą skomplikowa