Odkrycie wiedza
/ Knowledge Discovery >> Odkrycie wiedza >> tech >> elektronika >> gadżety >>

Jak Rozpoznawanie mowy Rozpoznawanie mowy Works Works

ykonane więcej niż 10 lat temu, w obliczu wyboru między również dyskretnej i ciągłej mowy. Jest to znacznie łatwiejsze do programu, aby zrozumieć słowa, gdy je mówić oddzielnie, z wyraźną przerwą pomiędzy każdym z nich. Jednak większość użytkowników woli mówić normalnym, konwersacji prędkości. Prawie wszystkie nowoczesne systemy są w stanie zrozumieć ciągłej mowy. Największa Dziękuję

W tym artykule, rozmawialiśmy z Janem Garofolo, Kierownik Grupy przemówienie na Information Technology Laboratorium Narodowego Instytutu Standardów i Technologii. Chcielibyśmy również podziękować Joshua Senecal za pomoc z tego artykułu. Największa Przemówienie do danych Największa

Aby przekonwertować mowy na tekst na ekranie komputera lub polecenia, komputer musi przejść przez kilka skomplikowanych kroków , W trakcie rozmowy można utworzyć wibracje w powietrzu. Analogowo-cyfrowe (ADC) tłumaczy to falę analogowego na dane cyfrowe, które komputer może zrozumieć. Aby to zrobić, to próbki lub przekształca dźwięk poprzez precyzyjne pomiary fali w krótkich odstępach czasu. System filtruje dźwięk usunąć digitalizacji niepożądanych szumów, a czasem rozdzielać go na różnych pasmach częstotliwości (częstotliwość jest długość fali fal dźwiękowych, słyszał przez ludzi, jak różnice w skoku). Normalizuje również dźwięk lub dostosowuje je do stałego poziomu głośności. Może on mieć również być czasowo wyrównane względem siebie. Ludzie nie zawsze mówią z taką samą prędkością, więc dźwięk musi być dostosowywana do prędkości próbek dźwiękowych szablon już zapisanych w pamięci systemu. Największa

Następnie sygnał jest podzielony na małe segmenty w krótkich, jak kilka setnych sekundy, a nawet tysięczne w przypadku plosive spółgłosek - spółgłoska przystanki produkowane przez utrudnianie przepływu powietrza w głosowego - jak " P " lub ". t " Następnie program dopasowuje te segmenty znanych fonemów w odpowiednim języku. Fonem jest najmniejszym elementem języka - reprezentacja dźwięków, które podejmujemy i ułożyła do postaci wyrażeń sensownych. Istnieje około 40 fonemów w języku angielskim (różne lingwiści mają różne opinie na temat dokładnej liczby), podczas gdy inne języki mają więcej lub mniej fonemów. Największa

Kolejnym krokiem wydaje się proste, ale jest najtrudniej osiągnięcia i ostrość jest w większości badań rozpoznawania mowy. Program ten analizuje fonemy w kontekście innych fonemów wokół nich. Działa pod kontekstowe fonem działki za pomocą skomplikowa

Page [1] [2] [3] [4] [5] [6] [7]