Was für den Menschen sehr einfach klingt, ist für einen Computer ein
sehr aufwendiges und komplexes Problem.
Spricht ein Mensch in ein Mikrofon, so muss der Rechner die Töne
aufzeichnen, analysieren und sie inhaltlich sinnvoll und
grammatikalisch korrekt in einen Text umwandeln. Erschwerend kommt
für den Rechner hinzu, dass die Stimme des Anwenders je nach
Tageszeit und -form natürlichen Schwankungen unterliegt oder durch
einen Dialekt in der Aussprache verfremdet sein kann.
Moderne Computersysteme sind aufgrund ihrer heute sehr
leistungsfähigen Hardware- und Software-Ausstattung in der Lage,
diese schweren Aufgaben durchzuführen und fließende Sprache in Text
umzusetzen. Insbesondere in der Kombination mit Dragon
NaturallySpeaking ist ein Rechner in Sekundenbruchteilen in der
Lage, Diktate zu verstehen und in Text umzuwandeln.
Heute geschieht das nicht mehr nur auf Basis der reinen Erkennung
von sog. "Phonemen", d.h. Klangbildern von Silben oder
Sprachbestandteilen, sondern es werden von der Erkennungssoftware
ergänzend die Umgebungsinformationen und Zusammenhänge von Wörtern
im Satzkontext benutzt, um mit zusätzlichen statistischen Verfahren
eine hohe Erkennungsrate zu erreichen und z.B. während des Diktats
zwischen "Rad" und "Rat" unterscheiden zu können.