Haupt Technologie

Spracherkennungstechnologie

Spracherkennungstechnologie
Spracherkennungstechnologie

Video: Videoanleitung 6 : Intelligent VOICE-Funktion mit Google-Spracherkennungstechnologie 2024, Juli

Video: Videoanleitung 6 : Intelligent VOICE-Funktion mit Google-Spracherkennungstechnologie 2024, Juli
Anonim

Spracherkennung, die Fähigkeit von Geräten, auf gesprochene Befehle zu reagieren. Die Spracherkennung ermöglicht die Freisprechsteuerung verschiedener Geräte und Ausrüstungen (ein besonderer Segen für viele behinderte Menschen), liefert Eingaben für die automatische Übersetzung und erstellt ein druckfertiges Diktat. Zu den frühesten Anwendungen für die Spracherkennung gehörten automatisierte Telefonsysteme und medizinische Diktiersoftware. Es wird häufig zum Diktieren, zum Abfragen von Datenbanken und zum Erteilen von Befehlen an computergestützte Systeme verwendet, insbesondere in Berufen, die auf speziellen Vokabeln beruhen. Es ermöglicht auch persönliche Assistenten in Fahrzeugen und Smartphones wie Apples Siri.

Bevor eine Maschine Sprache interpretieren kann, muss ein Mikrofon die Schwingungen der Stimme einer Person in ein wellenförmiges elektrisches Signal umwandeln. Dieses Signal wird wiederum von der Hardware des Systems - beispielsweise der Soundkarte eines Computers - in ein digitales Signal umgewandelt. Es ist das digitale Signal, das ein Spracherkennungsprogramm analysiert, um separate Phoneme, die Grundbausteine ​​der Sprache, zu erkennen. Die Phoneme werden dann zu Wörtern rekombiniert. Viele Wörter klingen jedoch gleich, und um das entsprechende Wort auszuwählen, muss sich das Programm auf den Kontext verlassen. Viele Programme stellen den Kontext durch Trigrammanalyse her, eine Methode, die auf einer Datenbank mit häufigen Drei-Wort-Clustern basiert, in denen Wahrscheinlichkeiten zugewiesen werden, dass auf zwei beliebige Wörter ein bestimmtes drittes Wort folgt. Wenn ein Sprecher beispielsweise "Wer bin" sagt, wird das nächste Wort eher als das Pronomen "Ich" als als das ähnlich klingende, aber weniger wahrscheinliche "Auge" erkannt. Trotzdem ist manchmal ein menschliches Eingreifen erforderlich, um Fehler zu korrigieren.

Programme zum Erkennen einiger isolierter Wörter, wie z. B. Telefon-Sprachnavigationssysteme, funktionieren für fast jeden Benutzer. Andererseits müssen kontinuierliche Sprachprogramme wie Diktierprogramme trainiert werden, um die Sprachmuster einer Person zu erkennen. Bei der Schulung liest der Benutzer Textbeispiele vor. Mit der wachsenden Leistung von PCs und Mobilgeräten hat sich die Genauigkeit der Spracherkennung heute deutlich verbessert. In Vokabeln mit Zehntausenden von Wörtern wurde die Fehlerrate auf etwa 5 Prozent reduziert. Eine noch größere Genauigkeit wird in begrenzten Vokabeln für spezielle Anwendungen wie das Diktieren radiologischer Diagnosen erreicht.