Worterkennungsrate

Genauigkeitsmaß für Spracherkennungssysteme

Die Worterkennungsrate ist ein Maß, um die Genauigkeit eines Spracherkennungssystems zu beurteilen. Dabei wird die vom System erkannte Wörterkette mit der tatsächlich gesprochenen Kette verglichen und die Anzahl der wiedererkannten Wörter ermittelt.

Neben der Erkennungsgeschwindigkeit, die als Echtzeitfaktor (EZF) angegeben wird, sowie der Wortakkuratheit ist die Worterkennungsrate das wesentliche Maß zur Qualitätsbeurteilung des Spracherkennungssystems.

Definiert wird sie als

wobei N die Zahl der Wörter in der Referenz ist und C die Zahl der korrekt erkannten Wörter. Im Gegensatz zur Wortakkuratheit kann die Worterkennungsrate nicht negativ werden.

Ein kleines Beispiel zeigt die Berechnung:

Gesprochener Satz Einst stritten sich Nordwind und Sonne
Erkannte Wörter Erst stritten Nordwind sich und Sonne
Fehlerart S D I

Es ergibt sich eine Erkennungsrate von 66,6 %, da die Insertionen nicht als Fehler angesehen werden.

In der Bewertung von Spracherkennern ist die Wortakkuratheit weiter verbreitet als die Erkennungsrate, da die Worterkennungsrate beliebig optimiert werden kann, indem an jeder Stelle der erkannten Kette möglichst viele Wörter ausgegeben werden. Dagegen findet das Maß in der medizinischen Sprachverarbeitung eine weite Verbreitung, um die Verständlichkeit von Sprech- und Stimmstörungen zu untersuchen.

Bearbeiten