Ein Diphon beschreibt in der konkatenativen Sprachsynthese den kurzen Abschnitt (Baustein) gesprochener Sprache, der in der Mitte eines Phons beginnt und in der Mitte des folgenden Phons endet. Ein Diphon enthält dadurch den durch Koartikulation entstehenden Übergang zwischen den beiden Lauten. Die Verkettung von Bausteinen, die jeweils nur ein Phon umfassen (Allophonsynthese), führt bei der Sprachsynthese nur zu äußerst unbefriedigenden Ergebnissen, da die Koartikulation zwischen den Lauten in diesem Fall nicht berücksichtigt werden kann. Im Gegensatz dazu führt Diphonsynthese bereits zu erstaunlich guten Resultaten, die verständlich und hinreichend natürlich klingen. Die Qualität lässt sich durch die Verwendung längerer Bausteine anstelle von Diphonen (zum Beispiel Silben, häufige Wörter oder Lautfolgen) weiter steigern, was allerdings oft aus Gründen der Inventargröße nicht mehr praktikabel ist.

Die verwendeten Diphonbausteine werden im Verlauf der Synthese zum Beispiel mit Hilfe des PSOLA-Algorithmus in ihren prosodischen Informationen (Stärke, Grundfrequenz, Dauer) manipuliert, um eine natürliche Sprechmelodie zu erzeugen.

Drei Sprachsynthese-Systeme, die auf Basis der Diphonsynthese funktionieren, sind DreSS, SVOX und das kostenlose Programm Mbrola.

In natürlichen Sprachen kommen meistens nicht alle kombinatorisch möglichen Diphone vor; z. B. gibt es im Deutschen kein Wort mit der Lautfolge [p͡fœ̃ː], da [p͡f] nur im Deutschen und [œ̃ː] nur im Französischen bzw. davon entlehnten Wörtern üblich ist.

Bearbeiten