Sorry, lieber Ulf Beyschlag, wenn es um Barrierefreiheit
-
geht, mag Readspeaker wirklich eine Berechtigung haben, aber es ist immer noch spaßfrei, Beiträgen wie dem bei Cinema zuzuhören. Man möge sich hier melden, wer anderer Meinung ist.
Ich wäre der erste der eine Technik promoten würde, die hörbar vorlesen kann – aber assoziatives Hören, bei dem ich versuche aus dem Wortfetzen die Bedeutung zu erahnen, geht gar nicht.
Es gibt keine Software, die dem Thema Barrierefreiheit einen schlimmeren Imageschaden verpasst als Readspeaker. Jede Sprachausgabe, die blinden Menschen Webseiten zugänglich macht, spricht besser als Readspeaker. Readspeaker ist auch kein Podcastersatz oder Podcastwerkzeug. Ich bin durchaus für Lösungen für Menschen mit Lernschwierigkeiten, die nicht gut Lesen können, aber diese Qualität kann nicht die Lösung sein. Und teuer ist sie auch noch.
Da ich hier direkt angesprochen wurde, reagiere ich auch gerne auf beide Einträge.
Zunächst zu Qualität und Barrierefreiheit. Wir kaufen grundsätzlich die besten Text-To-Speech (TTS) Lösungen ein, die es für die deutsche Sprache gibt. Darüberhinaus haben wir Wörterbücher pro Stimme und auch pro Kunde, über die wir laufend die Aussprachequalität noch weiter verbessern. Und über regelbasierende Systeme optimieren wir das Vorlesen in Echtzeit websitespezifisch. Insofern ist es kaum möglich, dass es eine Sprachausgabe gibt, die qualitativ besser sein kann. Für Hinweise bin ich dankbar. Die Bemerkung zum Image kann ich absolut nicht nachvollziehen und wird auch nicht von den relevanten Gruppen geteilt. Entscheidend ist, ob eine Funktion vom Markt angenommen wird. Und das ist sowohl bei Websiteanbietern und Nutzern der Fall.
Nun zu Cinema. Hier bin ich mit Thomas Wanhoff einer Meinung, dass die derzeitige Qualität nicht zufriedenstellend ist. Bei diesem spezifischen Podcast helfen keine Wörterbücher mit 240.000 Wörtern und eine zweisprachige TTS. Da gibt es einfach zu viele englische Wörter und Namen. Hier habe ich der Redaktion bereits eine systematische Ergänzung des Wörterbuchs vorgeschlagen. Vom extremen Einzelfall läßt sich aber nicht auf die Allgemeinheit schließen.
Ich habe mir den Beitrag von Cinema gerade einmal angehört – der klingt wirklich grausig!
Aus betriebswirtschaftlicher Sicht kann ich Herrn Beyschlags Aussage verstehen – es ist natürlich entscheidend, ob eine Funktion vom Markt angenommen wird oder nicht. Allerdings sollte aus linguistischer Sicht schon ein gewisser “Qualitätsanspruch” vorhanden sein.
Ich verstehe die Aussage “Bei diesem spezifischen Podcast helfen keine Wörterbücher mit 240.000 Wörtern und eine zweisprachige TTS” nicht.
Ein zweisprachiges TTS-System wäre aus linguistischer Sicht exakt das, was die Website benötigt, oder nicht?! Andernfalls wird man nie die Qualität bekommen, die ein *normales* Zuhören ermöglicht.
Natürlich ist es möglich, ein vorhandenes Wörterbuch so auszuweiten, dass einigermaßen passable Ergebnisse dabei herauskommen (bei dem angesprochenen Podcast geht es ja ums Filmgeschäft – der 1. logische Schritt wäre meiner Meinung nach also eine Ausweitung des Wörterbuchs auf Namen von bekannten Schauspielern!).
Allerdings wird das zugrundeliegende System immer deutsche Ausspracheregeln anwenden, was die Qualität erheblich beeinträchtigt.
Ein Lösungsansatz hierfür wäre meiner Meinung nach NICHT eine zweisprachige Stimme im herkömmlichen Sinn (so müsste man immer Kompromisse bei den Ausspracheregeln machen), sondern 2 unterschiedliche Stimmen der beiden Sprachen (hier ja offensichtlich Deutsch und Englisch) vom gleichen voice talent. Man nehme einen bilingualen Sprecher und entwickle 2 Stimmen mit ihm, eine deutsche und eine englische. Nun lässt man bei der Generierung des Podcasts eine syntaktische und semantische Analyse des Eingabetexts laufen um zu ermitteln wo “Fremdwörter” (Basis-Sprache: Deutsch, “Fremdwörter”: Englisch) auftauchen. Abschließend annotiert man den Eingabetext aufgrund der Analyse (z.B. mit SSML) und schickt ihn an das TTS-System mit den beiden Stimmen (dieses muss natürlich in der Lage sein, SSML-Tags on-the-fly umzusetzen, ein solches System bietet z.B. die Firma Cepstral aus Pittsburgh).
Ich habe das händisch, sprich durch mehr oder weniger manuelle Auszeichnung des Eingabetexts – allerdings mangels zweier Stimmen vom gleichen voice talent mit 2 unterschiedlichen Stimmen – schon einmal umgesetzt und es funktioniert technisch recht gut.
Leider habe ich bis jetzt noch nie gehört, dass eine Firma mit einem bilingualen Sprecher 2 Stimmen entwickelt hat – ein Versuch wäre es wert.
Für Kommentare zu meinem Lösungsansatz wäre ich dankbar.
Ach ja: Ich werde mit Interesse verfolgen, wie das System auf heise.de “angenommen” wird – aber viel wichtiger: Wie ist die Qualität des TTS-Systems in der (sehr englischlastigen) Domäne Computer/Internet/Technik?!
Man darf gespannt sein …