Sprachsoftware und Contentmanagent

Mehrere namhafte Webangebote nutzen heute Sprachservices. Beschleunigt wird die Entwicklung durch die Trends des WEB 2.0: Community, Podcasting und RSS. Mit der rasant fortschreitenden Entwicklung entstehen ebenfalls neue Möglichkeiten und Herausforderungen im Bereich des Contentmanagements.

I. Sprachsoftware – Need to have oder nice to have?

Sprachservices sind in jedem Fall sinnvoll für Menschen, die Sehprobleme haben, z.B. ältere Internet-User. Ähnlich ist es bei Legasthenikern oder Analphabeten. Angeblich nutzen knapp 16% von ihnen regelmäßig den Computer ( www.apoll-online.de ).

Doch Hilfsbereitschaft ist fast nie der wahre Grund, wenn sich eine Innovation in der Breite durchsetzt! Besser ist es, wenn eine Sache für den Otto-Normalverbraucher erkennbare Attraktivität besitzt.

Dass dies möglich ist, zeigt beispielsweise die Webseite der Regenburger Usability-Spezialisten von Kupferwerk . Das Unternehmen wurde für seine Softwareprodukte bereits mit einem if-Design-Award bedacht. Auf der Website wird Sprecher-Sound verwendet, um den Besuchern der Website das eigene Angebotsspektrum anschaulich zu verdeutlichen.

Hierbei handelt es sich zwar nicht um Sprachsoftware, sondern um Studioaufnahmen, doch genau deshalb sollte man fragen:

Was geht denn bei Sprachsoftware überhaupt?

Heute spricht kaum noch jemand über die einstigen TTS (Text-to-Speech)-Trendsetter „Mike“ und „Mary“ und die dazu gehörige Microsoft Speech SDK . Gleiches gilt für AT&T’s „natural-voice“ . Microsoft und AT&T gaben 2005 zwar eine strategische Partnerschaft im Hinblick auf Speech-Anwendungen bekannt, bislang allerdings ohne nennenswerte Resultate.

Dafür hat Microsoft eine neue Recognition-Software vorgestellt, die im Betriebssystem „Vista“ gleich mit enthalten ist. Quantensprünge sind jedoch kaum zu erwarten, sonst hätte die Software nicht eine derart fragwürdige Beliebtheit in der YouTube-Community gewonnen.

Knapp 400.000 mal wurde der Pannen-Clip der neuen Spracherkennungs-Software von Windows Vista auf YouTube 2006 angeschaut. Ein Guerilla-Marketing-Gag? Wohl kaum.

Wer genauer recherchiert, stellt fest, dass sich trotz derartiger Pannen einiges getan hat und künftig noch mehr tun könnte – allerdings nicht in erster Linie beim vermeintlichen Branchenprimus Microsoft.

FTD, Stern, Handelsblatt und WAZ sind nämlich keine No-Names der Medien-Branche. Die genannten Medienunternehmen verwenden seit Kurzem TTS-Software auf ihren Websites. Genauer: Sie verwenden den aus Schweden stammenden readspeaker.

Bislang noch nicht allzu bekannt: unter audionews.stern.de bietet z.B. der Stern TTS-Dienste an. Probehören kann man auch ohne Login.

Vermutlich profitieren die Sprachangebote von den Trends des WEB 2.0: Insbesondere Podcasts haben enorm an Beliebtheit zugenommen. Die neuesten Zahlen der 82. Podcast-Umfrage belegen das eindrucksvoll.

Sprachsoftware könnte also in den nächsten Jahren aus dem langjährigen Dornröschenschlaf erwachen. Nicht zuletzt Dank der Chancen von WEB 2.0.

Nachfolgend einige Erfahrungsberichte, Antworten und Thesen.

II. Welche Web-relevanten Sprachsoftware-Systeme gibt es?

Eine der besten Informationsquellen ist das Portal der Voice-Community . Der dahinter stehende harte Kern von Voice-Enthusiasten vergibt zudem den jährlichen „Voice-Award„.

Das Portal verdeutlicht die Entwicklung bei Callcentern und Voiceportalen wie denen von Excelsis . Verdeutlicht wird damit auch, was im Web-Frontend alles gehen könnte.

III. Text-to-Speech Software und Webseiten (TTS)

TTS-Produkte gibt es als Desktop-Lösung, aber auch als PlugIn z.B. für Microsoft Outlook. Damit kann man sich beispielsweise seine Emails, aber auch ganze Word-Dokumente vorlesen lassen. Der Voice-Reader von linguatec ist eine solche Software.

Ein explizites TTS-Browser-PlugIn ist aber gegenwärtig nicht vorhanden und auch in absehbarer Zukunft nicht zu erwarten. Eher wird man entsprechende TTS-Services in bereits etablierte PlugIns wie z.B. Adobe Flash integrieren. Laut gigacom ist Adobe mit dem Flash-PlugIn bereits in den VOIP-Bereich eingestiegen.

1) Einbindung von TTS basierten Soundfiles in Webangebote

Spannender erscheint deshalb die serverseitige Einbindung von Sprachsoftware. Bei dieser Art der Einbindung sind zwei Varianten zu unterscheiden:

– die dynamische Umwandlung von Text in MP3-Files.
– die statische Nutzung vorab erstellter MP3-Files

a) Dynamische MP3-Umwandlung

Tools wie der linguatec Voice-Reader oder der Readspeaker können als Serverversion jeden Text-String in ein MP3-File umwandeln.

Bei dieser Variante liegen die MP3-Files auf dem Sprach-Server. Die Dateien werden als crossdomain-Lösung in jedes beliebige Web-Angebot eingewoben.

Sich permanent ändernde Inhalte können so in Echtzeit ins MP3-Format umgewandelt werden. Potenzieller Nachteil ist die Pufferung von Inhalten über firmeneigene Proxy-Caches: Dadurch kann es zu erheblichen Verzögerungen zwischen Abruf und Abspielen einer Datei kommen.

Der größte Vorteil der dynamischen Variante: Mit ihr können alle Register von TTS-Sprachsoftware gezogen werden. So können die User selbst die Geschwindigkeit oder die Sprachhöhe bzw. auch den Sprecher (männlich oder weiblich) wählen. Die Sounds sind stets brandaktuell.

b) Statische Einbindung von MP3-Files

Mit TTS-Sprachsoftware erstellte MP3-Files können auch statisch in ein Webangebot integriert werden. Derartige Files liegen dann direkt auf dem Server des Anbieters und werden entweder über eine Datenbank-Anbindung oder ein File-System mit der Website verflochten.

Bei dieser Variante können sogar mit TTS-Desktop-Software erstellte Files auf den eigenen Server geschoben werden. Diese Lösung empfiehlt sich bei kleinen und überwiegend statischen Angeboten mit seltenen Änderungen.

Der Nachteil: Bei dieser Variante kann der User selbst keine Spracheinstellungen mehr vornehmen. Der Vorteil: Das Proxy-Cache-Risiko ist wesentlich geringer.

Nachfolgend eine Übersicht über verschiedene Webangebote mit integrierter TTS-Sprachsoftware.

TTS-Beispiele mit serverseitiger Sprachsoftware

a) Consumer- to-consumer (c2c): Agoravox.com

Nicht nur, aber auch unter dem Stichwort WEB 2.0 ein sehr interessantes Beispiel ist AGORAVOX .

AGORA VOX verdeutlicht anschaulich den Zusammenhang von WEB 2.0 und der Sprachsoftware-Entwicklung.

Das Portal bietet WEB 2.0 in Form von „Citizen-Journalism“: Die Autoren sind journalistisch interessierte Menschen, die zu allen Themen dieser Welt ihre Ansichten veröffentlichen.

Im Hinblick auf WEB 2.0 und Sprachsoftware ist weiterhin interessant:

1. Die Inhalte der Site können gelesen und per TTS gehört werden
2. Die Inhalte stehen als RSS-Feed sowie als TTS-Podcast zur Verfügung

Die TTS-Technik liefert der schwedische Readspeaker. Jeder Teaser verfügt über einen Flash-basierten MP3 Player, mit dem die News des jeweiligen Teasers vorgelesen werden können (ohne PopUp).

b) Business-to-consumer (b2c): Handelsblatt.com

Das die Website des Handelsblatt sind ebenfalls TTS-Services integriert. Verwendet wurde dafür die Software von readspeaker.

Der User erhält die Möglichkeit, die meisten Artikel über ein Kopfhörer-Symbol vorzulesen. Anschließend öffnet sich ein mit Ad-Bannern kombiniertes PopUp-Fenster.

Die Verknüpfung von Voice-Funktionen mit Advertising stellt ein interessantes Anwendungsszenario beim Handelsblatt dar.

Da sich der Kontext jedes Textes aus seiner systematischen Einordnung in die Website ergibt, lassen sich beim Advertising die zur Thematik passenden Banner ermitteln und schalten.

c) B2B: CIO.de

Als spezielles Angebot für die Zielgruppe Manager präsentiert sich das Angebot von CIO . Auch hier nutzt man die PopUp-Variante – allerdings ohne Advertising. Im PopUp kann der Sound entweder direkt angehört oder als MP3 downgeloaded werden.

Nicht nur interessant für Manager, die gerade mal ihre Lesebrille verlegt haben: Das TTS-Angebot von Cio.de.

Das Angebot von CIO stellt im Wesentlichen eine b2b Anwendung dar. Die Konsequenz: Das Angebot dürfte überdurchschnittlich häufig in Büros während der Arbeitszeiten verwendet werden.

d) TTS-Webseiten auf Basis des CMS COMMANDA

Seit kurzem gibt es den CMS COMMANDA, ein auf Adobe Flash und RSS-basiertes CMS der Firma Bulldock . Dieses CMS wurde speziell für die Einbindung von TTS Elementen in Websites optimiert.

Auf Basis des CMS COMMANDA wurde ein Angebot speziell für Kinder entwickelt: Das Tabalugaland der EM.Entertainment GmbH. Das Angebot nutzt die serverseitige Variante des Voice-Reader von linguatec (s.o.).

Das Tabalugaland bietet Inhalte für Kinder verschiedener Altersstufen. Um auch möglichst kleinen Kindern die Welt des Internet zu eröffnen, wurde TTS-Software von linguatec mit eingebunden.

Bei dem Angebot werden sämtliche Inhalte der Site zum Vorlesen angeboten: Jeder Teaser und jeder Text kann durch Klick auf ein Lautsprechersymbol vertont werden. Zusätzlich helfen vertonte Spielanleitungen den Kindern beim Erfassen von Spielregeln.

Ebenfalls auf dem CMS COMMANDA beruht die neue Website der prominenten Münchener Anwaltskanzlei Tandler, Riegger & Kollegen . Die Site wurde zeitgleich mit dem Tabalugaland entwickelt und gelauncht und verwendet ebenfalls TTS-Soundsoftware von linguatec. Durch das völlig andere Anwendungsszenario ergaben sich interessante Hinweise auf generelle Herausforderungen, die mit dem Einsatz von TTS auf Seiten der Redakteure entstehen (dazu Teil 2).

Die Seite der Kanzlei Tandler, Riegger & Kollegen nutzt TTS-Sprachsoftware, um zusätzliche Services für ihre Kunden zu bieten.

3. Zusammenfassung

Die generelle Entwicklung und die zuvor skizzierten Angebote verdeutlichen, dass TTS-Services für Websites eine neue Stufe erklommen haben. Das gilt für Business- ebenso wie für Consumer-Angebote. Damit erhält die Thematik eine neue Dynamik und ebenso erhält sie damit Nahrung für eine weitergehende Diskussion des Themas.

IV. Ausblick

Im zweiten Teil dieses Beitrags wird anhand des CMS COMMANDA dargestellt, welche Auswirkungen TTS auf den Prozess der Contenterstellung und –verwaltung hat. Ebenfalls wird dort näher untersucht, welche technischen Aspekte (z.B. XML) eine Rolle spielen und wie neue Tools der TTS-Anbeiter die Qualität von entsprechenden Sprachsoftware künftig rasant verbessern können.

Mehr zur persönlichen Definition eines Content Management Systems.

Zurück zu Content Manager.