Auphonic

Auphonic ist eine Webapp, die Videos und Audios dank Spracherkennung transkribieren kann. Journalisten können sich so stundenlanges Abtippen sparen. 

Innovativität: Einstellungsoptionen: Nutzerfreundlichkeit: Design:

Meine Meinung

Ich bin verliebt! Zugegeben: Auphonic protzt nicht gerade mit Sexappeal, doch die inneren Werte wiegen alles auf. Die mögliche Anbindung an die Spracherkennungssoftware von Google macht Auphonic sehr mächtig. Interviewtranskripte muss man wohl in Zukunft nie wieder von Hand tippen!

Wer Bleiwüsten schon länger verfolgt, hat vielleicht mitbekommen, dass ich Transkripte schreiben hasse: Es ist wichtig, aber kostet leider unglaublich viel Zeit – auch wenn man das 10-Fingersystem beherrscht oder auch oTranscribe kennt. Vergesst oTranscribe. Auphonic ist so viel besser. Ich würde sogar behaupten, es ist die Zukunft. Mein Traum, Transkripte nicht mehr selbst tippen zu müssen, ist in Erfüllung gegangen. Kein Scheiß. 

Fakten & Daten

Preis

Sprache
Lernzeit
Arbeitszeit
Ausspielart
Tutorial
Support

|

|
|
|
|
|
|

Basic: kostenlos
Pro: ab 9 Euro
englisch
2 Stunden
10 Minuten
HTML-Datei
Youtube
Homepage


zum Tool

Der Witz ist: Auphonic – übrigens eine Plattform aus Österreich – versucht eigentlich ein ganz anderes Problem zu lösen. Auphonic dient dazu, Audios oder Videodateien zu analyisieren und sie in verschiedenen Formaten aufzubereiten. Unterschiedliche Lautstärken werden angegleichen, Musik oder die Aufnahmen automatisch von Störgeräuschen befreit und erneut als bereinigte Datei zur Verfügung gestellt. Doch Auphonic unterstützt auch die Verknüpfung zur mächtigen Google-API Google Speech Recognition – einer Schnittstelle zur Machine-Learning-Software der Google-Spracherkennung im Betastadium. Aktuell unterstützt sie 80 verschiedene Sprachen. Der Algorithmus erkennt Sprache automatisch und übersetzt sie in Text. Automatisch. Je mehr man die Software mit Daten füttert, desto besser wird der Algorithmus und desto genauer das Ergebnis.  

Anschauungsbeispiel

Anschauungsbeispiel-compressorAnschauungsbeispiel-compressor

Google Cloud Speech API-Konto als Voraussetzung

API – wie, was? Keine Angst, so ging es mir auch. Google stellt Schnittstellen zur Verfügung, damit andere Unternehmen bestimmte Google-Anwendungen in ihre eigene Anwendung (in unserem Fall Auphonic) integrieren können.

Deshalb kommst du erstens um ein Google-Konto nicht herum und brauchst zweiens speziell für die Spracherkennung auch eine Anmeldung beim Google Cloud Service, um die Google Cloud Speech API nutzen zu können. Das ist die Spracherkennungssoftware von Google. Damit es dir die Arbeit erleichtert, habe ich hier die einzelnen Schritte in einer Anleitung mit Screenshots für dich zusammengefasst. 

Zahlreiche externe Dienste

Hast du diesen Schritt getan, melde dich bei Auphonic an. Dort kannst du entweder ein eigenes Audio oder Video hochladen, dessen Sprache du transkribieren willst. Auphonic bietet dir aber auch die Verknüpfung zu zahlreichen externen Diensten an (z.B. Soundcloud, YouTube) an.

Wähle die entsprechende Datei aus und gebe an, wie deine Datei analysiert werden soll. Für Spracherkennung wähle den Punkt "Speech Recognition". Auphonic wird dich nach deinem persönlichen API-Schlüssel von Google fragen (wie du den bekommst, steht in der Anleitung). Erst, wenn Auphonic den Schlüssel richtig erkannt hat, kannst du die Spracherkennung nutzen. 

Zwei Stunden pro Monat kostenlos

Dann kann's losgehen! Wähle zuvor die richtige Sprache aus, die erkannt werden soll. Mit einem Klick startest du den Prozess. Das Programm hat ein 10-Minuten-Interview des TV-Senders Fox News mit US-Präsident Donald Trump in wenigen Minuten in ein Transkript verwandelt. Zugegeben, es ist noch nicht perfekt (nicht vergessen, die Google Spracherkennung steckt noch in der Betaphase). Ein Vergleichtest mit einem Interview in deutscher Sprache mit Bundeskanzlerin Angela Merkel hat übrigens ähnlich gute Ergebnisse erzielt. 

Manche Wörter sind falsch geschrieben, an manchen Stellen fehlt etwas oder Sätze ergeben keinen Sinn. Aber das Ergebnis ist so gut, dass man sich das Interview nur noch einmal genau anhören und das Transkript überprüfen sollte. Sonst nichts. Verrückt! Das Transkript hält auch Zeitmarken fest und lässt sich in Form eines HTML-Dokuments herunterladen. Den Text kann man dann in ein Word-Dokument kopieren. Und fertig. 

Pro

Die integrierte Option zur automatischen Spracherkennung ist schlicht genial. Wenn du einmal herausgefunden hat, wie du einen API-Schlüssel erstellst, ist der Rest ein Kinderspiel. Das Tool ist zwar, falls man viel zu transkribieren hat, nicht ganz kostenlos, aber die Preise sind sehr human (denke nur daran, wie viel Stunden du wohl daran sitzen würdest und was dein Stundenlohn wäre). Das Transkript selbst ist nicht fehlerfrei. Fehler lassen sich aber durch eine zusätzliche Korrektur schnell beheben. Eine Spracherkennungen in mehr als 80 Sprachen ist derzeit außerdem kaum zu toppen. 

Kontra

Wenn du noch nie etwas mit APIs zu tun hattest, wirkt für dich die Anmeldung über Google Cloud umständlich und unverständlich. Doof auch: Die ersten 60 Tage bei Google Cloud sind kostenlos, danach musst du je nach Dienstnutzung blechen. Deine Kreditkarteninformationen musst du allerdings aus Verifizierungsgründen schon vorab herausrücken. Die gute Nachricht: Die Nutzung der Google Speech Recognition API ist bis 60 Minuten Audiomaterial pro Monat kostenlos. Auphonic selbst hat viele verschiedene Funktionen, die anfangs überfordern können. Die Benutzeroberfläche wirkt zu überfrachtet. 

Fazit & Alternativen

Ich empfehle ausdrücklich allen Hörfunk- und Fernsehjournalisten, die sich viel mit Transkripten herumschlagen müssen, Auphonic auszuprobieren. Der Zeitaufwand, sich mit APIs auseinanderzusetzen, macht sich bezahlt. Übrigens lassen sich bei Auphonic aus sogenannte "Presets", also Voreinstellungen speichern, das erspart dir im regelmäßigem Umgang mit der Anwendung zusätzlich Zeit. 

Übrigens ist die Google Speech Recognition nicht die einzige Schnittstelle für automatische Spracherkennung, auf die Auphonic zugreifen kann. Eine weitere unterstützte Schnittstelle stammt vom Anbieter Wit. Die Integrierung der Wit-API haben wir hier allerdings nicht getestet. Wenn ihr euch dafür interessiert, schaut doch mal beim Blog von Radiojournalistin Sandra Müller vorbei, die auch die Wit-Schnittstelle getestet hat.

Das alternative Programm oTranscribe übernimmt zwar (noch) nicht das Transkript für dich, erleichtert dir aber zumindest deine Arbeit durch praktische Funktionen. Eine automatische Spracherkennung soll auch die Beta-Anwendung Trint können, getestet haben wir sie allerdings noch nicht.