Übersicht
Dieses Tool durchsucht Transkripte von 4.634 aktuellen Podcast-Episoden auf Deutsch und Englisch. Die Transkripte werden mit OpenAIs Whisper-Modell "tiny" und SYSTRANs Faster Whisper erstellt und dann in einer Datenbank gespeichert, die über diese Suchfunktion zugänglich ist.
Technische Details
- Transkriptionswerkzeuge: SYSTRAN Faster Whisper, OpenAI Whisper
- Technologiestack: Python, SQL, Flask, Bootstrap, HTML, CSS, JavaScript
Warum ist es ein proof of concept?
- Umfangsbegrenzung: Obwohl 4.634 Episoden umfangreich erscheinen mögen, ist dies ein kleiner Bruchteil im Vergleich zur möglichen Anzahl an Podcast-Episoden, die transkribiert werden könnten.
- Modell-Effizienz: Das "tiny"-Modell von OpenAIs Whisper wird trotz geringerer Genauigkeit aufgrund seiner Geschwindigkeit verwendet. Die Transkription des aktuellen Datensatzes dauerte drei Tage kontinuierlicher Rechnerleistung.
Mögliche Anwendungsfälle
Dieses Tool kann in einer Vielzahl von Szenarien äußerst nützlich sein, einschließlich:
- Podcast-Hörer/-innen können nach ihren Lieblingsthemen suchen, um sicherzustellen, dass sie keine relevante Episode verpassen.
- Forscher/-innen können schnell spezifische Themen oder Diskussionen in einem großen Korpus von Podcast-Inhalten finden, was die qualitative Forschung erleichtert.
- Journalist/-innen können dieses Tool nutzen, um zu verfolgen, wie häufig bestimmte Themen besprochen werden oder um Zitate und Meinungen aus spezifischen Episoden zu finden.
Nächste Schritte
Dieses Projekt wurde als Wochenendprojekt von jimmydigital.de entwickelt. Es ist in erster Linie als ein proof of concept gedacht. Wenn Du Vorschläge für zusätzliche Funktionen oder Fehler bemerkt hast, kontaktiere mich bitte unter [email protected].