Das Aidful Whisper Typer Projekt ist KI-Diktierprogramm. Es handelt sich um eine Open-Source-Lösung für die Spracherkennung, die auf dem leistungsstarken OpenAI Whisper-Modell basiert. Diese Software ermöglicht es Nutzern, Text durch Spracheingabe zu generieren ohne diese an einen Cloud-server zu senden. Alle Berechnungen werden auf dem eigenen PC durchgeführt.

Hauptmerkmale

  • Flexible Ausgabeoptionen:

    • Direktes Eintippen des erkannten Texts
    • Automatisches Einfügen per Zwischenablage
    • Kopieren in die Zwischenablage zur späteren Verwendung
  • Skalierbare Modellauswahl:

    • Turbo-Modell für höchste Qualität (benötigt ~6GB VRAM)
    • Small-Modell für gute Performance (benötigt ~2GB VRAM)
    • Base-Modell für ressourcenschonenden Betrieb (benötigt ~1GB VRAM)
  • Benutzerfreundliche Bedienung:

    • Konfigurierbare Tastenkombinationen
    • Akustische Signale für Start/Stop der Aufnahme
    • Optionales Logging der Transkriptionen

Technische Details

Die Software wurde primär für Linux-Systeme mit PulseAudio entwickelt, ist aber dank der verwendeten Cross-Platform-Bibliotheken auch auf anderen Betriebssystemen lauffähig.

Einsatzmöglichkeiten

  • Effiziente Texterfassung
  • Barrierefreie Texteingabe
  • Schnelle Dokumentation von Gedanken und Ideen
  • Eingabe ausführlicher Hintegrundinformationen beim KI-prompting

Das Projekt wird aktiv weiterentwickelt und steht unter der MIT-Lizenz zur freien Verfügung. Eine ausführliche Dokumentation sowie Installations- und Konfigurationsanleitungen sind im GitHub-Repository verfügbar.