Das Aidful Whisper Typer Projekt ist KI-Diktierprogramm. Es handelt sich um eine Open-Source-Lösung für die Spracherkennung, die auf dem leistungsstarken OpenAI Whisper-Modell basiert. Diese Software ermöglicht es Nutzern, Text durch Spracheingabe zu generieren ohne diese an einen Cloud-server zu senden. Alle Berechnungen werden auf dem eigenen PC durchgeführt.
Hauptmerkmale
-
Flexible Ausgabeoptionen:
- Direktes Eintippen des erkannten Texts
- Automatisches Einfügen per Zwischenablage
- Kopieren in die Zwischenablage zur späteren Verwendung
-
Skalierbare Modellauswahl:
- Turbo-Modell für höchste Qualität (benötigt ~6GB VRAM)
- Small-Modell für gute Performance (benötigt ~2GB VRAM)
- Base-Modell für ressourcenschonenden Betrieb (benötigt ~1GB VRAM)
-
Benutzerfreundliche Bedienung:
- Konfigurierbare Tastenkombinationen
- Akustische Signale für Start/Stop der Aufnahme
- Optionales Logging der Transkriptionen
Technische Details
Die Software wurde primär für Linux-Systeme mit PulseAudio entwickelt, ist aber dank der verwendeten Cross-Platform-Bibliotheken auch auf anderen Betriebssystemen lauffähig.
Einsatzmöglichkeiten
- Effiziente Texterfassung
- Barrierefreie Texteingabe
- Schnelle Dokumentation von Gedanken und Ideen
- Eingabe ausführlicher Hintegrundinformationen beim KI-prompting
Das Projekt wird aktiv weiterentwickelt und steht unter der MIT-Lizenz zur freien Verfügung. Eine ausführliche Dokumentation sowie Installations- und Konfigurationsanleitungen sind im GitHub-Repository verfügbar.