Viele Sprachassistenten im Smart Home haben ein großes Problem: Sie funktionieren fast immer nur über die Cloud.
Egal ob Amazon Alexa, Google Assistant oder andere Lösungen – die Sprachverarbeitung läuft meist über externe Server. Das bedeutet Abhängigkeit von Internetdiensten und teilweise auch Datenschutzbedenken. Doch es geht auch anders.
In diesem Beitrag zeige ich euch, wie man eine komplett lokale Sprachsteuerung mit Home Assistant aufbauen kann – ohne Cloud von Amazon, Google oder Nabu Casa.
Unterstützung bekomme ich dabei von Torsten Müller, vielen besser bekannt durch sein Projekt Torsten Voice, dessen KI-Stimme auch in verschiedenen Open-Source-Projekten verwendet wird.
Zum Video: https://youtu.be/lD6gDarICOw
Ziel: Sprachsteuerung komplett lokal
Das Ziel des Setups ist relativ klar:
- Spracherkennung lokal
- Sprachverarbeitung lokal
- Sprachausgabe lokal
- keine Cloud erforderlich
Damit bleibt das gesamte System vollständig innerhalb des eigenen Netzwerks.
Gerade für Smart-Home-Enthusiasten, die Wert auf Datenschutz und Kontrolle über ihre Systeme legen, ist das eine sehr spannende Lösung.
Die wichtigsten Bausteine
Für eine komplett lokale Sprachsteuerung braucht man mehrere Komponenten.
1. Text-to-Speech mit Piper
Der erste Schritt ist die Sprachausgabe.
Hier kommt Piper zum Einsatz – ein lokaler Text-to-Speech-Server, der direkt in Home Assistant installiert werden kann.
Vorteile:
- komplett lokal
- mehrere Stimmen verfügbar
- sehr schnelle Generierung
- keine Cloud erforderlich
Besonders spannend:
Auch die Torsten Voice Stimme ist als Modell verfügbar und kann direkt genutzt werden.
Damit kann Home Assistant Antworten oder Benachrichtigungen lokal ausgeben.
2. Lokale Spracherkennung mit Speech-to-Phrase
Der nächste Schritt ist die Spracherkennung.
Hier nutzen wir Speech-to-Phrase, ein Projekt der Open Home Foundation.
Der Ansatz ist bewusst anders als bei klassischen Sprachmodellen:
Statt komplette Sprache frei zu interpretieren, kennt das System bereits:
- eure Entitäten
- eure Räume
- typische Smart-Home Befehle
Dadurch funktioniert die Spracherkennung deutlich schneller und effizienter – auch auf kleiner Hardware.
Ein Beispielbefehl wäre:
„Schalte das Licht im Wohnzimmer ein“
Solche klar strukturierten Befehle lassen sich lokal sehr zuverlässig erkennen.
3. Sprachverarbeitung in Home Assistant
Nachdem der Sprachbefehl erkannt wurde, übernimmt Home Assistant selbst die Interpretation.
Hier kommt der Conversation Agent zum Einsatz.
Dieser analysiert:
- welche Entität gemeint ist
- welche Aktion ausgeführt werden soll
- welcher Kontext vorhanden ist
Ein Beispiel:
„Schalte die Küchenlampe aus“
Home Assistant erkennt dabei automatisch:
- Gerät: Küchenlampe
- Aktion: ausschalten
4. Sprachassistent konfigurieren
Sind alle Komponenten installiert, wird ein lokaler Sprachassistent erstellt.
Die Konfiguration besteht aus drei Teilen:
Sprache → Text
Hier wird Speech-to-Phrase verwendet.
Sprachverarbeitung
Der Home Assistant Conversation Agent übernimmt die Interpretation.
Text → Sprache
Die Ausgabe erfolgt über Piper.
Damit ist der komplette Sprachfluss lokal.
Hardware für lokale Sprachsteuerung
Für das Video habe ich unter anderem den Home Assistant Voice Preview Edition Speaker verwendet.
Dieser kann:
- Wake Words erkennen
- Audio aufnehmen
- Sprachbefehle an Home Assistant senden
Der Vorteil:
Die gesamte Verarbeitung kann lokal stattfinden.
Von der Qualität habe ich mit den reSpeakern jedoch weitaus bessere Erfahrungen gemacht. Siehe hier. Leider gibt es davon jedoch noch keine Plug & Play Lösung.
Performance und Hardware
Ein wichtiger Punkt bei lokaler Sprachsteuerung ist die Rechenleistung.
Gerade die Spracherkennung kann auf schwacher Hardware relativ lange dauern.
Typische Optionen sind:
- Raspberry Pi
- Mini-PC
- Home-Server
- NAS
Je stärker die Hardware, desto schneller reagiert die Sprachsteuerung.
Debugging und Fehleranalyse
Wenn Sprachbefehle nicht funktionieren, hilft der Assist Debug-Modus.
Dort kann man sehen:
- welcher Text erkannt wurde
- wie Home Assistant den Befehl interpretiert
- welche Aktion ausgelöst wurde
Das macht die Fehlersuche deutlich einfacher.
Fazit
Eine komplett lokale Sprachsteuerung mit Home Assistant ist heute absolut möglich.
Mit Tools wie:
- Piper
- Speech-to-Phrase
- Home Assistant Assist
lässt sich ein leistungsfähiger Sprachassistent aufbauen – ganz ohne Cloud.
Gerade für alle, die ihr Smart Home möglichst autark und datenschutzfreundlich betreiben möchten, ist das eine sehr spannende Lösung.
Weitere Infos
Wenn euch das Thema lokale Sprachsteuerung, Home Assistant Assist oder Text-to-Speech interessiert, schaut gerne auch auf dem Kanal von Torsten vorbei:


Schreibe einen Kommentar