Home Assistant Sprachsteuerung ohne Cloud: Komplettes lokales Setup erklärt

März 16, 2026

—

von

Tristan Küsters

in 2026

Viele Sprachassistenten im Smart Home haben ein großes Problem: Sie funktionieren fast immer nur über die Cloud.

Egal ob Amazon Alexa, Google Assistant oder andere Lösungen – die Sprachverarbeitung läuft meist über externe Server. Das bedeutet Abhängigkeit von Internetdiensten und teilweise auch Datenschutzbedenken. Doch es geht auch anders.

In diesem Beitrag zeige ich euch, wie man eine komplett lokale Sprachsteuerung mit Home Assistant aufbauen kann – ohne Cloud von Amazon, Google oder Nabu Casa.

Unterstützung bekomme ich dabei von Torsten Müller, vielen besser bekannt durch sein Projekt Torsten Voice, dessen KI-Stimme auch in verschiedenen Open-Source-Projekten verwendet wird.

Zum Video: https://youtu.be/lD6gDarICOw

Ziel: Sprachsteuerung komplett lokal

Das Ziel des Setups ist relativ klar:

Spracherkennung lokal
Sprachverarbeitung lokal
Sprachausgabe lokal
keine Cloud erforderlich

Damit bleibt das gesamte System vollständig innerhalb des eigenen Netzwerks.

Gerade für Smart-Home-Enthusiasten, die Wert auf Datenschutz und Kontrolle über ihre Systeme legen, ist das eine sehr spannende Lösung.

Die wichtigsten Bausteine

Für eine komplett lokale Sprachsteuerung braucht man mehrere Komponenten.

1. Text-to-Speech mit Piper

Der erste Schritt ist die Sprachausgabe.

Hier kommt Piper zum Einsatz – ein lokaler Text-to-Speech-Server, der direkt in Home Assistant installiert werden kann.

Vorteile:

komplett lokal
mehrere Stimmen verfügbar
sehr schnelle Generierung
keine Cloud erforderlich

Besonders spannend:
Auch die Torsten Voice Stimme ist als Modell verfügbar und kann direkt genutzt werden.

Damit kann Home Assistant Antworten oder Benachrichtigungen lokal ausgeben.

2. Lokale Spracherkennung mit Speech-to-Phrase

Der nächste Schritt ist die Spracherkennung.

Hier nutzen wir Speech-to-Phrase, ein Projekt der Open Home Foundation.

Der Ansatz ist bewusst anders als bei klassischen Sprachmodellen:

Statt komplette Sprache frei zu interpretieren, kennt das System bereits:

eure Entitäten
eure Räume
typische Smart-Home Befehle

Dadurch funktioniert die Spracherkennung deutlich schneller und effizienter – auch auf kleiner Hardware.

Ein Beispielbefehl wäre:

„Schalte das Licht im Wohnzimmer ein“

Solche klar strukturierten Befehle lassen sich lokal sehr zuverlässig erkennen.

3. Sprachverarbeitung in Home Assistant

Nachdem der Sprachbefehl erkannt wurde, übernimmt Home Assistant selbst die Interpretation.

Hier kommt der Conversation Agent zum Einsatz.

Dieser analysiert:

welche Entität gemeint ist
welche Aktion ausgeführt werden soll
welcher Kontext vorhanden ist

Ein Beispiel:

„Schalte die Küchenlampe aus“

Home Assistant erkennt dabei automatisch:

Gerät: Küchenlampe
Aktion: ausschalten

4. Sprachassistent konfigurieren

Sind alle Komponenten installiert, wird ein lokaler Sprachassistent erstellt.

Die Konfiguration besteht aus drei Teilen:

Sprache → Text

Hier wird Speech-to-Phrase verwendet.

Sprachverarbeitung

Der Home Assistant Conversation Agent übernimmt die Interpretation.

Text → Sprache

Die Ausgabe erfolgt über Piper.

Damit ist der komplette Sprachfluss lokal.

Hardware für lokale Sprachsteuerung

Für das Video habe ich unter anderem den Home Assistant Voice Preview Edition Speaker verwendet.

Dieser kann:

Wake Words erkennen
Audio aufnehmen
Sprachbefehle an Home Assistant senden

Der Vorteil:
Die gesamte Verarbeitung kann lokal stattfinden.

Von der Qualität habe ich mit den reSpeakern jedoch weitaus bessere Erfahrungen gemacht. Siehe hier. Leider gibt es davon jedoch noch keine Plug & Play Lösung.

Performance und Hardware

Ein wichtiger Punkt bei lokaler Sprachsteuerung ist die Rechenleistung.

Gerade die Spracherkennung kann auf schwacher Hardware relativ lange dauern.

Typische Optionen sind:

Raspberry Pi
Mini-PC
Home-Server
NAS

Je stärker die Hardware, desto schneller reagiert die Sprachsteuerung.

Debugging und Fehleranalyse

Wenn Sprachbefehle nicht funktionieren, hilft der Assist Debug-Modus.

Dort kann man sehen:

welcher Text erkannt wurde
wie Home Assistant den Befehl interpretiert
welche Aktion ausgelöst wurde

Das macht die Fehlersuche deutlich einfacher.

Fazit

Eine komplett lokale Sprachsteuerung mit Home Assistant ist heute absolut möglich.

Mit Tools wie:

Piper
Speech-to-Phrase
Home Assistant Assist

lässt sich ein leistungsfähiger Sprachassistent aufbauen – ganz ohne Cloud.

Gerade für alle, die ihr Smart Home möglichst autark und datenschutzfreundlich betreiben möchten, ist das eine sehr spannende Lösung.

Weitere Infos

Wenn euch das Thema lokale Sprachsteuerung, Home Assistant Assist oder Text-to-Speech interessiert, schaut gerne auch auf dem Kanal von Torsten vorbei:

👉 https://www.youtube.com/@ThorstenMueller