Zwei Möglichkeiten, um einen KI-Voicebot zu bauen: Stitching versus Echtzeit

Die Art, wie ein KI-Voicebot Sprache verarbeitet, bestimmt, ob er natürlich klingt oder eher ruckelig und unzuverlässig wirkt. Es gibt derzeit zwei Architekturen, die bei Entwicklern in Umlauf sind, und die Wahl zwischen ihnen hat Auswirkungen auf die Anrufererfahrung, die Zuverlässigkeit des Systems und das, was der Bot aus einem Gespräch erfassen kann. Der ältere Ansatz verbindet drei separate Komponenten hintereinander, während die neuere Methode das gesamte Gespräch auf einmal verarbeitet.
Der klassische Ansatz: Stitching
Als die ersten Voicebots gebaut wurden, war es logisch, drei vorhandene Komponenten miteinander zu verbinden. Eingehende Sprache ging durch eine Sprache-zu-Text-Engine, die daraus Text machte, dann las ein Sprachmodell diesen Text und formulierte eine Antwort, und schließlich wandelte eine Text-zu-Sprache-Engine diese Antwort wieder in hörbare Sprache um. Diese Architektur wird in der Branche “Stitching” genannt, weil man drei unabhängige Systeme zu einer Kette verbindet.
Für eine Zeit lang lieferte das brauchbare Ergebnisse, und für Teams, die kein eigenes Sprachmodell trainieren wollten, war es die einzige praktische Route. In der Praxis treten jedoch drei Schwachstellen auf, weil jedes Glied der Kette einzeln ausfallen kann. Die Spracherkennung kann einen Satz falsch verstehen, das Sprachmodell kann eine langsame oder falsche Antwort geben und die Sprachsynthese kann zu einem ungünstigen Zeitpunkt ausfallen. Viele Teams bauen daher ein Backup mit einem alternativen TTS- oder LLM-Anbieter ein, sodass der Bot bei einem Ausfall weiterlaufen kann. Das löst das Ausfallproblem, aber Anrufer hören plötzlich eine völlig andere Stimme und werden dadurch verwirrt, mit wem sie eigentlich sprechen.
Der zweite Nachteil wiegt vielleicht noch schwerer. Bei Stitching sieht das Sprachmodell nur eine textuelle Abschrift, daher kann es den Ton, die Lautstärke, das Zögern und die Emotion des Anrufers nicht wahrnehmen. Ein verägerter Kunde und ein zufriedener Kunde klingen für das Modell identisch, sobald ihre Worte auf dem Papier stehen, und das geht auf Kosten der Kontextabhängigkeit, die ein Gespräch wertvoll macht. Signale über vermutliches Alter, Muttersprache oder Stimmung gehen in der Übersetzung zu Text verloren, während genau diese Signale oft bestimmen, wie ein Mitarbeiter ein Gespräch führen würde.
Der neue Ansatz: Ein Echtzeit-Sprachmodell
Seit OpenAI am 24. Februar 2026 gpt-realtime-1.5 verfügbar machte, gibt es eine zweite Methode zum Bauen von Voicebots, die in den meisten Fällen besser funktioniert. Anstatt drei separate Komponenten hintereinander zu schalten, hört und spricht ein Modell direkt, wodurch die gesamte Zwischenschicht aus Transkription und Synthese wegfällt. Das Modell versteht die Worte, den Ton und die Emotion des Anrufers gleichzeitig, sodass es direkt darauf in seiner Antwort eingehen kann. Wie fließend das in der Praxis funktioniert, zeigt ein Demo von Charlierguo gut.
Das bringt konkrete Vorteile im täglichen Gebrauch. Es gibt nur noch einen Punkt, an dem etwas schief gehen kann, statt drei, wodurch die Ausfallwahrscheinlichkeit erheblich sinkt. Die Reaktionszeit liegt normalerweise unter 400 Millisekunden, sodass das Gespräch natürlich fließt, ohne die Verzögerung, die bei Stitching auftritt. Mehrsprachigkeit ist eingebaut, sodass dasselbe Modell mühelos zwischen Deutsch, Englisch, Niederländisch und anderen Sprachen wechselt, ohne dass Sie diesen Wechsel vorher konfigurieren müssen. Und weil das Modell Audio anstelle von Text verarbeitet, erkennt es einen verärgerten Kunden an seiner Stimme und kann ihn direkt an einen Mitarbeiter weitergeben, ohne dass ein Stichwort oder explizite Eskalation dafür nötig ist.
Wann Stitching immer noch die richtige Wahl ist
Es gibt weiterhin eine Nische, in der der ältere Ansatz besser passt – Situationen, in denen kein Live-Gespräch geführt werden muss, sondern eine Aufnahme nachträglich analysiert wird. Wenn ein Callcenter nach einem Gespräch Anrufe zusammenfassen, kodieren oder auf Compliance überprüfen möchte, gibt es keine Latenzanforderung und Sie können ruhig ein spezialisiertes Sprachmodell auswählen. Denken Sie an ein medizinisches Sprachmodell, das die Abkürzungen und Fachbegriffe im Gesundheitswesen erkennt, oder eine Sprache-zu-Text-Engine, die speziell auf einen regionalen Dialekt trainiert ist. Die Genauigkeit in diesem einen Bereich wiegt in solchen Szenarien schwerer als die gesamte Gesprächserfahrung, weil kein Anrufer in der Leitung wartet, der auf eine Antwort wartet.
Unsere Empfehlung
Für Unternehmen, die Live-Gespräche von einem Voicebot abhandeln lassen möchten, empfehlen wir in fast allen Fällen den Echtzeit-Ansatz. Die Kombination aus schnellerer Reaktion, geringerer Störungsanfälligkeit, Mehrsprachigkeit ohne Konfiguration und Gespür für den Ton sorgt für eine Anrufererfahrung, die Anrufer nicht als roboterhaft empfinden. Für Nachgespräch-Analysen und andere Szenarien, in denen Genauigkeit in einer spezifischen Komponente ausschlaggebend ist, setzen wir weiterhin auf Stitching-Architekturen, da diese dort immer noch die stärksten Ergebnisse liefern.
Unser Team baut in beiden Architekturen
CallFactory baut Voicebots in beiden Architekturen, je nachdem, was am besten zu Ihrem Anruffluss passt. Ob Sie nun eine vollständig verwaltete Lösung möchten, bei der unser Team alles von Anfang bis Ende einrichtet, oder lieber einen dedizierten IVR auf Ihrer eigenen Infrastruktur laufen lassen möchten, wir liefern DSGVO-konforme Implementierungen, die 24 Stunden pro Tag, sieben Tage pro Woche verfügbar sind.
Nehmen Sie Kontakt mit unserem Team auf, um zu besprechen, welche Architektur zu Ihren Gesprächen passt, wie die Verknüpfung mit Ihren bestehenden Systemen abläuft und innerhalb welcher Zeitspanne der Voicebot live gehen kann. So erhalten Sie eine klare Schätzung der Durchlaufzeit und der Investition und können ab dem ersten Tag eingehende und ausgehende Anrufe von einem Voicebot abhandeln lassen, der auf einem Niveau spricht und hört, das bis vor Kurzem unvorstellbar war.
Häufig gestellte Fragen
Stitching ist wertvoll, wenn Sie kein Live-Gespräch führen müssen, sondern eine Aufnahme nachträglich analysieren möchten. Dann haben Sie die Freiheit, ein spezialisiertes Sprachmodell auszuwählen, etwa ein medizinisches Modell für Fachbegriffe im Gesundheitswesen oder eine Sprache-zu-Text-Engine, die auf einen regionalen Dialekt trainiert ist. In solchen Fällen wiegt die Genauigkeit einer einzelnen Komponente schwerer als eine flüssige Gesprächserfahrung.
Die Reaktionszeit liegt normalerweise unter 400 Millisekunden, was einem normalen Telefonat zwischen zwei Menschen entspricht. Da es keine separaten hintereinander geschalteten Komponenten gibt, fällt die Verzögerung, die bei Stitching entsteht, vollständig weg, sodass Anrufer selten direkt bemerken, dass sie mit einer KI sprechen.
Ja. Echtzeit-Sprachmodelle sind mehrsprachig trainiert, daher können sie während desselben Gesprächs zwischen Deutsch, Englisch, Niederländisch und anderen Sprachen wechseln, ohne dass Sie diesen Wechsel vorher konfigurieren müssen. Für Unternehmen mit internationaler Kundenbasis entfällt somit ein ganzer Konfigurationsschritt.
Wir bauen für jedes Projekt eine Ausweichroute ein, sodass das Gespräch bei einem Ausfall automatisch an einen Mitarbeiter weitergeleitet wird oder eine aufgesprochene Nachricht abgespielt wird. Der Anrufer bemerkt nur, dass das Gespräch weitergeleitet wird, sodass Ihr Anruffluss auch bei einer Unterbrechung auf der Seite des Anbieters stabil bleibt.
Ja. Wir bauen den Voicebot so auf, dass Audio und Metadaten innerhalb der Europäischen Union bleiben und dass mit allen beteiligten Parteien eine Datenverarbeitungsvereinbarung besteht. Für regulierte Branchen wie Gesundheitswesen, Banken und Versicherungen liefern wir zusätzlich eine selbst gehostete Variante, die vollständig hinter Ihrer eigenen Firewall läuft.

