Die Art, wie ein KI-Voicebot Sprache verarbeitet, bestimmt, ob er natürlich klingt oder eher ruckelig und unzuverlässig wirkt. Es gibt derzeit zwei Architekturen, die bei Entwicklern in Umlauf sind, und die Wahl zwischen ihnen hat Auswirkungen auf die Anrufererfahrung, die Zuverlässigkeit des Systems und das, was der Bot aus einem Gespräch erfassen kann. Der ältere Ansatz verbindet drei separate Komponenten hintereinander, während die neuere Methode das gesamte Gespräch auf einmal verarbeitet.

Schema mit drei gestapelten Komponenten auf der linken Seite und einem Echtzeit-Sprachmodell auf der rechten Seite

Der klassische Ansatz: Stitching

Als die ersten Voicebots gebaut wurden, war es logisch, drei vorhandene Komponenten miteinander zu verbinden. Eingehende Sprache ging durch eine Sprache-zu-Text-Engine, die daraus Text machte, dann las ein Sprachmodell diesen Text und formulierte eine Antwort, und schließlich wandelte eine Text-zu-Sprache-Engine diese Antwort wieder in hörbare Sprache um. Diese Architektur wird in der Branche “Stitching” genannt, weil man drei unabhängige Systeme zu einer Kette verbindet.

Für eine Zeit lang lieferte das brauchbare Ergebnisse, und für Teams, die kein eigenes Sprachmodell trainieren wollten, war es die einzige praktische Route. In der Praxis treten jedoch drei Schwachstellen auf, weil jedes Glied der Kette einzeln ausfallen kann. Die Spracherkennung kann einen Satz falsch verstehen, das Sprachmodell kann eine langsame oder falsche Antwort geben und die Sprachsynthese kann zu einem ungünstigen Zeitpunkt ausfallen. Viele Teams bauen daher ein Backup mit einem alternativen TTS- oder LLM-Anbieter ein, sodass der Bot bei einem Ausfall weiterlaufen kann. Das löst das Ausfallproblem, aber Anrufer hören plötzlich eine völlig andere Stimme und werden dadurch verwirrt, mit wem sie eigentlich sprechen.

Der zweite Nachteil wiegt vielleicht noch schwerer. Bei Stitching sieht das Sprachmodell nur eine textuelle Abschrift, daher kann es den Ton, die Lautstärke, das Zögern und die Emotion des Anrufers nicht wahrnehmen. Ein verägerter Kunde und ein zufriedener Kunde klingen für das Modell identisch, sobald ihre Worte auf dem Papier stehen, und das geht auf Kosten der Kontextabhängigkeit, die ein Gespräch wertvoll macht. Signale über vermutliches Alter, Muttersprache oder Stimmung gehen in der Übersetzung zu Text verloren, während genau diese Signale oft bestimmen, wie ein Mitarbeiter ein Gespräch führen würde.

Der neue Ansatz: Ein Echtzeit-Sprachmodell

Seit OpenAI am 24. Februar 2026 gpt-realtime-1.5 verfügbar machte, gibt es eine zweite Methode zum Bauen von Voicebots, die in den meisten Fällen besser funktioniert. Anstatt drei separate Komponenten hintereinander zu schalten, hört und spricht ein Modell direkt, wodurch die gesamte Zwischenschicht aus Transkription und Synthese wegfällt. Das Modell versteht die Worte, den Ton und die Emotion des Anrufers gleichzeitig, sodass es direkt darauf in seiner Antwort eingehen kann. Wie fließend das in der Praxis funktioniert, zeigt ein Demo von Charlierguo gut.

Das bringt konkrete Vorteile im täglichen Gebrauch. Es gibt nur noch einen Punkt, an dem etwas schief gehen kann, statt drei, wodurch die Ausfallwahrscheinlichkeit erheblich sinkt. Die Reaktionszeit liegt normalerweise unter 400 Millisekunden, sodass das Gespräch natürlich fließt, ohne die Verzögerung, die bei Stitching auftritt. Mehrsprachigkeit ist eingebaut, sodass dasselbe Modell mühelos zwischen Deutsch, Englisch, Niederländisch und anderen Sprachen wechselt, ohne dass Sie diesen Wechsel vorher konfigurieren müssen. Und weil das Modell Audio anstelle von Text verarbeitet, erkennt es einen verärgerten Kunden an seiner Stimme und kann ihn direkt an einen Mitarbeiter weitergeben, ohne dass ein Stichwort oder explizite Eskalation dafür nötig ist.

Wann Stitching immer noch die richtige Wahl ist

Es gibt weiterhin eine Nische, in der der ältere Ansatz besser passt – Situationen, in denen kein Live-Gespräch geführt werden muss, sondern eine Aufnahme nachträglich analysiert wird. Wenn ein Callcenter nach einem Gespräch Anrufe zusammenfassen, kodieren oder auf Compliance überprüfen möchte, gibt es keine Latenzanforderung und Sie können ruhig ein spezialisiertes Sprachmodell auswählen. Denken Sie an ein medizinisches Sprachmodell, das die Abkürzungen und Fachbegriffe im Gesundheitswesen erkennt, oder eine Sprache-zu-Text-Engine, die speziell auf einen regionalen Dialekt trainiert ist. Die Genauigkeit in diesem einen Bereich wiegt in solchen Szenarien schwerer als die gesamte Gesprächserfahrung, weil kein Anrufer in der Leitung wartet, der auf eine Antwort wartet.

Unsere Empfehlung

Für Unternehmen, die Live-Gespräche von einem Voicebot abhandeln lassen möchten, empfehlen wir in fast allen Fällen den Echtzeit-Ansatz. Die Kombination aus schnellerer Reaktion, geringerer Störungsanfälligkeit, Mehrsprachigkeit ohne Konfiguration und Gespür für den Ton sorgt für eine Anrufererfahrung, die Anrufer nicht als roboterhaft empfinden. Für Nachgespräch-Analysen und andere Szenarien, in denen Genauigkeit in einer spezifischen Komponente ausschlaggebend ist, setzen wir weiterhin auf Stitching-Architekturen, da diese dort immer noch die stärksten Ergebnisse liefern.

Unser Team baut in beiden Architekturen

CallFactory baut Voicebots in beiden Architekturen, je nachdem, was am besten zu Ihrem Anruffluss passt. Ob Sie nun eine vollständig verwaltete Lösung möchten, bei der unser Team alles von Anfang bis Ende einrichtet, oder lieber einen dedizierten IVR auf Ihrer eigenen Infrastruktur laufen lassen möchten, wir liefern DSGVO-konforme Implementierungen, die 24 Stunden pro Tag, sieben Tage pro Woche verfügbar sind.

Nehmen Sie Kontakt mit unserem Team auf, um zu besprechen, welche Architektur zu Ihren Gesprächen passt, wie die Verknüpfung mit Ihren bestehenden Systemen abläuft und innerhalb welcher Zeitspanne der Voicebot live gehen kann. So erhalten Sie eine klare Schätzung der Durchlaufzeit und der Investition und können ab dem ersten Tag eingehende und ausgehende Anrufe von einem Voicebot abhandeln lassen, der auf einem Niveau spricht und hört, das bis vor Kurzem unvorstellbar war.