Ein tiefer Einblick in Fins Antwortgeschwindigkeit

Wir wissen, dass ein schneller, reaktionsfähiger KI-Assistent entscheidend für ein großartiges Kundenerlebnis ist. Dieser Artikel gibt einen transparenten Einblick in unsere Philosophie zur Geschwindigkeit, die bedeutenden Leistungsverbesserungen, wie wir die Leistung überwachen und warum wir stets die Qualität und Genauigkeit von Fins Antworten über alles stellen.

Qualität und Genauigkeit zuerst

Unser Hauptziel für Fin ist es, der beste und leistungsstärkste KI-Agent im Kundenservice zu sein. Das bedeutet, dass wir Qualität über alles stellen: hohe Lösungsraten, die Bearbeitung komplexer Anfragen und die Einhaltung Ihrer Supportverfahren in Ihrer einzigartigen Markenstimme. Seit dem Start 2023 ist Fins durchschnittliche Lösungsrate von 23 % auf 67 % gestiegen, viele Kunden erreichen sogar 70–90 %.

Um dieses Qualitätsniveau zu erreichen, sind anspruchsvolle Technik und der Einsatz modernster Sprachmodelle erforderlich, die oft nicht die schnellsten sind. Im Laufe der Zeit ist Fin deutlich leistungsfähiger und konfigurierbarer geworden. Sie können Fin jetzt mit Guidance an die Stimme und Richtlinien Ihres Unternehmens anpassen, und Procedures ermöglichen es Fin, komplexe Anfragen wie Rückerstattungen und Streitfälle zu automatisieren. Während einige Wettbewerber Geschwindigkeit über Qualität stellen, werden wir diesen Kompromiss nicht eingehen.

Unser Weg zur Verbesserung von Fins Geschwindigkeit

Obwohl Qualität unsere Priorität ist, ist das Nutzererlebnis entscheidend. Bis November 2024, als wir weiterhin leistungsstarke Funktionen hinzufügten, stieg Fins mittlere Time to First Token (TTFT) auf 17 Sekunden. Obwohl das immer noch deutlich schneller als die durchschnittlichen 19 Minuten menschlichen Supports war, fühlte es sich nicht gut genug an.

Unser Technikteam war mit dem Erlebnis nicht zufrieden und investierte viel Aufwand, um Fin schneller zu machen. Das Team arbeitete hart, und Anfang 2025 erreichten wir eine mittlere TTFT von etwa 8 Sekunden und ein 95. Perzentil von rund 20 Sekunden.

Wichtige Verbesserungen umfassten:

Neugestaltung von Fin: Wir haben eine umfassende Überarbeitung von Fins internen Abläufen abgeschlossen, die weitreichende Leistungsverbesserungen über die Geschwindigkeit hinaus brachte.
Optimierung der Kernlogik: Wir haben bedeutende Änderungen vorgenommen, um weniger Aufrufe an große Sprachmodelle (LLMs) zu machen, die Parallelisierung zu erhöhen und neue, effizientere LLMs zu verwenden.
Verbesserung der Messenger-Integration: Für Gespräche im Intercom Messenger starten wir Fins Antwort so früh wie möglich und streamen sie in Echtzeit zurück.

Warum manche Antworten mehr Zeit benötigen

Im Hintergrund ist Fins System eine komplexe Kombination verschiedener Dienste, die zusammenarbeiten. Wenn eine Kundenanfrage eine externe Aktion erfordert, wie das Überprüfen eines Bestellstatus bei Shopify oder das Nachschlagen eines Nutzers in Ihrer Datenbank, muss Fin diesen externen Dienst aufrufen und auf dessen Antwort warten, bevor eine Antwort gegeben wird. Jede dieser Abhängigkeiten kann einige Sekunden zur Gesamtantwortzeit hinzufügen.

Hier sind einige häufige Beispiele für diese Schritte:

Aufgaben und Datenverbindungen: Wenn Sie Fin so eingerichtet haben, dass ein externer Dienst genutzt wird (z. B. zur Überprüfung eines Bestellstatus), muss Fin auf die Informationen dieses Dienstes warten.
Bilderkennung: Wenn ein Kunde ein Bild in seiner Nachricht anhängt, benötigt Fin einige zusätzliche Sekunden, um das Bild zu verarbeiten und zu verstehen.
Attributklassifikation: Wenn Ihr Workflow so eingerichtet ist, dass er automatisch klassifiziert, markiert oder eine Priorität basierend auf dem Inhalt eines Gesprächs setzt, kann jeder dieser Schritte eine leichte Verzögerung verursachen.

Wie wir Fins Geschwindigkeit messen und aufrechterhalten

Um das Erlebnis aus Sicht Ihrer Kunden wirklich zu erfassen, messen wir die sogenannte Time to First Token (TTFT). Diese Kennzahl erfasst die genaue Zeit vom Absenden der Nachricht durch den Kunden bis zum Beginn von Fins Antwort. Das spiegelt das tatsächliche Nutzererlebnis wider und hält unsere Messungen im Einklang mit dem, wie Fin sich in der Anwendung anfühlt.

Unser Technikteam überwacht ständig die Latenz und sucht immer nach Möglichkeiten, Fin schneller zu machen. Um die Leistung im Blick zu behalten, haben wir mehrere interne Prozesse eingeführt:

Interne SLOs: Wir haben Service Level Objectives (SLOs) eingeführt, um sicherzustellen, dass bei Überschreitung der Leistungsziele schnell untersucht wird.
Überwachung von Ausreißern: Zusätzlich zu den Kernmetriken erhalten wir wöchentliche Berichte über Kunden mit den langsamsten Fin-Erfahrungen. So können wir Probleme erkennen und beheben, die diese spezifischen Kunden betreffen.

Wir glauben, dass die aktuelle Leistung nahe am praktischen Limit dessen liegt, was mit unserem Fokus auf Qualität und Konfigurierbarkeit möglich ist. Unsere Priorität ist es, diese Geschwindigkeit beizubehalten und gleichzeitig die Lösungsraten und Funktionen weiter zu verbessern. Bitte beachten Sie, dass neue Funktionen manchmal anfänglich Latenz hinzufügen, wir sie aber im Laufe der Zeit verfeinern und optimieren.

Fin für Geschwindigkeit konfigurieren

Kunden, die empfindlich auf Latenz reagieren, können einige von Fins Funktionen zugunsten höherer Geschwindigkeit einschränken. Die Nutzung von Fin im einfachsten Modus führt zu deutlich schnelleren Antworten als die Einrichtung mit erweiterten Funktionen wie Guidance, Tasks und Actions.

Die folgende Tabelle zeigt, wie verschiedene Konfigurationen die Antwortzeiten beeinflussen können. Wir sind der Meinung, dass die zusätzlichen Funktionen die Latenz wert sind, besonders im Vergleich zu menschlichem Support, der um zwei Größenordnungen langsamer sein kann.