Technologie & Architektur

Architektur im Überblick

Die FINO Suite folgt einer modularen Cloud-Architektur mit klarer Schichtentrennung. Jede Komponente ist unabhängig skalierbar und austauschbar.

Frontend - Web Components (framework-unabhängig, in jede Webseite integrierbar)

↕

API-Schicht - REST API mit Authentifizierung, Rate Limiting und Mandantentrennung

↕

KI-Orchestrierung - Prompt-Management, Kontext-Aufbereitung und Antwort-Validierung

↕

RAG-Pipeline - Retrieval Augmented Generation mit Vektor- und Hybridsuche

↕

Knowledge Layer - MCP-Server, Wissensdatenbanken, Dokumenten-Indizes

Cloud-Infrastruktur: Standardmäßig betrieben auf EU-Rechenzentren. Optional auch auf STACKIT (Schwarz Gruppe) als souveräne Cloud-Alternative verfügbar - auf Kundenwunsch.

Sprachmodelle (LLMs)

FINO ist modell-agnostisch und unterstützt verschiedene Large Language Models. Die Wahl des Modells kann pro Mandant und Anwendungsfall konfiguriert werden.

Anbieter	Modelle	Einsatzbereich	EU-Hosting
Anthropic	Claude Sonnet-Familie	Dialogführung, Formularassistenz, komplexe Rückfragen	✅ via EU-Infrastruktur
Amazon	Nova Pro, Nova Lite, Titan	Dokumentenanalyse, Bildverarbeitung, Embeddings	✅ EU (Frankfurt)
Amazon	Nova Sonic	Sprachverarbeitung (FINO Voice)	✅ EU (Stockholm)
Weitere	Auf Anfrage konfigurierbar	Kundenspezifische Anforderungen	Je nach Anbieter

Wichtig: Kein Modell wird mit Kundendaten trainiert. Alle Anfragen werden stateless verarbeitet - es werden keine Konversationsdaten dauerhaft bei den Modellanbietern gespeichert.

RAG - Retrieval Augmented Generation

FINO nutzt RAG, um KI-Antworten auf verifizierte Fakten zu stützen statt auf das allgemeine Modellwissen. Das Ergebnis: fachlich korrekte, aktuelle und nachvollziehbare Antworten.

Retrieval (Wissensabruf)

Bei jeder Nutzeranfrage werden relevante Informationen aus den angebundenen Wissensdatenbanken abgerufen.

Vektorsuche: Semantisches Matching über Embeddings
Hybridsuche: Kombination aus semantischer und Keyword-Suche
Ranking: Relevanz-Bewertung und Filterung der Ergebnisse
Quellenangaben: Jede Information ist auf ihre Quelle rückführbar

Generation (Antwortgenerierung)

Das Sprachmodell generiert eine Antwort auf Basis der abgerufenen Informationen und des Gesprächskontexts.

Kontextfenster: Relevante Dokumente werden dem Modell bereitgestellt
Prompt Engineering: Fachspezifische Anweisungen steuern Tonalität und Genauigkeit
Validierung: Antworten werden auf Konsistenz geprüft
Mehrsprachigkeit: Antwort in der Sprache des Nutzers, Formular in Deutsch

Warum RAG statt reines LLM?

Ohne RAG (reines LLM):

Antworten basieren auf Trainingsdaten (veraltet)
Halluzinationen möglich
Keine Quellenangaben
Nicht mandantenspezifisch

Mit RAG (FINO):

Antworten basieren auf aktuellen, verifizierten Quellen
Faktenbasiert und nachvollziehbar
Quellenangaben bei jeder Antwort
Individuelle Wissensbasis pro Mandant

MCP - Model Context Protocol

FINO nutzt das Model Context Protocol (MCP) als offenen Standard für die Kommunikation zwischen KI-Systemen und Wissensquellen. Das ermöglicht eine flexible, erweiterbare Architektur.

Modularität

Wissensquellen als eigenständige MCP-Server
Einfaches Hinzufügen und Entfernen von Datenquellen
Unabhängige Skalierung pro Quelle
Standardisierte Schnittstellen

Verteilte Architektur

Mehrere Wissensquellen parallel abfragbar
Mandantenfähige Konfiguration
Echtzeit-Aktualisierung der Wissensbasis
Interoperabilität mit verschiedenen KI-Modellen

Integration & Schnittstellen

Frontend-Integration

FINO wird als Web Component bereitgestellt - ein einzelnes HTML-Tag genügt für die Integration.

                            <smart-chat default-language="de"></smart-chat>
                        

Kein Framework erforderlich
Funktioniert in jeder Webseite
Responsive und barrierefrei
Anpassbares Design

Zum Integrationsleitfaden →

Backend-Schnittstellen

Für tiefere Integrationen stehen standardisierte APIs zur Verfügung.

REST API: Standard HTTP-Schnittstelle für alle Produkte
MCP Protocol: Für Wissensdatenbank-Anbindung
Webhooks: Event-basierte Benachrichtigungen
Formular-Mapping: Automatische Zuordnung von KI-Antworten zu Formularfeldern

CMS-Plugins

WordPress (verfügbar)

Fertiges Plugin mit grafischer Konfigurationsoberfläche. Installation über die WordPress-Admin-Oberfläche, Branding-Anpassung ohne Code-Änderungen.

Alle Branding-Optionen (Farben, Texte, Logos)
Mehrsprachige Konfiguration
Sichtbarkeitssteuerung pro Seite

Weitere CMS (auf Anfrage)

Integrationen für Drupal, Joomla und Shopware sind in Planung. Kontaktieren Sie uns für Ihren spezifischen Anwendungsfall.

Performance & Skalierbarkeit

Performance

Antwortzeiten: Typisch 3–5 Sekunden für komplexe Anfragen
Caching: Intelligentes Caching für häufige Anfragen
Streaming: Antworten werden in Echtzeit gestreamt
Verfügbarkeit: 24/7 Betrieb mit automatischem Failover

Skalierbarkeit

Horizontal: Automatische Skalierung bei Lastspitzen
Multi-Tenant: Hunderte Mandanten auf einer Infrastruktur
Modular: Einzelne Komponenten unabhängig skalierbar
Von Pilot bis Produktion: Gleiche Architektur, unterschiedliche Dimensionierung