Wie man sichere lokale KI für Versicherungen entwickelt

Artikel von Oleksandr Korobov, CTO

Bei K2G entwickeln wir maschinelles Lernen und KI-Systeme, die speziell für die Versicherungsbranche konzipiert sind — ein Sektor, der unter einigen der strengsten Datenschutz-, Compliance- und Data Governance-Standards arbeitet. Unsere Arbeit konzentriert sich auf strukturierte Datensätze wie Versicherungspolicen und Schadensfälle. Diese Datensätze enthalten oft personenbezogene Informationen, Finanzdaten und geschäftskritische Muster, was bedeutet, dass das Hochladen auf externe Dienste oder in der Cloud gehostete APIs oft keine Option ist.

Um diese Herausforderung zu meistern, haben wir uns für eine Lösung entschieden, die es uns ermöglicht, leistungsstarke KI-Funktionen bereitzustellen und gleichzeitig alles - Modelle, Daten und Verarbeitung - vollständig lokal zu halten. Diese Lösung ist die Lenovo ThinkStation PGX, die von NVIDIAs Grace-Blackwell GB10 Superchip angetrieben wird.

Warum wir uns für das PGX entschieden haben

Der PGX ist ein kompaktes Desktop-Gerät, aber seine Architektur entspricht eher einem kleinen KI-Server. Er verfügt über eine Grace ARM-CPU mit 20 Kernen und einen Blackwell-Grafikprozessor, die mit einem gemeinsamen 128-GB-Pool von einheitlichem Speicher verbunden sind. Diese einheitliche Architektur macht den Unterschied aus: Wir sind in der Lage, große LLMs wie GPT-OSS 120B vollständig auf dem Gerät auszuführen, ohne dass externer VRAM oder Sharded-Memory-Strategien erforderlich sind.

Mit diesen Fähigkeiten haben wir LLMs in eine breite Palette von versicherungsspezifischen Workflows integriert:

Codegenerierung über lokale autonome Agenten
Normalisierung von Freitext-Fahrzeugbeschreibungen in strukturierte Daten (Modell, Baujahr, Motortyp, Schätzwert)
Risikobewertung und Schätzung von Preisfaktoren für Kfz-Versicherungsprodukte
Sichere Datenanreicherung ohne Einbeziehung externer Dienste

Und das Wichtigste: All dies läuft innerhalb unserer Infrastruktur, ohne dass die Daten jemals das Gerät verlassen.

Erweiterung der Einrichtung für größere Modelle

Für noch anspruchsvollere Arbeitslasten können wir zwei PGX-Einheiten über NVIDIAs Hochgeschwindigkeits-Interconnect miteinander verbinden und so den Speicher und die Rechenleistung effektiv verdoppeln. Auf diese Weise können wir mit Modellen mit bis zu 400 Milliarden Parametern arbeiten - weit über das hinaus, was auf Standard-GPU-Workstations möglich ist. Für uns bedeutet das, dass wir ein spezialisiertes Versicherungsmodell feinabstimmen und es mit einem großen Allzweck-LLM in derselben Pipeline koppeln können, während wir gleichzeitig innerhalb eines sicheren Bereichs bleiben.

Mehr als nur Inferenz — Eine komplette Entwicklungsplattform

Während wir den PGX für produktionsreife Inferenzen und die Ausführung von Agenten verwenden, dient er auch als hervorragende Workstation für Forschung und Entwicklung. Er wird mit einer vorkonfigurierten Linux-Umgebung (DGX OS) ausgeliefert, komplett mit NVIDIAs CUDA-Stack und KI-Tools. Wir führen JupyterLab und Visual Studio Code direkt auf dem Gerät aus, so dass unser Team den Code an einem Ort entwickeln, testen und bereitstellen kann.

Der PGX unterstützt auch die neue NIM-API von NVIDIA, mit der sich LLM-basierte Dienste leichter prototypisieren und in andere Komponenten integrieren lassen. Zusammen mit dem DGX Dashboard zur Systemüberwachung und Ressourcensteuerung bildet es eine praktische, benutzerfreundliche Grundlage für die Erstellung und Wartung von KI-Diensten im eigenen Haus.

Diese Umgebung ermöglicht es uns, über den gesamten Lebenszyklus hinweg effizient zu arbeiten: vom prompten Entwurf und der Datenvorverarbeitung über die Feinabstimmung bis hin zur Bereitstellung in Echtzeit. Alles lokalisiert zu haben, bedeutet kürzere Feedback-Schleifen und größeres Vertrauen in die Datenverarbeitung.

Warum die lokale Ausführung im Versicherungswesen eine große Rolle spielt

Der lokale Betrieb von LLMs und Datenagenten verändert das Spiel für Versicherer. Viele Unternehmen in diesem Bereich haben feste Richtlinien, die eine Cloud-basierte Datenverarbeitung verbieten oder sie auf ganz bestimmte Plattformen beschränken. Mit dem PGX können wir diesen Beschränkungen direkt begegnen.

Indem wir die Modelle und Agenten physisch mit den Daten zusammenhalten - sei es auf einem einzelnen Rechner oder über ein sicheres internes Netzwerk - können wir eine robuste KI-Lösung anbieten, die selbst die strengsten Datenschutzrichtlinien erfüllt. Es gibt keinen Datentransfer außerhalb des Unternehmens, keine Exposition gegenüber Caching oder Telemetrie von Drittanbietern und keine Abhängigkeit von kommerziellen LLM-APIs.
Dadurch können wir KI-Systeme aufbauen, die nicht nur leistungsfähig und flexibel sind, sondern auch das Vertrauen von Rechts- und Compliance-Teams genießen, was in unserer Branche von entscheidender Bedeutung ist.

Was dies ermöglicht

Für K2G hat diese Einrichtung mehrere neue Möglichkeiten eröffnet:

Entwicklung und Erprobung von LLM-basierten Agenten, die direkt auf Schaden- und Vertragsdatensätzen arbeiten
Durchführung privater Inferenz-Workflows für Fahrzeug- und Preismodelle
Entwicklung und Feinabstimmung von versicherungsspezifischen LLMs, ohne auf externe Datenverarbeitung angewiesen zu sein
Bereitstellung von Lösungen vor Ort, in der Infrastruktur des Kunden, ohne Abhängigkeit von der öffentlichen Cloud

Das PGX hilft uns, die Lücke zwischen modernsten KI-Fähigkeiten und den Zwängen der realen Versicherungswelt zu schließen. Es ist zu einem zuverlässigen Bestandteil sowohl unseres internen F&E-Prozesses als auch unserer Strategie für den Produktionseinsatz geworden.

How to Build Secure Local AI for Insurance