BrandenburgPilot · Pipeline-Visualisierung

Testfrage auswählen

⚙️ Pipeline Einstellungen

⚡ Verweildauer 3.0 s

⏱ Übergang 2000 ms

Sequenziell

Bedingt (if/else)

Fallback / Retry

Async (Hintergrund)

Verzweigung

📥 PHASE 1 — DATENBESCHAFFUNG (tägl. / Di+Fr)

🗄️

Woher kommt das Wissen?

–

Bevor eine einzige Frage beantwortet werden kann, muss das System wissen was es weiß. KiStack bezieht sein Wissen aus zwei offiziellen Quellen der Stadt Brandenburg an der Havel: dem Stadtportal stadt-brandenburg.de (Verwaltung, Ämter, Dienstleistungen) und dem Tourismusportal erlebnis-brandenburg.de (Events, Unterkünfte, Sehenswürdigkeiten). Jede Nacht um 04:20 Uhr werden diese Quellen automatisch aktualisiert. Dienstags und freitags durchsucht ein automatischer Crawler (ein Programm, das Webseiten selbstständig ausliest) zusätzlich alle Unterseiten und PDF-Dokumente. Das gesamte Wissen — über 36.000 Textabschnitte — ist auf dem eigenen Server gespeichert, nicht in einer Cloud.

✂️

Chunking & Vektorisierung

–

Parent-Child Chunking (Phase 1a, seit 2026-03-16): Lange Texte werden zunächst in Parent-Chunks (~1.000 Zeichen) aufgeteilt, die den vollständigen Kontext bewahren. Jeder Parent wird anschließend in kleinere Child-Chunks (~300 Zeichen) zerlegt. Nur die Children bekommen einen Embedding-Vektor vom Modell bge-m3 (VM301) und werden per Similarity Search retrieved. Die Parents erhalten Zero-Vektoren und dienen als Kontext-Lieferant: Findet das System einen relevanten Child-Chunk, holt es automatisch den zugehörigen Parent — so bekommt das LLM immer den vollständigen Zusammenhang statt eines Textfragments.

            Parent (~1000 Z.) → Zero-Vector, nur per ID-Lookup

            └── Child 1 (~300 Z.) → Embedded, retrieved via Qdrant/Meilisearch

            └── Child 2 (~300 Z.) → Embedded, retrieved

            └── Child 3 (~300 Z.) → Embedded, retrieved

            ENV: CHUNK_PARENT_SIZE=1000 · CHUNK_CHILD_SIZE=300 · CHUNK_OVERLAP=50

🧮

Embedding VM301 (192.168.1.8)

Alle Vektorisierungen — sowohl beim täglichen Daten-Ingest als auch bei jeder Bürgeranfrage in Echtzeit — werden auf einem dedizierten Server (VM301, 192.168.1.8) berechnet. Das Embedding-Modell bge-m3 erzeugt 1024-dimensionale Vektoren. Durch die Auslagerung bleibt die NVIDIA A10 auf dem Hauptserver (VM300) vollständig für die LLM-Textgenerierung reserviert. Die Kommunikation erfolgt über eine FastAPI-Schnittstelle (Port 8532).

✅ AKTIV 📁 sentence-transformers FastAPI auf VM301:8532 · bge-m3 · 1024-dim 🌐 EMBED_URL=http://192.168.1.8:11434/api/embeddings 🎯 A10 auf VM300 frei für Generator-Inferenz (qwen3:14b-q8_0)

🧪

LLM-Enrichment (opt-in)

–

Optional: Nach dem Chunking kann jeder Textabschnitt durch das Sprachmodell mit Alltagsbegriffen und einer Kurzbeschreibung angereichert werden. Damit schließt das System die semantische Lücke zwischen Verwaltungssprache und Bürgersprache bereits im Ingest-Schritt — noch bevor eine Bürgerfrage gestellt wird. Aktiviert via INGEST_ENRICH=1.

📋 alltagsbegriffe (5–8)

Synonyme aus Bürger-Sicht
z.B. "Gelbe Tonne", "Wertstoff", "Mülltrennung"
→ Qdrant payload + Meili searchable

📄 kurzbeschreibung (1 Satz)

Kompakte Zusammenfassung im Verwaltungsstil
z.B. "Recycling-Abgabestellen in Brandenburg a. d. H. …"
→ Qdrant payload + Meili searchable

🌍

Geo-Enrichment (Nominatim)

Jeder Textabschnitt wird auf Adressen und Ortsnamen untersucht. Gefundene Adressen werden über den OpenStreetMap-Dienst Nominatim in Koordinaten (geo_lat/geo_lon) umgewandelt und im Qdrant-Payload gespeichert. Damit können Bürger standortbezogene Fragen stellen wie „Was ist in meiner Nähe?". Ein lokaler Cache beschleunigt wiederholte Abfragen.

✅ AKTIV 📁 geocode_enricher.py · Nominatim/OSM · Cache: 715 Adressen 📊 Abdeckung: erlebnis_pages 52%, city_pois 100%

🗺️

POI-Sync (OpenStreetMap)

Points of Interest werden wöchentlich aus OpenStreetMap synchronisiert. Die Overpass-API liefert Restaurants, Hotels, Museen, Parks, Kirchen, Supermärkte und weitere Orte im Stadtgebiet — als Node, Way und Relation mit Centroid-Koordinaten. 463 kuratierte POIs bilden die Collection city_pois mit 100% Geo-Abdeckung.

✅ AKTIV 📁 ingest_pois.py · poi_admin_api.py ⏰ Sonntag 03:30 · 463 POIs · 14 Kategorien 🔗 /admin/pois

👤

People-Ingest (Personalverzeichnis)

Personen der Stadtverwaltung werden aus dem Personalverzeichnis (PDF/HTML) extrahiert und als city_people Collection in Qdrant gespeichert. Manuelle Korrekturen über die Admin-Oberfläche (manual_overrides) überleben jeden Re-Ingest. Aktuell ~173 Personen mit Funktion, Abteilung, Kontaktdaten und Sprechzeiten.

✅ AKTIV 📁 people_admin_api.py · ingest_people.py ⏰ Täglich 04:58 · ~173 Personen · WHO-Intent boost ×2.0 🔗 /admin/people

🗑️

Archive-Job (veraltete Points)

Veraltete Datenpunkte, die in der Quell-XML nicht mehr vorhanden sind, werden nach 45 Tagen automatisch aus Qdrant und Meilisearch entfernt. Verhindert, dass das System Antworten auf Basis gelöschter oder veralteter Webseiten gibt. Protokollierung in den Ingest-Logs.

✅ AKTIV 📁 ingest_all.py · Archive-Logik ⏰ Sonntag 05:30 · ARCHIVE_DAYS=45

🔎

Meilisearch Re-Index (BM25-Spiegel)

Nach jedem Qdrant-Ingest werden alle Dokumente automatisch in Meilisearch gespiegelt — die Stichwort-Suchmaschine (BM25). Titel, Textinhalt, Alltagsbegriffe, Tags und Geo-Koordinaten werden synchronisiert. 237 Synonym-Gruppen und Stoppwörter werden dabei angewendet, damit z.B. „Kita" auch „Kindertagesstätte" findet. Ohne diesen Schritt würde die Hybrid-Suche (Phase 2) nur Vektoren nutzen und keine Stichwort-Treffer liefern.

✅ AKTIV 📁 reindex_meilisearch.py · Meilisearch 7700 🔗 237 Synonyme · Stoppwörter · 5 Collections

🐘

PostgreSQL 16.13 Connection Pool

Zentrale Datenbankverbindung über einen Thread-sicheren Connection Pool (psycopg2, min=2, max=10 Verbindungen). PostgreSQL 16.13 ersetzt SQLite als primäre Datenbank für alle strukturierten Daten: Benchmark-Ergebnisse, Traces, Sessions, Judge-Scores, FAQ und den SQL-RAG-Layer (Einrichtungen, Personen, POIs). Extensions pg_trgm (Trigramm-Suche) und unaccent (Umlaut-tolerant) ermöglichen Fuzzy-Suche direkt in der Datenbank.

✅ AKTIV 📁 db_postgres.py · ThreadedConnectionPool (min=2, max=10) 🗄️ PostgreSQL 16.13 · pg_trgm · unaccent · ~60.000 Zeilen ENV: DB_HOST=127.0.0.1, DB_PORT=5432, DB_NAME=kistack

🖼️

Multimodale Eingabe (Foto, PDF-Scan)NICE

Zukünftig: Bürger können Fotos von Dokumenten, Briefen oder Ausweisen einscannen und als Eingabe verwenden. Das Modell extrahiert Text und Kontext direkt aus dem Bild.

✗ Offen 📅 Geplant: offen Multimodal-RAG — 2025/26 Enterprise-Trend

🔍 PHASE 2 — ANFRAGEVERARBEITUNG (Echtzeit, pro Frage)

🚦

Rate-Limiting

Jede eingehende Anfrage wird zunächst auf Häufigkeit geprüft. Mehr als 30 Anfragen pro Minute von einer IP-Adresse werden mit HTTP 429 gedrosselt — Antwort als JSON (nicht HTML). Verhindert missbräuchliche Nutzung und schützt Server-Ressourcen.

✅ AKTIV 📁 api_wrapper.py · Flask-Limiter 4.1.1 🔒 /ask + /ask_stream: 30 Req/Min/IP · Default: 120 Req/Min ENV: RATE_LIMIT_ENABLED=1

🛡️

Guardrails (PII + Injection-Schutz)

Die Eingabe wird auf persönliche Daten (IBAN, Kreditkarte, Telefon, E-Mail, Ausweis, SV-Nummer) und auf Manipulationsversuche geprüft. Erkannte PII-Muster werden durch [Typ entfernt] maskiert, Injection-Versuche (6 Pattern-Gruppen: Rollenanweisungen, Jailbreak, DAN, Code-Injection, Datenexfiltration …) mit HTTP 400 abgewiesen. Output-Bereinigung entfernt IBAN und Kreditkartennummern aus LLM-Antworten.

✅ AKTIV 📁 guardrails.py 🔒 Max. 800 Zeichen · 6 Injection-Muster · PII-Maskierung Ein-/Ausgabe ENV: GUARDRAILS_ENABLED=1, GUARDRAILS_MAX_LEN=800

🧠

Konversationsgedächtnis (Multi-Turn)

Jede Browser-Sitzung erhält eine Session-ID (sessionStorage, Tab-basiert, kein Cookie). Die letzten 3 Fragen und Antworten werden als [Bisheriger Gesprächsverlauf]-Block dem Prompt vorangestellt. Bürger können Folgefragen stellen ohne die vorherige Frage zu wiederholen. TTL: 2 Stunden, Antworten auf 300 Zeichen gekürzt (Token-Effizienz).

✅ AKTIV 📁 session_store.py · PostgreSQL sessions-Tabelle · db_postgres.py Connection Pool ENV: SESSION_MEMORY_ENABLED=1, SESSION_MEMORY_TURNS=3, SESSION_MEMORY_TTL_HOURS=2

📝

Frage normalisieren

–

Die Eingabe des Bürgers wird technisch vorbereitet: Groß- und Kleinschreibung wird vereinheitlicht, Satzzeichen werden entfernt, Umlaute in beide Schreibweisen umgewandelt — ä wird zu ae, aber auch ae wird zu ä. Dadurch findet das System „Straße" auch wenn „Strasse" eingegeben wurde, und umgekehrt.

🎯

Absicht erkennen (Intent)

–

Das System analysiert die Struktur der Frage und erkennt die Absicht des Bürgers. Fragt er nach einer Person (WHO), einem Ort (WHERE), einem Termin (WHEN), einer Aufzählung (LIST) oder einem Vorgang (HOW)? Diese Erkennung entscheidet welche Datenquellen bevorzugt werden und welche Antwortstruktur das Sprachmodell am Ende verwendet. Es gibt insgesamt 9 Absichtstypen.

🔀 Bedingt

⚡

FAQ-Kurzweg

–

Manchmal kennt das System die Antwort bereits — ohne die volle KI-Verarbeitung. Wenn eine Frage sehr genau mit einem gespeicherten FAQ-Eintrag übereinstimmt (Score ≥ 0.90), wird die Antwort direkt geliefert und alle nachfolgenden Schritte werden übersprungen. Bei einem Score ≥ 0.45 wird der FAQ-Treffer nur als Hinweis dem Kontext hinzugefügt, die volle Pipeline läuft weiterhin durch.

🔀 Bedingt

🗄️

SQL-RAG Vorfilter (PostgreSQL)

–

Noch bevor die aufwendige Vektorsuche startet, prüft das System ob die Frage eine strukturierte Antwort aus der PostgreSQL-Datenbank liefern kann. Anhand des erkannten Intents und extrahierter Entitäten (z.B. "Standesamt", "Touristinfo") werden drei Tabellen per Fuzzy-Suche (pg_trgm, Schwelle > 0.25) durchsucht: 803 Einrichtungen, 173 Personen, 463 POIs. Bei einem Treffer wird der strukturierte Datensatz (Name, Adresse, Telefon, Öffnungszeiten) als Prioritäts-Kontext vor die Vektor-Ergebnisse gestellt. Durchschnittliche Latenz: ~12 ms — über 1.000× schneller als die Vektorsuche.

🔄 Fallback-Kette: personen (similarity) → einrichtungen (similarity → ILIKE) → pois (similarity → ILIKE)

🔀

✅ Treffer → Strukturdaten als Prioritäts-Kontext einspeisen (Budget 8→7 Chunks)

❌ Kein Treffer → Voller Vektor-Retrieval mit 8 Chunks

🔄 Intern: Fallback-Kette Personen → Einrichtungen → POIs (jeweils similarity + ILIKE)

🔀 Bedingt

🕸️

GraphRAG (Neo4j Multi-Hop)

–

Traversiert den Neo4j Knowledge Graph (3.050 Knoten, 1.555 Kanten, 85 Themen) um semantische Lücken zu schließen die weder SQL-RAG noch Vektorsuche lösen können. Beispiel: "Brandschutzbeauftragter" → Thema(Brandschutz) → Amt(Feuerwehr) → Person(Kalka). Score-Schwelle: 0.5. Unterstützt WHO, WHERE, WHAT, LIST Intents. Bei LIST mit historischen Keywords: Chronologische Auflistung (z.B. alle OBMs). Graph-Kontext wird als Priorität vorangestellt (vor Vektor-Chunks).

🎯

Constraints-Erkennung

–

Das System erkennt besondere Anforderungen in der Frage: „Nenne mir 3 Restaurants" → es werden genau 3 Ergebnisse gesucht (COUNT). „Restaurants in der Nähe" → Ergebnisse werden nach Entfernung zum erkannten Standort sortiert (NEARBY). „Liste alle Hotels" → die Antwort wird als Aufzählung formatiert (LIST). Diese Constraints steuern sowohl Suche als auch Antwortstruktur des Sprachmodells.

🔑

Schlüsselbegriffe extrahieren

–

Aus der vorbereiteten Frage werden inhaltlich tragende Wörter herausgelöst — die eigentlichen Fachbegriffe der Anfrage. Füllwörter wie „ist", „gibt", „kann", „sich" werden ignoriert (das System kennt 306 solcher Stoppwörter). Was übrig bleibt sind die Begriffe die die Suche steuern: z.B. „Touristinformation", „Öffnungszeiten", „Ordnungsamt". Je präziser diese Begriffe, desto besser das Suchergebnis.

🔀 NEARBY

📍

Geo-Erkennung

–

Das System prüft ob die Frage einen geografischen Bezug enthält: Stadtteile (Neustadt, Altstadt, Görden …), Postleitzahlen (14770–14776) oder bekannte Orte (Bahnhof, Rathaus, Dom). Wird ein Ort erkannt, werden Suchergebnisse nach ihrer Entfernung zu diesem Punkt sortiert und die Antwort enthält Angaben wie „ca. 300 m entfernt".

📍

📍 NEARBY-Intent → Geo-Filter + Distanz-Ranking + km-Labels

🔍 Anderer Intent → Standard-Retrieval ohne Geo-Filter

🔄 Fallback: 0 POI-Treffer → erweiterter Suchradius (×3)

⚡ LLM-QUERY-VORBEREITUNG

🔀 Optional

⚡

LLM-gestützte Query-Vorbereitung

–

Bevor die eigentliche Suche startet, reichert das System die Anfrage durch zwei parallele LLM-Aufrufe an — beide Schritte schließen die semantische Lücke zwischen Bürgersprache und Verwaltungsdokumenten. HyDE (Hypothetical Document Embeddings) lässt das Modell eine fiktive Verwaltungsantwort formulieren und embeddet diese statt der Originalfrage — der Vektor liegt viel näher an echten Dokumenten als der der Bürgerfrage. Query-Rewriting erzeugt 2–3 Umformulierungen für breiteren BM25-Abdeckung in Meilisearch.

🔮 HyDE — Hypothetical Document Embeddings

Ollama → hypothetische Verwaltungsantwort (2–3 Sätze)
→ bge-m3 → 1024-dim Vektor
→ Qdrant-Suche mit HyDE-Vektor statt Originalfrage
hardcoded aktiv

📝 Query-Rewriting — 2–3 Varianten

Ollama → normalisiert / Verwaltungssprache / Suchbegriff
→ BM25-Suche je Variante in Meilisearch
→ Treffer fließen in RRF-Merge (Phase 3) ein
ENV: QUERY_REWRITE_ENABLED=1

🔀

Suchanfrage erweitern (Query-Expansion)

–

Die ursprüngliche Frage wird mit den extrahierten Schlüsselbegriffen angereichert bevor sie in die Suche geht. Ein Duplikat-Schutz verhindert dass Begriffe doppelt erscheinen. Zusätzlich werden Umlaut-Varianten erzeugt (ä/ae, ö/oe, ü/ue), damit die Suche sowohl „Öffnungszeiten" als auch „Oeffnungszeiten" findet. Das Ergebnis ist eine optimierte Suchanfrage die mehr relevante Dokumente findet als die Originalfrage allein.

⚖️

Datenquellen gewichten

–

KiStack hat 7 Datenquellen (Collections): Stadtverwaltung, Unterseiten, Dokumente, Tourismus/Erlebnis, Personen, Einrichtungen und POIs. Ein speziell trainiertes neuronales Netz (gbert-base, 110 Mio. Parameter, §226) analysiert den Fragetext und berechnet für jede Datenquelle eine Wahrscheinlichkeit — bei „Welche Schiffsrundfahrten gibt es?" erhält Tourismus 97%, bei „Wer leitet das Ordnungsamt?" die Personendaten 49%. Das Modell wurde auf 1.367 Beispielen trainiert und erreicht 95,8% Genauigkeit. Falls der Classifier deaktiviert ist, greift ein statistisches Fallback (CollectionRouter) oder die statische Intent-basierte Gewichtung.

🔍

Hybrid-Suche (3 parallele Pfade)

–

Drei Suchpfade laufen gleichzeitig: (1) Dense-Suche mit dem HyDE-Vektor aus Phase 1b — findet semantisch ähnliche Dokumente im Bedeutungsraum der Verwaltungsdokumente. (2) Dense-Suche mit dem Embedding der erweiterten Originalfrage (Qdrant / bge-m3). (3) BM25-Stichwortsuche für jede Query-Rewriting-Variante in Meilisearch — mit Synonymen und Stoppwörtern. Alle drei Ergebnislisten werden per RRF-Fusion zu einem gemeinsamen Ranking vereint.

🔗 Parent-Child Filter (Phase 1a): Qdrant-Suche filtert must_not: is_parent=True — nur Child-Chunks werden retrieved. Parents werden nie per Similarity Search gefunden.

🔮 Dense — HyDE-Vektor

Qdrant
bge-m3
Hypothetisches Dokument-Embedding

🧠 Dense — expanded_q

Qdrant
bge-m3
Erweitertes Originalfrage-Embedding

📖 BM25 — Rewrite-Varianten

Meilisearch
2–3× je Variante
Synonyme + Stoppwörter

↓ ↓ ↓ ⊕ RRF-Merge → Einheitliches Ranking

⚠️ Code-Realität: Die 3 Suchpfade laufen im Code sequenziell ab (kein ThreadPoolExecutor). Echte Parallelisierung wäre ein offener Performance-Gewinn (~30% Latenz-Reduktion).

📊

Ergebnisse zusammenführen (RRF-Ranking)

–

Die Ergebnisse beider Suchverfahren werden zusammengeführt und nach einem kombinierten Wert neu sortiert. Das Verfahren heißt RRF (Reciprocal Rank Fusion — gegenseitige Rangverstärkung): Ein Dokument das in beiden Suchlisten weit oben steht, erhält einen besonders hohen Gesamtwert. Zusätzlich misst ein Coverage-Score wie viele der Suchbegriffe tatsächlich im Dokument vorkommen. So profitiert jedes Ergebnis von beiden Suchverfahren gleichzeitig.

🔀 Optional

🎯

Cross-Encoder Reranker

Nach dem RRF-Ranking werden die Top-20 Treffer durch das Modell BAAI/bge-reranker-v2-m3 (~1.1 GB, gecacht) neu bewertet. Es vergleicht Frage und Dokumentinhalt als Paar — präziser als reines Vektor-Ähnlichkeitsmaß. Smoke-Test bestanden: Score 0.9826 für relevanten Treffer.

✅ AKTIV (RERANKER_ENABLED=1) 📁 reranker.py · BAAI/bge-reranker-v2-m3 · sentence-transformers 5.2.3 🔒 Aktiv seit 01.03.2026 · Top-20 Kandidaten re-ranked · CUDA via Tesla T4

🧹

Chunk-Qualität & Deduplication

Zwei Mechanismen verbessern die Qualität der Retrieval-Ergebnisse: (1) URL-Deduplication — bei mehreren Chunks derselben URL wird der längste/relevanteste bevorzugt statt alle anzuzeigen. (2) BIS-Artefakt-Cleaning — das Serviceportal (egov-bis-detail) erzeugt Template-Fragmente wie "nd:", "Textblöcke ein-/ausklappen" die vor der LLM-Übergabe entfernt werden. 654 Chunks (28%) waren betroffen.

✅ AKTIV 📁 hybrid_search.py · rag_chat.py · ingest_all.py 🔧 URL-Dedup: längster Chunk pro URL bevorzugt · BIS-Cleaning: Runtime + Ingest

🎯

👤 WHO → Temporales Personen-Reranking + Special Handler (aktiv/inaktiv)

📅 WHEN → Event-Zeitraum-Filter + Vergangenheits-Entfernung

📍 NEARBY → Distanz-Sortierung + Entfernungs-Labels

🔍 Andere Intents → Standard-Ranking beibehalten

🔀 Intent

📅

Temporal-Filter (WHO / NEARBY)

Bei WHO-Anfragen (z.B. „Wer leitet das Amt im März 2026?") wird das Datum aus der Frage extrahiert — auch deutsche Monatsnamen. Personen-Treffer werden gegen ihre Amtszeiten geprüft: nur wer zum angefragten Zeitpunkt aktiv war, bleibt im Ergebnis. Bei NEARBY-Anfragen werden vergangene Veranstaltungen und abgelaufene Events herausgefiltert. Unterstützt DD.MM.YYYY, YYYY-MM-DD und „im April 2026"-Formate.

✅ AKTIV 📁 rag_chat.py · _extract_query_date() · _person_active_on_date() 🕐 WHO: Amtszeit-Check · NEARBY: Past-Event-Filter + rank_by_distance

🕸️

GraphRAG / Knowledge GraphAKTIV

Neo4j Knowledge Graph mit 3.050 Knoten, 1.555 Kanten und 85 Themen. Multi-Hop Traversierung: Thema(Brandschutz) → Amt(Feuerwehr) → Person(Kalka) → Telefon. Löst semantische Lücken die weder Vektor- noch Keyword-Suche finden können. Score-Schwelle: 0.5. Unterstützt WHO, WHERE, WHAT, LIST-Intents. Bei LIST: Chronologische Auflistung (z.B. alle OBMs). GraphRAG-Kontext wird als Priorität vorangestellt. GRAPH_RAG_ENABLED=1 seit §196.

✅ AKTIV seit 21.03.2026 📁 graph_rag.py · Neo4j 5.26 · build_graph.py (Nightly Step 5b) 🔧 3.050 Knoten · 1.555 Kanten · 85 Themen · bolt://localhost:7687

🔬

CRAG Retrieval-Evaluator (§267)

Bevor das LLM die Antwort generiert, bewertet ein Evaluator die Qualität der gefundenen Chunks. Zwei Modi: Bei LLM_CRAG_ENABLED=1 bewertet qwen3.5:9b die Chunks per LLM-Call (~1s Latenz) mit 3-Stufen-Verdict. Bei LLM_CRAG_ENABLED=0 läuft die heuristische Variante (Reranker-Score + Keyword-Overlap). Ergebnis: CORRECT → normal weiter, AMBIGUOUS → Query Expansion nachholen, INCORRECT → pre-emptive Deep Search VOR dem LLM-Call. §378: LLM-CRAG seit 15.04.2026 aktiv.

✅ AKTIV 📁 rag_chat.py · _evaluate_retrieval_quality() · orchestrator/llm_crag_agent.py 🔧 LLM_CRAG_ENABLED=1 · Modell: qwen3.5:9b · Latenz: ~1s · Fallback: Heuristik

📅

Content-Freshness (§275c)

Jeder Chunk mit last_modified bekommt einen Zeitstempel-Tag im Kontext: Älter als 12 Monate → [Historisch: April 2022], älter als 6 Monate → [Stand: September 2025]. Das LLM erkennt historische Quellen und nennt keine konkreten Termine daraus als aktuell. Verhindert veraltete Informationen aus Newslettern und alten Veröffentlichungen.

✅ AKTIV 📁 rag_chat.py · _build_context_dicts() · system_prompt_de.txt

🚪

Qualitäts-Filter — Was kommt durch?

–

Nicht alle gefundenen Textabschnitte sind gleich gut. Das System prüft jeden Treffer nach mehreren Kriterien: Relevanz-Score (≥ 0.18 Minimum), Newsletter-Abwertung, Coverage-Score (wie viele Suchbegriffe im Dokument vorkommen), Freshness-Penalty (ältere Dokumente werden leicht abgewertet), Past-Event-Filter (vergangene Veranstaltungen werden entfernt), und bei NEARBY-Anfragen: rank_by_distance (Sortierung nach Geo-Distanz) plus Temporal-Filter (nur aktuelle Events und Seiten). Wenn zu wenige gute Quellen übrig bleiben, antwortet das System ehrlich: „Dazu habe ich leider keine Information."

📄

Kontext aufbauen

–

Die Top-5 Dokumente werden als Textausschnitte zusammengestellt. Bei Standort-Fragen enthält jeder Ausschnitt die berechnete Entfernung zum gesuchten Ort. Dieses Kontext-Paket ist das einzige was das Sprachmodell zu sehen bekommt — es darf keine eigenen Kenntnisse oder Informationen aus dem Internet verwenden, sondern ausschließlich diese bereitgestellten, geprüften Quellen.

👪 Child→Parent-Lookup (Phase 1a): Jeder retrieved Child-Chunk hat eine parent_id. Per qdrant.retrieve(parent_id) wird der vollständige Parent-Text geholt und anstelle des kurzen Child-Textes als LLM-Kontext verwendet. So bekommt das Modell ~1000 statt ~300 Zeichen pro Treffer.

💬 PHASE 3 — ANTWORTGENERIERUNG (Echtzeit, pro Frage)

🤖

KI-Antwort generieren

–

Das lokale Sprachmodell qwen3:14b-q8_0 — ein KI-Modell mit 14 Milliarden Parametern in 8-Bit-Quantisierung, vergleichbar mit einem sehr erfahrenen Textredakteur — läuft vollständig auf dem eigenen Server (NVIDIA A10, 24 GB VRAM) ohne Cloud-Anbindung. Es formuliert aus den bereitgestellten Quelltexten eine verständliche deutsche Antwort im Sie-Stil. 7 verschiedene Antwort-Vorlagen je nach erkannter Absicht steuern Ton und Struktur der Antwort.

🔀 Bedingt

🔍

Self-Critique (qwen3.5:9b)

Ein separates Modell (qwen3.5:9b auf VM301) prüft die generierte Antwort auf Halluzinationen und Widersprüche zum Kontext. Bei SQL-RAG-Treffer mit Score ≥ 0.9 wird nur der SQL-RAG-Kontext an die Critique übergeben (Vermeidung widersprüchlicher Chunks). Die Critique kann die Antwort korrigieren oder unverändert durchlassen. Läuft nur wenn SELF_CRITIQUE_ENABLED=1.

🔄

Self-RAG Feedback-Loop (§268) DEAKTIVIERT

Critique-Score → bei niedrigem Score: Deep Search → erneute Critique → Retry. Wurde in Iter 4 deaktiviert (§276): Wandelte Teilantworten in harte Ablehner um (12 neue Ablehner, OK-Rate 98.3% → 96.6%). SELF_RAG_LOOP_ENABLED=0. Kann nach Code-Verbesserung reaktiviert werden.

DEAKTIVIERT (Regression)

🔀 Ablehner

🔎

Deep Search (Stufe 2)

Wird nur aktiviert wenn Retry + Self-Critique keinen Treffer liefern (Ablehner nach Stufe 1). Generiert 5-8 alternative Suchbegriffe via LLM, durchsucht alle Collections einzeln, sammelt bis zu 136 Chunks und versucht eine Teilantwort. Letzte Rettung vor "Dazu liegen keine Informationen vor". Nur bei DEEP_SEARCH_ENABLED=1.

✅ Immer

⭐

STG-Boost · Geo-Filter · POI-Dedup

Drei Post-Processing Schritte: (1) STG-Partner-Boost: Anbieter mit bezahltem Webeintrag erhalten 1.3× Score-Boost bei LIST/WHAT/WHERE/HOW (nicht NEARBY). (2) Geo-Filter: Bei erkanntem Ortsbezug werden Ergebnisse nach Entfernung sortiert (15km Radius). GPS-Koordinaten als Fallback. (3) POI-Deduplizierung: city_einrichtungen gewinnt über city_pois bei Namens-Match.

⏱️ Async

🔬

LLM-as-Judge EvaluationMUST

Nach jeder generierten Antwort bewertet ein separates Sprachmodell (qwen3:8b) auf einem dedizierten Server (VM301, 192.168.1.8) die Ausgabe in einer parallelen Anfrage — vollständig asynchron in einem Hintergrund-Thread, ohne die Antwortzeit zu beeinflussen. Durch die Trennung von Generator (qwen3:14b) und Judge (qwen3:8b) wird Self-Eval-Bias vermieden. Bewertet werden vier Dimensionen auf einer Skala 1–5: Korrektheit (Inhalt ausschließlich aus den Quellen ableitbar?), Vollständigkeit (alle Aspekte der Frage beantwortet?), Ton (formelles Sie, bürgernah, verständlich?) und Quellennutzung (keine Halluzination?). Korrekte Ablehnungen ("Dazu liegen mir keine Informationen vor") werden automatisch übersprungen und zählen nicht als Fehler. Alle Scores werden in der Tabelle judge_scores in PostgreSQL gespeichert und sind im Admin-Bereich unter /admin/settings auswertbar. Ermöglicht kontinuierliche Qualitätsmessung auch bei Fragen die noch nicht im Benchmark sind — ohne manuelle Musterlösungen. Aktuell deaktiviert (LLM_JUDGE_ENABLED=0) — qwen3:8b läuft auf CPU mit 90s Timeout, wartet auf GPU-Einbau (T4) in VM301.

⏳ Lade… 📁 llm_judge.py · judge_scores (PostgreSQL) · Daemon-Thread 🔧 qwen3:8b auf VM301 (192.168.1.8) — kein Self-Eval-Bias · Ablehner übersprungen ENV: LLM_JUDGE_ENABLED=– · Schalter nur über /admin/settings

✅ Einzige echt parallele Komponente: Läuft als Daemon-Thread (fire-and-forget), blockiert die Antwort-Auslieferung nicht. Ergebnis wird asynchron in PostgreSQL gespeichert.

✍️

Antwort aufbereiten & Quellen verknüpfen

–

Die rohe Antwort des Sprachmodells wird für die Anzeige aufbereitet: Formatierungszeichen wie ** oder ## die das Modell manchmal einfügt werden entfernt. Jede Quellenangabe wird als klickbarer Link zur Originalseite auf stadt-brandenburg.de oder erlebnis-brandenburg.de aufgebaut. Bei Spracheingabe wird die Antwort zusätzlich an den Vorlesedienst (Piper TTS — ein Sprachsyntheser, der lokal auf dem Server läuft) übergeben. Erst dann wird die fertige Antwort Wort für Wort (Streaming) an den Browser des Bürgers übertragen. Stand 10.04.2026: Im Stream-Pfad /ask_stream läuft aktuell nur _validate_answer() (rag_chat.py:302). Der erweiterte _cleanup_response() mit Hedging- und Meta-Leak-Regex (rag_chat.py:391) wirkt nur im Non-Streaming-Pfad /ask via _call_ollama Z.519. Siehe docs/Systemanalyse20260410.md Finding #1.

📋

Answer-Instruction & Fallback-Logik

Vor der LLM-Generierung wird eine detaillierte Antwort-Instruktion erstellt: Formale Anrede („Sie"), Quellenpflicht, Länge (max. 4 Sätze), intent-spezifische Regeln (WHO → Name+Funktion+Kontakt, WHERE → Adresse+Öffnungszeiten, WHEN → Datum+Uhrzeit). Bei zu wenig Kontext (Score < 0.18) greift die Fallback-Logik: Das System antwortet ehrlich „Dazu habe ich leider keine verlässliche Information" statt zu halluzinieren.

✅ AKTIV 📁 answer_instruction.py · system_prompt_de.txt 🎯 Intent-spezifisch: WHO, WHERE, WHEN, HOW, LIST, NEARBY

👍

User-Feedback-Widget (👍 / 👎)SHOULD

Unter jeder Antwort erscheinen zwei Schaltflächen: Hilfreich / Nicht hilfreich. Das Feedback wird gespeichert und schließt den Qualitätskreislauf: Negative Bewertungen fließen automatisch als neue Testfälle in den Benchmark, positive Antworten können direkt als FAQ-Einträge übernommen werden.

⚠ Partiell 📅 Geplant: KW10/2026 Ergebnis-DB vorhanden — nur Chat-Widget fehlt

⏱

Laufzeit-Profil

–

Zeigt ein farbiges Balkendiagramm der gemessenen Laufzeiten aller Verarbeitungsschritte. Typisch: Sprachverarbeitung (NLP) ~15 ms, KI-Bedeutungssuche (Qdrant) ~150 ms, Stichwortsuche (Meilisearch) ~70 ms, Zusammenführung (RRF) ~10 ms, Sprachmodell (LLM) 3–8 Sekunden. Der mit Abstand größte Zeitblock ist immer die KI-Generierung der Antwort.

🔒

Datenschutz & Datensouveränität

–

Dieser letzte Schritt ist kein technischer Verarbeitungsschritt, sondern ein bewusstes Bekenntnis: Die gesamte Verarbeitung — von der Frage des Bürgers bis zur fertigen Antwort — findet ausschließlich auf dem eigenen Server der STG Brandenburg an der Havel statt. Kein einziges Wort der Bürgerfrage verlässt den städtischen Server. Es wird kein Cloud-Dienst genutzt, keine externe KI-API aufgerufen (OpenAI, Google, Microsoft etc.), keine Nutzerdaten weitergegeben. Das Sprachmodell qwen3:14b, die Vektordatenbank Qdrant, die Suchmaschine Meilisearch und der Vorlesedienst Piper — alle laufen vollständig lokal auf der eigenen Hardware.

📊 PHASE 4 — EVALUATION & OBSERVABILITY (offline / kontinuierlich)

📐

RAGAS-Metriken (Faithfulness, Context Precision)

qwen3:14b wird ein zweites Mal aufgerufen — diesmal nicht als Chatbot, sondern als Judge. Er bewertet jede Antwort auf zwei Metriken: Faithfulness (Ist die Antwort durch die gefundenen Quellen belegt, oder halluziniert der LLM?) und Context Precision (Sind die retrieved Chunks überhaupt relevant für die Frage?). So lässt sich gezielt erkennen, ob ein Problem im Retrieval oder in der Generierung liegt.

✅ AKTIV 📁 ragas_eval.py · qwen3:14b als Judge (think:false) 🔗 /admin/ragas — Dashboard, Schlechteste Antworten, Intent-Analyse

📊

Benchmark (Testfragen)

… Testfragen werden regelmäßig automatisch gegen die Pipeline getestet. Jede Antwort wird als OK oder Ablehner klassifiziert (ok_count Tracking). Ergebnisse fließen in die Lückenanalyse: Ablehner-Muster werden erkannt, fehlende Synonyme automatisch generiert und das System kontinuierlich verbessert.

✅ AKTIV 📁 admin_feedbackloop.py · kistack_testfragen.db (… Fragen) 🔗 /admin/feedbackloop · /admin/lueckenanalyse

🏆

Retrieval-Metriken + GoldKIStack Level (§278/§279)

Nach jedem Benchmark-Run werden automatisch berechnet: MRR (Mean Reciprocal Rank), Recall@5/10, NDCG@5 und Halluzinationsrate. Anschliessend wird das hoechste erreichte GoldKIStack-Level bestimmt: Bronze (>95% OK, >0.60 Faith, >0.45 MRR, <25% Halluz), Silber (>98%, >0.70, >0.55, <15%) oder Gold (>99%, >0.80, >0.65, <10%). Ergebnis in benchmark_runs.quality_level.

✅ AKTIV 📁 retrieval_metrics.py · benchmark_worker.py (Post-Pipeline Schritt 2c/2d)

🔭

Distributed Tracing (Span-Logging)

Jeder Verarbeitungsschritt wird als Span mit Zeitstempel in PostgreSQL gespeichert. 7 Spans: nlp_phase → sql_rag → embed → qdrant_search → meilisearch_search → rerank_merge → llm_generate. Bei Produktionsfehlern ist sofort sichtbar: In welchem Schritt ist die Pipeline abgewichen? Dashboard unter /admin/traces mit Span-Statistiken und Timeline-Visualisierung.

✅ AKTIV 📁 tracer.py · PostgreSQL traces + spans · Retention: 7 Tage 🔗 /admin/traces — Span-Statistiken + Timeline ENV: TRACING_ENABLED=1, TRACING_RETAIN_DAYS=7

🔄

Chat-Feedback-Kreislauf (👍 / 👎 → Benchmark)

Jede Chat-Antwort wird in der Ergebnis-Datenbank gespeichert. Negative Bewertungen (👎) und Antworten mit niedrigem Score fließen automatisch als neue Testfälle in den Benchmark-Katalog. So wächst die Testabdeckung organisch mit der realen Nutzung. Positive Antworten können als FAQ-Einträge übernommen werden. Der Kreislauf schließt sich: Chat → Feedback → Benchmark → Verbesserung → bessere Antworten.

✅ AKTIV 📁 api_wrapper.py · results.db · admin_feedbackloop.py 🔗 Ergebnisse → Testfragen → Benchmark → Optimierung

🔀

A/B-Testing Prompts & ModelleSHOULD

Neue Prompt-Versionen oder Modell-Upgrades werden automatisch gegen den Benchmark getestet bevor sie live gehen. Wenn eine neue Version die OK-Rate um mehr als 2% verschlechtert, wird das Deployment blockiert. Verhindert Regressions-Fehler bei Weiterentwicklungen.

✅ AKTIV 📁 /admin/cicd · Regression-Check (30 Fragen) + Full Benchmark 🔧 Stichprobe vor Deploy · Quality Gate: OK-Rate-Schwelle

🚀

CI/CD Pipeline & Quality Gates

Integrierte CI/CD-Pipeline unter /admin/cicd: Quality Gate prüft Regressions-Risiko vor Deployment (Stichprobe N=20), Deploy-Button mit automatischem Service-Restart, Regression-Check vergleicht aktuelle Antworten mit letztem Benchmark. Benchmark-Durchläufe als eigenständiger systemd-Worker-Service (kistack-benchmark.service), unabhängig von UI und API.

✅ AKTIV 📁 admin_cicd.py · benchmark_worker.py · kistack-benchmark.service 🔗 Quality Gate → Regression-Check → Deploy → Restart → Verify

🤖

Orchestrator — Supervised Optimizer (§377-§382)

Übergeordnete Optimierungs-Schicht, die alle Pipeline-Phasen überwacht und iterativ verbessert. 5-Schritt-Workflow: Analysieren → Vorschlagen → Deployen → Messen → Entscheiden. Supervised Mode: kein autonomes Deployment ohne Thomas-Freigabe.

Analyse-Agenten

GT-Validator Analyst (B2/C) LLM-CRAG

Entscheidung + Messung

McNemar-Test Safety-Gate Decision

IDLE

State

—

GT-Konflikte

—

B2-Fragen

✅ AKTIV 📁 app/orchestrator/ · 11 Module · ~2.400 Zeilen 🔗 Live-Status → /admin/orchestrator

⚙️ Pipeline Einstellungen

Woher kommt das Wissen?

Chunking & Vektorisierung

Embedding VM301 (192.168.1.8)

LLM-Enrichment (opt-in)

📋 alltagsbegriffe (5–8)

📄 kurzbeschreibung (1 Satz)

Geo-Enrichment (Nominatim)

POI-Sync (OpenStreetMap)

People-Ingest (Personalverzeichnis)

Archive-Job (veraltete Points)

Meilisearch Re-Index (BM25-Spiegel)

PostgreSQL 16.13 Connection Pool

Multimodale Eingabe (Foto, PDF-Scan)NICE

Rate-Limiting

Guardrails (PII + Injection-Schutz)

Konversationsgedächtnis (Multi-Turn)

Frage normalisieren

Absicht erkennen (Intent)

FAQ-Kurzweg

SQL-RAG Vorfilter (PostgreSQL)

GraphRAG (Neo4j Multi-Hop)

Constraints-Erkennung

Schlüsselbegriffe extrahieren

Geo-Erkennung

LLM-gestützte Query-Vorbereitung

🔮 HyDE — Hypothetical Document Embeddings

📝 Query-Rewriting — 2–3 Varianten

Suchanfrage erweitern (Query-Expansion)

Datenquellen gewichten

Hybrid-Suche (3 parallele Pfade)

🔮 Dense — HyDE-Vektor

🧠 Dense — expanded_q

📖 BM25 — Rewrite-Varianten

Ergebnisse zusammenführen (RRF-Ranking)

Cross-Encoder Reranker

Chunk-Qualität & Deduplication

Temporal-Filter (WHO / NEARBY)

GraphRAG / Knowledge GraphAKTIV

CRAG Retrieval-Evaluator (§267)

Content-Freshness (§275c)

Qualitäts-Filter — Was kommt durch?

Kontext aufbauen

KI-Antwort generieren

Self-Critique (qwen3.5:9b)

Self-RAG Feedback-Loop (§268) DEAKTIVIERT

Deep Search (Stufe 2)

STG-Boost · Geo-Filter · POI-Dedup

LLM-as-Judge EvaluationMUST

Antwort aufbereiten & Quellen verknüpfen

Answer-Instruction & Fallback-Logik

User-Feedback-Widget (👍 / 👎)SHOULD

Laufzeit-Profil

Datenschutz & Datensouveränität

RAGAS-Metriken (Faithfulness, Context Precision)

Benchmark (Testfragen)

Retrieval-Metriken + GoldKIStack Level (§278/§279)

Distributed Tracing (Span-Logging)

Chat-Feedback-Kreislauf (👍 / 👎 → Benchmark)

A/B-Testing Prompts & ModelleSHOULD

CI/CD Pipeline & Quality Gates

Orchestrator — Supervised Optimizer (§377-§382)

🎨 Stage-Legende — Entwicklungsstand