
Chunking für komplexe Berechnungen richtig einstellen
Als KI-Berater werde ich oft gefragt, wie man zum Beispiel RAGFlow optimal konfiguriert, um aus komplexen Dokumenten wie Ingenieursberechnungen das Maximum herauszuholen.
Gerade bei technischen PDFs mit Formeln, Tabellen und vielen Abhängigkeiten ist die richtige Chunking-Strategie entscheidend, damit ein LLM später präzise Antworten liefern kann.
Der Unterschied zwischen Aufgabenseitengröße und Chunkgröße
Zunächst wird in RagFlow oft folgendes verwelchselt:
- Aufgabenseitengröße (Task page size)
→ Steuert, wie viele PDF-Seiten in einem Verarbeitungsschritt („Batch“) an den Parser übergeben werden.
→ Hat keinen Einfluss auf die semantische Chunkgröße.
→ Größer = schneller, aber mehr RAM-Bedarf. - Chunkgröße (Chunk size)
→ Steuert, wie viele Tokens pro Vektor-Embedding verarbeitet werden.
→ Entscheidend für die Kontextqualität beim späteren Abruf.
Optimale Chunkgröße für Ingenieursberechnungen
Bei technischen Dokumenten wollen wir ganze Rechenschritte zusammenhalten – von Annahmen über Variablendefinitionen bis zum Endergebnis.
Empfehlung für diesen Use Case:
- Chunkgröße: 500–800 Tokens
→ genug für 1–2 Seiten mit Formeln, ohne zu viel Rauschen - Overlap: 100–150 Tokens
→ sichert, dass Formeln nicht mitten im Satz abgeschnitten werden - Parser: DeepDoc
→ bessere Erkennung von Tabellen und Formeln
RAPTOR – ja oder nein?
- Für präzise Zahlenprüfungen: besser aus
→ Summaries können Details „verwässern“ - Für sehr lange Dokumente mit vielen Wiederholungen: einschalten
→ verbessert Grob-Navigation im Retrieval
Best Practices
- Seitenbereiche einschränken – irrelevante Teile (Deckblatt, Anhänge) ausschließen
- Chunk-Ergebnisse prüfen – sicherstellen, dass keine Formeln oder Tabellen auseinandergerissen werden
- Retriever sauber konfigurieren – Top-K auf 4–6, MMR aktivieren
- Antwortformat vorgeben – Seitenangaben, zitierte Werte, Prüfrechnungen
💡 Fazit:
Wer präzise Ergebnisse aus technischen Dokumenten will, muss die Chunkgröße in den globalen Einstellungen im Blick behalten und die Seitenbereiche sorgfältig wählen.
Gerade bei Ingenieursberechnungen lohnt sich diese Detailarbeit – das LLM versteht die Rechenschritte dann im richtigen Kontext.

