Chunking für komplexe Berechnungen richtig einstellen

Als KI-Berater werde ich oft gefragt, wie man zum Beispiel RAGFlow optimal konfiguriert, um aus komplexen Dokumenten wie Ingenieursberechnungen das Maximum herauszuholen.
Gerade bei technischen PDFs mit Formeln, Tabellen und vielen Abhängigkeiten ist die richtige Chunking-Strategie entscheidend, damit ein LLM später präzise Antworten liefern kann.

Der Unterschied zwischen Aufgabenseitengröße und Chunkgröße

Zunächst wird in RagFlow oft folgendes verwelchselt:

Aufgabenseitengröße (Task page size)
→ Steuert, wie viele PDF-Seiten in einem Verarbeitungsschritt („Batch“) an den Parser übergeben werden.
→ Hat keinen Einfluss auf die semantische Chunkgröße.
→ Größer = schneller, aber mehr RAM-Bedarf.
Chunkgröße (Chunk size)
→ Steuert, wie viele Tokens pro Vektor-Embedding verarbeitet werden.
→ Entscheidend für die Kontextqualität beim späteren Abruf.

Optimale Chunkgröße für Ingenieursberechnungen

Bei technischen Dokumenten wollen wir ganze Rechenschritte zusammenhalten – von Annahmen über Variablendefinitionen bis zum Endergebnis.

Empfehlung für diesen Use Case:

Chunkgröße: 500–800 Tokens
→ genug für 1–2 Seiten mit Formeln, ohne zu viel Rauschen
Overlap: 100–150 Tokens
→ sichert, dass Formeln nicht mitten im Satz abgeschnitten werden
Parser: DeepDoc
→ bessere Erkennung von Tabellen und Formeln

RAPTOR – ja oder nein?

Für präzise Zahlenprüfungen: besser aus
→ Summaries können Details „verwässern“
Für sehr lange Dokumente mit vielen Wiederholungen: einschalten
→ verbessert Grob-Navigation im Retrieval

Best Practices

Seitenbereiche einschränken – irrelevante Teile (Deckblatt, Anhänge) ausschließen
Chunk-Ergebnisse prüfen – sicherstellen, dass keine Formeln oder Tabellen auseinandergerissen werden
Retriever sauber konfigurieren – Top-K auf 4–6, MMR aktivieren
Antwortformat vorgeben – Seitenangaben, zitierte Werte, Prüfrechnungen

💡 Fazit:

Wer präzise Ergebnisse aus technischen Dokumenten will, muss die Chunkgröße in den globalen Einstellungen im Blick behalten und die Seitenbereiche sorgfältig wählen.
Gerade bei Ingenieursberechnungen lohnt sich diese Detailarbeit – das LLM versteht die Rechenschritte dann im richtigen Kontext.

Der Unterschied zwischen Aufgabenseitengröße und Chunkgröße

Optimale Chunkgröße für Ingenieursberechnungen

RAPTOR – ja oder nein?

Best Practices

Das könnte Ihnen auch gefallen

Was ist OpenIE

Explainable AI: Nachvollziehbare Antworten mit GraphRAG

Was ist eine SKU?