Was ist Recall in einem RAG-System?

Definition

Recall ist der Anteil der tatsächlich relevanten Dokumente, die zu einer Suche gefunden wurden.

Beispiel

Stell dir vor, es gibt in deiner Datenbank 10 relevante Dokumente zu einer Frage:

  • Dein Retriever findet davon 8
    Recall = 8 / 10 = 0.8 (80 %)
  • Dein Retriever findet nur 3
    Recall = 3 / 10 = 0.3 (30 %)

Bedeutung im RAG-Kontext

  • Hoher Recall:
    → Das System hat fast alle relevanten Infos auf dem Schirm.
    → Wichtig, damit nichts Entscheidendes fehlt.
  • Niedriger Recall:
    → Das System übersieht viele relevante Stellen.
    → Gefahr, dass das LLM falsche oder unvollständige Antworten gibt.

Trade-off: Recall vs. Precision

  • Recall = wie viel von allem Relevanten habe ich gefunden?
  • Precision = wie viel von dem, was ich gefunden habe, ist wirklich relevant?

Beispiel aus der Medizin:

  • Lieber hoher Recall bei Krebsdiagnosen (kein Fall übersehen), auch wenn man dafür mehr „falsche Alarme“ (niedrigere Precision) hat.

Empfehlung für ein RAG-System:

  • Erst hohen Recall sichern (breit suchen)
  • Dann mit einem Reranker für hohe Precision sorgen.