Michael Rifkin

Warum die Datenaufbereitung wichtiger ist als das LLM bei der Dokumentenverarbeitung mit KI

März 14, 2025 /

Einleitung Künstliche Intelligenz (KI) verändert, wie Unternehmen mit Dokumenten arbeiten. Besonders große Sprachmodelle (LLMs) helfen dabei, Texte zu verstehen und Fragen zu beantworten. Viele glauben, dass das beste LLM-Modell die besten Ergebnisse liefert. Doch in Wirklichkeit ist etwas anderes viel wichtiger: die richtige Aufbereitung der Daten. Die Herausforderung unstrukturierter Daten Rund 80 % aller Daten weltweit sind unstrukturiert. Dazu gehören Word-Dokumente, Excel-Tabellen, PDFs und Bilder. Während sich Word- und Excel-Dateien relativ einfach für ein LLM aufbereiten lassen, sind PDFs und Bilder eine viel größere Herausforderung. Das liegt daran, dass sie oft keine klare Struktur haben und die wichtigen Informationen erst herausgefiltert werden müssen. Warum PDFs und Bilder so schwer zu…

Weiterlesen
Was ist OpenIE

Januar 23, 2025 /

Die Welt ist voller unstrukturierter Daten. Von Artikeln, Blogs, sozialen Medien bis hin zu wissenschaftlichen Berichten – ein Großteil der wertvollen Informationen liegt in Form von Text vor. Aber wie können wir aus diesen Daten konkrete Fakten und Beziehungen extrahieren? Hier kommt OpenIE (Open Information Extraction) ins Spiel, eine Methode, die Informationen aus Texten automatisiert extrahiert und sie in strukturierte Form überführt. Was ist OpenIE? OpenIE steht für Open Information Extraction und bezeichnet eine Technik der Informationsextraktion (IE), die darauf abzielt, Fakten, Beziehungen und Entitäten aus unstrukturierten Texten zu identifizieren. Dabei unterscheidet sich OpenIE von traditionellen IE-Methoden, die oft vordefinierte Ontologien oder domänenspezifische Regeln erfordern. OpenIE arbeitet domänenunabhängig und verwendet…

Weiterlesen
Text2sql – Warum-es-nur-eine-80-loesung-sein-kann

Januar 17, 2025 /

Die Automatisierung von SQL-Abfragen durch Text2SQL-Technologien ist eine vielversprechende Entwicklung. Mithilfe von KI und großen Sprachmodellen (LLMs) wie GPT können Business-Nutzer natürliche Spracheingaben verwenden, um SQL-Abfragen zu generieren. Doch trotz der beeindruckenden Fortschritte gibt es Grenzen, die diese Technologie aktuell zu einer 80%-Lösung machen. Dieser Artikel beleuchtet die wichtigsten Herausforderungen und beschreibt, wie Frameworks wie LangChain sowie durchdachte Ansätze zur Verbesserung beitragen können. Die Vorteile von LangChain für Text2SQL LangChain ist ein leistungsstarkes Framework, das die Integration von LLMs in komplexe Anwendungen erleichtert. Besonders im Text2SQL-Bereich bietet LangChain einige Vorteile: Herausforderungen bei Text2SQL 1. Die Bedeutung einer guten Prompt-Struktur Die Qualität der generierten SQL-Abfragen hängt stark von der Prompt-Struktur ab.…

Weiterlesen
Explainable AI: Nachvollziehbare Antworten mit GraphRAG

Januar 15, 2025 /

Explainable AI: Nachvollziehbare Antworten mit GraphRAG Die rasante Entwicklung von Künstlicher Intelligenz (KI) und insbesondere von großen Sprachmodellen (LLMs) wie ChatGPT hat in vielen Bereichen neue Möglichkeiten eröffnet. Doch trotz ihrer beeindruckenden Fähigkeiten gibt es ein zentrales Problem: die Nachvollziehbarkeit der Antworten. Warum ist das wichtig, und wie können Technologien wie GraphRAG helfen, Antworten nachvollziehbarer zu machen? Die Notwendigkeit von Nachvollziehbarkeit In sensiblen Branchen wie dem Bankwesen oder der Medizin ist Transparenz von zentraler Bedeutung. Banken müssen Entscheidungen über Kreditvergaben oder Risikobewertungen klar begründen können. In der Medizin ist es lebenswichtig, die Grundlagen von Diagnosen oder Therapieempfehlungen zu verstehen. Fehlerhafte oder unklare Informationen können gravierende Folgen haben. Hier zeigt sich…

Weiterlesen
Tokens und Chunks: Was sind sie und wozu werden sie in LLMs verwendet?

Januar 6, 2025 /

Große Sprachmodelle (LLMs) wie GPT arbeiten mit Textdaten, um Aufgaben wie das Verfassen von Texten, das Beantworten von Fragen oder die Übersetzung von Sprachen zu bewältigen. Dabei spielen die Begriffe „Tokens“ und „Chunks“ eine zentrale Rolle. In diesem Blogeintrag erklären wir, was es damit auf sich hat und warum sie für die Funktionsweise von LLMs so wichtig sind. Was sind Tokens? Ein Token ist eine kleinere Einheit eines Textes, die ein Sprachmodell verarbeitet. Tokens können aus Wörtern, Wortteilen oder sogar einzelnen Zeichen bestehen. Die genaue Definition eines Tokens hängt von der Tokenizer-Strategie ab, die das Modell verwendet. Zum Beispiel: Die Anzahl der Tokens in einem Text hängt also davon ab,…

Weiterlesen