• About Me

    Willkommen! Mein Name ist Michael Rifkin.Ich komme aus Wulfsen bei Hamburg und arbeite als Produktmanager und AI-Berater für große Unternehmen – derzeit mit Schwerpunkt auf Logistiklösungen. In den vergangenen Jahren lag mein Fokus auf künstlicher Intelligenz, Cloud-Technologien und Big Data – mit dem Anspruch, Innovationen nicht nur zu verstehen, sondern im Unternehmensalltag wirklich nutzbar zu machen. Schon im Alter von sieben Jahren durfte ich zum ersten Mal vor einem Computer sitzen – und war sofort von den digitalen Möglichkeiten begeistert.Damals gab es Computer eigentlich nur in großen Rechenzentren, und das Internet war für die meisten noch ein unbekannter Begriff. Die Begeisterung für IT wuchs im Laufe meiner Kindheit weiter, und…

  • Mein Beruf

    IT – Beruf oder eher Berufung? Seit meinem 10. Lebensjahr habe ich mit Computern zu tun. Als Kind entwickelte ich bereits kleine Spiele in Basic (eine einfache Programmiersprache) und erstellte meine erste Homepage mit HTML. Meinen Freunden konnte ich damals nicht so wirklich erklären, was ich da in meiner Freizeit so treibe.  Die Hausaufgaben in Deutsch, Mathematik und Geschichte konnte ich bereits mithilfe des Internets gut erledigen. Als Quelle reichte für meine Lehrer damals die Angabe “gefunden im Internet” völlig aus. Lehrer kannten das Internet ja nur aus Science-Fiction-Filmen. Mit 15 Jahren habe ich mich mit PHP und Perl beschäftigt. (Skriptsprachen, mit deren Hilfe Logiken auf Webseiten realisiert wurden.) Dies…

  • Optimierung der Geschwindigkeit der Embedding-Generierung

    Bei der Entwicklung moderner NLP-Anwendungen, insbesondere im Bereich der Retrieval-Augmented Generation (RAG) oder semantischen Suche, ist die Generierung von Text-Embeddings ein zentraler Bestandteil. Doch bei großen Datenmengen kann dieser Prozess schnell zu einem Engpass werden. In diesem Beitrag zeige ich praxisnahe Strategien zur Optimierung der Embedding-Geschwindigkeit, ohne die Modellqualität aus den Augen zu verlieren. 1. Beschleunigung durch spezialisierte Bibliotheken Für eine besonders schnelle Embedding-Generierung lohnt sich der Einsatz optimierter Bibliotheken wie fastembed. Diese nutzt die ONNX-Laufzeitumgebung, die im Vergleich zur traditionellen PyTorch-Inferenz signifikante Performance-Vorteile bieten kann – besonders bei CPU-basierten Deployments. 2. GPU-Nutzung für maximale Performance Wenn GPU-Ressourcen zur Verfügung stehen, sollte deren Potenzial unbedingt genutzt werden. Bibliotheken wie sentence-transformers…

  • Warum die Datenaufbereitung wichtiger ist als das LLM bei der Dokumentenverarbeitung mit KI

    Einleitung Künstliche Intelligenz (KI) verändert, wie Unternehmen mit Dokumenten arbeiten. Besonders große Sprachmodelle (LLMs) helfen dabei, Texte zu verstehen und Fragen zu beantworten. Viele glauben, dass das beste LLM-Modell die besten Ergebnisse liefert. Doch in Wirklichkeit ist etwas anderes viel wichtiger: die richtige Aufbereitung der Daten. Die Herausforderung unstrukturierter Daten Rund 80 % aller Daten weltweit sind unstrukturiert. Dazu gehören Word-Dokumente, Excel-Tabellen, PDFs und Bilder. Während sich Word- und Excel-Dateien relativ einfach für ein LLM aufbereiten lassen, sind PDFs und Bilder eine viel größere Herausforderung. Das liegt daran, dass sie oft keine klare Struktur haben und die wichtigen Informationen erst herausgefiltert werden müssen. Warum PDFs und Bilder so schwer zu…

  • Was ist OpenIE

    Die Welt ist voller unstrukturierter Daten. Von Artikeln, Blogs, sozialen Medien bis hin zu wissenschaftlichen Berichten – ein Großteil der wertvollen Informationen liegt in Form von Text vor. Aber wie können wir aus diesen Daten konkrete Fakten und Beziehungen extrahieren? Hier kommt OpenIE (Open Information Extraction) ins Spiel, eine Methode, die Informationen aus Texten automatisiert extrahiert und sie in strukturierte Form überführt. Was ist OpenIE? OpenIE steht für Open Information Extraction und bezeichnet eine Technik der Informationsextraktion (IE), die darauf abzielt, Fakten, Beziehungen und Entitäten aus unstrukturierten Texten zu identifizieren. Dabei unterscheidet sich OpenIE von traditionellen IE-Methoden, die oft vordefinierte Ontologien oder domänenspezifische Regeln erfordern. OpenIE arbeitet domänenunabhängig und verwendet…