Projekt – LLM-Paper – Stefan Ellenrieder

Automatisierte Klassifikation wissenschaftlicher Veröffentlichungen mittels Large Language Models

Quelle: KI-generiert mithilfe von ChatGPT

Zeitraum und Kontext

Das Projekt wurde von November 2025 bis Januar 2026 am Institut für angewandte KI und Robotik durchgeführt.

Ziel war die Unterstützung einer systematischen Übersichtsarbeit zu generativer KI in der Robotik durch die automatisierte Vorfilterung wissenschaftlicher Veröffentlichungen. Insgesamt mussten 3.769 Dokumente gesichtet werden, die andernfalls manuell hätten gelesen und bewertet werden müssen.

Zur Reduktion des Aufwands wurde ein Large Language Model mit zwei Klassifikationsaufgaben betraut, um relevante von irrelevanten Arbeiten zu unterscheiden und so eine effiziente Vorauswahl zu ermöglichen.

Als alleiniger Entwickler trug ich die volle Projektverantwortung – von der Konzeption bis hin zur Entwicklung und Evaluation der Klassifikationslösung.

Umsetzung und Tech-Stack

Für die Umsetzung wurde eine Klassifikationspipeline in Python unter Verwendung von LangChain entwickelt, mit der die beiden Klassifikationsaufgaben effizient auf die wissenschaftlichen Veröffentlichungen angewendet werden konnten.

Als Grundlage diente ein lokal betriebenes Large Language Model, das über Ollama angebunden wurde und eine datenschutzfreundliche Verarbeitung ermöglichte. Zur Sicherstellung der Qualität wurden die verwendeten Prompts systematisch anhand von Accuracy, Precision und Recall evaluiert und iterativ verbessert.

Herausforderungen und Ergebnisse

Die Sicherstellung einer hohen Klassifikationsqualität stellte eine zentrale Herausforderung dar, insbesondere im Hinblick auf das Gleichgewicht zwischen Precision und Recall. Um zuverlässige Ergebnisse zu gewährleisten, wurden die Prompts iterativ optimiert und systematisch evaluiert.

Die definierten Schwellenwerte für beide Klassifikationsaufgaben konnten erfolgreich überschritten werden (Precision > 0,9, Recall > 0,95, Accuracy > 0,95). Dadurch konnte die Anzahl der zu prüfenden Veröffentlichungen deutlich reduziert werden: Von ursprünglich 3.769 Veröffentlichungen wurden mehr als die Hälfte automatisiert aussortiert, sodass 1.656 Dokumente für das manuelle Screening verblieben.