Die Grenzen von KI in der Materialwissenschaft
Forschende der Friedrich-Schiller-Universität Jena zeigen Stärken und Schwächen von Sprach-Bild-Modellen bei wissenschaftlichen Aufgaben auf
Aktuelle KI-basierte Sprach-Bild-Modelle können Inhalte sehr gut wahrnehmen, kommen bei komplexeren wissenschaftlichen Prozessen jedoch an Grenzen. Das zeigt eine aktuelle Studie von Forschenden der Friedrich-Schiller-Universität Jena in Zusammenarbeit mit internationalen Partnern. In dieser Arbeit haben die Forschenden erstmals systematisch untersucht, wie gut moderne KI-Modelle visuelle und textuelle Informationen in der Chemie und Materialwissenschaft verarbeiten können.
Innovatives Bewertungsverfahren für KI
„Unsere Studie löst ein Problem in der KI-Forschung: Wie kann man multimodale Systeme fair bewerten, wenn unklar ist, welche Daten die Modelle bereits im Training gesehen haben?“, erklärt Dr. Kevin Maik Jablonka, Leiter einer Carl-Zeiss-Stiftungs-Nachwuchsgruppe an der Friedrich-Schiller-Universität Jena und am Helmholtz-Institut für Polymere in Energieanwendungen (HIPOLE) Jena, die methodische Innovation. Das entwickelte Bewertungsverfahren ermöglicht es erstmals, die Stärken und Schwächen aktueller KI-Systeme in wissenschaftlichen Anwendungen systematisch zu analysieren.
„Multimodale KI-Systeme, die sowohl Texte als auch Bilder verstehen können, gelten als Zukunft der wissenschaftlichen Assistenzsysteme“, erläutert Jablonka. „Wir wollten herausfinden, ob diese Modelle wirklich das Potenzial haben, Forschende bei der täglichen Arbeit zu unterstützen – von der Literaturauswertung bis zur Datenanalyse.“
Mehr als eintausend Aufgaben aus dem wissenschaftlichen Alltag
Um die Fähigkeiten multimodaler KI zu testen, entwickelte das internationale Team das Bewertungsverfahren „MaCBench“ (https://macbench.lamalab.org), das mehr als 1.100 realitätsnahe Aufgaben aus drei zentralen Bereichen der wissenschaftlichen Arbeit umfasst: der Datenextraktion aus der Literatur, dem Verständnis von Labor- und Simulationsexperimenten sowie der Interpretation von Messergebnissen. Die Tests umfassten dabei Aufgaben von der Analyse von Spektroskopie-Daten über die Bewertung von Laborsicherheit bis hin zur Interpretation von Kristallstrukturen.
Das Team untersuchte führende KI-Modelle auf deren Fähigkeit, wissenschaftliche Informationen zu verstehen und zu verknüpfen. „Im Gegensatz zu reinen Textmodellen müssen diese Systeme visuelle und textuelle Informationen gleichzeitig verarbeiten können – eine Kernfähigkeit für wissenschaftliche Arbeit“, erläutert Jablonka.
Erfolge bei einfachen Aufgaben, Schwächen bei komplexem Denken
Die Ergebnisse der nun vorgelegten Studie zeigen ein differenziertes Bild: Während die KI-Modelle Laborgeräte zuverlässig erkannten oder standardisierte Daten nahezu fehlerfrei extrahierten, zeigten sich fundamentale Schwächen bei räumlichen Analysen und der Verknüpfung verschiedener Informationsquellen. „Besonders auffällig war, dass dieselben Informationen von den Modellen deutlich besser verarbeitet wurden, wenn sie als Text statt als Bild präsentiert wurden“, berichtet Jablonka. „Das deutet darauf hin, dass die Integration verschiedener Datentypen noch nicht optimal funktioniert.“
Auffällig war auch die Entdeckung, dass die Leistung der Modelle stark mit der Häufigkeit der Testmaterialien im Internet korrelierte. „Das lässt vermuten, dass die Modelle teilweise auf Mustererkennung aus Trainingsdaten zurückgreifen, anstatt echtes wissenschaftliches Verständnis zu entwickeln“, so der Forscher.
Grundlagen für bessere KI-Assistenzsysteme
Die Erkenntnisse können bei der Entwicklung zukünftiger wissenschaftlicher KI-Assistenten von Vorteil sein: „Bevor diese Systeme zuverlässig in der Forschung eingesetzt werden können, müssen deren räumliche Wahrnehmung und die Verknüpfung verschiedener Informationsarten fundamental verbessert werden“, resümiert Jablonka. „Unsere Arbeit zeigt konkrete Wege auf, wie diese Herausforderungen angegangen werden können und die KI-Tools für die Naturwissenschaften verbessert werden können.“