Wie gut ist künstliche Intelligenz im Vergleich zu menschlichen Fachleuten? Ein Forschungsteam des HIPOLE Jena hat diese Frage im Bereich der Chemie untersucht: Mithilfe eines neu entwickelten Prüfverfahrens namens „ChemBench“ verglichen die Forschenden die Leistung moderner Sprachmodelle wie GPT‑4 mit der von erfahrenen Chemikerinnen und Chemikern. Die Studie ist jetzt im Fachjournal Nature Chemistry erschienen (DOI 10.1038/s41557-025–01815‑x).
Insgesamt wurden über 2.700 chemische Aufgaben aus Forschung und Lehre getestet – von Grundlagenwissen bis hin zu komplexen Problemen. In Bereichen wie der Vorhersage von Reaktionen oder der Analyse großer Datensätze konnten KI-Modelle oft mit hoher Effizienz punkten. Gleichzeitig zeigte sich jedoch eine kritische Schwäche: Die Modelle lieferten auch dann selbstsichere Antworten, wenn sie faktisch falsch lagen. Menschliche Chemikerinnen und Chemiker zeigten sich hier deutlich vorsichtiger und hinterfragten ihre Einschätzungen.
„Unsere Studie macht deutlich, dass KI ein wertvolles Werkzeug sein kann – aber kein Ersatz für menschliche Expertise“, sagt Dr. Kevin M. Jablonka, Leiter der Studie. Die Ergebnisse geben wichtige Impulse für den verantwortungsvollen Einsatz von KI in der chemischen Forschung und Lehre. Das HIPOLE Jena (Helmholtz-Institut für Polymere in Energieanwendungen Jena) ist ein Institut des HZB in Kooperation mit der Friedrich-Schiller-Universität Jena (FSU Jena).