Künstliche Intelligenz "liest" und "versteht" Forschungsartikel

Forscher eines Start-ups trainieren ein neuronales Netz, um chemische Formeln aus Forschungsunterlagen zu erkennen

17.02.2022 - Russische Föderation

Anzeigen

Digitale Membranchromatographie öffnet neue Horizonte in der Proteinanalytik

Kompakter AutoAnalyzer für präzise photometrische Bestimmungen

AQ700 Diskreter Analysator - automatisierte photometrische Analyse - flexibel und zuverlässig!

Forscher von Syntelly - einem aus Skoltech hervorgegangenen Start-up - der Staatlichen Universität Lomonossow in Moskau und der Sirius-Universität haben eine auf einem neuronalen Netz basierende Lösung für die automatische Erkennung chemischer Formeln auf eingescannten Forschungspapieren entwickelt. Die Studie wurde in Chemistry-Methods, einer wissenschaftlichen Zeitschrift der European Chemical Society, veröffentlicht.

Die Menschheit tritt in das Zeitalter der künstlichen Intelligenz ein. Auch die Chemie wird sich durch die modernen Methoden des Deep Learning verändern, die stets große Mengen an qualitativen Daten für das Training neuronaler Netze erfordern.

Die gute Nachricht ist, dass chemische Daten "gut altern". Selbst wenn eine bestimmte Verbindung ursprünglich vor 100 Jahren synthetisiert wurde, sind die Informationen über ihre Struktur, Eigenschaften und Synthesewege auch heute noch relevant. Selbst in unserer Zeit der universellen Digitalisierung kann es durchaus vorkommen, dass ein organischer Chemiker auf eine Originalzeitschrift oder eine Dissertation aus einer Bibliothek zurückgreift - die z. B. in deutscher Sprache bereits Anfang des 20. Jahrhunderts veröffentlicht wurde -, um Informationen über ein schlecht untersuchtes Molekül zu erhalten.

Maschinelles Lernens beschleunigt die Bewertung von Katalysatoren von Monaten auf Millisekunden

Modell zur Identifizierung kostengünstiger Katalysatoren, die Biomasse in Kraftstoffe und nützliche Chemikalien umwandeln

News lesen

Die schlechte Nachricht ist, dass es keine anerkannte Standardmethode für die Darstellung chemischer Formeln gibt. Chemiker verwenden üblicherweise viele Tricks in Form von Kurzschreibweisen für bekannte chemische Gruppen. Zu den möglichen Abkürzungen für eine tert-Butylgruppe gehören zum Beispiel "tBu", "t-Bu" und "tert-Bu". Erschwerend kommt hinzu, dass Chemiker oft eine Vorlage mit verschiedenen "Platzhaltern" (R1, R2 usw.) verwenden, um auf viele ähnliche Verbindungen zu verweisen, wobei diese Platzhaltersymbole überall definiert sein können: in der Abbildung selbst, im Fließtext des Artikels oder in Ergänzungen. Ganz zu schweigen davon, dass der Zeichenstil in den verschiedenen Zeitschriften variiert und sich mit der Zeit weiterentwickelt, dass die persönlichen Gewohnheiten der Chemiker unterschiedlich sind und dass sich die Konventionen ändern. Das führt dazu, dass selbst ein erfahrener Chemiker manchmal ratlos ist, wenn er versucht, ein "Rätsel" zu lösen, das er in einem Artikel gefunden hat. Für einen Computeralgorithmus scheint die Aufgabe unlösbar zu sein.

Die Forscher hatten jedoch bereits Erfahrung mit der Lösung ähnlicher Probleme mit Hilfe von Transformer - einem neuronalen Netzwerk, das ursprünglich von Google für die maschinelle Übersetzung vorgeschlagen wurde. Anstatt Text zwischen Sprachen zu übersetzen, nutzte das Team dieses leistungsstarke Werkzeug, um das Bild eines Moleküls oder einer molekularen Vorlage in seine textuelle Darstellung umzuwandeln. Eine solche Darstellung wird Functional-Group-SMILES genannt.

Zur großen Überraschung der Forscher erwies sich das neuronale Netz als in der Lage, fast alles zu lernen, sofern der entsprechende Darstellungsstil in den Trainingsdaten enthalten war. Allerdings benötigt Transformer zum Trainieren Dutzende von Millionen von Beispielen, und so viele chemische Formeln aus Forschungsarbeiten von Hand zu sammeln, ist unmöglich. Daher wählte das Team einen anderen Ansatz und erstellte einen Datengenerator, der Beispiele für molekulare Vorlagen erzeugt, indem er zufällig ausgewählte Molekülfragmente und Darstellungsstile kombiniert.

"Unsere Studie ist ein gutes Beispiel für den laufenden Paradigmenwechsel bei der optischen Erkennung von chemischen Strukturen. Während sich frühere Forschungen auf die Erkennung von Molekülstrukturen an sich konzentrierten, können wir uns jetzt, da wir über die einzigartigen Fähigkeiten von Transformer und ähnlichen Netzwerken verfügen, stattdessen der Schaffung künstlicher Mustergeneratoren widmen, die die meisten der existierenden Darstellungsstile von Molekülvorlagen imitieren würden. Unser Algorithmus kombiniert Moleküle, funktionelle Gruppen, Schriftarten, Stile, sogar Druckfehler, er fügt Bits zusätzlicher Moleküle, abstrakte Fragmente usw. ein. Selbst für einen Chemiker ist es schwer zu erkennen, ob das Molekül direkt aus einem echten Papier oder aus dem Generator stammt", so der Hauptautor der Studie, Sergey Sosnin, der CEO von Syntelly, einem bei Skoltech gegründeten Startup-Unternehmen.

Die Autoren der Studie hoffen, dass ihre Methode ein wichtiger Schritt auf dem Weg zu einer künstlichen Intelligenz ist, die in der Lage wäre, Forschungspapiere in dem Maße zu "lesen" und zu "verstehen", wie es ein hochqualifizierter Chemiker tun würde.

Hinweis: Dieser Artikel wurde mit einem Computersystem ohne menschlichen Eingriff übersetzt. LUMITOS bietet diese automatischen Übersetzungen an, um eine größere Bandbreite an aktuellen Nachrichten zu präsentieren. Da dieser Artikel mit automatischer Übersetzung übersetzt wurde, ist es möglich, dass er Fehler im Vokabular, in der Syntax oder in der Grammatik enthält. Den ursprünglichen Artikel in Englisch finden Sie hier.

Originalveröffentlichung

Ivan Khokhlov et al.; "Image2SMILES: Transformer-Based Molecular Optical Recognition Engine"; Chemistry - Methods; 2022

https://www.chemie.de/news/1174826/kuenstliche-intelligenz-liest-und-versteht-forschungsartikel.html

Originalveröffentlichung

Ivan Khokhlov et al.; "Image2SMILES: Transformer-Based Molecular Optical Recognition Engine"; Chemistry - Methods; 2022

Themen

Neuronale Netze künstliche Intelligenz Deep Learning neuronale Netzwerke

Alle anzeigen

Organisationen

Skolkovo Institute of Science and Technology

Syntelly

Anzeigen

Nachhaltige All-in-One Lösung – Gefahrstoffe erstmals sicher in nur einem Schrank lagern.

3D Raman Imaging Mikroskop mit unerreichter Geschwindigkeit, Sensitivität und Auflösung

Hochspannungs- und hochauflösender CT-Scanner für zerstörungsfreie Forschung und industrielle Inspektion

So nah, da werden
selbst Moleküle rot...

NIR-Spektrometer-Hersteller

Da tut sich was in der Chemie-Branche …

So sieht echter Pioniergeist aus: Jede Menge innovative Start-ups bringen frische Ideen, Herzblut und Unternehmergeist auf, um die Welt von morgen zum Positiven zu verändern. Tauchen Sie ein in die Welt dieser Jungunternehmen und nutzen Sie die Möglichkeit zur Kontaktaufnahme mit den Gründern.

Jetzt Start-ups entdecken

Mehr aus dem Ressort Wissenschaft Newsletter abonnieren

Künstliche Intelligenz "liest" und "versteht" Forschungsartikel

Forscher eines Start-ups trainieren ein neuronales Netz, um chemische Formeln aus Forschungsunterlagen zu erkennen

Maschinelles Lernens beschleunigt die Bewertung von Katalysatoren von Monaten auf Millisekunden

Originalveröffentlichung

Mit Künstlicher Intelligenz die „Fingerabdrücke“ von Molekülen errechnen

Weitere News aus dem Ressort Wissenschaft

Forscher finden unerwarteten Syntheseweg: Ein neuer Weg zu klimaneutralem Methan

Durchbruch für maßgeschneidertes Enzymdesign

Wie eine Mondrakete «en miniature»: Forschende entwickeln modularen Nanoroboter

Kleben auf Knopfdruck

Wasserstoffforschung im industriellen Maßstab

Wolf-Preis 2026 geht an Berliner Chemiker

Schmelzmetallkatalyse liefert unerwarteten Rohstoff für Elektrofahrzeug-Batterien

Neue Membrantechnologie könnte die Raffination von Rohöl revolutionieren, indem sie den Energieverbrauch drastisch senkt

Künstliche Intelligenz wertet chemische Spektren in Minuten aus

Kohlenstoffnanoröhren machen elektronische Nase erstmals alltagstauglich

Maßgeschneiderte funktionalisierte Gelatine – reproduzierbar hergestellt

DECHEMA-Forschungsinstitut eröffnet neuen Standort in Bad Homburg

Ein gestaltbarer van-der-Waals-Kristall ermöglicht die Nachahmung künstlicher Nervenzellen mithilfe von Licht

Seltenerdfreies Zinkoxid erzielt Premiere bei der Umwandlung von Spannung in Licht

Den fehlenden Wasserstoffatomen auf der Spur

Chemiker erzielen Durchbruch: Moleküle "editieren" statt neu bauen

Ausweitung der Kryo-Elektronenmikroskopie über Wasser hinaus

Effiziente Herstellung von Wasserstoff und chemischen Produkten

Interpretierbare KI in der Materialforschung liefert Aufschluss darüber, wie Modelle Vorhersagen treffen

Wasser, Ton und Kohlenstoff: Ein neuer Weg zur nachhaltigen Energiespeicherung

Meistgelesene News

Effiziente Herstellung von Wasserstoff und chemischen Produkten

Größte Serie-A-Runde der Fusionsbranche geht an Darmstädter Start-up

Zuwachs bei Fixgehältern in der chemisch-pharmazeutischen Industrie

Ein neuer Pfad zu grünem Ammoniak

PFAS-freie Antihaftbeschichtungen: Fraunhofer IFAM und Plasmatreat starten Technologietransfer

Aus Lebensmittelabfall wird CO₂-Fänger

Künstliche Intelligenz wertet chemische Spektren in Minuten aus

Chemiker erzielen Durchbruch: Moleküle "editieren" statt neu bauen

PFAS-Nachweis in Minuten statt in Wochen: Deep-Tech-Start-up Grapheal erhält 2,5 Millionen Euro

Wasser, Ton und Kohlenstoff: Ein neuer Weg zur nachhaltigen Energiespeicherung

Schmelzmetallkatalyse liefert unerwarteten Rohstoff für Elektrofahrzeug-Batterien

Neue Membrantechnologie könnte die Raffination von Rohöl revolutionieren, indem sie den Energieverbrauch drastisch senkt

Weitere News von unseren anderen Portalen

Warum Alkohol Heißhunger auf Chips und Pizza auslöst

Handelsgiganten kontrollieren immer mehr die deutsche Lebensmittelkette

KI diagnostiziert Hirntumoren in Minuten statt Wochen

Neues Antibiotikum gegen multiresistente Keime

Food Fraud: Warum Kriminelle Oregano häufiger fälschen als Rindfleisch

Weniger Tierversuche dank virtueller Maus

Teufelskreis durchbrochen: Neuer Wirkstoff könnte die Entwicklung von Alzheimer bremsen

Fruktose sendet ein schwächeres „Ich bin satt“-Signal an das Gehirn als Glukose

Mini-Labor zeigt, wie Immunzellen Krebszellen angreifen

Transfette in Milchprodukten erhöhen nicht das Risiko von Herzerkrankungen

Nicht alle ultra-verarbeiteten Lebensmittel sind ungesund

Forscher lösen 50 Jahre altes Rätsel: Wie entzieht Säure Proteinen das Wasser?

Tumorzellen zum Zelltod zwingen

Europas Ernährungssysteme sind festgefahren, doch Forscher haben möglicherweise die Schlüssel gefunden

Bakterien auf Oberflächen in fünf Minuten nachweisen – per Smartphone

Ein tägliches Glas 100%iger Fruchtsaft könnte das psychische Wohlbefinden fördern

Unsichtbarer Kampf zwischen Bakterien bestimmt den Geschmack und die Sicherheit von Salami

Warum schmeckt Kaffee nicht nach Koffein?

Es liegt vielleicht nicht nur daran, was in ultra-verarbeiteten Lebensmitteln enthalten ist, sondern wie sie hergestellt werden

Feinkost, Senf, Suppen: Was Deutschlands Einkaufskorb verrät

Neue Polymorphe Form von Indomethacin entdeckt – ein seltenes Ereignis in der Pharmaforschung

Bekannte Kupferverbindung zeigt Wirksamkeit gegen für Alzheimer typische Proteinablagerungen

Große Vegan-Studie identifiziert vier vegane Lebenswelten im DACH-Raum

Erstes europäisches Biotech-Unternehmen mit CAR-T- und LNP-Technologie unter einem Dach

Eine geringere Aufnahme proteinreicher Lebensmittel kann unsere körperliche Leistungsfähigkeit im Alter beeinträchtigen

Nuvisan erhält 25-Mio.-Dollar-Förderung zur Weiterentwicklung neuartiger, hormonfreier Verhütungsmittel

Grünes Licht für die Fusion von Arla Foods mit der DMK Group

So nah, da werden selbst Moleküle rot...

Da tut sich was in der Chemie-Branche …

So nah, da werden
selbst Moleküle rot...