Beam-Search zum automatisierten Entwurf und Scoring neuer ROR-Liganden mithilfe maschineller Intelligenz - Research Collection

Die Seite wird erstellt Arvid Kretschmer
 
WEITER LESEN
Beam-Search zum automatisierten Entwurf und Scoring neuer ROR-Liganden mithilfe maschineller Intelligenz - Research Collection
ETH Library

Beam-Search zum automatisierten
Entwurf und Scoring neuer ROR-
Liganden mithilfe maschineller
Intelligenz

 Journal Article

 Author(s):
 Moret, Michael; Helmstädter, Moritz; Grisoni, Francesca   ; Schneider, Gisbert   ; Merk, Daniel

 Publication date:
 2021-08-23

 Permanent link:
 https://doi.org/10.3929/ethz-b-000501729

 Rights / license:
 Creative Commons Attribution 4.0 International

 Originally published in:
 Angewandte Chemie. International Edition 133(35), https://doi.org/10.1002/ange.202104405

 Funding acknowledgement:
 182176 - De novo molecular design by deep learning (SNF)

 This page was generated automatically upon download from the ETH Zurich Research Collection.
 For more information, please consult the Terms of use.
Beam-Search zum automatisierten Entwurf und Scoring neuer ROR-Liganden mithilfe maschineller Intelligenz - Research Collection
Angewandte
                                                               Forschungsartikel                                                                     Chemie

                                                                                          Zitierweise: Angew. Chem. Int. Ed. 2021, 60, 19477 – 19482
         De-novo-Design                                                                   Internationale Ausgabe: doi.org/10.1002/anie.202104405
                                                                                          Deutsche Ausgabe:       doi.org/10.1002/ange.202104405

        Beam-Search zum automatisierten Entwurf und Scoring neuer ROR-
        Liganden mithilfe maschineller Intelligenz**
        Michael Moret+, Moritz Helmst-dter+, Francesca Grisoni, Gisbert Schneider* und Daniel Merk*

        Abstract: Chemische Sprachmodelle ermçglichen ein De-no-
        vo-Wirkstoff-Design ohne explizite chemische Konstruktions-
        regeln. W-hrend solche Modelle angewendet wurden, um
        neuartige Verbindungen mit angestrebter biologischer Aktivit-t
        zu generieren, bleibt die tats-chliche Priorisierung und Aus-
        wahl der vielversprechendsten Molekglentwgrfe („Designs“)
        eine Herausforderung. Wir haben hier die von chemischen
        Sprachmodellen gelernten Wahrscheinlichkeiten mithilfe des
        Beam-Search-Algorithmus als Modell-intrinsische Technik fgr
        das Molekgldesign und die Bewertung der Designs („Sco-
        ring“) genutzt. Die prospektive Anwendung dieser Methode
        fghrte zu neuartigen inversen Agonisten der Retinoid-related-
        Orphan-Rezeptoren (RORs). Jedes Design war in drei Reak-
        tionsschritten synthetisierbar und zeigte eine niedrig-mikro-
        molare bis nanomolare Potenz gegengber RORg. Als Modell-
        intrinsische Technik eliminiert das Beam-Search-Sampling die
        strikte Notwendigkeit externer Molekgl-Scoring-Funktionen                    Abbildung 1. Molekfldesign durch chemische Sprachmodelle (CLM)
        und erweitert damit die Anwendbarkeit generativer kgnstlicher                und Beam-Search-Sampling. a) Kekul8-Struktur eines Beispielmolekfls
        Intelligenz in der datengetriebenen Wirkstoffforschung.                      mit seinem korrespondierenden SMILES-String. b) CLM-Training. Das
                                                                                     CLM lernt die Wahrscheinlichkeit jedes SMILES-Zeichens („Token“) ba-
                                                                                     sierend auf den vorherigen Token im SMILES-String vorherzusagen.
        Einleitung
                                                                                     c) Beam-Search mit k = 2: Der Algorithmus beh-lt die zwei wahr-
                                                                                     scheinlichsten SMILES-Strings im Blick (farblich hervorgehoben). In
            Generatives Deep Learning,[1, 2] eine Klasse maschineller                diesem Beispiel erfolgt die Generierung des SMILES-Strings von links
        Lernmodelle, die in der Lage sind, neue Daten zu generieren,                 nach rechts.
        kann fgr das computergestgtzte De-novo-Design pharmako-
        logisch aktiver Verbindungen eingesetzt werden.[3–5] Deep-
        Learning-basierte Algorithmen fgr das Molekgldesign kçn-                     mçglicht.[12] Frghere Studien haben gezeigt, dass chemische
        nen spezifische chemische Merkmale aus „rohen“ Molekgl-                      Sprachmodelle (Chemical Language Models, CLMs),[13, 14]
        darstellungen, wie z. B. molekularen Graphen und dem Sim-                    insbesondere auf SMILES-Strings trainierte generative
        plified Molecular Input Line Entry System (SMILES, Ab-                       Deep-Learning-Modelle, neuartige Molekgle mit experi-
        bildung 1 a)[11] extrahieren,[6–10] was ihnen potenziell den Zu-             mentell validierter biologischer Aktivit-t generieren kçn-
        gang zu unerforschten Regionen des chemischen Raums er-                      nen.[9, 15, 16] CLMs haben dabei die F-higkeit bewiesen, fo-

         [*] M. Moret,[+] Prof. Dr. F. Grisoni, Prof. Dr. G. Schneider                    Prof. Dr. D. Merk
             ETH Zurich, Department of Chemistry and Applied Biosciences                  LMU Mfnchen, Department of Pharmacy
             Vladimir-Prelog-Weg 4, 8093 Zurich (Schweiz)                                 Butenandtstraße 7, 81377 Mfnchen (Deutschland)
             E-Mail: gisbert@ethz.ch                                                  [+] Diese Autoren haben zu gleichen Teilen zu der Arbeit beigetragen.
            M. Helmst-dter,[+] Prof. Dr. D. Merk                                     [**] Eine frfhere Version dieses Manuskripts ist auf einem Preprint-
            Goethe University Frankfurt                                                   Server hinterlegt worden (http://doi.org/10.26434/chemrxiv.
            Institute of Pharmaceutical Chemistry                                         14153408.v1).
            Max-von-Laue-Straße 9, 60438 Frankfurt (Deutschland)
                                                                                          Hintergrundinformationen und Identifikationsnummern (ORCIDs)
            E-Mail: merk@pharmchem.uni-frankfurt.de
                                                                                          der Autoren sind unter:
            Prof. Dr. F. Grisoni                                                          https://doi.org/10.1002/ange.202104405 zu finden.
            Eindhoven University of Technology
                                                                                          T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-
            Institute for Complex Molecular Systems
                                                                                         VCH GmbH. Dieser Open Access Beitrag steht unter den Be-
            Department of Biomedical Engineering
                                                                                         dingungen der Creative Commons Attribution License, die jede
            Groene Loper 7, 5612AZ Eindhoven (Niederlande)
                                                                                         Nutzung des Beitrages in allen Medien gestattet, sofern der ur-
            Prof. Dr. G. Schneider                                                       sprfngliche Beitrag ordnungsgem-ß zitiert wird.
            ETH Singapore SEC Ltd
            1 CREATE Way, #06-01 CREATE Tower
            Singapore 138602 (Singapur)

19626                                   T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-VCH GmbH          Angew. Chem. 2021, 133, 19626 – 19632
Angewandte
                                                   Forschungsartikel                                                                       Chemie

kussierte chemische Merkmale aus kleinen Sammlungen von                  Orphan-Rezeptor (ROR)-Liganden[26] wurde das Beam-Se-
Template-Molekglen mittels Transferlernen zu erler-                      arch-Sampling und -Scoring erfolgreich validiert.
nen.[15, 17, 18] Die Methode des Transferlernens ermçglicht die              Die RORs wurden als molekulare Zielstrukturen ausge-
Wiederverwendung von zuvor gelerntem Wissen in einer                     w-hlt, da sie attraktive, aber nicht umfassend untersuchte
neuen Aufgabe, fgr die nur wenige Daten verfggbar sind, und              potenzielle Wirkstofftargets darstellen. Sie bilden eine Fa-
wird in zwei Schritten durchgefghrt. Im ersten Schritt wird ein          milie Ligand-aktivierter Transkriptionsfaktoren, die haupt-
Modell mit einer großen Menge von Daten trainiert, die sich              s-chlich als Monomere agieren und unter anderem an der
auf die zu erfgllende Aufgabe beziehen („Pre-Training“). Im              zirkadianen Kontrolle der Energiehomçostase[27, 28] und der
Falle von CLMs wird dies gblicherweise mit großen Mole-                  Regulation des Immunsystems[29, 30] beteiligt sind. RORs be-
kglsammlungen in der Grçßenordnung von 200 000 bis                       sitzen vielversprechendes pharmakologisches Potenzial in
1 000 000 Molekglen erreicht.[9, 16, 17] Das Pre-Training ermçg-         verschiedenen Indikationen, insbesondere bei Autoimmun-
licht es dem generativen Modell, a) die SMILES-Syntax (d. h.             erkrankungen.[29, 30] Bis heute hat jedoch noch kein ROR-Li-
wie alphanumerische Zeichen zusammengesetzt werden                       gand eine Arzneistoffzulassung erreicht, was zum Teil auf
sollten, um Strings zu generieren, die validen Molekglen                 substanzspezifische Schwachpunkte wie schlechte Wasser-
entsprechen, Abbildung 1) und b) die Eigenschaften des Pre-              lçslichkeit, mangelnde Selektivit-t und klinische Sicher-
Trainingsdatensatzes, wie z. B. die physikochemischen Ei-                heitsbedenken zurgckzufghren ist.[29, 31, 32]
genschaften und die chemische Synthetisierbarkeit der Mo-
lekgle im Datensatz zu erfassen. Im zweiten Schritt wird das
vortrainierte CLM mit einer kleineren Anzahl aufgabenspe-                Ergebnisse und Diskussion
zifischer Molekgle weiter trainiert („Fine-Tuning“).[13, 19, 20]
W-hrend dieses Transferlernprozesses wird das CLM auf den                Chemisches Sprachmodell und Beam-Search-Sampling zum De-
chemischen Raum von Interesse ausgerichtet, also auf Mo-                 novo-Design
lekgle mit den angestrebten biologischen und physikoche-
mischen Eigenschaften. Diese F-higkeit, von wenigen Daten                    Als mçgliche Alternative zum Temperatur-Sampling in
zu lernen („few-shot learning“[21, 22]), macht CLMs besonders            Kombination mit einer externen Priorisierungs-Methode ha-
fgr die Anwendung auf biologische Zielstrukturen wertvoll,               ben wir den Beam-Search-Algorithmus[33] zur Erzeugung von
fgr die nur wenige Liganden bekannt sind. Das vollst-ndig                Molekglen aus einem CLM untersucht. Basierend auf den
trainierte CLM kann dann verwendet werden, um neue Mo-                   Wahrscheinlichkeiten, die ein CLM erlernt, kann theoretisch
lekgle in Form von SMILES-Strings zu entwerfen. Diese                    eine große Anzahl von SMILES-Strings erzeugt werden, es ist
Datengenerierung erfolgt durch die schrittweise Vorhersage               rechnerisch aber nicht machbar, alle mçglichen Strings zu
von jeweils einem Zeichen („Token“) eines SMILES-Strings                 generieren. Es kann jedoch die Hypothese aufgestellt werden,
basierend auf allen vorherigen Token. Erw-hnenswert ist                  dass die Wahrscheinlichkeit fgr die Erzeugung eines be-
dabei, dass dieser Prozess keine vordefinierten Regeln fgr das           stimmten SMILES-Strings mit der Qualit-t des korrespon-
Molekgldesign erfordert, da CLMs nur von den SMILES-                     dierenden Molekgls im Hinblick auf das Design-Ziel korre-
Strings lernen, die fgr das Training verwendet werden.                   liert, wie es im Fine-Tuning-Set repr-sentiert ist (z. B. ange-
     Bisherige Anwendungen von CLMs im De-novo-Design                    strebte biologische Aktivit-t, physikochemische Eigenschaf-
haben das sog. Temperatur-Sampling genutzt, um große vir-                ten). Mithilfe einer heuristischen Methode wie der Beam-
tuelle Molekglbibliotheken zu generieren.[9, 13, 15] Temperatur-         Search kçnnen die wahrscheinlichsten Strings, die ein CLM
Sampling erlaubt es, neue SMILES-Strings zu erstellen, in-               generieren kann, gefunden werden.
dem Token zum (wachsenden) String entsprechend den vom                       W-hrend der Molekglgenerierung durch den Beam-Se-
CLM gelernten Wahrscheinlichkeiten hinzugefggt werden,                   arch-Algorithmus („Beam-Search-Sampling“) fggt der Al-
wobei wahrscheinlichere Token an einer bestimmten Position               gorithmus schrittweise Token zu einem SMILES-String hinzu,
h-ufiger gew-hlt werden (Abbildung 1 b). Allerdings sind die             w-hrend er die k wahrscheinlichsten SMILES-Strings beh-lt.
so generierten SMILES-Strings ggf. nicht immer chemisch                  Um ein neues Token hinzuzufggen, berechnet der Algorith-
sinnvoll (invalide Strings), oder sie stimmen aufgrund der               mus die bedingte Wahrscheinlichkeit jedes mçglichen Token
Zufallskomponente des Temperatur-Samplings nicht mit der                 basierend auf den Token im bestehenden String und definiert
Merkmalsverteilung der Trainingsdaten gberein. Daher be-                 die k wahrscheinlichsten Token, um den String zu erweitern
darf es gblicherweise zus-tzlicher Methoden, um die viel-                (Abbildung 1 c). Die Menge der k wahrscheinlichsten ge-
versprechendsten Designs aus den virtuellen Molekglbiblio-               w-hlten Optionen basiert auf einer Bewertungsfunktion
theken auszuw-hlen. Dies geschieht z. B. basierend auf der               („Beam-Search-Score“), die als Produkt der Wahrschein-
ihnlichkeit zu bekannten biologisch aktiven Molekglen,                   lichkeiten der einzelnen Token berechnet wird (Abbil-
mittels externer Aktivit-tsvorhersage oder durch sog. Be-                dung 1 c). Dieser Prozess wird so lange wiederholt, bis der
lohnungsfunktionen.[9, 13, 15, 23]                                       SMILES-String vollst-ndig ist (d. h. das „Ende-des-Strings“-
     Als Modell-intrinsische Alternative zum Temperatur-                 Token hinzugefggt wird) oder eine vordefinierte maximale
Sampling nutzen wir hier den Beam-Search-Algorithmus, der                String-L-nge erreicht ist. Auf diese Weise kann der Beam-
dem CLM die gleichzeitige Erstellung und Priorisierung der               Search-Algorithmus verwendet werden, um basierend auf
molekularen Designs in automatisierter Weise ohne zus-tz-                1) dem zugrundeliegenden Modell und 2) dem Beam-Search-
liche Selektionsmethoden ermçglicht.[24, 25] In einer prospek-           Score hochwahrscheinliche SMILES-Strings zu erzeugen.
tiven Anwendung zur Entwicklung neuer Retinoid-related-                  Der Beam-Search-Score erlaubt es dabei, diese De-novo-

Angew. Chem. 2021, 133, 19626 – 19632     T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-VCH GmbH   www.angewandte.de      19627
Angewandte
                                                               Forschungsartikel                                                                Chemie

       Designs nach der Wahrscheinlichkeit ihrer SMILES-Strings                      Designs zu erhalten, die drei Eigenschaften besitzen: 1) eine
       zu ordnen.                                                                    von Naturstoffen inspirierte chemische Struktur, 2) chemi-
           Zur Untersuchung und Anwendung des Beam-Search-                           sche Synthetisierbarkeit und 3) biologische Aktivit-t an
       Sampling haben wir ein kgrzlich verçffentlichtes CLM ge-                      RORg. Um alle drei Ziele w-hrend des Transfer-Lernens zu
       nutzt, das auf einem rekurrenten neuronalen Netzwerk mit                      erfgllen, wurde das zuvor mit biologisch aktiven Molekglen
       sog. long short-term memory cells (LSTM) basiert, welche fgr                  aus ChEMBL[17] vortrainierte CLM mithilfe eines syntheti-
       Sequenzmodellierung geeignet sind.[34] Das CLM wurde mit                      schen RORg-Liganden und vier in der Literatur[30] beschrie-
       den SMILES-Strings von 365 063 Molekglen aus ChEMBL[35]                       benen RORg-modulierenden Naturstoffen verfeinert (Ab-
       trainiert, iterativ das n-chste Token jedes SMILES-Strings                    bildung S1). Von diesem CLM wurde ab der fgnften Epoche
       unter Bergcksichtigung der vorhergehenden Token vorher-                       des Fine-Tunings mit dem Beam-Search-Sampling begonnen,
       zusagen (Abbildung 1 b). Die Trainingsprozedur wurde gber                     um sicherzustellen, dass das CLM die molekularen Merkmale
       zehn Epochen durchgefghrt, was bedeutet, dass jedes fgr das                   des kleinen Fine-Tuning-Datensatzes ausreichend erfasst
       Training verwendete Molekgl vom CLM zehnmal gesehen                           hatte.
       wurde. Durch Transfer-Lernen („Fine-Tuning“) mit Sets be-                         Alle ggltigen SMILES-Strings, die das CLM zwischen den
       kannter ROR-Liganden (Abbildung S1, Tabelle S1) wurde                         Epochen 5 und 16 (letzte Epoche des Fine-Tunings) gene-
       dann in das vortrainierte CLM ein Bias in Richtung des De-                    rierte, wurden anhand des Beam-Search-Scores eingestuft.
       sign-Ziels, n-mlich die Entwicklung neuer Molekgle mit                        Die fgnf Designs mit dem hçchsten Beam-Search-Score
       biologischer Aktivit-t an den RORs, eingefghrt. Die Open-                     (Abbildung 2 a) wurden jedoch von Medizinalchemikern als
       Source-Codes fgr das CLM und den Beam-Search-Algorith-                        synthetisch unzug-nglich eingestuft, und auch die Vorhersa-
       mus sowie die in dieser Studie verwendeten Daten sind unter                   gen eines maschinellen Lernalgorithmus fgr retrosynthetische
       https://github.com/ETHmodlab/                                                 Analysen (IBM RXN)[40] konnten fgr keines dieser Molekgle
       molecular design with beam search verfggbar.                                  eine Syntheseroute finden. W-hrend das CLM also die
                                                                                     ihnlichkeit zu Naturstoffen erfasste, erfgllte es nicht das
                                                                                     generische Designkriterium der Synthetisierbarkeit. Diese
       Anwendung des Beam-Search-Samplings zum Design inverser                       Ergebnisse deuten einen Nutzen des Beam-Search-Samplings
       RORg-Agonisten                                                                an, die wahrscheinlichsten Designs eines CLMs zu offenbaren
                                                                                     und den Erfolg des Fine-Tunings hinsichtlich der Design-
           In einer prospektiven Analyse wurde der Beam-Search-                      Ziele zu bewerten.
       Algorithmus auf das Design Naturstoff-inspirierter RORg-                          Um diese Ergebnisse zu verbessern, wurde ein zweites
       Liganden angewendet. Als traditionelle Inspirationsquelle fgr                 Experiment mit einer zweistufigen Fine-Tuning-Strategie
       die Arzneimittelentwicklung[36, 37] kann das Lernen von Nat-                  durchgefghrt, bei dem das vortrainierte CLM zun-chst fgr
       urstoffen gegengber rein synthetischen Molekglen mehrere                      20 Epochen mit 255 synthetischen RORg-Liganden aus dem
       Vorteile bieten. Naturstoffe weisen insgesamt mehr struktu-                   US-Patent-Subset der Protein Data Bank[41] (255 Molekgle,
       relle Vielfalt, grçßere Dreidimensionalit-t und h-ufig eine                   Tabelle S1) trainiert wurde, um sowohl biologische Aktivit-t
       hçhere Selektivit-t auf.[38, 39] Daher strebten wir an, De-novo-              als auch Synthetisierbarkeit zu erfassen. Anschließend wurde

       Abbildung 2. Hçchstklassifizierte, durch Beam-Search-Sampling erhaltene Designs. a) Einfaches Fine-Tuning, b) zweistufiges Fine-Tuning. R-nge
       basieren auf dem Beam-Search-Score der Designs. Die hhnlichkeitswerte der hçchstklassifizierten Designs aus dem zweistufigen Fine-Tuning
       Experiment beziehen sich auf die auf Morgan-Fingerprints (L-nge = 1024, Radius = 2 Bindungen) berechnete Tanimoto-hhnlichkeit zum -hnlichs-
       ten bekannten aktiven Molekfl mit einem IC50-Wert an RORg in ChEMBL (Strukturen sind in Abbildung S2 gezeigt).

19628 www.angewandte.de                  T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-VCH GmbH    Angew. Chem. 2021, 133, 19626 – 19632
Angewandte
                                                       Forschungsartikel                                                                       Chemie

das CLM mit vier RORg-modulierenden Naturstoffen[30]                         teten also darauf hin, dass das zweistufige Fine-Tuning-Ver-
(Abbildung S1) fgr 16 Epochen mit dem Ziel weitertrainiert,                  fahren die Designziele erfgllte, sodass der zweistufige Ansatz
das Modell in Richtung Naturstoff-ihnlichkeit zu beeinflus-                  fgr die prospektive Anwendung gew-hlt wurde.
sen. Wie im ersten Experiment wurden dann alle ggltigen                          Der Vergleich der Beam-Search Designs aus dem zwei-
SMILES-Strings untersucht, die das CLM durch Beam-Se-                        stufigen Fine-Tuning-Verfahren mit den Trainingsmolekglen
arch-Sampling zwischen den Epochen 5 und 16 des (zweiten)                    und mit bekannten RORg-Modulatoren (Abbildung 3 a,b)
Fine-Tuning-Schrittes generierte. Die fgnf in diesem zweiten                 zeigte, dass das Beam-Search-Sampling die Erkundung des
Ansatz designten Molekgle mit dem hçchsten Beam-Search-                      chemischen Raums jenseits jener Regionen erlaubte, die von
Score (Abbildung 2 b) waren gem-ß IBM RXN[40] synthetisch                    den Molekglen des Fine-Tunings besetzt sind, obwohl dieses
zug-nglich; fgr jedes Design wurde eine Syntheseroute ge-                    Sampling-Verfahren die wahrscheinlichsten Token bei der
funden. Die computergenerierten Molekgle besaßen außer-                      Erzeugung neuer SMILES-Strings beggnstigt und nur eine
dem Naturstoffcharakteristika (Abbildung 3, Tabelle S2), was                 begrenzte Zahl an Mçglichkeiten untersucht. Im Vergleich zu
sich durch einen hohen Anteil an sp3-hybridisierten Kohlen-                  den in ChEMBL annotierten inversen RORg-Agonisten (IC50
stoffatomen (Fsp3) ausdrgckte. Die Top-5-Designs wiesen                      < 1 mm) waren die Beam-Search-Designs außerdem struktu-
Fsp3-Werte zwischen 50 % und 75 % auf, was mit den Werten                    rell vielf-ltiger im Hinblick auf die durch Morgan-Finger-
fgr die MEGx-Naturstoffbibliothek (Analyticon Discovery                      prints[42] dargestellten Substrukturfragmente (Abbildung 3 b).
GmbH, rel. 09-01-2018) vergleichbar war und die Fsp3-Werte                   Gleichzeitig besaßen die Designs aber hinsichtlich ihrer
der fgr das Pre-Training verwendeten ChEMBL-Molekgle                         dreidimensionalen Gestalt und Partialladungsverteilung
(51 : 30 % bzw. 33 : 20 %) gberstieg. Diese Ergebnisse deu-                  (dargestellt durch die „Weighted Holistic Atom Localization
                                                                             and Entity Shape [WHALES]“-Deskriptoren[43, 44]) ihnlich-
                                                                             keit zu den bekannten aktiven Molekglen. Offenbar lernte
                                                                             das CLM also zus-tzlich zur SMILES-Syntax auch gewisse
                                                                             „semantische“ Strukturmerkmale, die fgr die Bindung an
                                                                             Makromolekgle relevant sind, wie z. B. molekulare Form und
                                                                             Partialladungsmuster.

                                                                             Prospektive experimentelle Validierung

                                                                                 Auf Grundlage der Beam-Search-Scores wurden drei
                                                                             Designs zur Synthese und In-vitro-Charakterisierung ausge-
                                                                             w-hlt. Von den fgnf Designs mit hçchstem Beam-Search-
                                                                             Score (Abbildung 2 b) w-hlten wir Molekgle 1 und 2 vom
                                                                             ersten und dritten Rang aus. Verbindung 2 zeigte dabei die
                                                                             hçchste Tanimoto-ihnlichkeit (Morgan-Fingerprints) zu ei-
                                                                             nem bekannten RORg-Modulator (Abbildung 2 b). Die
                                                                             Grundgergste der Verbindungen 1 und 2 waren auch unter
                                                                             Beam-Search-Designs jenseits der Top 5 verbreitet, was auf
                                                                             strukturelle Pr-ferenzen hindeutete. Das „Scaffold“ (Mole-
                                                                             kglgergst) von 1 fand sich im sechstplatzierten Design wieder,
                                                                             und die Molekgle auf den R-ngen 10 und 13 wiesen eine hohe
                                                                             ihnlichkeit zu Verbindung 2 auf, weshalb zus-tzlich Ver-
                                                                             bindung 3 dieses prominenten Chemotyps von Rang 13 fgr
                                                                             eine prospektive Validierung ausgew-hlt wurde. Die Verbin-
                                                                             dungen 1–3 wurden gem-ß Schema 1 synthetisiert.
Abbildung 3. Charakteristika der CLM-Designs nach doppeltem Fine-                Zur Herstellung von 1 wurden zun-chst (4-Chlorphe-
Tuning. a) t-Verteilte stochastische Nachbareinbettung (t-SNE)[45] der       nyl)piperazin (4) und 4-Brombutylacetat (5) durch nukleo-
Molekflsets gem-ß Morgan-Fragment-Fingerprints (L-nge = 1024, Ra-            phile Substitution zu 6 umgesetzt. Nach alkalischer Hydrolyse
dius = 2 Bindungen, Tanimoto-hhnlichkeit). Die beiden Fine-Tuning-
                                                                             der Esterschutzgruppe in 6 wurde aus dem freien Alkohol 7
Sets, die in ChEMBL enthaltenen RORg-Liganden (IC50 < 1 mm,
1091 Molekfle) und die Beam-Search-Designs sind gezeigt. b) Ver-             durch Mitsunobu-Reaktion mit 8-Azaspiro[4.5]decan-7,9-
gleich der Beam-Search-Designs mit bekannten RORg-Liganden                   dion (8) das Design 1 erhalten. Die Synthese von Design 2
(IC50 < 1 mm) hinsichtlich Morgan-Fragment-Fingerprints („Morgan“)           begann ausgehend von 4-Brom-2-fluorbenzaldehyd (9), wel-
sowie dreidimensionaler Gestalt und Partialladungsverteilung („WHA-          cher durch reduktive Aminierung mit Cyclobutanamin (10)
LES“). Die paarweise Distanzverteilung zwischen in ChEMBL enthalte-          das sekund-re Amin 11 lieferte. Das Zwischenprodukt 11
nen RORg-Liganden ist zum Vergleich gezeigt. Ffr Morgan-Finger-              wurde anschießend mit dem Sulfonylchlorid 12 zu 13 umge-
prints ist die Tanimoto-Distanz gezeigt, ffr WHALES die skalierte eu-
                                                                             setzt, bevor 13 im letzten Reaktionsschritt unter Buchwald-
klidische Distanz. „Beam (Top 15)“ und „Beam (Top 5)“ beziehen sich
auf die 5 bzw. 15 hçchstklassifizierten Beam-Search-Designs. Die             Hartwig-Bedingungen mit 14 das Design 2 ergab. Das struk-
Boxplots zeigen die 25., 50. und 75. Perzentile (Linien), Mittelwerte        turell verwandte Design 3 wurde, ausgehend von einer nu-
(Kreis) und Ausreißergrenzen (Whisker).                                      kleophilen     aromatischen      Substitution    mit    4-Trif-

Angew. Chem. 2021, 133, 19626 – 19632         T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-VCH GmbH   www.angewandte.de      19629
Angewandte
                                                              Forschungsartikel                                                                     Chemie

       Schema 1. Synthese der CLM-Designs 1, 2 und 3. Reagenzien und Bedingungen: a) DMF, 4-DMAP, 60 8C, 16 h, 48 %; b) KOH, H2O/THF/MeOH,
       MW, 100 8C, 30 min, 98 %; c) DIAD, PPh3, THF, 0 8C!RT, 16 h, 42 %; d) NaB(OAc)3H, HOAc, DCE, RT, 50 h, 73 %; e) 4-DMAP, Pyridin, CH2Cl2,
       Reflux, 16 h, 37 %; f) Pd2(dba)3, Xantphos, Cs2CO3, 1,4-Dioxan, Reflux, 16 h, 18 %; g) K2CO3, DMSO, Reflux, 48 h, 82 %.

       luormethylpiperidin (14) und 4-Fluorbenzaldehyd (15), gber
                                                                                    Tabelle 1: Biologische Aktivit-t der CLM-Designs 1, 2 und 3 an den RORs
       eine alternative Route synthetisiert. Die nukleophile aroma-                 in Gal4-Hybrid-Reportergen-Assays. Daten sind als Mittelwert : S.E.M.
       tische Substitution lieferte eine hçhere Ausbeute (siehe                     dargestellt, n + 4.
       Schema 1) als die Buchwald-Hartwig-Reaktion, konnte aber
                                                                                                                                      IC50 [mm]
       wegen der mçglichen Bildung von Regioisomeren nicht fgr                      Struktur und ID                       RORa        RORb          RORg
       die Synthese von 2 angewendet werden. Reduktive Aminie-
       rung des Substitutionsproduktes 16 mit Cyclobutanamin (10)
       zu 17, gefolgt von einer Sulfonamidbildung mit Phenyl-
       methansulfonylchlorid (12), lieferte Design 3.                                                                      > 10       > 10         4,6 : 0,5
           Die In-vitro-Charakterisierung der Verbindungen 1, 2 und
       3 in Gal4-ROR-Hybrid-Reportergen-Assays best-tigte den
       angestrebten inversen RORg-Agonismus mit mikromolaren
       bis submikromolaren IC50-Werten (Tabelle 1). Die gem-ß
                                                                                                                          23 : 3     22 : 1       0,37 : 0,05
       Beam-Search-Score ranghçchste Verbindung 1 wirkte der
       basalen RORg-Aktivit-t mit einem IC50-Wert von 4,6 mm
       entgegen. Sie war auch an RORa und RORb aktiv, genaue
       IC50-Werte konnten aber aufgrund von Zytotoxizit-t nicht
       bestimmt werden. Die Verbindungen 2 und 3 zeigten inversen                                                         10 : 1    7,6 : 0,5     0,68 : 0,07
       RORg-Agonismus mit IC50-Werten von 0,37 mm (2) bzw.
       0,68 mm (3). Neben dem angestrebten inversen RORg-Ago-
       nismus wiesen alle drei synthetisierten Designs eine ausge-
       pr-gte Pr-ferenz fgr den RORg-Subtyp auf, wobei die Ver-
       bindungen 2 und 3 im Vergleich zu den verwandten RORa-                       Fazit
       und RORb-Isoformen eine mehr als zehnfach hçhere Potenz
       an RORg besaßen. Diese Ergebnisse zeigen, dass das CLM                          Der Beam-Search-Algorithmus wurde zum De-novo-
       mit Beam-Search-Sampling die biologische Aktivit-t der                       Design mit einem CLM angewendet. Dabei erzeugte und
       Trainingsmolekgle in den De-novo-Designs konservierte.                       bewertete der Algorithmus die Designs automatisch, ohne
                                                                                    dass zus-tzliche Priorisierungsregeln erforderlich waren. Die

19630 www.angewandte.de                 T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-VCH GmbH         Angew. Chem. 2021, 133, 19626 – 19632
Angewandte
                                                 Forschungsartikel                                                                                Chemie

prospektive experimentelle Validierung der Methode lieferte
neue Molekgle, die mit inversem Agonismus am Ligand-ak-                 [1] J. Schmidhuber, Neural Networks 2015, 61, 85 – 117.
                                                                        [2] Y. Lecun, Y. Bengio, G. Hinton, Nature 2015, 521, 436 – 444.
tivierten Transkriptionsfaktor RORg die angestrebte biolo-
                                                                        [3] H. Chen, O. Engkvist, Y. Wang, M. Olivecrona, T. Blaschke,
gische Aktivit-t besaßen und unterschiedliche Grade an
                                                                            Drug Discov. Today 2018, 23, 1241 – 1250.
ihnlichkeit zu bekannten RORg-Modulatoren aufwiesen                     [4] W. P. Walters, R. Barzilay, Acc. Chem. Res. 2021, 54, 263 – 270.
(0,28–0,71 Tanimoto-ihnlichkeit auf Morgan-Fingerprints).               [5] B. Sanchez-Lengeling, A. Aspuru-Guzik, Science 2018, 361,
Der Beam-Search-Algorithmus in Verbindung mit einem                         360 – 365.
CLM bewahrte also offenbar strukturelle Merkmale, die fgr               [6] R. Glmez-Bombarelli, J. N. Wei, D. Duvenaud, J. M. Hern#n-
die angestrebte biologische Aktivit-t notwendig sind, entwarf               dez-Lobato, B. S#nchez-Lengeling, D. Sheberla, J. Aguilera-
dabei aber strukturell diverse Molekgle. Dieses Ergebnis                    Iparraguirre, T. D. Hirzel, R. P. Adams, A. Aspuru-Guzik, ACS
best-tigt Beam-Search-Sampling als eine geeignete Technik                   Cent. Sci. 2018, 4, 268 – 276.
                                                                        [7] N. de Cao, T. Kipf, arXiv 2018, https://arxiv.org/abs/1805.11973.
zum De-novo-Design bioaktiver Molekgle durch ein CLM.
                                                                        [8] A. Gupta, A. T. Mgller, B. J. H. Huisman, J. A. Fuchs, P.
Die rechnerischen und experimentellen Ergebnisse weisen                     Schneider, G. Schneider, Mol. Inf. 2018, 37, 1700111.
außerdem auf zwei attraktive Eigenschaften des Beam-Se-                 [9] D. Merk, L. Friedrich, F. Grisoni, G. Schneider, Mol. Inf. 2018,
arch-Algorithmus in dieser Anwendung hin. Zum einen zeigt                   37, 1700153.
der Beam-Search-Algorithmus durch die Suche nach den                   [10] J. Bradshaw, B. Paige, M. J. Kusner, M. H. S. Segler, J. M.
wahrscheinlichsten Molekglen, die ein CLM generieren kann,                  Hern#ndez-Lobato, arXiv 2020, https://arxiv.org/abs/2012.11522.
die Eignung des Modells fgr die zu untersuchende Aufga-                [11] D. Weininger, J. Chem. Inf. Comput. Sci. 1988, 28, 31 – 36.
benstellung auf. Die Auswertung der Beam-Search Designs                [12] M. A. Skinnider, R. G. Stacey, D. S. Wishart, L. J. Foster,
                                                                            ChemRxiv          2021,      https://doi.org/10.26434/CHEMRXIV.
erlaubt die 3berprgfung, ob die Molekglentwgrfe mit den
                                                                            13638347.V1.
Designzielen gbereinstimmen, und damit eine Bewertung des              [13] M. H. S. Segler, T. Kogej, C. Tyrchan, M. P. Waller, ACS Cent.
Fine-Tuning-Erfolgs. Dies steht im Gegensatz zum her-                       Sci. 2018, 4, 120 – 131.
kçmmlichen Temperatur-Sampling, das Chemiker dazu ver-                 [14] W. Yuan, D. Jiang, D. K. Nambiar, L. P. Liew, M. P. Hay, J.
leiten kçnnte, Designs in Betracht zu ziehen, die gem-ß dem                 Bloomstein, P. Lu, B. Turner, Q. T. Le, R. Tibshirani, P. Khatri,
Modell nicht wahrscheinlich sind. Zum anderen kçnnte der                    M. G. Moloney, A. C. Koong, J. Chem. Inf. Model. 2017, 57, 875 –
Beam-Search-Score, der eine intrinsische Klassifizierung er-                882.
mçglicht, die Notwendigkeit der externen Priorisierung von             [15] D. Merk, F. Grisoni, L. Friedrich, G. Schneider, Commun. Chem.
                                                                            2018, 1, 68.
Designs gberwinden. Es ist jedoch zu beachten, dass die
                                                                       [16] Y. Yang, R. Zhang, Z. Li, L. Mei, S. Wan, H. Ding, Z. Chen, J.
Anzahl der Designs, die durch Beam-Search erstellt werden
                                                                            Xing, H. Feng, J. Han, H. Jiang, M. Zheng, C. Luo, B. Zhou, J.
kçnnen, begrenzt ist, w-hrend Temperatur-Sampling eine                      Med. Chem. 2020, 63, 1337 – 1360.
praktisch unendliche Anzahl von chemischen Strukturen ge-              [17] M. Moret, L. Friedrich, F. Grisoni, D. Merk, G. Schneider, Nat.
nerieren kann. Beide Techniken erg-nzen sich gegenseitig                    Mach. Intell. 2020, 2, 171 – 180.
und bieten jeweils Vorteile. Die angestrebte Anwendung                 [18] M. Awale, F. Sirockin, N. Stiefl, J. L. Reymond, J. Chem. Inf.
sollte die Wahl der einen oder anderen Strategie leiten. Wenn               Model. 2019, 59, 1347 – 1356.
zukgnftige prospektive Studien diese Beobachtungen best--              [19] J. Yosinski, J. Clune, Y. Bengio, H. Lipson, Adv. Neural Inf.
tigen, kçnnte das Beam-Search-Sampling dazu beitragen, die                  Process. Syst. 2014, 27, 3320 – 3328.
                                                                       [20] M. Peters, S. Ruder, N. A. Smith, arXiv 2019, https://arxiv.org/
Anwendbarkeit von CLMs fgr das De-novo-Design in der
                                                                            abs/1903.05987.
medizinischen Chemie zu st-rken.                                       [21] H. Altae-Tran, B. Ramsundar, A. S. Pappu, V. Pande, ACS Cent.
                                                                            Sci. 2017, 3, 283 – 293.
                                                                       [22] Y. Wang, Q. Yao, J. Kwok, L. M. Ni, arXiv 2019, https://arxiv.org/
Acknowledgements                                                            abs/1904.05046.
                                                                       [23] X. Yang, J. Zhang, K. Yoshizoe, K. Terayama, K. Tsuda, Sci.
Diese Forschung wurde durch den Schweizer Nationalfonds                     Technol. Adv. Mater. 2017, 18, 972 – 976.
(grant no. 205321_182176 an G.S.), die RETHINK Initiative              [24] P. Schwaller, T. Laino, T. Gaudin, P. Bolgar, C. A. Hunter, C.
                                                                            Bekas, A. A. Lee, ACS Cent. Sci. 2019, 5, 1572 – 1583.
der ETH Zgrich und die Novartis Forschungsstiftung (Free-
                                                                       [25] D. Grechishnikova, Sci. Rep. 2021, 11, 321.
Novation grant „AI in Drug Discovery“ an G.S.) gefçrdert.
                                                                       [26] G. Benoit, A. Cooney, V. Giguere, H. Ingraham, M. Lazar, G.
Open Access Verçffentlichung ermçglicht und organisiert                     Muscat, T. Perlmann, J. P. Renaud, J. Schwabe, F. Sladek, M. J.
durch Projekt DEAL.                                                         Tsai, V. Laudet, Pharmacol. Rev. 2006, 58, 798 – 836.
                                                                       [27] D. P. Marciano, M. R. Chang, C. A. Corzo, D. Goswami, V. Q.
                                                                            Lam, B. D. Pascal, P. R. Griffin, Cell Metab. 2014, 19, 193 – 208.
Interessenkonflikt                                                     [28] Y. Hoon Kim, M. A. Lazar, Endocr. Rev. 2020, 41, 707 – 732.
                                                                       [29] V. B. Pandya, S. Kumar, Sachchidanand, R. Sharma, R. C. Desai,
G.S. erkl-rt einen mçglichen finanziellen Interessenkonflikt                J. Med. Chem. 2018, 61, 10976 – 10995.
                                                                       [30] L. A. Solt, T. P. Burris, Trends Endocrinol. Metab. 2012, 23, 619 –
als Grgnder der inSili.com GmbH, Zgrich, und in seiner Rolle
                                                                            627.
als Berater der pharmazeutischen Industrie.                            [31] S. Asimus, R. Palm8r, M. Albayaty, H. Forsman, C. Lundin, M.
                                                                            Olsson, R. Pehrson, J. Mo, M. Russell, S. Carlert, D. Close, D.
Stichwçrter: De-novo-Design · Deep Learning · Kernrezeptor ·                Keeling, Br. J. Clin. Pharmacol. 2020, 86, 1398 – 1405.
Neuronale Netze · Wirkstoffforschung                                   [32] D. J. Kojetin, T. P. Burris, Nat. Rev. Drug Discovery 2014, 13,
                                                                            197 – 216.

Angew. Chem. 2021, 133, 19626 – 19632   T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-VCH GmbH        www.angewandte.de          19631
Angewandte
                                                               Forschungsartikel                                                                      Chemie

       [33] B. T. Lowerre, PhD Thesis, Carnegie Mellon Univ. Pittsburgh,             [41] H. M. Berman, T. Battistuz, T. N. Bhat, W. F. Bluhm, P. E.
            1976.                                                                         Bourne, K. Burkhardt, Z. Feng, G. L. Gilliland, L. Iype, S. Jain, P.
       [34] S. Hochreiter, J. Schmidhuber, Neural Comput. 1997, 9, 1735 –                 Fagan, J. Marvin, D. Padilla, V. Ravichandran, B. Schneider, N.
            1780.                                                                         Thanki, H. Weissig, J. D. Westbrook, C. Zardecki, Acta Cry-
       [35] A. P. Bento, A. Gaulton, A. Hersey, L. J. Bellis, J. Chambers, M.             stallogr. Sect. D 2002, 58, 899 – 907.
            Davies, F. A. Krgger, Y. Light, L. Mak, S. McGlinchey, M. No-            [42] H. L. Morgan, J. Chem. Doc. 1965, 5, 107 – 113.
            wotka, G. Papadatos, R. Santos, J. P. Overington, Nucleic Acids          [43] F. Grisoni, D. Merk, V. Consonni, J. A. Hiss, S. G. Tagliabue, R.
            Res. 2014, 42, D1083 – D1090.                                                 Todeschini, G. Schneider, Commun. Chem. 2018, 1, 44.
       [36] D. J. Newman, G. M. Cragg, J. Nat. Prod. 2020, 83, 770 – 803.            [44] F. Grisoni, G. Schneider, Methods Mol. Biol. 2021, 2266, 11 – 35.
       [37] T. Rodrigues, D. Reker, P. Schneider, G. Schneider, Nat. Chem.           [45] L. van der Maaten, G. Hinton, J. Mach. Learn. Res. 2008, 9,
            2016, 8, 531 – 541.                                                           2579 – 2605.
       [38] P. Ertl, A. Schuffenhauer, in Prog. Drug Res., Birkh-user, Basel,
            2008, S. 217 – 235.
       [39] P. Ertl, S. Roggo, A. Schuffenhauer, J. Chem. Inf. Model. 2008,
            48, 68 – 74.                                                             Manuskript erhalten: 30. M-rz 2021
       [40] P. Schwaller, R. Petraglia, V. Zullo, V. H. Nair, R. A. Haeusel-         Ver-nderte Fassung erhalten: 2. Juni 2021
            mann, R. Pisoni, C. Bekas, A. Iuliano, T. Laino, Chem. Sci. 2020,        Akzeptierte Fassung online: 24. Juni 2021
            11, 3316 – 3325.                                                         Endggltige Fassung online: 19. Juli 2021

19632 www.angewandte.de                  T 2021 Die Autoren. Angewandte Chemie verçffentlicht von Wiley-VCH GmbH          Angew. Chem. 2021, 133, 19626 – 19632
Sie können auch lesen