La conception de voies de réaction synthétiques pour les molécules est un aspect fondamental de la synthèse organique, ayant des implications significatives pour divers domaines tels que les industries biomédicales, pharmaceutiques et des matériaux. L'analyse rétrosynthétique est l'approche la plus largement utilisée pour développer des voies de synthèse.
Organic synthesis plays a pivotal role in various fields, including biomedical, pharmaceutical, and materials industries. Retrosynthetic analysis serves as the primary approach for designing synthetic routes, aiming to decompose molecules into simpler precursors using established reactions. This methodology, initially formalized by Corey, led to the development of computer-aided synthesis planning (CASP). In recent years, artificial intelligence (AI)-driven retrosynthesis has facilitated the exploration of more complex molecules and significantly reduced the time and energy required to design synthetic experiments. Single-step retrosynthesis prediction is a crucial component of retrosynthetic planning, and several deep learning-based methods have been proposed with promising results. These methods can be broadly categorized into three groups: template-based, template-free, and semi-template-based methods.
La synthèse organique joue un rôle central dans divers domaines, notamment les industries biomédicale, pharmaceutique et des matériaux. L'analyse rétrosynthétique constitue la principale approche pour concevoir des voies de synthèse, visant à décomposer les molécules en précurseurs plus simples à l'aide de réactions établies. Cette méthodologie, initialement formalisée par Corey, a conduit au développement de la planification de synthèse assistée par ordinateur (CASP). Ces dernières années, la rétrosynthèse basée sur l’intelligence artificielle (IA) a facilité l’exploration de molécules plus complexes et réduit considérablement le temps et l’énergie nécessaires à la conception d’expériences de synthèse. La prédiction de la rétrosynthèse en une seule étape est un élément crucial de la planification rétrosynthétique, et plusieurs méthodes basées sur l'apprentissage profond ont été proposées avec des résultats prometteurs. Ces méthodes peuvent être globalement classées en trois groupes : les méthodes basées sur un modèle, celles sans modèle et celles basées sur un semi-modèle.
Template-based methods regard retrosynthesis prediction as a template retrieval problem and compare the target molecule with precomputed templates. These templates capture the essential features of the reaction center in specific types of chemical reactions. They can be generated manually or automatically and serve as a guide for the model to identify the most suitable chemical transformation for a given molecule. Various works have proposed different approaches to prioritize candidate templates. RetroSim employed the molecular fingerprint similarity between the given product and the molecules present in the corpus to rank the candidate templates. NeuralSym was the pioneering work to utilize deep neural networks for template selection by learning a multi-class classifier. GLN built a conditional graph logic network to learn the conditional joint probability of templates and reactants. LocalRetro conducted an evaluation of the suitability of local atom/bond templates at all predicted reaction centers for a target molecule and incorporated the non-local effects in chemical reactions through global reactivity attention. It has demonstrated state-of-the-art performance within the template-based methods. Although providing interpretability and molecule validity, template-based models suffer from limited generalization and scalability issues, which can hinder their practical utility.
Les méthodes basées sur des modèles considèrent la prédiction de rétrosynthèse comme un problème de récupération de modèles et comparent la molécule cible avec des modèles précalculés. Ces modèles capturent les caractéristiques essentielles du centre de réaction dans des types spécifiques de réactions chimiques. Ils peuvent être générés manuellement ou automatiquement et servir de guide au modèle pour identifier la transformation chimique la plus adaptée pour une molécule donnée. Divers travaux ont proposé différentes approches pour prioriser les modèles candidats. RetroSim a utilisé la similarité des empreintes moléculaires entre le produit donné et les molécules présentes dans le corpus pour classer les modèles candidats. NeuralSym a été le travail pionnier visant à utiliser des réseaux neuronaux profonds pour la sélection de modèles en apprenant un classificateur multi-classe. GLN a construit un réseau logique de graphes conditionnels pour apprendre la probabilité conjointe conditionnelle des modèles et des réactifs. LocalRetro a mené une évaluation de l'adéquation des modèles locaux d'atomes/liaison dans tous les centres de réaction prévus pour une molécule cible et a incorporé les effets non locaux dans les réactions chimiques en prêtant attention à la réactivité globale. Il a démontré des performances de pointe dans le cadre des méthodes basées sur des modèles. Bien qu’ils offrent une interprétabilité et une validité moléculaire, les modèles basés sur des modèles souffrent de problèmes limités de généralisation et d’évolutivité, ce qui peut entraver leur utilité pratique.
Template-free methods utilize deep generative models to generate reactant molecules without relying on predefined templates. Most of existing methods reformulate the task as a sequence-to-sequence problem, employing the sequence representation of molecules, specifically the simplified molecular-input line-entry system (SMILES). Liu et al. first utilized a long short-term memory (LSTM)-based sequence-to-sequence (Seq2Seq) model to convert the SMILES representation of a product to the SMILES of the reactants. Karpov et al. further proposed a Transformer-based Seq2Seq method for retrosynthesis. SCROP integrated a grammar corrector into the Transformer architecture, aiming to resolve the prevalent problem of grammatical invalidity in seq2seq methods. R-SMILES established a closely aligned one-to-one mapping between the SMILES representations of the products and the reactants to enhance the efficiency of synthesis prediction in Transformer-based methods. PMSR devised three tailored pre-training tasks for retrosynthesis, encompassing auto-regression, molecule recovery, and contrastive reaction classification, thereby enhancing the performance of retrosynthesis and achieving state-of-the-art accuracy within template-free methods. Some studies characterize the task as a graph-to-sequence problem, employing the molecular graph as input. Graph2SMILES integrated a sequential graph encoder with a Transformer decoder to preserve the permutation invariance of SMILES. Retroformer introduced a local attention head in the Transformer encoder to augment its reasoning capability for reactions. Recent studies, including MEGAN, MARS, and Graph2Edits, have explored the utilization of end-to-end molecular graph editing models to represent a chemical reaction as a series of graph edits, drawing inspiration from the arrow pushing formalism. However, these approaches usually require time-consuming predictions for sequential graph edit operations. Fang et al. developed a substructure-level decoding method by automatically extracting commonly preserved portions of product molecules. However, the extraction of substructures is fully data-driven, and its coverage depends on the reaction dataset. Furthermore, incorrect substructures can lead to erroneous predictions. While template-free methods are fully data-driven, they raise concerns regarding the interpretability, chemical validity, and diversity of the generated molecules.
Les méthodes sans modèle utilisent des modèles génératifs profonds pour générer des molécules réactives sans recourir à des modèles prédéfinis. La plupart des méthodes existantes reformulent la tâche comme un problème séquence à séquence, en utilisant la représentation séquentielle de molécules, en particulier le système simplifié d'entrée en ligne d'entrée moléculaire (SMILES). Liu et coll. a d'abord utilisé un modèle séquence à séquence (Seq2Seq) basé sur la mémoire à long terme et à court terme (LSTM) pour convertir la représentation SMILES d'un produit en SMILES des réactifs. Karpov et coll. a en outre proposé une méthode Seq2Seq basée sur un transformateur pour la rétrosynthèse. SCROP a intégré un correcteur grammatical dans l'architecture Transformer, dans le but de résoudre le problème répandu d'invalidité grammaticale dans les méthodes seq2seq. R-SMILES a établi une cartographie un à un étroitement alignée entre les représentations SMILES des produits et des réactifs afin d'améliorer l'efficacité de la prédiction de la synthèse dans les méthodes basées sur des transformateurs. PMSR a conçu trois tâches de pré-formation sur mesure pour la rétrosynthèse, englobant l'auto-régression, la récupération de molécules et la classification contrastive des réactions, améliorant ainsi les performances de la rétrosynthèse et atteignant une précision de pointe au sein de méthodes sans modèle. Certaines études caractérisent la tâche comme un problème de graphe à séquence, utilisant le graphe moléculaire comme entrée. Graph2SMILES a intégré un encodeur graphique séquentiel avec un décodeur Transformer pour préserver l'invariance de permutation de SMILES. Retroformer a introduit une tête d'attention locale dans l'encodeur Transformer pour augmenter sa capacité de raisonnement pour les réactions. Des études récentes, notamment MEGAN, MARS et Graph2Edits, ont exploré l'utilisation de modèles d'édition de graphes moléculaires de bout en bout pour représenter une réaction chimique sous la forme d'une série d'éditions de graphiques, en s'inspirant du formalisme poussant la flèche. Cependant, ces approches nécessitent généralement des prédictions fastidieuses pour les opérations d’édition séquentielle de graphiques. Fang et coll. développé une méthode de décodage au niveau de la sous-structure en extrayant automatiquement les parties communément conservées des molécules de produits. Cependant, l’extraction des sous-structures est entièrement basée sur les données et sa couverture dépend de l’ensemble de données de réaction. De plus, des sous-structures incorrectes peuvent conduire à des prédictions erronées. Bien que les méthodes sans modèle soient entièrement basées sur les données, elles soulèvent des inquiétudes quant à l’interprétabilité, à la validité chimique et à la diversité des molécules générées.
Semi-template-based methods leverage the benefits of the two aforementioned methods. These methods follow a two-stage procedure: first, fragmenting the target molecule into synthons by identifying reactive sites, and subsequently converting the synthons into reactants using techniques such as leaving groups selection, graph generation, or SMILES generation. RetroXpert first identified the reaction center of the target molecule to obtain synthons by employing an edge-enhanced graph attention network, followed by the generation of the corresponding reactants based on the synthons. RetroPrime introduced the mix-and-match and label-and-align strategies within a Transformer-based two-stage workflow to mitigate the challenges of insufficient diversity and chemical implausibility. G2Gs initially partitioned the target molecular graph into several synthons by identifying potential reaction centers, followed by the translation of the synthons into the complete reactant graphs using a variational graph translation framework. GraphRetro first transformed the target into synthons by
Les méthodes basées sur des semi-modèles exploitent les avantages des deux méthodes susmentionnées. Ces méthodes suivent une procédure en deux étapes : premièrement, fragmenter la molécule cible en synthons en identifiant des sites réactifs, puis convertir les synthons en réactifs à l'aide de techniques telles que la sélection de groupes partants, la génération de graphiques ou la génération de SMILES. RetroXpert a d'abord identifié le centre de réaction de la molécule cible pour obtenir des synthons en utilisant un réseau d'attention graphique amélioré par les bords, suivi de la génération des réactifs correspondants basés sur les synthons. RetroPrime a introduit les stratégies de mélange et d'association et d'étiquetage et d'alignement au sein d'un flux de travail en deux étapes basé sur Transformer pour atténuer les défis d'une diversité insuffisante et de l'invraisemblance chimique. Les G2G ont initialement divisé le graphe moléculaire cible en plusieurs synthons en identifiant les centres de réaction potentiels, suivi de la traduction des synthons en graphes de réactifs complets à l'aide d'un cadre de traduction de graphes variationnels. GraphRetro a d'abord transformé la cible en synthons en