2023年7月28日,中國醫(yī)學科學院藥物研究所汪小澗課題組與合作團隊在生物信息學領(lǐng)域國際期刊Briefings in Bioinformatics《生物信息學簡報》發(fā)表題為“CMGN: a conditional molecular generation net to design target-specific molecules with desired properties”(CMGN:一個可用于條件分子生成的藥物設計方法)的研究論文,報道了雙向自回歸轉(zhuǎn)換器的條件分子生成模型應用于藥物發(fā)現(xiàn)的研究。
生成式人工智能(Artificial Intelligence Generated Content,AIGC)是目前人工智能研究與應用的重點方向。課題組采用“預訓練+微調(diào)”的訓練模式建立CMGN模型,基于大規(guī)模數(shù)據(jù)集的預訓練開展分子生成規(guī)則學習,在特定任務的小數(shù)據(jù)集上做遷移學習,以適應不同的下游任務。CMGN采用條件分子生成訓練策略,訓練模型學習分子片段和分子性質(zhì)信息進而生成完整分子結(jié)構(gòu),通過輸入特定的分子片段引導模型具備結(jié)構(gòu)改造與優(yōu)化的能力。為了評估模型的條件分子生成能力,CMGN在包含5000萬分子的數(shù)據(jù)集上進行預訓練,評估結(jié)果顯示,該模型能夠結(jié)合分子片段和分子性質(zhì)信息生成分子,分子回復率達到85.74%,且顯示了基于片段的分子多性質(zhì)優(yōu)化能力。課題組進一步應用該模型開展布魯頓酪氨酸激酶(BTK)抑制劑的分子設計,發(fā)現(xiàn)了具有較好活性的先導化合物,具有良好的開發(fā)前景。這一通用的模型框架也可應用于碳譜的結(jié)構(gòu)解析研究,該研究在Analytical Chemistry《分析化學》期刊以封底文章發(fā)表,并應邀在期刊的perspective(觀點)欄目撰寫綜述。
圖1. CMGN與傳統(tǒng)藥物設計對比,及其通過遷移學習及性質(zhì)調(diào)節(jié)解決分子逆問題的應用策略
圖2. (左)GMGNet模型基于13C NMR結(jié)構(gòu)解析的工作流程;(右)AI在四大光譜中的應用
藥物所汪小澗研究員,碳硅智慧公司鄧亞峰博士為本論文的共同通訊作者。藥物所楊敏健博士和碩士生孫涵宇為共同第一作者。該工作獲得中國醫(yī)學科學院醫(yī)學與健康科技創(chuàng)新工程(CIFMS, No. 2021-I2M-1-028)和國家自然科學基金(NSFC, No. 82073692)的資助。
Briefings in Bioinformatics鏈接:https://academic.oup.com/bib/article/24/4/bbad185/7165252
Analytical Chemistry鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.2c05817
Analytical Chemistry (Perspective)鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.3c02540