新藥發(fā)現(xiàn)的速度在不斷提升,但耐藥、治療無效仍然是困擾大多數(shù)患者的艱難問題。發(fā)現(xiàn)新的聯(lián)合用藥組合,能為患者帶來新的可能,也對進一步設計全新藥物與現(xiàn)有藥物聯(lián)合作用提供了明確的方向。
作為突破創(chuàng)新藥物研發(fā)平臺,百圖生科以發(fā)現(xiàn)多靶點組合、設計能實現(xiàn)復雜調控機制的精準藥物為目標,已在藥物組合研究上實現(xiàn)了一系列的突破。
近日,一項由百圖生科聯(lián)合香港中文大學、阿卜杜拉國王科技大學等學術機構共同完成的新研究發(fā)表在預印本網站arXiv。
該研究提出的新方法基于超大規(guī)模AI預訓練技術,一方面,不僅能實現(xiàn)對聯(lián)合用藥效果的行業(yè)最佳預測準確率——新方法比此前行業(yè)中的最佳模型提升10%以上,相較經典機器學習方法提升30%以上;另一方面,還能對訓練數(shù)據(jù)中未見過的新藥物或細胞系給出理想的聯(lián)合用藥效果預測——與此前行業(yè)最佳的模型相比,新模型的AU ROC超過了近15%。

多模態(tài)+圖網絡+預訓練,“三位一體”實現(xiàn)精準的藥物組合推薦
在該研究中,團隊從涵蓋各種藥物相關方面的數(shù)據(jù)集中收集大量數(shù)據(jù),并創(chuàng)新性地基于這些多模態(tài)數(shù)據(jù)開展超大規(guī)模預訓練,生成藥物、蛋白質和疾病的信息表征和特征,更進一步的,基于細胞內的蛋白-基因之間的調控關系網絡構建出深度圖神經網絡模型,兼具可解釋性和模型預測能力。
文章表明,該模型在一系列藥物協(xié)同作用預測的基準數(shù)據(jù)集上均實現(xiàn)了最佳的預測效果,在來自阿斯利康的藥物組合數(shù)據(jù)集驗證顯示,這一新方法比目前行業(yè)中的最佳模型提升10%以上,相較經典機器學習方法提升30%以上。
更重要的是,對于訓練數(shù)據(jù)中未見過的藥物及其組合的預測,新的模型也表現(xiàn)優(yōu)異。
研究團隊開發(fā)了兩個覆蓋39個獨立藥物和10個獨立細胞系的數(shù)據(jù)集,以測試這些方法在訓練數(shù)據(jù)中沒有見過的藥物和細胞系上的表現(xiàn)。結果表明,新方法在這方面保持了很好的性能,各項指標均達到80%以上,而其他方法如DeepDDS的表現(xiàn)均在70%以下。與此前行業(yè)最佳的模型相比,新模型的AU ROC超過了近15%。
團隊認為,本次提出的新方法和框架,既有助于在濕實驗中發(fā)現(xiàn)新型藥物,也將推動建立更為精確的組合藥物指南。
與單一藥物治療相比,聯(lián)合用藥治療具有諸多已被廣泛證實的好處:不但可以提高療效,減少副作用和宿主毒性,甚至可以克服耐藥性。在單一藥物難以奏效的情況下,聯(lián)合用藥治療越來越多地用于包括HIV、病毒感染和癌癥等復雜的疾病中。
當然,藥物組合能夠發(fā)揮治療價值的一個大前提,是準確地找到了合適的藥物組合。
傳統(tǒng)尋找藥物組合的方法,往往基于臨床試驗的不斷試錯,不僅耗時長、成本高,也無法排除對患者造成傷害的風險。此外,受限于既有資源和海量的藥物組合搜索空間,也難以大規(guī)模地對所有藥物組合進行臨床驗證實驗。
近年來,隨著實驗技術的發(fā)展,高通量藥物篩選(HTS)讓探索大型藥物組合空間成為現(xiàn)實,與藥物組合協(xié)同作用相關的數(shù)據(jù)量也大幅增加。這類公共數(shù)據(jù)集的出現(xiàn)和完善,推動了特定組織的藥物研究,并為計算方法的完善提供了高質量的訓練數(shù)據(jù),使評估預測藥物組合的計算方法成為可能,尤其是基于深度學習的AI方法。
而現(xiàn)有模型及其所使用的數(shù)據(jù)集依然有較大局限性,包括預測目標通常停留在一個特定的細胞系或組織,或者通常是基于單一的數(shù)據(jù)庫,距離普適性、無偏見、可大規(guī)模推廣的藥物協(xié)同作用預測模型仍有不少差距。
為了解決上述問題,在這項研究中,團隊提出一個端到端的深度學習框架,通過利用多模態(tài)數(shù)據(jù)、圖神經網絡和大規(guī)模無監(jiān)督訓練,提取和整合了藥物協(xié)同作用的重要特征,從而準確地預測協(xié)同效應。

圖:該研究提出的藥物組合預測框架
具體而言,模型將藥物的化學結構圖和細胞系的基因/蛋白質表達作為輸入,應用預先訓練好的藥物分子圖transformer和蛋白質預訓練語言模型,將藥物和蛋白轉換成嵌入向量,并使用知識嵌入學習算法,從醫(yī)學知識圖譜中獲得的融合疾病、藥物、蛋白關聯(lián)關系的基因表征嵌入向量。
接下來,通過將藥物-藥物相似性關系、藥物-靶點基因/蛋白對應關系、以及蛋白和蛋白相互作用關系等構建成具有更豐富信息的圖,利用圖神經網絡將生成的嵌入向量作為節(jié)點表示,對藥物協(xié)同作用進行傳播和推演,在圖神經網絡的基礎上,團隊建立了一個協(xié)同效應預測器,通過多層感知器(MLP)來預測協(xié)同效應。
實驗效果最優(yōu),且實現(xiàn)對全新藥物的預測
為了驗證新模型對于藥物組合的預測效果,研究團隊做了一系列的測試。
驗證的第一步,是在公開的DrugCom數(shù)據(jù)集上與最先進的方法進行比較,其中包括五種深度學習方法:DeepDDS、 TranSynergy、DeepSynergy、MR-GNN、 MatchMaker,以及兩種經典機器學習方法:XGBoost、Adaboost。

如表2所示,新方法在所有重要指標上都取得了當前最好的結果。具體來說,在最重要的兩大指標AU ROC和F1,新方法比第二優(yōu)的DeepDDS方法提升2%以上,比經典機器學習方法更有超過20%的提升。

更進一步的,表3則總結了上述7種方法在行業(yè)公認的阿斯利康(AZ)數(shù)據(jù)集上遷移測試的表現(xiàn)。這一數(shù)據(jù)集基于專門評估藥物協(xié)同預測的賽事“AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge',由阿斯利康、桑格研究所、Sage Bionetworks-DREAM Challenge組委會共同推出。
相比于其他的方法,新方法在指標上大幅超越了其他的方法,體現(xiàn)了很強的推廣能力。
為了進一步驗證新方法的泛化能力,團隊開發(fā)了兩個覆蓋39個獨立的藥物和10個獨立的細胞系的數(shù)據(jù)集,以測試了這些方法在訓練數(shù)據(jù)中沒有見過的藥物和細胞系上的表現(xiàn)。

如表4顯示,新方法在這方面保持了很好的性能,各項指標均達到80%以上,而其他方法如DeepDDS和DeepSynergy出現(xiàn)了下降到70%以下的情況。
總體而言,該研究提出的新模型在實驗中充分驗證了其有效性和穩(wěn)健性,并始終且顯著優(yōu)于其他模型。
研究團隊認為,將這一模型擴展到更多任務上,會是一個很有前途的研究方向。在未來,將諸如三維分子結構這樣的更多信息納入框架之中,該方法的性能還可以進一步提升。此外,研究團隊也將開發(fā)能夠進行更多的藥物、細胞系和疾病相關任務的方法,而不局限于藥物聯(lián)合效應預測。
我們相信,研究團隊提出的新方法可以作為一個強大的工具,促進精確的藥物聯(lián)合治療醫(yī)學的發(fā)展,尤其是實現(xiàn)全新用藥組合的推薦。