澳科大博士生在國際頂級會議KDD 2026發表創新研究成果:提出全球首個分子毒性修復基準ToxiMol

近日,澳門科技大學創新工程學院智能科學與系統博士課程三年級博士生林飛作為第一作者,在國際頂級學術會議 ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD 2026)發表題為《Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?》的研究論文,該論文脫穎而出,獲錄用為 Oral(Oral錄用僅為該會所有錄用論文中的前20%)發表。論文由澳門科技大學聯合上海交通大學、中國科學院自動化研究所、中國科學院過程工程研究所生物藥製備與遞送全國重點實驗室、上海人工智能實驗室及寧波大學共同完成,其通訊作者為澳科大創新工程學院工程科學系教授王飛躍。

林飛博士生

KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是數據挖掘、人工智能與數據科學領域最具影響力的國際頂級學術會議之一,被中國計算機學會(CCF)推薦為A類國際學術會議。根據 Google Scholar Metrics 統計,KDD 長期位居數據挖掘與知識發現領域國際頂尖會議行列,在全球人工智能與數據科學研究領域具有廣泛影響力。本次論文獲錄用於 KDD 2026 AI for Sciences Track Oral,僅佔錄用論文中的少數比例,體現了該研究成果的創新性與學術價值。此次成果也是澳門科技大學作為第一單位在 KDD 會議上發表的首篇研究成果,彰顯了澳科大在人工智能與生命科學交叉領域(AI for Science)的卓越研究實力與創新能力 。

在新藥研發過程中,研究人員常常會遇到一個關鍵難題:一個候選分子可能具有良好的藥效潛力,卻同時伴隨肝毒性、心臟毒性或致突變風險。對於藥物化學家而言,理想的解决方案並不是完全推翻原有分子重新設計,而是在儘量保留其核心結構和藥物潛力的前提下,精準調整可能引發毒性的結構片段,從而降低風險、提升安全性。這一過程看似只是「改一改分子」,實際上卻高度依賴專業知識、經驗判斷和反覆實驗。研究人員不僅要判斷分子為什麽可能有毒,還要考慮修改之後是否仍然像一個可成藥的分子,是否容易合成,是否會因為解决一個毒性問題而引入新的藥物開發障礙。因此,分子毒性修復是藥物發現中極具挑戰性的任務之一。而且,傳統的分子去毒工作高度依賴資深藥物化學專家的反覆試驗,所以成本也一直居高不下。

近年來,多模態大模型在圖像理解、文本推理和複雜任務生成方面展現出快速進展,也開始被應用於分子設計、藥物發現等科學問題。由此,一個值得深入檢驗的問題隨之出現,該問題也一直缺乏系統性地驗證:當模型看到一個有毒分子,並被明確告知需要降低某一類毒性時,大模型是否真的能夠像藥物化學專家一樣,對分子結構進行合理修改?它是理解了結構與毒性之間的關係,還是只是根據已有模式生成一個「看起來像分子」的答案?

圍繞這一問題,研究團隊提出了全球首個專為評估通用 MLLMs 分子毒性修復能力而設計的基準任務——ToxiMol。與傳統的判斷分子是否有毒不同,ToxiMol 關注的是更進一步的結構級修復任務:給定一個真實有毒分子及其對應的毒性類型,要求模型生成一個新的分子結構,使其在降低目標毒性的同時,儘可能保留原有分子的核心性質和藥物開發潛力。ToxiMol 覆蓋 11 個毒性修復主任務,涵蓋 LD50、DILI、AMES 等典型毒性端點,並構建了 660 個具有較高結構複雜度和機制差異性的真實有毒分子樣本。該基準不僅考察模型能否生成合法分子,更強調模型是否具備面向真實藥物研發場景的綜合優化能力。為了更加嚴格地評估模型生成結果,研究團隊進一步設計了多維度評估體系 ToxiEval。該框架採用了「全約束通過」的嚴格策略,大模型給出的修復方案必須同時滿足結構有效性、安全評分、成藥性(QED)、合成可行性(SAS)以及結構相似性等多重約束,才會外被判定為毒性修復成功。通過 ToxiMol 與 ToxiEval 的結合,此項成果首次構建起面向結構級分子毒性修復任務的標準化評測體系,為後續相關領域的探索提供了重要的基礎設施。

ToxiMol 分子毒性修復任務與 ToxiEval 多準則評估鏈

此次研究成果的發表,展現了澳門科技大學在人工智能與交叉科學研究領域的持續創新能力,以及在 AI for Science 前沿方向上的國際競爭力。未來,澳門科技大學將繼續支援前沿科學研究,推動人工智能與生命科學、醫藥健康等領域的深度融合,為全球科技創新與智能社會發展貢獻更多力量。

⬇️論文鏈接⬇️

(https://arxiv.org/abs/2506.10912)

GitHub 項目主頁:https://github.com/HydroSophy/ToxiMol

數據集:https://huggingface.co/datasets/HydroSophyTech/ToxiMol-benchmark