施麗釵 / 工研院材化所
在現代化學與材料研發中,如何將複雜的三維化學結構轉化為電腦可處理的數位模型是核心挑戰。分子指紋(Molecular Fingerprint)技術透過特定演算法,將分子的拓樸學或物理化學特徵編碼為固定長度的位元串或向量,賦予每個結構獨特的「數位身分證」。本文旨在深入淺出地介紹分子指紋的演進歷史、核心數學機制(如雜湊與摺疊),並詳述產業界最常用的延伸連結性指紋運作原理。此外,本文亦探討該技術在製藥高通量篩檢及聚合物材料設計等工業領域的實際應用案例,展現分子指紋如何結合人工智慧加速數位化研發流程。
【內文精選】
技術演進與數學機制
1.化學空間數位化的歷史與演進脈絡
分子指紋技術的理論根基可追溯至18世紀歐拉創立的「圖論」,將原子與化學鍵抽象化為節點與邊,為結構表徵奠定基礎。 20世紀中葉,拓樸化學興起, 1947年Wiener指數首度將分子結構量化並與物理性質(如沸點)連結;1975年Randic指數則進一步深化了原子連接度的量化分析。
現代運算雛形源於1950至1960年代。為解決大規模資料庫中「子圖同構」演算法極耗資源的瓶頸,研究者開發出「預篩選」工具,利用簡單特徵向量過濾不相干分子。1965年Morgan提出的演算法,透過迭代計算原子及其鄰域特徵,成為後續高維指紋的基石。
1970至1980年代,受限於電腦記憶體昂貴,基於預定義字典的「結構鍵」成為主流。隨後Daylight公司利用雜湊(Hashing)演算法開發出拓樸指紋,打破了字典限制。2010年, Rogers與Hahn正式發表延伸連結性指紋(Extended-Connectivity Fingerprints; ECFP),標誌著分子指紋從單純的檢索工具,全面轉向定量結構-活性建模(QSAR),成為現今AI藥物探索與材料預測中不可或缺的特徵提取工具。
2.核心數學機制:編碼、雜湊、摺疊與相似性量化
要將複雜的三維化學結構轉化為電腦能處理的數據,必須經過一套嚴謹的數學與資訊科學流程。這過程就像是為分子製作一張「數位身分證」,主要包含以下四個步驟:
(1)特徵編碼:選擇數位格式
分子指紋有三種主要表現形式,視運算需求而定:①二進位指紋(Binary):最常用,以0與1表示特定結構「存在」或「不存在」。其運算極快,適合處理數十億筆資料的初步篩選。②計數型指紋(Count-based):記錄特徵出現的「次數」。這對於區分結構相似但長度不同的分子(如不同長度的酒精分子)至關重要。③連續型特徵:利用實數描述分子的電荷分布或空間資訊,提供更細膩的物理化學特徵---以上為部分節錄資料,完整內容請見下方附檔。
★本文節錄自《工業材料雜誌》474期,更多資料請見下方附檔。