AI在材料開發上的應用趨勢與展望(下)

 

刊登日期:2021/1/13
  • 字級

蔡宜良編譯
3. 分子資訊學
針對化合物適用的機器學習、深層學習,要如何處理輸入的資料是一大課題。在過去的特徵量設計常以0/1的bit排列,表達各分子特徵向量是否存在,提案有很多種類的分子指紋( Molecular Fingerprints )。另外還有根據分子的圖構造(由附加資訊的頂點(Node)和邊(Edge)的集合構成的資料結構)設計的神經網路基礎的特徵量研究。像史丹佛大學以機器學習置換第一原理計算法開發的DeepChem,可預測各種化合物的化學性質。
 
2017年以Variational Auto Encoder(VAE)為基礎的化合物自動生成技術被開發出來,分子設計上活用了深度學習,使分子資訊學重新受到注目。以SMILES( Simplified Molecular-Input line-Entry System )方法,將分子的化學構造以英數文字排列表示,藉由取出連續潛在變項的編碼器(Encoder),以及從潛在變項復原為SMILES表示方法的解碼器( Decoder ),經由學習後預測器可從分子潛在空間中的連續向量,生成擁有目標物性的分子。這樣的手法,可由再次生成(De novo)的方式進行創新,擴大探索空間。
 
(1) 2018年,IBM蘇黎世研究所在循環神經網路( Recurrent Neural Network; RNN )中使用SMILES和機械翻譯,嘗試預測有機化學反應( 從反應物預測生成物 )。並於IBM RXN for Chemistry網站上公開,提供免費使用。2019年在劍橋大學等研究團隊,提出生成新分子的模型─將化學反應分成從候選反應物挑選實際使用的反應物工作( 命名為Molecular Chef ),以及前述的從反應物預測生成物工作。
 
(2) 針對上述VAE等方法所提出的數以百計候選分子群,如何開發出對應的合成方法是分子資訊學的瓶頸點。過去規則庫方法( Expert System ) 的逆向合成過程探索,因無法預測新分子及其反應機構,泛用性不佳。近年新開發的記號和樣式( Pattern )組合手法,在合成過程的預測能力上獲得進展。2018年德國的明斯特大學為主的研究團隊,使用與AlphaGo相同的蒙地卡羅樹探索( MCTS )及符號人工智慧,嘗試預測生成化合物的合成順序。2015年的報告中,讓AI將先前已知約1,240萬筆有機化學反應進行學習,演算法在5.4秒就成功發掘藥物中間體的6階段的合成路徑。近期誕生了很多使用分子資訊學的新藥研發相關的AI新創企業,吸引許多世界級企業投資。2019年時,接連有2篇使用AI的新型態新藥研發(從篩選候選化合物到非臨床試驗前的實證)論文被發表;2020年以來,企業也陸續發表了開始AI開發藥物的臨床實驗。
 
課題
到前一節為止,針對機器學習、深度學習在材料物質研究上帶來的新風潮做了概略說明。另一方面,材料物質科學研究上要能活用機器學習和深度學習(現在的演算法),也顯現出很多課題。
   1. 為了要學習,必須有大量的高品質資料和計算資源
   2. 機器學習須手動設定特徵量(解釋變數、描述)
   3. 無法對應學習範圍以外的狀況
   4. 無法說明理由(黑盒子化)
其中的第一點,是影響根本的重要課題(如何確保資料的品質等)。
 
目前為止的成功研究案例幾乎都是有老師的學習,在output的品質倚賴著input的品質(特別是標籤、註釋)卻又缺乏大量含有標籤的高品質資料的情況下,對具有構造化、標準化標籤的資料有強烈的需求。另外,如何避免機器學習時,訓練集 ( Training Data Set )中標籤、註釋的人為偏頗,也是一大重點。
 
既存的各式資料產出方式,並沒有針對機器學習來規劃收集方式。分散地存在不同地方、樣式不統一、標籤和註釋缺損,實際上是無法活用的狀態。隨著近年量測機器的數位發展,可高通量取得多樣資料。今後如何設計、建構資料平台解決上述課題,各種組織間的協議和資料共有化是不可或缺的。
 
課題的解決方案
為了解決上述提到的課題,以下列舉「推行開放科學(建構資料平台)」、「高度解析文獻的手法」、「活用遷移學習」、「活用主動學習(擴大探索空間)」、「確立例外物質的探索方法」和「開發可進行解釋和說明的AI技術」等解決方案。
1. 推行開放科學(建構戰略性資料平台)
為了克服資料數量不足、樣式形式不統一、收集的高成本等課題,依照主題區分的Open Science資料共有,在基因組或腦科學等生命科學領域已經是世界的潮流。
 
目前材料物質領域使用第一原理計算進行資料平台建構,勞倫斯伯克利國家實驗室等營運的Materials Project即為其中一個代表,提供120,000個以上無機化合物的結晶構造、能帶結構、熱力學數值、相圖、磁化向量等資訊。由網頁式的操作介面和提供的應用程式介面(API),使用者可自行設定篩選方式。註冊後就可以免費登入使用,指定想調查的原子因數、想追蹤的特性,就可---以上為部分節錄資料,完整內容請見下方附檔。
 

分享