從日本10th Highly-Functional Materials Week國際展看先進材料發展趨勢(四)

 

刊登日期:2020/2/3
  • 字級

張志祥、陳哲陽/工研院材化所
材料數位AI議題(Materials Informatics)
Materials Informatics: State-of-the-art and Future Perspectives
本專題由日本統計數學研究所(The Institute of Statistical Mathematics)的Ryo Yoshida教授進行演講,他的研究領域包括Bioscience Statistics、Genomics、Molecular Design、Biological Image Mining and Materials Informatics。他首先說明材料物質的特性表現與機器學習之間的關聯性,機器學習是透過數據建立Input與Output間的數學模型,一旦所建立的模型之預測精準度夠高的時候,就可以針對新材料特性進行預測。由於材料系統相當的複雜,Input的data可以是各種特徵描述(Descriptor)形式的數據或影像,包括:Chemical Structure、Crystal structure、Composition、Disordered System、Microstructure、Chemical Reaction、Microscopic Image及Process Parameters。從Input到Output屬於正向預測(Forward Prediction),而從Output如何回推找尋新的Input (如新的化學結構、優化的製程參數等)則屬於逆向預測(Inverse or Backward Prediction),透過Generator產生新的分子結構等,如圖一所示。
 
 
圖一、將機器學習導入材料物質特性學習與預測示意圖
圖一、將機器學習導入材料物質特性學習與預測示意圖
 
Ryo Yoshida教授接著介紹機器學習在材料正向預測的技術發展,機器學習的正向預測技術基本上就是在建立材料的QSPR(Quantitative Structure-property- relationship Analysis),給定Molecular Fingerprint,找出合適的演算法(如Deep Learning、Random Forest、Support Vector Machine…)得到想預測的材料特性(如Physiological Activity、Toxicity、Band Gap…),如圖二所示。Ryo Yoshida教授舉了一些案例說明透過High-Throughput Screening方式,並認為藉此找到新材料而可能為社會帶來巨大的價值,包括近期發表的文章Organic LED (Aspuru-Guzik in Harvard Univ)、Ligands for Nickel Catalysis、Polymers with High Thermal Conductivity (NIMS Projecs)等。
 
不過材料領域的應用常遇到小數據的問題,而遷移式學習(Transfer Learning)可以針對小數據的機器學習提出解答。Ryo Yoshida教授以自己今年發表的期刊案例---Exploring diamond-like lattice thermal conductivity crystals via feature- based transfer learning做說明。晶體材料的熱導性本質和晶格熱導率(κL)有關,鑽石在室溫下的導熱係數約為2,000 W/mK,但價格相對高且高溫使用時會有氧化或石墨化問題而使熱傳導性大幅降低。其他散熱材料如SiC、BeO、BP、AlN、BeS、GaN、Si、AlP和GaP的雖然也有相當不錯的散熱性,但κL接近或超過1,000 W/mK的材料卻很少。目前找尋新材料的方法大都是透過第一原理計算來獲得,包括Materials Project、AFLOW、ICSD、AtomWork已建立數萬筆的晶體化合物的數據庫,但是對數據庫中所有晶體進行第一性原理計算非常耗時且不切實際。
 
另一種方法是透過機器學習來尋找新材料,由於目前可直接取得晶體化合物的熱傳導係數的數據仍屬於Small Data,Ryo Yoshida教授團隊以Transfer Learning克服此問題。首先在整個晶體化合物的結構數據庫中進行特徵諧波特性(Feature Harmonic Property)的廣泛搜索,因為特徵諧波特性與熱導率有絕對的關聯性。在此他們選擇Three-phonon Scattering Process的散射相空間(Scattering Phase Space; P3)作為特徵,因為這可以從理論計算中快速獲取數據。遷移式學習將相對“大數據”(320個晶體的諧波三聲子散射相空間)所獲得的預測模型應用到“小數據”(45個晶體的熱導率)新的特性預測,以尋找超高晶格熱導率晶體,如圖三所示。
 
圖三、遷移式學習(Transfer Learning)技術示意圖
圖三、遷移式學習(Transfer Learning)技術示意圖
 
圖四(A)為Pre-trained P3 Model (mean absolute error = 0.000237 cm)與圖四(B) Transferred κL Model (mean absolute error = 30.8528 W/mK),圖四(C)為傳統機器學習方法(ML)與遷移式學習(TL)的預測準確度比較,顯然以傳統ML得到的預測模型在高熱導係數的外差預測相當不準確,而TL預測準確度遠高於ML,且外差的預測也具有一定的準確性,也因此找出14種具有高的熱傳導係數的晶體材料。
 
圖四、透過遷移式學習找出14種具高熱傳導係數的晶體材料
圖四、透過遷移式學習找出14種具高熱傳導係數的晶體材料
 
Ryo Yoshida教授接著說明逆向預測技術,也就是Inverse-QSPR,如圖五所示。The objective of the forward prediction is to create a set of machine learning models on various properties of a given molecule. Inverting the trained forward models through Bayes’ law, we derive a posterior distribution for the backward prediction, which is conditioned by a desired property requirement。
 
圖五、機器學習逆向預測Inverse-QSPR技術示意圖
圖五、機器學習逆向預測Inverse-QSPR技術示意圖
 
基因演算法Genetic Algorithms和Bayesian Molecular Design都是逆向預測分子設計的方法,在使用Bayesian Molecular Design時必須先得到一組由正向預測所得到的預測模型,然後透過Bayes’ law結合所謂的Prior Distribution轉換成逆向預測,並針對所---以上為部分節錄資料,完整內容請見下方附檔。
 
相關閱讀:

分享