文字探勘材料應用技術：材料世界網

李涵榮、李彥廷／工研院材化所；高宏宇／成功大學資訊工程系

近年來，隨著資料量的迅速增加，使用電腦進行歷史資料分析的技術快速發展，其中「資料探勘」就是海量資料底下孕育而生的產物。資料探勘是一門從大量資料或者資料庫中萃取出隱含之潛在資訊的科學。資料探勘為跨多種學科的電腦科學，包含人工智慧、機器學習、統計學和資料庫的交叉方法。利用機器學習強化的文字探勘技術，從大量與材料有關的文獻資料中擷取、分析，並建立加值資料供使用者更有效率地利用。透過加值資訊與知識庫，可輔助建立有效的訓練語料庫，回饋給各種機器學習應用去有效認知更多文本所帶來的資訊，例如應用上使用者可以在延伸系統中檢索相關材料的使用限制，並提供材料的知識圖譜與使用的建議。整合上述方法，本篇將以有機能源材料作為應用案例，介紹如何實際利用文獻資料蒐集能力，以資料探勘方法尋找新材料及新應用方向。

【內文精選】

資料探勘於材料領域的應用發展

資料探勘為跨多種學科的電腦科學，包含人工智慧、機器學習(Machine Learning)、統計學和資料庫的交叉方法。資料探勘過程的最終目標，是從資料集中提取有用的資訊，並將其轉換成可理解的結構，進一步使用；因此在分析的步驟中，同時涉及資料庫、資料管理、資料預處理、模型與推斷等方面，屬於「資料庫知識發現」的分析步驟，如圖一所示。資料探勘是對於大規模的資料進行自動或半自動的分析，從過去未知但有價值的潛在資訊，例如資料的分組、異常資料的紀錄和資料間的關聯性等，這些潛在資訊可通過對輸入資料的處理獲得，再透過如機器學習和預測分析進一步剖析。值得注意的是，資料收集、資料預處理、結果解釋都不算資料探勘的步驟，但是屬於「資料庫知識發現」的過程。資料預處理是運用在資料探勘之前，收集目標資料集，資料探勘能協助發現實際存在於資料中的模式，因此目標資料即必須大到足以包含這些模式，並在可接受的時間範圍內探勘；此外，資料預處理需要清理目標集、移除噪音和含有缺失資料的觀測量。

圖一、資料探勘整體流程圖

在目標資料集的收集方法中，ChemDataExtractor是近年開發出的自動化學資訊科學文件提取工具，只要給它一篇期刊文章，它將從文本中提取化學名稱、特性和光譜，並導入到數據庫或電子表格中（圖二）。ChemDataExtractor使用最先進的自然語言處理演算法(Natural Language ProcessingAlgorithms)，用以解讀英文文本為主的科學文獻，流程示意請見圖三。其中，機器學習中的條件隨機域(Conditional RandomFields)結合自定義辭典和基於規則的語法解析，從每個句子中擷取有價值的信息。通過每一個文檔的處理，ChemDataExtractor可以解析數據相互依存性，例如不同名稱和標識(Identifier)引用自相同的化合物，因此，它可以生成一個完整的檔案，包含文檔中的每一個化合物的標識、特性和光譜。特別的是，有鑑於大量的重要數據被鎖在文檔表格中，ChemDataExtractor提供專門的解析器，從表格中提取數據並將其語文檔其餘部分的資訊集成…以上為部分節錄資料，完整內容請見下方附檔。