用可見光識別有機化合物
智利圣地亞哥大學和圣母大學的研究人員利用機器學習設(shè)計了一種基于單個光學波長折射率識別有機化合物的方法。該技術(shù)可以用于自動化學分析的研究和工業(yè)應(yīng)用,更便宜,更安全,并且需要更少的專業(yè)知識來操作。
在發(fā)表在《物理化學雜志A》上的論文“使用可見光對有機化合物進行機器學習識別”中,研究人員記錄了他們獲得獨特數(shù)據(jù)集的創(chuàng)造性和新穎方式,以及他們用于構(gòu)建概念驗證有機化學檢測器的步驟。
機器學習是在公開的過去光學實驗數(shù)據(jù)庫上進行訓練的,該數(shù)據(jù)庫包含可追溯到 1940 年的科學文獻中的已發(fā)表數(shù)據(jù)。在這個數(shù)據(jù)庫中,研究人員發(fā)現(xiàn)了編制61個有機分子的鑒定譜所需的所有參數(shù);群速度和群速度色散、測量波長范圍和樣品的物質(zhì)狀態(tài)、寬波長范圍內(nèi)的折射率和消光系數(shù)??偣矐?yīng)用了194種有機化合物和聚合物的折射率和消光曲線的816,61個光譜記錄。
在典型的紅外(IR)分子分類檢測器中,分子身份通過吸收和拉曼散射峰確認,從而創(chuàng)建與數(shù)據(jù)庫匹配的組合特征的指紋。有機化合物的靜態(tài)折射率是單值特征,不具有相同的編碼信息。這同樣適用于遠離紫外線和紅外吸收共振的單波長的折射率數(shù)據(jù)庫,這也許就是為什么可見光沒有被用來對有機分子進行分類的原因。
對原始數(shù)據(jù)的初步測試達到了80%,研究人員試圖從那里增加它。最初的數(shù)據(jù)庫并不是為了優(yōu)化機器學習,因為其中大部分來自第一臺家用計算機發(fā)明之前進行的研究。有大量關(guān)于紫外和紅外波長的信息,人工智能正在交叉訓練這些信息。因此,研究人員決定采取更有針對性的方法。
采用了幾種數(shù)據(jù)預(yù)處理策略來模擬人工智能更理想的學習環(huán)境。目標是創(chuàng)建一個平衡的數(shù)據(jù)集,以便人工智能不會僅僅通過信息量優(yōu)先賦予某些特征而不是其他特征的權(quán)重。使用過采樣和欠采樣以及基于數(shù)據(jù)物理的增強技術(shù)來從根本上減少整個數(shù)據(jù)集中紅外波長的影響。通過使用預(yù)處理的平衡數(shù)據(jù)進行訓練,研究人員在可見區(qū)域?qū)崿F(xiàn)了優(yōu)于98%的分子分類測試精度。
研究人員指出,需要額外的工作來擴展和推廣分類器,以確定折射率數(shù)據(jù)庫中存在的分子的結(jié)構(gòu)和其他化學特征??傊?,他們寫道,這項工作是開發(fā)遠程化學傳感器的良好起點。
免責聲明:本文為轉(zhuǎn)載,非本網(wǎng)原創(chuàng)內(nèi)容,不代表本網(wǎng)觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。