2021年8月16日,Nature Chemistry雜志發表了一篇南安普頓大學物理化學教授、AI3SD Network+首席研究員Jeremy Frey的專訪文章。在這篇文章中,Jeremy Frey談論了機器學習數據質量不確定性的危險以及人工智能與其他技術的協同作用。
以下是全文內容。
您是AI3SD Network+的主要研究者,能解釋一下什么是AI3SD Network+嗎?
這個Network的成功要歸功于我的合作研究者Mahesan Niranjan、我們非常有效的網絡協調人Samantha Kanza以及由John Overington教授主持的積極和支持性的咨詢委員會。在我們的第一個咨詢委員會上,有人指出,我們應該再加一個"AI",然后我們就可以有AI4ScienceDiscovery的縮寫了。不幸的是,ai4science.org這個地址已經被占用了,但我們確實計劃在未來使用ai4science.network。然而,我們一直在爭論第四個"AI"到底應該是什么。
Network想要實現的是什么?你們又選擇了哪些化學領域作為重點?
Jeremy Frey:EPSRC呼吁建立一個網絡,將前沿科學與前沿的人工智能計算結合起來。雖然有合理的資金,但肯定不足以覆蓋所有的科學,所以我們的申請集中在化學和材料的相關領域。我們的目標是將參與人工智能前沿的研究人員,包括傳統的知識工程方面和最近的機器學習方面的,與參與實驗和理論化學的研究人員結合起來。我們一直試圖保持對化學的廣泛關注。我們資助的許多項目都來自藥物發現或材料設計,并有化學家、計算機科學家和數學家參與。在我們的研討會主題中,我們確保對分子和材料特性有更廣泛的見解。
因為科學發現是這個Network的重點,我們不僅希望找出相關模式(就像在使用機器學習方法時經常做的那樣),我們還質疑傳統的發現意味著什么,以及未來在人工智能的協助下它將意味著什么,因此我們讓科學哲學家Will McNeill成為聯盟的一員。
就個人而言,這個Network提供了一個絕佳的機會,讓我們能夠認識、欣賞并學習計算機科學和化學領域的同事們的經驗和研究,包括來自國內和國際的學術界、工業界和政府的。
是什么讓這些科學領域適合使用人工智能和機器學習的方法?是否有任何你認為不適合這些方法的化學領域或方面?
Jeremy Frey:在我們所有的研討會、會談和討論中,出現的一個一致的主題是對數據的需求;很少有足夠的數據,而且現有的數據往往是質量不確定的(質量不確定的問題,比質量差的問題多)。因此,有可用數據的領域(例如高通量合成和表征)是機器學習的明確應用領域,甚至有可能支持深度學習方法。然而,在極少數情況下,將AI/ML應用中的深度學習類型,應用到使用計算機生成數據的工作中(即一個程序與自己的“游戲”),是有機會的。
在訓練和測試數據集上進行高水平的量子力學/量子化學(QM/QC)計算時,會出現可用計算機功率的問題。這種問題甚至限制了AI/ML在量子化學中的應用。在這種情況下,ML被用來提高低級量子力學計算的準確性。類似的考慮也適用于分子動力學模擬,其中ML技術被用來加速整合。
人工智能常常需要大量的數據,然而在測量化學實驗的結果(如反應產量或速率)時通常會有誤差,而且通常這些特性的測量精度有限。業界如何解決這個問題?你認為這主要是一個實驗問題還是軟件問題?
Jeremy Frey:正如我在回答前一個問題時所說,數據是至關重要的。目前的ML方法當然需要大量高質量的數據(當不確定性被理解后,ML方法會利用差的數據。使用ML方法過濾掉質量差的數據也是可能的,但那樣就限制了可用數據的廣度)。原則上,只要我們有合成和表征的高通量技術(不需要很多物質本身),許多化學特性都有足夠的數據。對于更多變量的數據來說,獲得高質量的數據要困難得多,如反應產率,它可能嚴重依賴于條件。所以有一個更大的實驗空間需要覆蓋。當涉及到生物反應時,就會有更大的可變性,因此也就有更大的難度。我們需要規?;墓ぷ?,并提高可靠性,因此硬件和軟件/數據問題都會存在。
看待這個問題的一個相關方式是,這與經典的模式識別系統不同(例如用于自動駕駛汽車的計算機視覺,收集大量的數據是可行的和可取的)。科學發現作為一個問題領域,帶有在更經典的物理模型中捕獲的廣泛的先驗知識。在不太龐大的數據體系中,面臨的挑戰是如何結合數據驅動的模型來利用這些知識。在我們的研討會上,我們已經研究了許多這樣的方法論。
您認為人工智能的哪些方面最容易被廣大科學界誤解?又能做些什么來解決這個問題?
Jeremy Frey:人工智能究竟能實現什么?業界可能希望AI能對預測分子特性做些什么。然而,與業界許多人更廣泛的想象(預測復雜成分的特性,如用于藥物輸送、材料涂層、功能材料和生物相互作用的預測)相比,AI仍然是有限的。即使是那些認識到現有數據的局限性阻礙了ML的應用的人,也可能認為只要我們有大量的數據,那么天空就是極限。現實是,化學的異質性和復雜性仍然超過了計算能力。需要將ML和計算化學和新的洞察力結合起來。
偏見的問題存在于AI/ML在化學的應用中。也許并不像其他一些領域那樣嚴重。由于訓練集的選擇沒有通過測試集進行,因而產生了意外偏差,這是眾所周知的,但很容易被遺忘。這與化學的多樣性密切相關,并促使人們對相似/不相似的化合物集開展了大量的工作。擴大一些視野,例如藥物設計中的應用也會陷入同樣的陷阱,即訓練集如何影響可能的結果,以及訓練集對全球業界的不同單位多大程度上合適。在極限的情況下,我們如何處理個性化的醫學,難道為我們每個人建立一個ML模型?
基于人工智能的技術可以是強大的方法,但有時該領域的成就是否被過度炒作?對于試圖評估獲益是否超出數據和結果支持范圍的非專業人士,您有什么建議嗎?或者有什么非專家應該注意的化學論文中的常見問題?
Jeremy Frey:一定要仔細研究化學問題。使用的是什么數據?分子或材料是什么樣子的?模型的輸出與輸入有什么不同?推薦的分子是否真的能解決問題?它們是潛在的藥物還是經過測試的藥物?是建議的材料還是在設備中測試過的材料?是否提供了輸入數據和模型的解釋?這些都是無意中出現偏差的地方。
這個Network關注的關鍵問題是 "為什么該模型給出了這些預測?",建議的藥物或材料是否照亮了化學的新思路或為化學服務?這些模型的可解釋性,對于理解AI/ML為化學帶來的改變是非常重要的。這些問題也有助于Network從哲學角度思考AI如何改變化學發現的本質。
對于方法、數據或定制軟件,您是否希望業界采用任何報告標準,以促進工作的重復使用和復制?
Jeremy Frey:數據的標準化還遠未完成或達成一致,但事情正在變得更好。在描述ML模型的標準方面,業界還有很長的路要走。我們確實有整體的FAIR原則,它同樣適用于數據和工作的所有方面。像Jupyter notebooks這樣的工具和能讀寫的編程非常適用于化學中的ML工作。總的來說,我支持使用盡可能多的開源和開放科學工具,但也要充分認識到優質商業軟件的范圍越來越大。即使在使用商業代碼時,也必須能夠描述數據是如何被操作的,并確保數據模型可以使用開放格式進行交換。
這些想法與解釋ML模型的能力也是相輔相成的。Network的主旨在于科學發現。獲得一個問題的解決方案(例如,下一種藥物、下一種材料的制造、如何優化設計)只是發現之旅的一部分。需要理解 "為什么"。為什么ML系統得出了這個答案?這是一個偏見的例子嗎?我們能說明和解釋這個結果嗎(即使是后見之明)?我們學到了什么?我們能從這些模型中提取新的理論和想法嗎?這顯然是發現的關鍵(ML成為實驗的一部分)。
我們可以進一步展望未來,詢問AI/ML方法是否不僅可以提供一個結果,提供一個理解 "為什么"的途徑,還可以開始幫助問 "什么"。增強的智能系統是否也能幫助提出假說?在復雜化學的某些領域,如功能材料和與生物學的相互作用,系統的復雜性使AI可以通過這種方式產生重大影響。
基于AI的技術與機器人技術和自動檢測分析有一些明顯的協同作用。你認為目前有哪些瓶頸限制了向更自主的綜合系統的發展?
Jeremy Frey:人工智能和機器人技術之間的協同作用是非常有趣的。這些想法可能在自主汽車/駕駛和機器人手術中最清楚。在化學領域,實驗室機器人有很大的潛力,我懷疑目前主要是在工業實驗室(由于成本原因),但隨著我們看到機器人在幾乎消費者級別上的采用,我們可以期待在實驗室看到更多的機器人。現在有許多黑暗的實驗室,實際上是完全自動化的,可供研究人員使用。當然,外包合成和測量已經有很長一段時間了,對于用戶來說,也許該實驗室是由機器人還是由人操作并不重要,盡管成本和產量可能有所不同。
我認為許多化學過程的復雜性是對機器人作用的一種限制。研究人員在簡化過程和標準化合成方面已經做了很多工作,例如利用流動技術,在這些領域,機器人技術的使用已經很先進。也許在另一個極端,定制的物理化學實驗以一種不同的,但仍然非常重要的方式受益于自動化和計算機控制,這是已經推動了多年的實驗。然而,人工智能技術的興起有可能徹底改變從原始實驗數據中提取信息(和知識)的方式,從而改變哪些實驗可能需要進行這個問題的本質。
有什么具體的技術是你希望看到的,可以擴大人工智能和機器學習方法的效用?
Jeremy Frey:我們需要了解如何基于比最近許多ML工作所需的更小的數據量來進行預測。我們可以把這稱為小型深度學習。這項研究超越了化學應用,當然在AI/ML遇到人類學習的地方非常重要。具體到化學,我們需要開發處理能量/結構“地形圖”的方法,也就是三維結構/構型,因為這在分子之間的相互作用中至關重要,無論是復雜的混合物、材料還是生物相互作用。
ML中經常出現的問題是處理高維空間,數據相對稀疏,因此需要降維。雖然這是深度學習經常遇到的問題,但考慮到化學數據的性質,在算法和數學基礎上的持續工作將對化學應用非常有用。對 "不確定性"的更好理解、量化和建模將是有用的。正如上面提到的對高質量數據的需求,當我們部署人工智能系統時,它的局限性當然是"垃圾進-垃圾出"問題。也就是說,一個經過訓練的人工智能模型總是會產生一個輸出,即使是在它沒有被訓練過的環境中也是如此。適當地量化不確定性,并對這些預測的信心水平進行預測,這往往是至關重要的。建立在貝葉斯推理原則基礎上的方法有助于做到這一點,但將它們擴展到非常大和復雜的模型仍然具有挑戰性。
考慮到化學空間,我們確實需要對這個概念有更好的理解,當然最理想的是,我們仍然需要一張化學空間的地圖。我們可以期望這樣的地圖是什么樣子的,這可能是一個不同的討論主題,并導致對化學作為導航與發現的思考。一個靜態的化學地圖的概念永遠不會反映這個學科的多樣性和靈活性。分子或材料結構的概念隱含地涉及時間和能量,并取決于分子的環境或它的用途。物種之間的轉化也同樣重要,所以在很多方面,我們要尋找的不僅僅是一張地圖,甚至不是一張疊加了路徑的地圖,而是對化學時空的真實描述。我希望,通過可解釋的人工智能模型,我們可以開始建立化學時空的區域,并獲得真正的洞察力和實際應用。
任何有助于理解化學與生物學互動的技術都將支持對藥物、農業化學品和環境可持續材料的更好預測。
量子計算機是新技術的一個例子,它將成為能夠對化學產生重大影響的技術,因為可用的量子比特的數量正在迅速增加。在我看來,它們將不僅僅被用來進行量子化學計算,還可以做一些事情,比如處理龐大的化學空間的有效搜索。但是,由于在傳統計算機的化學編程方面投入了大量的精力,量子計算機在解決化學問題方面的速度還需要一些時間。展望未來,Network正計劃舉辦一些關于量子計算機化學編程的研討會。
您希望看到數字基礎設施的哪些改進,以幫助和支持化學界更廣泛地使用人工智能和機器學習技術?
Jeremy Frey:我們當然需要一個更先進的全球基礎設施。鼓勵帶有盡可能多的元數據(語義信息)的存儲庫。理想情況下,元數據應該是機器和人類可讀的,有背景故事,以使業界能夠最好地利用我們擁有的數據。我們有這個故事的元素,但它們遠遠不夠完整或易于使用。
基于云的系統正在使定制的硬件可用,以滿足ML和QC的對比需求,甚至量子計算機也可以通過這種方式獲得。我們需要開始培訓化學家來使用這些系統。本科化學課程的重新設計正在進行中,但高素質化學家的再培訓機會也將非常重要。同樣重要的是把化學的新能力帶給年輕的觀眾,親身體驗化學和人工智能的推廣是必須的。
文章來源:智藥邦