在合成有機分子和天然產(chǎn)物中,結構的確定是一項非常具有挑戰(zhàn)性的工作。結構上接近的異構體和非對映異構體在1D NMR光譜中的差異非常細微,要想?yún)^(qū)分它們得耗費大量的時間和精力。
利用計算機進行核磁譜圖識別給研究者提供了大量幫助,其原理是基于密度泛函理論(DFT)計算所有不確定結構非對映異構體的核磁位移,并使用相關系數(shù)、平均絕對誤差(MAE)和校正平均絕對誤差(CMAE)等參數(shù)將這些預測結果與已公布的光譜數(shù)據(jù)進行比較。其中,DP4分析是一種特別強大的工具,它不僅可以預測分子的立構化學特性,還可以給出每個可能結構是否正確的概率,在天然產(chǎn)物及藥物合成中已有成功應用。
自發(fā)布以來,DP4的計算過程已經(jīng)進行了極大的簡化,用戶輸入越來越少。但是,最耗費用戶精力的仍然是NMR譜圖的歸屬問題,這不僅非常耗時費力,而且容易出錯。
少數(shù)商用軟件,如Mestrelab?Mnova,雖然為1H NMR譜圖提供了歸屬算法,但無法對原始NMR數(shù)據(jù)進行自動處理和歸屬。
成果介紹
基于以上分析,劍橋大學Jonathan M. Goodman教授課題組針對1H和13C NMR原始數(shù)據(jù),提出了一種譜圖自動處理和歸屬方法DP4-AI,它可以自動進行有機分子立構化學特性和結構歧義的預測。研究發(fā)現(xiàn)NMR-AI可以在1分鐘左右的時間處理完NNR原始數(shù)據(jù),而此前同樣的任務大約需要8個小時,速率提升了480倍,每天可以處理的分子數(shù)量增加了60倍,這使得高通量NMR譜圖分析成為可能,為通過機器學習發(fā)現(xiàn)新的分子結構鋪平了道路。
DP4-AI的結構和計算流程
DP4-AI包含了NMR-AI和PyDP4兩部分,其中NMR-AI負責處理用戶輸入的NMR原始數(shù)據(jù),并進行化學位移的歸屬,PyDP4則對這一歸屬正確與否的概率進行計算,從而自動闡述分子的立體化學結構。
DP4-AI對NMR數(shù)據(jù)處理的流程如下:當用戶輸入原始NMR數(shù)據(jù)后,程序首先對相和基線進行校正,然后從中提取出各個峰的化學位移值,并計算積分值,利用DFT方法計算每個原子的化學位移并對其進行歸屬,最后DP4分析這種歸屬的概率,同時給出物質(zhì)的化學結構。
DP4-AI中NMR峰的提取過程
在提取1H NMR位移峰時,使用原始數(shù)據(jù)的一階和二階導數(shù)進行操作:如果峰的一階導數(shù)為零,二階導數(shù)最小,而且峰值在二階導數(shù)的幅度閾值以上以及第二閾值以下時,則提取該峰。以這種方式進行峰值提取時可以將兩個閾值設置得非常低,在盡可能多地過濾掉噪聲的情況下,盡可能少的丟失信號。
為了避免將噪聲誤認為信號峰,研究者開發(fā)了一種利用目標模型選擇來消除噪聲的算法。間隔小于18 Hz的提取峰被分組在一起,形成了一個信號區(qū)域,對于每個區(qū)域,使用多個廣義洛倫茲線形函數(shù)構建線形模型,每個區(qū)域模型中的參數(shù)進行迭代變化,直到模型的積分收斂到相應光譜區(qū)域1%以內(nèi)。如果模型的貝葉斯信息低于閾值,則認為這些參數(shù)描述的是噪聲,相應的峰會被刪除。
DP4-AI中NMR峰的歸屬
研究者認為DP4-AI開發(fā)過程中最具挑戰(zhàn)性的工作是歸屬算法的開發(fā),該算法將分子的每個非對映異構體中的原子分配給光譜中提取到的峰。研究者采用GIAO方法對不同峰進行分配,歸屬算法的核心是計算分配概率矩陣M,該矩陣的元素Mij是計算出的化學位移i對應于實驗峰值j的概率。矩陣M通過匈牙利線性和最小化方法找到最可能的分配結果。
13?C NMR的算法還考慮了實驗峰的幅度。M中的每一個元素Mij乘以一個從實驗峰值j的幅度得出的權重因子Aj。13?C NMR光譜中的峰通常分為三組,可以通過幅度來區(qū)分:噪聲、1-原子信號和對應于多個等效碳原子的峰。為了捕獲這種變化,研究者估算了譜圖中峰值幅度的概率密度函數(shù),當峰值中該函數(shù)的二階導數(shù)的最小值位于其振幅之間時,這些峰分為一組,然后使用每組中的峰數(shù)和結構中預期的碳原子數(shù)來計算振幅權重。
DP4-AI的性能評估
研究者為了評估NMR-AI的性能,構建了由47個分子(每個分子平均3.49個立構中心)組成的測試組,其中包含了各種結構的碳骨架。測試組中包含了天然產(chǎn)物、合成中間體和天然產(chǎn)物的碎片結構,以盡可能包含更多類型的有機分子結構。
為了描述DP4-AI進行NMR預測的誤差概率,研究者測試了四個不同的統(tǒng)計模型,結果發(fā)現(xiàn)單區(qū)域3高斯模型得出的預測誤差最優(yōu)。
在最高的測試理論水平下,DP4-AI的可靠性與耗時的成對歸屬算法相似,而后者需要一位訓練有素的化學家才能完成。在測試數(shù)據(jù)集中,正確有效的進行立體化學歸屬的概率約為3×10-8,表明DP4-AI的表現(xiàn)非常可靠。最令人印象深刻的是,DP4-AI在32和64個非對映異構體中正確對分子NP1和NP2的立構化學特性進行了歸屬。
NMR-AI可以在1分鐘左右的時間處理完NNR數(shù)據(jù),而在此之前同樣的任務大約需要8個小時,這相當于每天處理的分子數(shù)量可以增加60倍。
小結
為了快速有效的處理NMR原始數(shù)據(jù),劍橋大學Jonathan M. Goodman教授課題組提出了一種譜圖自動處理和歸屬方法DP4-AI,這種方法由NMR-AI和PyDP4兩部分組成,用戶只需要輸入原始的NMR數(shù)據(jù),程序就會自動提取各個峰值,并對其進行歸屬,直接給出最可能的分子結構以及這種歸屬的概率。研究者構建了由47個分子組成的測試組,發(fā)現(xiàn)程序正確有效的進行立體化學歸屬的概率約為3×10-8,并正確對分子NP1和NP2的立構化學特性進行了歸屬。僅需要1分鐘的時間,NMR-AI就可以處理完NNR數(shù)據(jù),與之前的方法相比,速率提高了480倍,每天處理的分子數(shù)量可以增加60倍。
原文鏈接:
https://pubs.rsc.org/en/content/articlehtml/2020/sc/d0sc00442a