1. 用途
将计算的核磁(NMR)数据与实验数据回归分析,判断化合物结构或相对构型。
2. 特色
本工具支持电子表格在线编辑功能,支持Excel数据复制粘贴,提供详细的统计数据,高亮显示偏差较大的原子,帮助用户分析结构,判断构型。
3. 预备知识
以下内容了解概念即可,不必专研数学公式,连概念都不想了解的,可以直接跳过!
3.1 计算值校正方法
采用计算预测的化学位移值往往与实验值存在不小偏差,其中存在系统性误差
。为消除这一误差,需要对计算值进行校正。主要有两种方法:
-
标度法
该方法采用预先拟合好的标度参数,依据以下公式进行校正:
该方法的优点是:已有文献对不同理论水平、不同方法进行了拟合,并把参数总结在CHESHIRE CCAT网站:(http://cheshirenmr.info),使用者只需要进行简单的算术运算即得到校正值。但缺点是:如果采用未有标度参数的理论水平或方法来计算核磁,则需要自己拟合参数,工作量颇大。更重要的是,实践表明,该方法对柔性大分子的准确性不太令人满意。
-
回归分析法
为克服
标度法
的缺点,我们采用回归分析法
。该方法不依赖任何经验参数,直接对每个结构(构型)的计算值进行线性拟合,最大程度上消除计算方法和实验条件对于特定分子结构的系统误差
。
3.2 一元线性回归模型
计算值
与实验值
之间存在系统误差
和随机(偶然)误差
。采用一元线性回归模型
对计算值
进行校正,可消除系统误差
。该模型的一般形式如下:
其中,是第个(原子)位置的化学位移实验值
,是计算值
,和一起构成系统误差
,是随机误差
。
采用普通最小二乘法(ordinary least squares,OLS)对参数和进行估计,得到:
其中,称为拟合值
。用该值作为预测值与实验值比较,偏差就小很多了。
通常采用以下两个统计量来评价偏差大小:
:corrected mean absolute deviation,校正的平均绝对偏差;
:corrected largest absolute deviation,校正的最大绝对偏差。
通过比较拟合值
与实验值
的偏差,可识别异常值
,对结构分析很有帮助。而对回归模型进行统计检验,还可判断其准确性和比较不同模型的拟合优度。
3.3 统计检验
对一元线性回归模型
的统计检验主要包括以下三方面:
-
拟合优度检验
拟合优度反映模型的拟合程度,统计量是决定系数(coefficient of determination)(是相关系数的平方)。越接近1,则回归线拟合程度越好;反之,越差。
-
均方根偏差评价
均方根偏差(root mean square deviation)可衡量
计算值
与实验值
之间的偏差,它极易受到异常值
的影响。对于非常接近的两个化合物,大部分原子的化学位移值差异很小,只有个别原子的差异比较明显,能够有效反映这一特点。 -
F检验
拟合优度检验反映的是模型的拟合程度,F检验则用于检验回归方程的显著性:
:F检验的统计量,该值越大,回归方程越显著;
:F检验的检验水平,该值< 0.01时,表明回归方程是显著的。
4. 入口
平台地址:https://cloud.yinfotek.com
功能入口:平台左侧菜单栏【计算方案】->【小工具】->【波谱分析】->【NMR分析】
5. 平台操作步骤
-
上传文件
上传实验图谱数据和量化计算输出文件,点击【计算】。
-
实验数据
格式可采用两列式
或三列式
(见下图):-
两列式
首列为
位置编号
(可为任意字符),第二列为化学位移
,无列名
。 -
三列式
首列为
位置编号
(同上),第二列为等价位置
(磁等价的位置编号
),第三列为化学位移
,无列名
。关于
等价位置
的写法,需要稍加说明:- 例如,下图
三列式
中,37
和35
等价,只需在37
旁边写上35
,但不用在35
旁边写37
。 - 又例如,位置
a
、b
、c
是等价的,须在b
、c
旁边都写上a
,而非在c
旁边写b
。
- 例如,下图
-
-
计算文件
为NMR量化计算的输出文件。
- 对于
xls
和xlsx
格式,若有多个工作簿(sheet),该工具仅读取第一个; - 目前仅支持
Gaussian09
的输出文件,后续更新会增加对Gaussian16
、ORCA
和NWChem
的支持。
-
-
选择核磁类型与数据
选择要分析的
核磁类型
(C NMR或H NMR)、实验数据
以及计算的构象
。 -
填写原子编号
由于
位置
是用户自定义的标识符号,与计算用的分子结构原子序号并无联系。因此,需要用户将视图中的数字编号填在表格中对应位置
的原子编号
处。如果上传的实验数据采用
两列式
格式,而后发现存在等价位置,可在表格的等价位置
列补填。值得注意的是,当存在等价原子时,须用英文逗号
,
将等价原子编号连起来,写在每个对应位置
的原子编号
单元格。例如,苯环邻位原子
10
和88
等价,对应位置编号是34
和38
,则在34
和38
行都写上10,88
(如下图)。 -
回归分析
点击【回归分析】,稍等片刻即返回每个构象和平均构象的统计数据、
计算值
、拟合值
及偏差
。分析要点:- 和
一般而言,(正确结构/构型的)碳谱应 ppm,最好 ppm;氢谱应 ppm,最好 ppm。较大的通常意味着该结构不符合实际或者计算有问题。在比较不同化学结构时,接近的情况下,越小,则更有可能是正确结构。
- 当 ppm时,单元格会红色高亮显示;当 ppm时,单元格会黄色高亮显示;
- 查看散点图,也能发现
异常值
或直观感受拟合程度
。显然,计算值与实验值相当吻合时,数据点应落在对角线附近,明显偏离对角线的数据点都是值得注意的。
根据CHESHIRE CCAT的基准(http://cheshirenmr.info/ScalingFactors.htm),(正确结构/构型的)碳谱普遍 ppm,氢谱普遍 ppm,也有个别例外。该值越小,表明拟合程度越好。
- 和值
通常要求(正确结构/构型的)碳谱,氢谱,值须< 0.01。
当平均构象的统计数据不好时,剔除个别构象可能会有所改善。
重复上述操作,分析其他结构(构型),统计结果最好的最有可能是实际结构(构型)。
当遇到碳谱结论与氢谱结论不一致的情况,可用
DP4
方法来辅助判断。后期会有文章专门介绍,敬请留意。 -
下载文件
点击【下载全部】,下载Excel数据和散点图文件。
Excel数据文件给出了各个构象和平均构象的全部数据,包括:化学位移值、统计量、能量和比例以及TMS值。
6. 总结
本篇教程介绍了使用殷赋云计算平台【NMR回归分析】小工具进行核磁碳谱/氢谱分析的操作流程及注意事项。
NMR分析是一项复杂的探索性的工作,尤其当计算值与实验值偏差较大时,如何解读和解决往往是非常有挑战性而有价值的问题。限于篇幅,本文无法详细讨论各种情况。有疑问的读者,请在评论区留言,更推荐加入
殷赋科技学术交流群
,一起探讨。