NMR回归分析


1. 用途

将计算的核磁(NMR)数据与实验数据回归分析,判断化合物结构或相对构型。

2. 特色

本工具支持电子表格在线编辑功能,支持Excel数据复制粘贴,提供详细的统计数据,高亮显示偏差较大的原子,帮助用户分析结构,判断构型。

3. 预备知识

以下内容了解概念即可,不必专研数学公式,连概念都不想了解的,可以直接跳过!

3.1 计算值校正方法

采用计算预测的化学位移值往往与实验值存在不小偏差,其中存在系统性误差。为消除这一误差,需要对计算值进行校正。主要有两种方法:

  • 标度法

    该方法采用预先拟合好的标度参数,依据以下公式进行校正:

    δ=interceptσisoslope\delta=\frac{\mathrm{intercept}-\sigma_{\mathrm{iso}}}{-\mathrm{slope}}

    该方法的优点是:已有文献对不同理论水平、不同方法进行了拟合,并把参数总结在CHESHIRE CCAT网站:(http://cheshirenmr.info),使用者只需要进行简单的算术运算即得到校正值。但缺点是:如果采用未有标度参数的理论水平或方法来计算核磁,则需要自己拟合参数,工作量颇大。更重要的是,实践表明,该方法对柔性大分子的准确性不太令人满意。

  • 回归分析法

    为克服标度法的缺点,我们采用回归分析法。该方法不依赖任何经验参数,直接对每个结构(构型)的计算值进行线性拟合,最大程度上消除计算方法和实验条件对于特定分子结构的系统误差

3.2 一元线性回归模型

计算值实验值之间存在系统误差随机(偶然)误差。采用一元线性回归模型计算值进行校正,可消除系统误差。该模型的一般形式如下:

yi=α+βxi+ϵi(i=1,2,...,n)y_i=\alpha+\beta x_i+\epsilon_i (i=1, 2, ..., n)

其中,yiy_i是第ii个(原子)位置的化学位移实验值xix_i计算值α\alphaβ\beta一起构成系统误差ϵ\epsilon随机误差

采用普通最小二乘法(ordinary least squares,OLS)对参数α\alphaβ\beta进行估计,得到:

yi^=α^+β^xi\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i

其中,yi^\hat{y_i}称为拟合值。用该值作为预测值与实验值比较,偏差就小很多了。

通常采用以下两个统计量来评价偏差大小:

CMADCMAD:corrected mean absolute deviation,校正的平均绝对偏差;

CLADCLAD:corrected largest absolute deviation,校正的最大绝对偏差。

通过比较拟合值实验值的偏差,可识别异常值,对结构分析很有帮助。而对回归模型进行统计检验,还可判断其准确性和比较不同模型的拟合优度。

3.3 统计检验

一元线性回归模型的统计检验主要包括以下三方面:

  • 拟合优度检验

    拟合优度反映模型的拟合程度,统计量是决定系数(coefficient of determination)R2R^2(是相关系数rr的平方)。R2R^2越接近1,则回归线拟合程度越好;反之,越差。

  • 均方根偏差评价

    均方根偏差RMSDRMSD(root mean square deviation)可衡量计算值实验值之间的偏差,它极易受到异常值的影响。对于非常接近的两个化合物,大部分原子的化学位移值差异很小,只有个别原子的差异比较明显,RMSDRMSD能够有效反映这一特点。

  • F检验

    拟合优度检验反映的是模型的拟合程度,F检验则用于检验回归方程的显著性:

    FF:F检验的统计量,该值越大,回归方程越显著;

    pp:F检验的检验水平,该值< 0.01时,表明回归方程是显著的。

4. 入口

平台地址:https://cloud.yinfotek.com

功能入口:平台左侧菜单栏【计算方案】->【小工具】->【波谱分析】->【NMR分析】

5. 平台操作步骤

  1. 上传文件

    上传实验图谱数据和量化计算输出文件,点击【计算】。

    • 实验数据格式可采用两列式三列式(见下图):

      • 两列式

        首列为位置编号(可为任意字符),第二列为化学位移,无列名

      • 三列式

        首列为位置编号(同上),第二列为等价位置(磁等价的位置编号),第三列为化学位移,无列名

        关于等价位置的写法,需要稍加说明:

        1. 例如,下图三列式中,3735等价,只需在37旁边写上35,但不用在35旁边写37
        2. 又例如,位置abc是等价的,须在bc旁边都写上a,而非在c旁边写b
    • 计算文件为NMR量化计算的输出文件。

    1. 对于xlsxlsx格式,若有多个工作簿(sheet),该工具仅读取第一个;
    2. 目前仅支持Gaussian09的输出文件,后续更新会增加对Gaussian16ORCANWChem的支持。

  2. 选择核磁类型与数据

    选择要分析的核磁类型13^{13}C NMR或1^1H NMR)、实验数据以及计算的构象

  3. 填写原子编号

    由于位置是用户自定义的标识符号,与计算用的分子结构原子序号并无联系。因此,需要用户将视图中的数字编号填在表格中对应位置原子编号处。

    如果上传的实验数据采用两列式格式,而后发现存在等价位置,可在表格的等价位置列补填。

    值得注意的是,当存在等价原子时,须用英文逗号,将等价原子编号连起来,写在每个对应位置原子编号单元格。

    例如,苯环邻位原子1088等价,对应位置编号是3438,则在3438行都写上10,88(如下图)。

  4. 回归分析

    点击【回归分析】,稍等片刻即返回每个构象和平均构象的统计数据、计算值拟合值偏差。分析要点:

    • CMADCMADCLADCLAD

    一般而言,(正确结构/构型的)碳谱CLADCLAD10\le 10 ppm,最好5\le 5 ppm;氢谱CLADCLAD1\le 1 ppm,最好0.5\le 0.5 ppm。较大的CLADCLAD通常意味着该结构不符合实际或者计算有问题。在比较不同化学结构时,CLADCLAD接近的情况下,CMADCMAD越小,则更有可能是正确结构。

    1. CLAD10CLAD \ge 10 ppm时,单元格会红色高亮显示;当5CLAD<105 \le CLAD \lt 10 ppm时,单元格会黄色高亮显示;
    2. 查看散点图,也能发现异常值或直观感受拟合程度。显然,计算值与实验值相当吻合时,数据点应落在对角线附近,明显偏离对角线的数据点都是值得注意的。

    • RMSDRMSD

    根据CHESHIRE CCAT的基准(http://cheshirenmr.info/ScalingFactors.htm),(正确结构/构型的)碳谱RMSDRMSD普遍<3.5\lt 3.5 ppm,氢谱RMSDRMSD普遍<0.3\lt 0.3 ppm,也有个别例外。该值越小,表明拟合程度越好。

    • R2R^2pp

    通常要求(正确结构/构型的)碳谱R2>0.995R^2 \gt 0.995,氢谱R2>0.99R^2\gt 0.99pp值须< 0.01。

    当平均构象的统计数据不好时,剔除个别构象可能会有所改善。

    重复上述操作,分析其他结构(构型),统计结果最好的最有可能是实际结构(构型)。

    当遇到碳谱结论与氢谱结论不一致的情况,可用DP4方法来辅助判断。后期会有文章专门介绍,敬请留意。

  5. 下载文件

    点击【下载全部】,下载Excel数据和散点图文件。

    Excel数据文件给出了各个构象和平均构象的全部数据,包括:化学位移值、统计量、能量和比例以及TMS值。

    6. 总结

    本篇教程介绍了使用殷赋云计算平台【NMR回归分析】小工具进行核磁碳谱/氢谱分析的操作流程及注意事项。

    NMR分析是一项复杂的探索性的工作,尤其当计算值与实验值偏差较大时,如何解读和解决往往是非常有挑战性而有价值的问题。限于篇幅,本文无法详细讨论各种情况。有疑问的读者,请在评论区留言,更推荐加入殷赋科技学术交流群,一起探讨。


文章作者: 殷赋量子氢
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 殷赋量子氢 !
  目录