NMR回归分析

小工具教程

发布日期: 2023-06-27

更新日期: 2023-07-04

文章字数: 2.2k

阅读时长: 8 分

阅读次数:

1. 用途

将计算的核磁（NMR）数据与实验数据回归分析，判断化合物结构或相对构型。

2. 特色

本工具支持电子表格在线编辑功能，支持Excel数据复制粘贴，提供详细的统计数据，高亮显示偏差较大的原子，帮助用户分析结构，判断构型。

3. 预备知识

以下内容了解概念即可，不必专研数学公式，连概念都不想了解的，可以直接跳过！

3.1 计算值校正方法

采用计算预测的化学位移值往往与实验值存在不小偏差，其中存在系统性误差。为消除这一误差，需要对计算值进行校正。主要有两种方法：

标度法

该方法采用预先拟合好的标度参数，依据以下公式进行校正：
$\delta=\frac{\mathrm{intercept}-\sigma_{\mathrm{iso}}}{-\mathrm{slope}}$
该方法的优点是：已有文献对不同理论水平、不同方法进行了拟合，并把参数总结在CHESHIRE CCAT网站：（http://cheshirenmr.info)，使用者只需要进行简单的算术运算即得到校正值。但缺点是：如果采用未有标度参数的理论水平或方法来计算核磁，则需要自己拟合参数，工作量颇大。更重要的是，实践表明，该方法对柔性大分子的准确性不太令人满意。
回归分析法

为克服标度法的缺点，我们采用回归分析法。该方法不依赖任何经验参数，直接对每个结构（构型）的计算值进行线性拟合，最大程度上消除计算方法和实验条件对于特定分子结构的系统误差。

3.2 一元线性回归模型

计算值与实验值之间存在系统误差和随机（偶然）误差。采用一元线性回归模型对计算值进行校正，可消除系统误差。该模型的一般形式如下：

y_i=\alpha+\beta x_i+\epsilon_i (i=1, 2, ..., n)

其中， $y_i$ 是第 $i$ 个（原子）位置的化学位移实验值， $x_i$ 是计算值， $\alpha$ 和 $\beta$ 一起构成系统误差， $\epsilon$ 是随机误差。

采用普通最小二乘法（ordinary least squares，OLS）对参数 $\alpha$ 和 $\beta$ 进行估计，得到：

$\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i$

其中， $\hat{y_i}$ 称为拟合值。用该值作为预测值与实验值比较，偏差就小很多了。

通常采用以下两个统计量来评价偏差大小：

$CMAD$ ：corrected mean absolute deviation，校正的平均绝对偏差；

$CLAD$ ：corrected largest absolute deviation，校正的最大绝对偏差。

通过比较拟合值与实验值的偏差，可识别异常值，对结构分析很有帮助。而对回归模型进行统计检验，还可判断其准确性和比较不同模型的拟合优度。

3.3 统计检验

对一元线性回归模型的统计检验主要包括以下三方面：

拟合优度检验

拟合优度反映模型的拟合程度，统计量是决定系数（coefficient of determination） $R^2$ （是相关系数 $r$ 的平方）。 $R^2$ 越接近1，则回归线拟合程度越好；反之，越差。
均方根偏差评价

均方根偏差 $RMSD$ （root mean square deviation）可衡量计算值与实验值之间的偏差，它极易受到异常值的影响。对于非常接近的两个化合物，大部分原子的化学位移值差异很小，只有个别原子的差异比较明显， $RMSD$ 能够有效反映这一特点。
F检验

拟合优度检验反映的是模型的拟合程度，F检验则用于检验回归方程的显著性：

$F$ ：F检验的统计量，该值越大，回归方程越显著；

$p$ ：F检验的检验水平，该值< 0.01时，表明回归方程是显著的。

4. 入口

平台地址：https://cloud.yinfotek.com

功能入口：平台左侧菜单栏【计算方案】->【小工具】->【波谱分析】->【NMR分析】

5. 平台操作步骤

上传文件

上传实验图谱数据和量化计算输出文件，点击【计算】。
- 实验数据格式可采用两列式或三列式（见下图）：
  - 两列式
    
    首列为位置编号（可为任意字符），第二列为化学位移，无列名。
  - 三列式
    
    首列为位置编号（同上），第二列为等价位置（磁等价的位置编号），第三列为化学位移，无列名。
    关于等价位置的写法，需要稍加说明：
    1. 例如，下图三列式中，37和35等价，只需在37旁边写上35，但不用在35旁边写37。
    2. 又例如，位置a、b、c是等价的，须在b、c旁边都写上a，而非在c旁边写b。
- 计算文件为NMR量化计算的输出文件。
1. 对于xls和xlsx格式，若有多个工作簿（sheet），该工具仅读取第一个；
2. 目前仅支持Gaussian09的输出文件，后续更新会增加对Gaussian16、ORCA和NWChem的支持。
选择核磁类型与数据

选择要分析的核磁类型（ $^{13}$ C NMR或 $^1$ H NMR）、实验数据以及计算的构象。
填写原子编号

由于位置是用户自定义的标识符号，与计算用的分子结构原子序号并无联系。因此，需要用户将视图中的数字编号填在表格中对应位置的原子编号处。

如果上传的实验数据采用两列式格式，而后发现存在等价位置，可在表格的等价位置列补填。

值得注意的是，当存在等价原子时，须用英文逗号,将等价原子编号连起来，写在每个对应位置的原子编号单元格。

例如，苯环邻位原子10和88等价，对应位置编号是34和38，则在34和38行都写上10,88（如下图）。
回归分析

点击【回归分析】，稍等片刻即返回每个构象和平均构象的统计数据、计算值、拟合值及偏差。分析要点：
- $CMAD$ 和 $CLAD$
一般而言，（正确结构/构型的）碳谱 $CLAD$ 应 $\le 10$ ppm，最好 $\le 5$ ppm；氢谱 $CLAD$ 应 $\le 1$ ppm，最好 $\le 0.5$ ppm。较大的 $CLAD$ 通常意味着该结构不符合实际或者计算有问题。在比较不同化学结构时， $CLAD$ 接近的情况下， $CMAD$ 越小，则更有可能是正确结构。
1. 当 $CLAD \ge 10$ ppm时，单元格会红色高亮显示；当 $5 \le CLAD \lt 10$ ppm时，单元格会黄色高亮显示；
2. 查看散点图，也能发现异常值或直观感受拟合程度。显然，计算值与实验值相当吻合时，数据点应落在对角线附近，明显偏离对角线的数据点都是值得注意的。
- $RMSD$
根据CHESHIRE CCAT的基准（http://cheshirenmr.info/ScalingFactors.htm)，（正确结构/构型的）碳谱 $RMSD$ 普遍 $\lt 3.5$ ppm，氢谱 $RMSD$ 普遍 $\lt 0.3$ ppm，也有个别例外。该值越小，表明拟合程度越好。
- $R^2$ 和 $p$ 值
通常要求（正确结构/构型的）碳谱 $R^2 \gt 0.995$ ，氢谱 $R^2\gt 0.99$ ， $p$ 值须< 0.01。

当平均构象的统计数据不好时，剔除个别构象可能会有所改善。

重复上述操作，分析其他结构（构型），统计结果最好的最有可能是实际结构（构型）。

当遇到碳谱结论与氢谱结论不一致的情况，可用DP4方法来辅助判断。后期会有文章专门介绍，敬请留意。
下载文件

点击【下载全部】，下载Excel数据和散点图文件。

Excel数据文件给出了各个构象和平均构象的全部数据，包括：化学位移值、统计量、能量和比例以及TMS值。

6. 总结

本篇教程介绍了使用殷赋云计算平台【NMR回归分析】小工具进行核磁碳谱/氢谱分析的操作流程及注意事项。

NMR分析是一项复杂的探索性的工作，尤其当计算值与实验值偏差较大时，如何解读和解决往往是非常有挑战性而有价值的问题。限于篇幅，本文无法详细讨论各种情况。有疑问的读者，请在评论区留言，更推荐加入殷赋科技学术交流群，一起探讨。