PDB数据库中发布的结构中大约有88%是来自X射线晶体学方法,这些模型的质量差异很大,但是鲜有错误的或者伪造的。通常,模型的质量由模型的分辨率,R值,尤其是Free R表示。可以从PDB Reports获得有关模型质量的有用信息,包括Ramachandran图。
分辨率是衡量收集的X光衍射数据质量的一个指标。毋庸置疑,分辨率越好,最终得到的原子模型自然也越可信。由于分辨率分映了分子堆叠的无序性,很大程度上由蛋白分子本身的性质、结晶条件所决定。因此,在有限资源的情况下,不可能去无限的追求分辨率的提高,而且也没有必要。那么什么样的分辨率是好的?什么样的分辨率是差的呢?这里给出一个快速指南:
1.2 Å,非常优秀,蛋白主链和绝大部分侧链都非常清晰,甚至某些氢原子都能被解析出来。
2.5 Å,良好,蛋白主链和一些侧链清晰
3.5 Å,OK,蛋白主链和大的侧链基本清晰
5 Å,不良,蛋白主链大部分清晰,侧链不清晰;
我们提供的结构生物学服务中,一般承诺分辨率不低于2.9埃。
有趣的是,已发表的结构模型质量与发表他们的期刊的影响成反比[Brown EN, Ramaswamy S. 2007. Quality of protein crystal structures. Biol. Crystallography 63:941-950]。
想更多了解分辨率,请查看这篇文章:什么是分辨率?分辨率与晶体结构质量的关系是什么?
说完了分辨率,我们再说说R值和R-free值。
R值是衡量从晶体衍射数据解析出的结构模型质量的一个指标。在求解蛋白质的结构时,研究人员首先建立一个原子模型,然后基于该模型计算模拟衍射图。R值测量的是模拟衍射图与实验观察到的衍射图匹配的程度。 原子的完全随机集合将提供约0.63的R值,而完全拟合时,R值为0。典型值约为0.20,表明结构模型是可信的。根据经验,应谨慎对待R值大大超过(分辨率除以10)的模型。 因此,如果模型的分辨率为2.5Å,则该模型的R值不应超过0.25。 完全错误的模型(例如随机模型)给出的R值为0.40至0.60。
由于多种原因,导致拟合结果不完美。一个主要原因是蛋白质和核酸晶体含有大量的水。而水的结构在模型中并未定义和包含。其他原因包括模型中未考虑的无序和振动。
用R值评价晶体结构质量有潜在的问题,容易产生过拟合,甚至严重错误的模型也可能会有较低的R值。比如可能导致误导性R值的一个著名陷阱是,每个氨基酸添加的水分子明显多于一个。
仅用R值评价结构模型质量是有问题的,因为在模型修正过程中,会引入偏差。修正的目的就是为了提高原子模型与实验数据的吻合度并降低R值,这个过程中会同时用到原子模型和衍射图来计算电子云密度,再根据电子密度匹配出新的原子模型,不断重复。R-free值的使用是解决此问题的一种较不偏颇的方法。在模型修正之前,从数据集中删除约10%的实验观察值。剩余的90%的数据用于模型修正。最后,将修正的模型去计算原来剔除的10%的观察值,并计算这个数据集上的R值,称为R-free值。对于不过拟合的模型,R值应该与R free值相似。实际情况是,R free值会略高一些,约为0.26.
那么如何评价R free值的好坏呢?
一般情况下,如果分辨率为2.0Å或者更好(Å值<2.0),free R不应超过分辨率的十分之一加上0.05;也就是说2.0Å的分辨率,要求free R不应超过0.25。如果分辨率在3.0Å附近,那么free R不应超过分辨率的十分之一。在模型对应的分辨率下,如果free R超过最差的25%,结构质量就值得怀疑了,见下表。
R free值与分辨率正相关:
分辨率, Å | 中位数Free R | 中位数Free R | Free R | Free R |
1.0 | 0.15 | 0.05 | <0.14 | >0.17 |
1.5 | 0.21 | 0.06 | <0.19 | >0.23 |
1.8 | 0.23 | 0.05 | <0.21 | >0.245 |
2.0 | 0.24 | 0.04 | <0.22 | >0.26 |
2.2 | 0.25 | 0.03 | <0.23 | >0.265 |
2.5 | 0.26 | 0.01 | <0.245 | >0.28 |
3.0 | 0.28 | -0.02 | <0.26 | >0.30 |
3.5 | 0.30 | -0.05 | <0.275 | >0.33 |
~4.0 | 0.31 | -0.09 | <0.28 | >0.35 |
参考资料:
https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/r-value-and-r-free
http://proteopedia.org/wiki/index.php/Free_R
http://proteopedia.org/wiki/index.php/R_value
Souce: 纽普生物 2019-11-18