如何评价晶体结构的质量?什么是R值和R-free值?

PDB数据库中发布的结构中大约有88%是来自X射线晶体学方法,这些模型的质量差异很大,但是鲜有错误的或者伪造的。通常,模型的质量由模型的分辨率,R值,尤其是Free R表示。可以从PDB Reports获得有关模型质量的有用信息,包括Ramachandran图。

分辨率是衡量收集的X光衍射数据质量的一个指标。毋庸置疑,分辨率越好,最终得到的原子模型自然也越可信。由于分辨率分映了分子堆叠的无序性,很大程度上由蛋白分子本身的性质、结晶条件所决定。因此,在有限资源的情况下,不可能去无限的追求分辨率的提高,而且也没有必要。那么什么样的分辨率是好的?什么样的分辨率是差的呢?这里给出一个快速指南:

1.2 Å,非常优秀,蛋白主链和绝大部分侧链都非常清晰,甚至某些氢原子都能被解析出来。

2.5 Å,良好,蛋白主链和一些侧链清晰

3.5 Å,OK,蛋白主链和大的侧链基本清晰

5 Å,不良,蛋白主链大部分清晰,侧链不清晰;

我们提供的结构生物学服务中,一般承诺分辨率不低于2.9埃。

有趣的是,已发表的结构模型质量与发表他们的期刊的影响成反比[Brown EN, Ramaswamy S. 2007. Quality of protein crystal structures. Biol. Crystallography 63:941-950]。

想更多了解分辨率,请查看这篇文章:什么是分辨率?分辨率与晶体结构质量的关系是什么?

说完了分辨率,我们再说说R值和R-free值。

R值是衡量从晶体衍射数据解析出的结构模型质量的一个指标。在求解蛋白质的结构时,研究人员首先建立一个原子模型,然后基于该模型计算模拟衍射图。R值测量的是模拟衍射图与实验观察到的衍射图匹配的程度。 原子的完全随机集合将提供约0.63的R值,而完全拟合时,R值为0。典型值约为0.20,表明结构模型是可信的。根据经验,应谨慎对待R值大大超过(分辨率除以10)的模型。 因此,如果模型的分辨率为2.5Å,则该模型的R值不应超过0.25。 完全错误的模型(例如随机模型)给出的R值为0.40至0.60。

由于多种原因,导致拟合结果不完美。一个主要原因是蛋白质和核酸晶体含有大量的水。而水的结构在模型中并未定义和包含。其他原因包括模型中未考虑的无序和振动。

用R值评价晶体结构质量有潜在的问题,容易产生过拟合,甚至严重错误的模型也可能会有较低的R值。比如可能导致误导性R值的一个著名陷阱是,每个氨基酸添加的水分子明显多于一个。

仅用R值评价结构模型质量是有问题的,因为在模型修正过程中,会引入偏差。修正的目的就是为了提高原子模型与实验数据的吻合度并降低R值,这个过程中会同时用到原子模型和衍射图来计算电子云密度,再根据电子密度匹配出新的原子模型,不断重复。R-free值的使用是解决此问题的一种较不偏颇的方法。在模型修正之前,从数据集中删除约10%的实验观察值。剩余的90%的数据用于模型修正。最后,将修正的模型去计算原来剔除的10%的观察值,并计算这个数据集上的R值,称为R-free值。对于不过拟合的模型,R值应该与R free值相似。实际情况是,R free值会略高一些,约为0.26.

那么如何评价R free值的好坏呢?

一般情况下,如果分辨率为2.0Å或者更好(Å值<2.0),free R不应超过分辨率的十分之一加上0.05;也就是说2.0Å的分辨率,要求free R不应超过0.25。如果分辨率在3.0Å附近,那么free R不应超过分辨率的十分之一。在模型对应的分辨率下,如果free R超过最差的25%,结构质量就值得怀疑了,见下表。

R free值与分辨率正相关:

分辨率, Å

中位数Free R

中位数Free R
  - (分辨率/10)

Free R
  最优25%

Free R
  最差25%

1.0

0.15

0.05

<0.14

>0.17

1.5

0.21

0.06

<0.19

>0.23

1.8

0.23

0.05

<0.21

>0.245

2.0

0.24

0.04

<0.22

>0.26

2.2

0.25

0.03

<0.23

>0.265

2.5

0.26

0.01

<0.245

>0.28

3.0

0.28

-0.02

<0.26

>0.30

3.5

0.30

-0.05

<0.275

>0.33

~4.0

0.31

-0.09

<0.28

>0.35

参考资料:

https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/r-value-and-r-free

http://proteopedia.org/wiki/index.php/Free_R

http://proteopedia.org/wiki/index.php/R_value

Souce: 纽普生物    2019-11-18