蛋白二级结构预测(ProtSS)

蛋白质二级结构(secondary structure of protein)是指多肽主链骨架原子沿一定的轴盘旋或折叠而形成的特定的构象,即肽链主链骨架原子的空间位置排布,不涉及氨基酸残基侧链。二级结构的标注与评估标准有Q3和Q8两种,Q3 是蛋白质二级结构的三态粗分类(H/E/C),Q8 是八态细分类(DSSP 定义)。维持二级结构的主要作用力为氢键。一种蛋白质的二级结构并非单纯的α螺旋或β折叠结构,而是这些不同类型构象的组合,只是不同蛋白质各占多少不同而已。

1. 蛋白质序列(最长1024 aa):

全长:0



二级结构预测

二级结构预测在蛋白质机器学习、酶活性残基分析、蛋白结构预测等方面都是不可缺少的一环。8种二级结构:H(α-螺旋),G(310-螺旋),I(π-螺旋),B(孤立的 β 桥),E(延伸链(β-折叠)),T(氢键转角),S(弯曲)和C/空白(无规卷曲 / 其它)

模型性能指标

我们训练了一个蛋白二级结构预测的模型,支持Q8和Q3,以下是模型在CB513数据集上的测试性能(SOTA水平):

  • CB513 Test Accuracy (Q8): 0.7587
  • CB513 Test Accuracy (Q3): 0.8731
[Q8 Classification Report]
              precision    recall  f1-score   support

           H     0.8850    0.9424    0.9128     43037
           G     0.5375    0.4450    0.4869      5173
           I     0.7033    0.4497    0.5487       796
           E     0.8464    0.8789    0.8623     30090
           B     0.5756    0.1622    0.2531      1831
           T     0.6149    0.6481    0.6310     16457
           S     0.5892    0.4262    0.4946     13541
       C/L/      0.6908    0.6911    0.6910     33086

   micro avg     0.7661    0.7587    0.7624    144011
   macro avg     0.6803    0.5805    0.6100    144011
weighted avg     0.7562    0.7587    0.7541    144011


[Q3 Classification Report]
              precision    recall  f1-score   support

           H     0.8914    0.9211    0.9060     48993
           E     0.8566    0.8543    0.8554     31845
           C     0.8664    0.8447    0.8554     61789

    accuracy                         0.8731    142627
   macro avg     0.8714    0.8733    0.8723    142627
weighted avg     0.8728    0.8731    0.8728    142627
        

参考文献

  • Jones, D.T. (1999) Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol. 292:195-202.