蛋白质二级结构(secondary structure of protein)是指多肽主链骨架原子沿一定的轴盘旋或折叠而形成的特定的构象,即肽链主链骨架原子的空间位置排布,不涉及氨基酸残基侧链。二级结构的标注与评估标准有Q3和Q8两种,Q3 是蛋白质二级结构的三态粗分类(H/E/C),Q8 是八态细分类(DSSP 定义)。维持二级结构的主要作用力为氢键。一种蛋白质的二级结构并非单纯的α螺旋或β折叠结构,而是这些不同类型构象的组合,只是不同蛋白质各占多少不同而已。
1. 蛋白质序列(最长1024 aa):
全长:0
二级结构预测
二级结构预测在蛋白质机器学习、酶活性残基分析、蛋白结构预测等方面都是不可缺少的一环。8种二级结构:H(α-螺旋),G(310-螺旋),I(π-螺旋),B(孤立的 β 桥),E(延伸链(β-折叠)),T(氢键转角),S(弯曲)和C/空白(无规卷曲 / 其它)
模型性能指标
我们训练了一个蛋白二级结构预测的模型,支持Q8和Q3,以下是模型在CB513数据集上的测试性能(SOTA水平):
- CB513 Test Accuracy (Q8): 0.7587
- CB513 Test Accuracy (Q3): 0.8731
[Q8 Classification Report]
precision recall f1-score support
H 0.8850 0.9424 0.9128 43037
G 0.5375 0.4450 0.4869 5173
I 0.7033 0.4497 0.5487 796
E 0.8464 0.8789 0.8623 30090
B 0.5756 0.1622 0.2531 1831
T 0.6149 0.6481 0.6310 16457
S 0.5892 0.4262 0.4946 13541
C/L/ 0.6908 0.6911 0.6910 33086
micro avg 0.7661 0.7587 0.7624 144011
macro avg 0.6803 0.5805 0.6100 144011
weighted avg 0.7562 0.7587 0.7541 144011
[Q3 Classification Report]
precision recall f1-score support
H 0.8914 0.9211 0.9060 48993
E 0.8566 0.8543 0.8554 31845
C 0.8664 0.8447 0.8554 61789
accuracy 0.8731 142627
macro avg 0.8714 0.8733 0.8723 142627
weighted avg 0.8728 0.8731 0.8728 142627
参考文献
- Jones, D.T. (1999) Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol. 292:195-202.