蛋白质信号肽预测(ProtSig)

信号肽是引导新合成的蛋白质进入分泌通路的短肽链,长度通常为 5–30 个氨基酸。绝大多数信号肽位于蛋白质 N 端,少数情况下可出现在其他位置。信号肽具有典型的疏水区域,核心功能是介导蛋白分泌至胞外。在重组蛋白表达设计中,常需要先进行信号肽预测,并根据表达目的(胞内表达或分泌表达),对信号肽进行删除、替换或人工追加。

1. 在下面的文本框中输入蛋白质序列(支持最多100条FASTA格式,单条序列自动截取前70aa)

2. 选择蛋白的种属

1. 蛋白质序列:

蛋白种属:



信号肽简介

信号肽是蛋白质N-末端一段编码长度为5-30的疏水性氨基酸序列,用于引导新合成蛋白质向通路转移的短肽链。信号肽存在于分泌蛋白、跨膜蛋白和真核生物细胞器内的蛋白中。

信号肽指引蛋白质转移的方式有两种:(1)常规的分泌(Sec/secretory)通路;(2)双精氨酸转移(Tat/twin-arginine)通路。前者存在于原核生物蛋白质转移到质膜过程中,以及真核生物蛋白质转移到内质网膜的过程中。后者存在于细菌、古菌、叶绿体和线粒体中,信号肽序列较长、疏水性较弱且尾部区含有两个连续精氨酸。相比于前者转运非折叠蛋白质,后者能转运折叠蛋白质跨越双层脂质膜 。

信号肽指引蛋白质转运后,将由信号肽酶进行切除。信号肽酶有三种:(1)一型信号肽酶(SPaseI);(2)二型信号肽酶(SPaseII);(3)三型信号肽酶(SPaseIII)。大部分信号肽由SPaseI进行移除,SPaseI存在古菌、细菌和真核生物中,且在真核生物的内质网膜上仅存在一型信号肽酶。细菌和古菌脂蛋白的信号肽C端含有一段称为 lipobox 的保守区域,由SPaseII切除其信号肽,且lipobox紧邻切除位点(CS/Cleavage Site)的氨基酸是半胱氨酸,这和锚定到膜的功能是相关的。细菌的四型菌毛蛋白信号肽由SPaseIII进行切除。此外:分泌通路(Sec)相关信号肽能由SPaseI、SPaseII和SPaseIII切除,但是双精氨酸转移(Tat)通路相关信号肽仅由 SPaseI和SPaseII切除。

本工具基于最新的深度学习模型训练,能够对原核生物的信号肽Sec/SPI、Sec/SPII和Tat/SPI,以及真核生物仅含有 Sec/SPI信号肽进行精准预测。目前已达到业界SOTA(State-of-the-Art)水平。

模型性能指标 (SOTA Level)

我们的模型在各项信号肽检测及切割位点预测任务中展现了卓越的性能,以下是详细的测试报告:

============================================================
TEST DETAILED PERFORMANCE REPORT
============================================================

[Detection MCC (One-vs-All)]
EUKARYA - SP             : MCC = 0.9828
POSITIVE - SP            : MCC = 0.9545
POSITIVE - LIPO          : MCC = 1.0000
POSITIVE - TAT           : MCC = 1.0000
POSITIVE - TATLIPO       : MCC = 1.0000
POSITIVE - PILIN         : MCC = 1.0000
NEGATIVE - SP            : MCC = 0.9193
NEGATIVE - LIPO          : MCC = 0.9598
NEGATIVE - TAT           : MCC = 0.9517
NEGATIVE - TATLIPO       : MCC = 0.9547
NEGATIVE - PILIN         : MCC = 1.0000
ARCHAEA - SP             : MCC = 1.0000
ARCHAEA - LIPO           : MCC = 1.0000
ARCHAEA - TAT            : MCC = 1.0000
ARCHAEA - TATLIPO        : MCC = 1.0000
ARCHAEA - PILIN          : MCC = 1.0000

[Cleavage Site (CS) Prediction]
Category                       | Precision  | Recall     | F1        
----------------------------------------------------------------------
EUKARYA SP                     | 0.8296     | 0.8421     | 0.8358
POSITIVE SP                    | 0.7692     | 0.7143     | 0.7407
POSITIVE LIPO                  | 1.0000     | 1.0000     | 1.0000
POSITIVE TAT                   | 0.5000     | 0.5000     | 0.5000
POSITIVE TATLIPO               | 1.0000     | 1.0000     | 1.0000
POSITIVE PILIN                 | 1.0000     | 1.0000     | 1.0000
NEGATIVE SP                    | 0.9000     | 0.9643     | 0.9310
NEGATIVE LIPO                  | 1.0000     | 0.9412     | 0.9697
NEGATIVE TAT                   | 0.7727     | 0.7083     | 0.7391
NEGATIVE TATLIPO               | 0.9167     | 1.0000     | 0.9565
NEGATIVE PILIN                 | 1.0000     | 1.0000     | 1.0000
ARCHAEA SP                     | 1.0000     | 1.0000     | 1.0000
ARCHAEA LIPO                   | 1.0000     | 1.0000     | 1.0000
ARCHAEA TAT                    | 1.0000     | 1.0000     | 1.0000
ARCHAEA TATLIPO                | 1.0000     | 1.0000     | 1.0000
ARCHAEA PILIN                  | 1.0000     | 1.0000     | 1.0000

============================================================
TEST Overall Global Accuracy: 0.9914
TEST Overall Global MCC:      0.9804
TEST Overall CS Macro F1:     0.9171
============================================================
        

参考文献

  • Almagro Armenteros JJ, Tsirigos KD, Sønderby CK, et al. SignalP 5.0 improves signal peptide predictions using deep neural networks. Nat Biotechnol. 2019;37(4):420‐423. doi:10.1038/s41587-019-0036-z