本工具基于蛋白质大语言模型 + CRF序列标注架构,实现对蛋白质序列的残基级固有无序区(IDR)预测。模型能够精准判断每个氨基酸位点是否属于IDR,并输出对应的置信度分数,可广泛应用于蛋白质功能注释、结构预测辅助、突变分析等场景。
模型训练使用了约 2,000 条高质量标注序列,以 CAID2 作为验证集,CAID3 作为测试集进行性能评估。整个模型极为轻量,推理速度极快,适合大规模蛋白质序列分析及在线实时预测服务。
1. 蛋白质序列(支持10条 FASTA):
已解析序列数: 0,总残基数: 0
模型性能指标
Performance Comparison: ProtIDR vs. ESMDisPred (CAID3 Test Set)
========================================================================================
Overall Performance Metrics
========================================================================================
Metric ProtIDR (Ours) ESMDisPred (SOTA)
----------------------------------------------------------------------------------------
Accuracy 0.8286 0.8370
MCC 0.5616 0.6430
ROC-AUC 0.8899 0.8950
Average Precision (AP) 0.7545 0.7780
F1-max 0.7246 0.7590
Optimal Threshold 0.45 N/A
========================================================================================
========================================================================================
Per-Class Performance (Residue-Level)
========================================================================================
Class Metric ProtIDR (Ours) ESMDisPred (SOTA)
----------------------------------------------------------------------------------------
IDR (1) Precision 0.7674 0.7380
Recall 0.5868 0.7800
F1 0.6651 0.7580
----------------------------------------------------------------------------------------
Non-IDR (0) Precision 0.8461 0.8920
Recall 0.9274 0.8640
F1 0.8848 0.8780
========================================================================================