ProtSol 是一款基于蛋白质预训练语言模型与深度学习网络构建的蛋白质溶解度预测工具。本工具仅需输入蛋白质氨基酸序列,即可快速、准确地预测该蛋白在大肠杆菌表达系统中的可溶性概率,为蛋白表达、纯化与结构功能研究提供高效的预测支持。 工具基于大规模去偏数据集 UESolDS 训练,在独立测试集上达到 AUC 0.83+、MCC 0.50+ 的先进水平,预测精度全面超越传统方法,是目前蛋白质溶解度预测领域的高效、易用型工具。
本工具无需蛋白质结构信息、无需多序列比对,仅输入氨基酸序列即可完成预测,具有速度快、使用门槛低、泛化能力强等优势。
1. 蛋白质序列(支持10条 FASTA):
已解析序列数: 0,总残基数: 0
当前模型使用 0.84 作为阈值,精确率 & 特异性最高,假阳性最少(不会把不可溶蛋白误判为可溶),适合实验室纯化、不想浪费实验资源的用户,代价是会把一些可溶蛋白误判为不可溶。
模型性能指标
不同阈值对模型性能的影响:
Test(default thr=0.500) acc=0.6929 auc=0.8356 aupr=0.8493 f1=0.7451 mcc=0.4230 precision=0.6367 recall=0.8978 specificity=0.4880
Test(best_mcc thr=0.840) acc=0.7297 auc=0.8356 aupr=0.8493 f1=0.6631 mcc=0.4998 precision=0.8792 recall=0.5323 specificity=0.9269
Test(best_f1 thr=0.460) acc=0.6778 auc=0.8356 aupr=0.8493 f1=0.7418 mcc=0.4097 precision=0.6188 recall=0.9259 specificity=0.4299
BENCHMARK Performance Metrics (Threshold = 0.84)
Class | Samples | Precision | Recall | F1 | MCC | AUC | AUPR | Specificity
----------------------------------------------------------------------------------------------------------------
Overall | 3995 | 0.8798 | 0.5317 | 0.6629 | 0.5000 | 0.8356 | 0.8493 | 0.9274
================================================================================================================