本工具用于评估驼科来源单域抗体(VHH)氨基酸序列的天然性(Nativeness)。我们使用在大规模抗体序列数据上训练的抗体语言模型,对输入序列计算困惑度(PPL,越低越接近天然序列分布)。
计划输出将包含每条序列的 PPL、在 VHH 参考分布中的分位数与天然性得分等信息。
训练数据规模:人VH ~1500 万条、人VL ~1700 万条、VHH ~1800 万条、人重链CDR3 ~500万条;另含人源配对数据 ~370 万对(VH-VL)。
1. VHH 氨基酸序列(支持10条 FASTA):
已解析序列数: 0,总残基数: 0
模型性能(当前版本)
抗体 MLM 模型性能: PPL = 1.39 Acc = 0.9162 抗体自回归生成(GPT)模型性能: PPL = 1.47 Acc = 0.8974
VHH 参考 PPL 分布(随机抽样 50,000 条)
count = 50000 mean = 1.5379514 std = 0.4447357 min = 1.1094235 max = 5.7620468 percentiles: p1 = 1.1464990 p5 = 1.1636765 p10 = 1.1778821 p25 = 1.2204022 p50 = 1.3505365 p75 = 1.7256708 p90 = 2.1715568 p95 = 2.4626958 p99 = 3.0437380
PPL 越低,表示序列越接近 VHH 天然序列分布;后续将基于分位点给出天然性得分与建议。
最后更新时间:2026-05-26