单域抗体天然性评估(VHH-Nativ)

本工具用于评估驼科来源单域抗体(VHH)氨基酸序列的天然性(Nativeness)。我们使用在大规模抗体序列数据上训练的抗体语言模型,对输入序列计算困惑度(PPL,越低越接近天然序列分布)。

计划输出将包含每条序列的 PPL、在 VHH 参考分布中的分位数与天然性得分等信息。

训练数据规模:人VH ~1500 万条、人VL ~1700 万条、VHH ~1800 万条、人重链CDR3 ~500万条;另含人源配对数据 ~370 万对(VH-VL)。

1. VHH 氨基酸序列(支持10条 FASTA):

已解析序列数: 0,总残基数: 0



模型性能(当前版本)

抗体 MLM 模型性能:
  PPL = 1.39
  Acc = 0.9162

抗体自回归生成(GPT)模型性能:
  PPL = 1.47
  Acc = 0.8974

VHH 参考 PPL 分布(随机抽样 50,000 条)

count = 50000
mean  = 1.5379514
std   = 0.4447357
min   = 1.1094235
max   = 5.7620468

percentiles:
  p1  = 1.1464990
  p5  = 1.1636765
  p10 = 1.1778821
  p25 = 1.2204022
  p50 = 1.3505365
  p75 = 1.7256708
  p90 = 2.1715568
  p95 = 2.4626958
  p99 = 3.0437380

PPL 越低,表示序列越接近 VHH 天然序列分布;后续将基于分位点给出天然性得分与建议。

最后更新时间:2026-05-26