抗体序列的人源性评估(Hu-Nativ)

本工具用于评估抗体序列的人源性(Humanness / Human-likeness)。我们使用在大规模抗体序列数据上训练的抗体语言模型,对输入序列计算困惑度(PPL,越低越接近人源抗体序列分布)。

计划输出将包含每条序列的 PPL、在对应的人源参考分布中的分位数与人源性得分等信息。

训练数据规模(近似):人VH ~1500 万条、人VL ~1700 万条、VHH ~1800 万条;另含人源配对数据 ~370 万对(VH-VL)。

此外,我们统计了 107 款上市抗体药的 PPL 值(tmp/antibody_ppl.csv),后续将与人源参考分布一起展示,帮助直观对比输入序列的人源性位置。

1. 抗体氨基酸序列(支持10条 FASTA):

支持两种输入:① 单链序列(VH 或 VL,不包含 |);② 配对序列(VH|VL,仅包含 1 个 |,且左右两侧分别为重链与轻链),例如:QVQL...|DIQM...

已解析序列数: 0,总残基数: 0



模型性能(当前版本)

抗体 MLM 模型性能:
  PPL = 1.39
  Acc = 0.9162

抗体自回归生成(GPT)模型性能:
  PPL = 1.47
  Acc = 0.8974

人源参考 PPL 分布(随机抽样 50,000 条)

[Human Paired (VH-VL)]
count = 50000
mean  = 1.3932574
std   = 0.2717338
min   = 1.0743669
max   = 4.3343801
percentiles:
  p1  = 1.1153903
  p5  = 1.1390824
  p10 = 1.1522373
  p25 = 1.1818369
  p50 = 1.2772889
  p75 = 1.5558073
  p90 = 1.7858048
  p95 = 1.9270052
  p99 = 2.2393836

[Human VH]
count = 50000
mean  = 1.5204114
std   = 0.3366472
min   = 1.1229296
max   = 4.9564614
percentiles:
  p1  = 1.1613247
  p5  = 1.1914894
  p10 = 1.2172106
  p25 = 1.2833952
  p50 = 1.4067207
  p75 = 1.6604064
  p90 = 1.9894504
  p95 = 2.2036375
  p99 = 2.6674972

[Human VL]
count = 50000
mean  = 1.4069984
std   = 0.2291513
min   = 1.1429344
max   = 4.5616646
percentiles:
  p1  = 1.1683489
  p5  = 1.1841683
  p10 = 1.1988634
  p25 = 1.2449281
  p50 = 1.3433586
  p75 = 1.4984691
  p90 = 1.6906679
  p95 = 1.8413126
  p99 = 2.2237684

PPL 越低,表示序列越接近人源抗体序列分布;后续将基于分位点给出人源性得分与建议。

最后更新时间:2026-05-26