抗体序列的人源性评估(Hu-Nativ)

本工具用于评估抗体序列的人源性（Humanness / Human-likeness）。我们使用在大规模抗体序列数据上训练的抗体语言模型，对输入序列计算困惑度（PPL，越低越接近人源抗体序列分布）。

计划输出将包含每条序列的 PPL、在对应的人源参考分布中的分位数与人源性得分等信息。

训练数据规模（近似）：人VH ~1500 万条、人VL ~1700 万条、VHH ~1800 万条；另含人源配对数据 ~370 万对（VH-VL）。

此外，我们统计了 107 款上市抗体药的 PPL 值，后续将与人源参考分布一起展示，帮助直观对比输入序列的人源性位置。

1. 抗体氨基酸序列（支持10条 FASTA）:

支持两种输入：① 单链序列（VH 或 VL，不包含 |）；② 配对序列（VH|VL，仅包含 1 个 |，且左右两侧分别为重链与轻链），例如：QVQL...|DIQM...。

已解析序列数: 0，总残基数: 0

模型性能（当前版本）

抗体 MLM 模型性能：
  PPL = 1.39
  Acc = 0.9162

抗体自回归生成（GPT）模型性能：
  PPL = 1.47
  Acc = 0.8974

人源参考 PPL 分布（随机抽样 50,000 条）

[Human Paired (VH-VL)]
count = 50000
mean  = 1.3932574
std   = 0.2717338
min   = 1.0743669
max   = 4.3343801
percentiles:
  p1  = 1.1153903
  p5  = 1.1390824
  p10 = 1.1522373
  p25 = 1.1818369
  p50 = 1.2772889
  p75 = 1.5558073
  p90 = 1.7858048
  p95 = 1.9270052
  p99 = 2.2393836

[Human VH]
count = 50000
mean  = 1.5204114
std   = 0.3366472
min   = 1.1229296
max   = 4.9564614
percentiles:
  p1  = 1.1613247
  p5  = 1.1914894
  p10 = 1.2172106
  p25 = 1.2833952
  p50 = 1.4067207
  p75 = 1.6604064
  p90 = 1.9894504
  p95 = 2.2036375
  p99 = 2.6674972

[Human VL]
count = 50000
mean  = 1.4069984
std   = 0.2291513
min   = 1.1429344
max   = 4.5616646
percentiles:
  p1  = 1.1683489
  p5  = 1.1841683
  p10 = 1.1988634
  p25 = 1.2449281
  p50 = 1.3433586
  p75 = 1.4984691
  p90 = 1.6906679
  p95 = 1.8413126
  p99 = 2.2237684

PPL 越低，表示序列越接近人源抗体序列分布；后续将基于分位点给出人源性得分与建议。

最后更新时间：2026-05-26