本工具用于评估抗体序列的人源性(Humanness / Human-likeness)。我们使用在大规模抗体序列数据上训练的抗体语言模型,对输入序列计算困惑度(PPL,越低越接近人源抗体序列分布)。
计划输出将包含每条序列的 PPL、在对应的人源参考分布中的分位数与人源性得分等信息。
训练数据规模(近似):人VH ~1500 万条、人VL ~1700 万条、VHH ~1800 万条;另含人源配对数据 ~370 万对(VH-VL)。
此外,我们统计了 107 款上市抗体药的 PPL 值(tmp/antibody_ppl.csv),后续将与人源参考分布一起展示,帮助直观对比输入序列的人源性位置。
1. 抗体氨基酸序列(支持10条 FASTA):
支持两种输入:① 单链序列(VH 或 VL,不包含 |);② 配对序列(VH|VL,仅包含 1 个 |,且左右两侧分别为重链与轻链),例如:QVQL...|DIQM...。
已解析序列数: 0,总残基数: 0
模型性能(当前版本)
抗体 MLM 模型性能: PPL = 1.39 Acc = 0.9162 抗体自回归生成(GPT)模型性能: PPL = 1.47 Acc = 0.8974
人源参考 PPL 分布(随机抽样 50,000 条)
[Human Paired (VH-VL)] count = 50000 mean = 1.3932574 std = 0.2717338 min = 1.0743669 max = 4.3343801 percentiles: p1 = 1.1153903 p5 = 1.1390824 p10 = 1.1522373 p25 = 1.1818369 p50 = 1.2772889 p75 = 1.5558073 p90 = 1.7858048 p95 = 1.9270052 p99 = 2.2393836 [Human VH] count = 50000 mean = 1.5204114 std = 0.3366472 min = 1.1229296 max = 4.9564614 percentiles: p1 = 1.1613247 p5 = 1.1914894 p10 = 1.2172106 p25 = 1.2833952 p50 = 1.4067207 p75 = 1.6604064 p90 = 1.9894504 p95 = 2.2036375 p99 = 2.6674972 [Human VL] count = 50000 mean = 1.4069984 std = 0.2291513 min = 1.1429344 max = 4.5616646 percentiles: p1 = 1.1683489 p5 = 1.1841683 p10 = 1.1988634 p25 = 1.2449281 p50 = 1.3433586 p75 = 1.4984691 p90 = 1.6906679 p95 = 1.8413126 p99 = 2.2237684
PPL 越低,表示序列越接近人源抗体序列分布;后续将基于分位点给出人源性得分与建议。
最后更新时间:2026-05-26