DeepPurpose 云工具使用指南

一、工具简介

DeepPurpose 是一个基于深度学习的药物-靶标相互作用（Drug-Target Interaction, DTI）预测工具。它支持多种编码方式和数据集，能够帮助用户预测药物与靶标之间的结合能力，广泛应用于药物筛选、靶标识别和药物重定位等领域。

二、参数选择

1. 数据集选择

DeepPurpose 提供了以下三种常用的数据集：

BindingDB：包含多种药物-靶标结合亲和力数据，适合进行广泛的 DTI 预测任务。
DAVIS：专注于激酶类靶标，适用于激酶抑制剂的研究。
KIBA：整合了多种生物活性指标，适合综合评估药物活性的任务。

建议选择：

关注激酶靶标 → DAVIS
综合多种活性指标 → KIBA
广泛 DTI 预测 → BindingDB

2. 编码方式选择

DeepPurpose 支持多种药物和靶标的编码方式：

药物编码： CNN、MPNN、Morgan
靶点编码： CNN、AAC

编码方法说明：

CNN：处理序列信息，适合蛋白质序列或 SMILES 序列。
MPNN：基于图神经网络，能够捕捉分子或蛋白质的结构信息。
Morgan：基于分子指纹（Circular Fingerprint），适合快速大规模筛选。
AAC：氨基酸组成特征，描述蛋白质的整体组成，计算速度快。

建议选择：若关注结构细节，优先 MPNN；若快速筛选，优先 Morgan；若处理序列，优先 CNN；若只需全局蛋白特征，可选 AAC。

三、输入文件格式

输入文件应为 TSV 格式，包含以下列：

第一列：药物 SMILES 字符串
第二列：蛋白质氨基酸序列
第三列：药物名称（可选）
第四列：靶标名称（可选）

若不填写名称，系统将自动生成 Drug1, Drug2 / Target1, Target2。

SMILES	Protein Sequence	Drug Name	Target Name
CCO	MVLSPADKTNVKAAW	Drug1	Target1
CCN(CC)CC	GAVLILKKK	Drug2	Target2

四、输出文件格式

运行完成后，工具将生成以下文件：

结果文件夹
├── config.pkl                 					[模型参数与超参数配置文件]
├── model.pt                   					[训练好的预训练模型权重]
└── virtual_screening_{dataset}_{drug_encode}_{target_encode}.txt    [筛选后的药物-靶标预测结果]

1. virtual_screening.txt 文件格式

Rank	Drug Name	Target Name	Binding Score
1	Drug1	Target1	6.15
2	Drug2	Target2	5.03

字段说明：

Rank：预测排名，越靠前表示结合能力越强。
Drug Name：药物名称。
Target Name：靶标名称。
Binding Score：预测结合评分，数值越高表示结合能力越强。

五、模型参数说明

工具使用多种预训练模型进行预测，模型权重保存在 model.pt，超参数配置保存在 config.pkl。常见参数包括：

learning_rate：学习率，默认 0.001。
batch_size：批大小，默认 64。
input_dim：输入层维度，常用 1024。
hidden_size：隐藏层维度，常用 128、256。
epoch：训练轮数，默认 100。

用户可在 config.pkl 中使用python pickle库查看这些参数。

	import pickle

	# 读取 .pkl 文件
	with open("config.pkl", "rb") as f:
		config = pickle.load(f)

	# 查看内容
	print(f"\nConfig 内容:{config}")

六、预测可信度评估

DeepPurpose 本身不提供单独的置信度分数，但默认采用多模型集成策略（ensemble of pretrained models）来提高预测稳定性。用户可根据同一数据集不同模型预测结果的方差来近似评估预测可信度：方差越小，说明各模型预测一致性越高，可信度越高。

七、参考资料

DeepPurpose GitHub: https://github.com/kexinhuang12345/DeepPurpose
DeepPurpose Bioinformatics 论文: Huang et al. DeepPurpose: a deep learning library for drug–target interaction prediction. Bioinformatics, 36(22-23), 5545–5551.
DeepPurpose 官方文档: https://deeppurpose.readthedocs.io/en/latest/contents.html