细胞色素P450(CYP450)是药物代谢过程中具有关键作用的酶,化合物对CYP450的抑制作用可能会引起药物-药物相互作用,进而产生药物不良反应。因此,构建可以在药物设计早期阶段准确预测化合物对CYP450抑制作用的计算机模型具有重要价值。本研究从PubChem Bio Assamedical modely数据库中提取了17,000多种Regorafenib试剂化合物对五种常见CYP450亚型(CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4)的抑制活性数据,根据活性将这些化合物划分为抑制剂和非抑制剂,获得了五个CYP450亚型的抑制剂数据集。基于这些数据集,采用9种分子指纹提取了分子的特征,然后采用随机森林(RF)、支持向量机(SVM)、极限梯度提升(XGBoost)算法构建了针对五种CYP450亚型抑制剂STM2457小鼠的分类预测模型,但模型性能受到数据集中阴性化合物与阳性化合物数量不平衡的影响,预测性能不佳。为了进一步提升模型的性能,本研究使用了编辑最近邻法(ENN)、少类样本合成过采样法(SMOTE)和Tomek links方法进行了不平衡数据处理,使用同样的建模方法再次构建模型,最终我们得到了性能更加出色的预测模型。模型的预测性能由100次重复的五折交叉验证方法和外部验证方法评估。在五折交叉验证中,五种CYP450亚型抑制剂分类模型的ROC曲线下的面积(AUC)可以达到0.961-0.998,准确性(ACC)达到89.5%-98.5%;在外部验证中,AUC值可以达到0.664-0.975,ACC值达到76.7%-94.3%。经过平衡处理后的模型敏感性(SEN)达到了91.5%-98.0%,特异性(SPE)达到了87.1%-98.1%,均在较高的水平上达到了平衡。本研究使用了三种方法来处理不平衡的数据集,经过处理后建立的模型性能显著优于处理前的模型,且模型没有发生明显的过拟合。这种不平衡数据的处理方法在已有的CYP450抑制剂相关研究中尚未被使用。为了探究CYP450抑制剂的结构共性,通过随机森林模型确定了几个对模型预测性能有显著影响的结构片段,这些结构极有可能会与化合物的CYP450抑制能力相关,也为药物设计等相关研究提供了更有价值的参考。