一种基于2D分子描述符的PAHs致癌性预测方法及预测模型

    专利查询2024-06-18  33


    一种基于2d分子描述符的pahs致癌性预测方法及预测模型
    技术领域
    1.本发明涉及一种基于2d分子描述符的pahs致癌性预测方法及预测模型,属于化合物致癌性预测技术领域。


    背景技术:

    2.在全球各国中癌症是造成死亡的主要原因之一,也是延长寿命的关键因素。根据世卫组织《2020年全球健康评估》,在185个国家中,其中,癌症是112个国家中70岁以下人群死亡的第一或第二大死因,是23个国家中70岁以下人群死亡的第三或第四大死因。事实上,许多癌症死亡可归因于潜在的可改变的风险因素,如果能够对致癌物和致癌机制充分理解,并做出有效的预防策略,就可以避免一半的肿瘤发生。在这些风险因素中,接触外源性化学品是非常重要的因素之一。iarc(国际癌症研究机构)列出了很多对人类有致癌危害的环境因素,包括许多被作为致癌物的有机化合物。化学致癌物是指凡能引起动物和人类肿瘤、增加其发病率或死亡率的化合物。
    3.多环芳烃(pahs)是一种重要的环境有机污染物,通常含有两个或两个以上苯环(稠环和非稠环),由于它们是化学致癌物的最大类别,因此受到广泛关注。例如,iarc已将几种pahs确定为1类(例如苯并[a]芘、联苯胺)或2a类(例如1-硝基芘、四溴双酚a)致癌物。一些含有pahs的混合物,例如颗粒物pm2.5和柴油发动机废气,也被iarc归类为第1类致癌物。另一方面,pahs难以分解,因此它们在环境(空气、水、土壤、沉积物和食物)中广泛分布。除了致癌性外,还观察到了pahs的其他不良反应,如内分泌干扰、急性毒性、过敏反应和皮肤或眼睛刺激。在这种情况下,pahs会通过污染空气、水体和食物对环境和公众健康造成潜在危害。
    [0004]
    通常,致癌物的鉴定来自人类流行病学调查、动物长期生物学分析、致突变性试验、毒代动力学以及相关的癌症机制研究。长期动物生物测定是确定化学品致癌性的常用方法,最终目的是评估其对人类的致癌风险。受多种因素的影响,可用的化学品的人类致癌性数据较少。在现阶段,人们对啮齿类动物致癌性的了解仅依赖于致癌性研究的数据。然而,用于研究致癌性的动物实验方法存在以下局限性:耗时(通常为18~36个月),且单一标准测试极其昂贵;动物福利和伦理问题,其必须涉及大量动物才能保证统计上具有显著结果。
    [0005]
    鉴于社会和经济方面的压力越来越大,减少动物试验并支持3r原则(减少、替换、优化),因此大规模动物试验不适合用于大量化学品致癌性的鉴定。因此,定量构效关系(qsar)等计算机模拟方法被视为潜在的毒性预测的替代方法。qsar预测可用于筛选目的,在药物开发的早期阶段,甚至在化学合成之前对化学品进行优先级排序,尤其在制药行业,通过qsar可初步筛选出具有致癌性的候选药物,就可以避免后期无法计算的成本损失。目前,一些国际立法、机构和组织支持、认可和推荐在监管框架下使用qsar方法进行毒性预测,例如欧盟reach(化学品注册、评估、授权和限制)立法、ich(国际人用药品注册技术协调会)、m7指南、美国食品药品监督管理局(fda)、美国环保署(epa)、欧洲替代方法验证中心
    (ecvam)、有毒物质和疾病登记机构(atsdr)、欧洲药品评估机构(eu-emea)、欧洲化学品管理局(echa)、制药和医疗器械管理局(japan-pmda)、澳大利亚环境局(aea)等。为了增加qsar模型的接受度,oecd(经济合作与发展组织)专门制定了qsar验证的五项原则供监管使用,包括:定义明确的终点;明确的算法;明确的适用范围;适当的拟合度、稳健性和预测能力;如果可能,要对毒性机理做出解释。
    [0006]
    截至目前,关于化学品对啮齿动物致癌性预测模型的报道,可分为三类:定性的构效关系(sar)模型,通常为二分类模型(将化学品预测为致癌物或非致癌物);qsar模型(预测为连续数值);专家系统。目前已经建立了几个针对非同类化学品的qsar模型,但与同类化学品的qsar模型相比,它们的预测能力通常较弱,且缺乏机理解释。此外,虽然已经建立了一些同类化学品的qsar预测模型,例如硝基、芳香胺、n-亚硝胺和芳香氮化合物,但是目前pahs对啮齿动物的致癌性qsar模型尚未见报道,少数可用模型都是分类模型。


    技术实现要素:

    [0007]
    本发明的目的是提供一种基于2d分子描述符的pahs致癌性预测方法及预测模型,本发明基于简单的2d分子描述符,进行了化学计量学qsar建模以预测pahs对啮齿动物的致癌性,在其应用域内可用于预测新的或未经测试的pahs的致癌性。
    [0008]
    基于啮齿类动物,本发明提供了六种不同的致癌性qsar模型,各个模型中,ptd
    50
    表示致癌效力,其是td
    50
    值转换为摩尔单位(mol/kg/d)后,再进行负对数的转换得到的,与致癌效力呈正相关;其余参数表示pahs的2d分子描述符。
    [0009]
    第一种模型是基于雌性大鼠得到的致癌性qsar模型(rf),如式(1)所示:
    [0010]
    ptd
    50
    =4.8314+5.1819mats5m+7.2761mats6v-0.7063minsch3-0.0866natomp+3.3684nfg12ring
    ꢀꢀꢀ
    (1)
    [0011]
    第二种模型是基于雄性大鼠得到的致癌性qsar模型(rm),如式(2)所示:
    [0012]
    ptd
    50
    =9.7694

    3.3927j_d+0.0194atsc3s-0.5947gats5s-4.4007atsc4-0.8934shaach+1.6534minaach
    ꢀꢀꢀ
    (2)
    [0013]
    第三种模型是基于雌性小鼠得到的致癌性qsar模型(mf),如式(3)所示:
    [0014]
    ptd
    50
    =58.8706-3.4972j_d-9.3578spmaxa_b(s)+0.3697gats8s-12.5216spmax2_bh(v)+0.9240cl-089-1.7211minaaac
    ꢀꢀꢀ
    (3)
    [0015]
    第四种模型是基于雄性小鼠得到的致癌性qsar模型(mm),如式(4)所示:
    [0016]
    ptd
    50


    2.7777+0.7292cic4-5.3604mats4s+1.5330gats7e+0.0085p_vsa_mr_7-1.2361b10[c-c]+17.2964vch-6+1.1910maxwhba
    ꢀꢀꢀ
    (4)
    [0017]
    第五种模型是基于大鼠得到的致癌性qsar模型(r),如式(5)所示:
    [0018]
    ptd
    50
    =-17.7427-0.6262shaach+4.4089sic1-4.6565j_d+3.7901mats5m+25.0407spmad_ea-1.8307sm03_ea(bo)-0.5179naroh
    ꢀꢀ
    (5)
    [0019]
    第六种模型是基于小鼠得到的致癌性qsar模型(m),如式(6)所示:
    [0020]
    ptd
    50
    =3.9044+1.587mats6e-1.1674spmax8_bh(e)+0.0192p_vsa_logp_5+0.0092p_vsa_mr_7-8.423spmaxa_ea(dm)+0.3554cats2d_07_pl+1.2319minaach

    0.1702eta_dbeta
    ꢀꢀꢀ
    (6)
    [0021]
    本发明提供的qsar模型的预测可靠性高,如r
    2ext
    =0.7102~0.9561、q
    2f1
    =0.6270
    ~0.8972、q
    2f2
    =0.6255~0.8955、q
    2f3
    =0.8062~0.7263、ccc
    test
    =0.8062~0.9547等。
    [0022]
    为了填充种间数据空白,本发明还建立了两个种间定量致癌性iqccr模型(种间定量致癌性—致癌性关系模型),分别如式(7)和式(8)所示:
    [0023]
    ptd
    50
    (rat)=0.3553+0.8987ptd
    50
    (mouse)
    ꢀꢀꢀ
    (7)
    [0024]
    ptd
    50
    (mouse)=0.3426+0.8451ptd
    50
    (rat)
    ꢀꢀꢀ
    (8)
    [0025]
    式中,ptd
    50
    (mouse)表示pahs对小鼠的致癌效力(实验值),ptd
    50
    (rat)表示pahs对大鼠的致癌效力(实验值)。
    [0026]
    本发明提供的iqccr模型也具有高的预测可靠性,如r
    2ext
    =0.7446~0.7990,q
    2fn
    =0.7119~0.9103,和ccc
    test
    =0.8305~0.8815。
    [0027]
    本发明通过机理解释确定了结构信息(描述符)和致癌性之间的详细关系。
    [0028]
    本发明提供的模型具有拟合优度高、鲁棒性和预测性强的特点,在其应用域内可用于预测新的或未经测试的pahs的致癌性。
    [0029]
    基于预测模型,本发明还提供了一种pahs致癌性的预测方法,包括如下步骤:
    [0030]
    获取pahs的2d分子描述符或其对大鼠/小鼠任意一种的致癌性数据ptd
    50
    ,根据致癌性qsar模型或致癌性iqccr模型,得到pahs的致癌效力,即实现对pahs的致癌性预测。
    [0031]
    采用dragon和padel-descriptor软件获取pahs的2d分子描述符,经验证,组合了dragon和padel描述符的模型预测性能更优。
    [0032]
    本发明还提供了一种应用所述致癌性qsar模型或所述致癌性iqccr模型的pahs致癌性预测装置。
    [0033]
    本发明还进一步提供了一种计算机设备,包括处理器和存储有计算机程序的存储器;所述处理器被配置成执行所述计算机程序以实现如本发明pahs致癌性的预测方法。
    [0034]
    本发明更进一步提供了一种计算机存储介质,其上存储有计算机程序,其特征在于:当所述计算机程序被处理器执行时实现如本发明pahs致癌性的预测方法。
    [0035]
    本发明根据oecd原则,基于简单的2d分子描述符,进行了化学计量学qsar建模以预测pahs对啮齿动物的致癌性。使用多个统计验证标准建立和验证了六个针对雌性大鼠、雄性大鼠、雌性小鼠、雄性小鼠以及大鼠和小鼠的pahs致癌性的qsar模型。机制分析清楚地表明了描述符与致癌性的相关性,不同模型中同时存在的一些描述符表明可能存在类似的作用机制。此外,本发明还建立了两个iqccr模型,用于填充种间数据空白。
    [0036]
    本发明利用qsar模型和iqccr模型应用于数百种未经测试的pahs的致癌性预测,其中每个分子都对其预测质量进行了评估,可以根据pahs的致癌效力筛选出优先级化合物,因此对于监管框架下的风险评估具有重要意义。
    附图说明
    [0037]
    图1为本发明构建和验证模型的流程图。
    [0038]
    图2为各qsar模型中训练集、测试集、真实外部集中化合物的化学空间分布,其中,图2(a)表示雌性大鼠qsar模型;图2(b)表示雄性大鼠qsar模型;图2(c)表示雌性小鼠qsar模型;图2(d)表示雄性小鼠qsar模型;图2(e)表示大鼠qsar模型;图2(f)表示小鼠qsar模型;图2(g)表示大鼠-小鼠iqccr模型;图2(h)表示小鼠-大鼠iqccr模型。
    [0039]
    图3为六个qsar模型的变量重要性图,其中,图3(a)表示雌性大鼠模型,图3(b)表
    示雄性大鼠模型,图3(c)表示雌性小鼠模型;图3(d)表示雄性小鼠模型;图3(e)表示大鼠模型;图3(f)表示小鼠模型。
    [0040]
    图4为六个qsar模型的载荷(loading)图,其中,图4(a)表示雌性大鼠模型;图4(b)表示雄性大鼠模型;图4(c)表示雌性小鼠模型;图4(d)表示雄性小鼠模型;图4(e)表示大鼠模型;图4(f)表示小鼠模型。
    [0041]
    图5为描述符与pahs对雌性大鼠致癌性的机制解释。
    [0042]
    图6为rf模型(图6(a)和图6(b))、rm模型(图6(c)和图6(d))和r模型(图6(e)和图6(f))的预测值与实验值的线性相关图及应用域(williams)图。
    [0043]
    图7为描述符与pahs对雄性大鼠致癌性的可能机制解释。
    [0044]
    图8为描述符与pahs对雌性小鼠致癌性的可能机制解释。
    [0045]
    图9为mf模型(图9(a)和图9(b))、mm模型(图9(c)和图9(d))和m模型(图9(e)和图9(f))的预测值与实验值的线性相关图和应用域(williams)图。
    [0046]
    图10为描述符与pahs对雄性小鼠致癌性的机制解释
    [0047]
    图11为描述符与pahs对大鼠致癌性的机制解释。
    [0048]
    图12为描述符与pahs对小鼠致癌性的机制解释。
    [0049]
    图13为大鼠-小鼠iqccr模型和小鼠-大鼠iqccr模型的实验值与预测值的线性相关图(图13(a)和(c))、大鼠-小鼠iqccr模型和小鼠-大鼠iqccr模型的应用域(williams)图(图13(b)和(d))。
    [0050]
    图14为六个qsar模型(a~f)和两个iqccr模型(g和h)对真实外部集化合物的应用域(insubria)图。
    具体实施方式
    [0051]
    下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
    [0052]
    下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
    [0053]
    一、材料和方法
    [0054]
    1、数据的收集和整理
    [0055]
    根据oecd经合组织原则1,“qsar应具有定义的明确终点”,研究的终点是以致癌剂量(td
    50
    )表示的致癌效力。td
    50
    表示在受试物种标准寿命结束时,一半试验动物发生肿瘤的药物剂量,以mg/kg体重/天(mg/kg/d)为单位。致癌性数据是从致癌效力数据库(cpdb)中收集得到,该数据库包含了自1950年以来对1547种化学物质进行的6540次慢性、长期动物致癌性试验的结果。cpdb中致癌性测试涉及大鼠、小鼠、仓鼠、狗和非人类灵长类动物,总共包含了35个靶器官(例如,肝脏、肺、皮肤)。本发明将肝脏作为靶位点,其肿瘤类型为混合型(多于一种肿瘤类型),以大鼠和小鼠作为研究目标,按性别细分了数据,排除所有有机盐、混合物、聚合物和金属络合物后,将所有td
    50
    值(mg/kg/d)转换为摩尔单位(mol/kg/d),然后再进行负对数的转换(-logtd
    50
    或ptd
    50
    )。与td
    50
    值相比,ptd
    50
    值与致癌效力呈正相关。
    [0056]
    关于种间定量致癌性-致癌性关系(iqccr)模型,以37个具有大鼠和小鼠td
    50
    值的pahs进行建模。最终,获得了如表1所示的6个qsar模型和2个iqccr模型。工作流程如图1所示。建模中使用的pahs的所有详细信息都列在表2中。
    [0057]
    表1 pahs数据集汇总
    [0058][0059]an
    total
    表示每个数据集中pahs的总数;n
    tr
    、n
    test
    和n
    true
    分别表示每个数据集中训练集、测试集和真实外部集中pahs的数量。
    [0060]brf、rm、mf、mm、r和m分别代表雌性大鼠、雄性大鼠、雌性小鼠、雄性小鼠、大鼠和小鼠数据集;
    [0061]
    r-m和m-r分别代表大鼠-小鼠和小鼠-大鼠的iqccr模型。
    [0062]
    表2多环芳烃的序号、cas号、名称及其对大鼠和小鼠的td
    50

    [0063]
    [0064]
    [0065]
    [0066]
    [0067]
    [0068][0069]
    2、描述符计算和数据集划分
    [0070]
    从pubchem网站(https://pubchem.ncbi.nlm.nih.gov/)下载pahs的化学结构,并通过chemical book(https://www.chemicalbook.com)、chemidplus(https://chem.nlm.nih.gov/chemidplus/)等在线数据库中进行交叉检查。在计算描述符之前,通过chembiodrawultra14.0软件的3d模块进行结构优化,使分子处于最低能量状态。鉴于致癌性终点的复杂性,本发明组合了分别由dragon和padel-descriptor软件计算的dragon和padel描述符来表征化合物的结构特征,以更充分的提取化合物中重要的结构信息。为了便于机理解释,仅计算了具有明确物理化学意义的2d描述符用于模型的建立,删除常量或接近常量的描述符以及高度相关描述符(相关系数》0.98)以减少冗余变量信息。
    [0071]
    为了获得预测质量更高的qsar模型,本发明使用三种划分技术将每个数据集大概按3:1的比例划分为训练集和测试集,即(a)按效应值排序(ores),(b)按结构相似性(ostr)排序,(c)随机(rnd)。使用未参与模型建立的测试集进行模型的外部验证,以避免可能的偏差。按ores方法进行划分时,将化合物根据致癌效力ptd
    50
    值的递增进行排序,每4个化合物中3个置于训练集,1个置于测试集中,具有最大ptd
    50
    值和最小ptd
    50
    值的化合物总是被放入训练集以覆盖整个效应范围;对于ostr划分,化合物按所有描述符的第一轴主成分(pc1)分数排序,同样每4个化合物中,1个被放入测试集中,将具有最大和最小pc1分数的化合物放入到训练集。对于iqccr建模,仅使用ores的划分方法,将约25%的化合物设置为测试集。数据集划分和模型的建立均在qsarinsv2.2.4软件中进行,以确保最终的模型具有稳健性和外部预测性。
    [0072]
    3、描述符选择和模型建立
    [0073]
    根据oecd原则2,“qsar模型要有明确的算法”。使用qsarins软件中包含的遗传算法-变量子集选择(ga-vss)模块进行变量的筛选,采用普通最小二乘法(ols)结合多元线性回归(mlr)来建立qsar模型。在描述符选择过程中,留一法交叉验证相关系数(q
    2loo
    )作为模型鲁棒性的度量被设置为适应度函数。应用quik(q under influence of k)规则来避免多重共线性,阈值为0.05。该规则基于k多元相关指数,假设描述符x加上效应y(k
    xy
    )的总相关性应始终高于描述符之间的相关性(k
    xx
    )。训练集化合物的数量与所选描述符的数量之比至少应大于5,符合经验法则(也称为topliss比率),以避免偶然相关的可能性。每个模型建立过程中基因代数、种群大小和突变率的值分别设置为2000、200和50。对于iqccr模型,将其中一个物种的致癌性作为唯一变量用于预测另一个物种的致癌性,使用简单的线性回归方法构建了大鼠(因变量)-小鼠(自变量)或小鼠(因变量)-大鼠(自变量)iqccr模型。
    [0074]
    4、模型性能评估
    [0075]
    根据oecd经合组织原则4,“qsar模型应该具有适当的拟合度、稳健性和预测能力”。本发明采用多个最先进的内部和外部验证指标来评估所建立模型的预测性能。模型稳
    健性和拟合优度分别通过q
    2loo
    和决定系数r2(包括r
    2adj
    )进行评价,2000次迭代的y随机化测试(其中ptd
    50
    值随机排列,而描述符矩阵不变)用来检验模型的可靠性。
    [0076]
    通过计算不同的统计参数,如q
    2f1
    、q
    2f2
    、q
    2f3
    、r
    2ext
    、r
    2m(test)
    、δr
    2m(test)
    以及测试集的一致性相关系数(ccc
    test
    )来进行外部验证。此外,使用均方根误差(rmse)来评估模型的预测精度。基于平均绝对误差(mae)将模型的预测质量评估为“好”、“中等”和“差”三个等级。该步骤使用“xternal validation plus”工具对模型的质量进行分类(https://dtclab.webs.com/software-tools)。本发明中使用的所有验证参数都列在表3中。
    [0077]
    表3内部和外部验证的统计学参数
    [0078][0079][0080]
    5、应用域分析
    [0081]
    根据oecd经合组织原则3,“qsar模型应该具有定义明确的应用域”。只有当化合物在模型的应用域(ad)内时,基于模型的预测才是可靠的。本发明采用杠杆法结合标准化方
    法来定义ad。如果一个化合物的杠杆值h大于阈值h*,它将被识别为结构异常值。阈值h*定义为3(p+1)/n,其中p是模型中描述符的数量,n是训练集中化合物的数量。高于3倍标准化残差的数据,视之为效应异常值。可以通过构建的williams图(每个化合物的h值vs标准化残差)可视化结构异常值和效应异常值。然而,有的化合物即使h》h*,但由于其标准化残差可能很小,所以它不被认为是异常值。
    [0082]
    insubria图(训练集、测试集或者真实外部集化合物的预测值vs其h值)用于可视化预测的外推程度,即预测可靠性,尤其是在评估真实外部集化合物(没有具体实验值的化合物)的预测质量时具有重要作用。在本发明中,为每个qsar模型和iqccr模型收集了真实外部集化合物,如果真实外部集中化合物的h》h*,则其预测结果具有低置信度,预测不可靠。
    [0083]
    6、使用mcdm选择最佳qsar模型
    [0084]
    在内部和外部验证的基础上,利用qsarins软件中的多标准决策(mcdm)程序对模型性能按0(最差)到1(最好)的分数进行排名。mcdm
    fit
    是依据r2、r
    2adj
    、ccc
    tr
    的最大值、r
    2-r
    2adj
    的最小值得到的,mcdm
    ext
    是依据q
    2f1
    、q
    2f2
    、q
    2f3
    和ccc
    test
    的最大值得到的。根据mcdm
    fit
    和mcdm
    ext
    选择最佳的qsar模型,同时这些模型符合oecd原则以及各种验证标准。
    [0085]
    7、使用qsar和iqccr模型筛选未经测试的化合物
    [0086]
    对于rf、rm、mf、mm、r、m、r-m和m-r模型,真实外部集中的化合物数量分别为142、132、132、129、124、120、18和14(如表1)。使用“预测可靠性指标”工具(http://dtclab.webs.com/software-tools)来检查每个真实外部集化合物的预测置信度,并将其预测质量评价为“好”、“中等”和“坏”,其综合得分分别对应为3、2和1。
    [0087]
    二、结果与讨论
    [0088]
    1、化学多样性分析
    [0089]
    一般而言,数据集中化合物结构多样性越高,模型应用范围越广。如表1所示,表现最优的qsar模型的数据分布情况如下:rf模型(n
    tr
    =25,n
    test
    =8,n
    true
    =142),rm模型(n
    tr
    =33,n
    test
    =10,n
    true
    =132),mf模型(n
    tr
    =33,n
    test
    =10,n
    true
    =132),mm模型(n
    tr
    =36,n
    test
    =10,n
    true
    =129),r模型(n
    tr
    =40,n
    test
    =11,n
    true
    =124)和m模型(n
    tr
    =44),n
    test
    =11,n
    true
    =120)。对于iqccr模型,大鼠-小鼠和小鼠-大鼠iqccr模型中的训练集、测试集和真实外部化合物分别为28、9、18和29、8、4。化合物的分子质量(mw)vs辛醇-水分配系数((a)logp)用于表征每个数据集的化学空间分布。如图2所示,所有测试集、真实外部集化合物与训练集化合物共享相似的化学空间,说明了我们所用的相应训练集建立的模型具有广泛的ad。
    [0090]
    图2为各qsar模型中训练集、测试集、真实外部集中化合物的化学空间分布:(a)雌性大鼠qsar模型;(b)雄性大鼠qsar模型;(c)雌性小鼠qsar模型;(d)雄性小鼠qsar模型;(e)大鼠qsar模型;(f)小鼠qsar模型;(g)大鼠-小鼠iqccr模型;(h)小鼠-大鼠iqccr模型。
    [0091]
    2、pahs致癌性的qsar模型
    [0092]
    根据oecd经合组织的qsar验证指南,针对六个致癌终点对pahs进行了qsar建模。最初,基于不同的描述符建立了三种类型的qsar模型,即基于dragon描述符建立的模型、padel描述符建立的模型和基于dragon、padel描述符的组合建立的模型。正如预期,组合了dragon和padel描述符的模型预测性能更优。从统计参数上看,本发明所建立的pahs致癌性qsar模型具有拟合优度高、鲁棒性和预测性强的特点,可用于填补致癌性数据的空白。模型
    能够解释的训练集方差(r2)范围从0.6917到0.8170(q
    2loo
    为0.5到0.7155),测试集方差(r
    2ext
    )范围从0.7102到0.9561,表明模型有很强的预测能力。y随机化测试给出了较低的q
    2yscr
    (

    0.3254~

    0.4705)和r
    2yscr
    (0.1783~0.2047)值,表明模型不是偶然生成的。此外,测试集的各种外部验证指标都令人满意(例如,q
    2f1
    =0.6270~0.8972,q
    2f2
    =0.6255~0.8955,q
    2f3
    =0.8062~0.9263,ccc
    test
    =0.7754~0.902,rsme
    test
    =0.4002~0.7736,mae
    test
    =0.3488~0.7123)。详细的统计结果列于表4中。
    [0093]
    表4 pahs致癌性qsar模型的统计学参数
    [0094][0095]
    2.1.雌性大鼠(rf)qsar模型
    [0096]
    基于rnd划分获得的rf模型(n
    tr
    =25,n
    test
    =8)效果最好,如等式(1)所示,模型可以解释81.7%的训练集方差(q
    2loo
    为69.3%),以及95.61%的测试集(r
    2ext
    )方差。基于mae的评价标准,模型的预测质量被评价为“好”。该模型中共选择了五个描述符,即mats5m、mats6v、minsch3、natomp和nfg12ring。
    [0097]
    ptd
    50
    =4.8314+5.1819mats5m+7.2761mats6v

    0.7063minsch3

    0.0866natomp+3.3684nfg12ring
    ꢀꢀꢀ
    (1)
    [0098]ntr
    =25,n
    test
    =8,r2=0.8170,q
    2loo
    =0.6930,r
    2ext
    =0.9561,q
    2f1
    =0.8972,q
    2f2
    =0.8955,q
    2f3
    =0.9263,ccc
    test
    =0.9547,rmse
    test
    =0.4747,mae
    test
    =0.3659,r
    2m(test)
    =0.9334,δr
    2m(test)
    =0.0384,tsr=8.8027,mae
    95%test
    +3*sd
    95%test
    =1.0781,quality
    test
    =good
    [0099]
    根据变量重要性图(vip)(图3(a)),模型中最重要的描述符(vip分数≥1.0)是nfg12ring、mats6v和mats5m。次要的描述符(vip分数《1.0)是natomp和minsch3。同样,从loading图(图4(a))可以看出,nfg12ring、mats6v和mats5m对雌性大鼠的致癌性贡献最大,因为它们靠近预测的效应值而远离坐标原点,而natomp和minsch3则反之。
    [0100]
    正如oecd经合组织原则5所述,“如果可能,对qsar模型的毒性机理做出解释”。rf模型中的描述符分为两类,第一类描述符与致癌性呈正相关,如nfg12ring、mats5m和mats6v,从定义来看,它们显然有助于增加分子的亲脂性(疏水性),因此,这些描述符的值越高意味着致癌性越强,反之亦然。另一类描述符与致癌性呈负相关,如赋予极性特征的minsch3和natomp。如图5(a)所示,具有高nfg12ring值的化合物59(2,3,7,8-四氯二苯并对二恶英)具有高致癌效力(ptd
    50
    =9.40),mats6v和mats5m值相对较高的化合物6(mats6v=0.145,ptd
    50
    =4.78)和化合物49(mats5m=0.258,ptd
    50
    =4.00)也具有高的致癌性。相反,具有高natomp(22)的化合物54(槲皮素)和高minsch3(1.51)值的化合物63(分散黄3)显示
    出了低致癌效力(分别为ptd
    50
    =0.60和0.76)(图5(b))。
    [0101]
    从预测值与实验值的线性相关图(图6(a))和用于表征定义ad的williams图(图6(b))中可以更加直观的观察模型的预测质量。结果显示,rf模型中没有效应异常值,只发现一个化合物的h值大于警示h*,属于结构异常值,但其预测残差很小,说明模型的预测是可靠的。
    [0102]
    2.2.雄性大鼠(rm)qsar模型
    [0103]
    基于ores划分获得的rm模型(n
    tr
    =33,n
    test
    =10)效果最好,如等式(2)所示,它可以解释训练集的62.56%的方差(q
    2loo
    为50.48%),以及71.83%的测试集方差(r
    2ext
    )。基于mae的标准,rm模型的预测质量被评估为“好”。模型含有六个描述符(j_d、atsc3s、gats5s、atsc4、shaach和minaach)。
    [0104]
    ptd
    50
    =9.7694

    3.3927j_d+0.0194atsc3s

    0.5947gats5s

    4.4007atsc4

    0.8934shaach+1.6534minaach
    ꢀꢀꢀ
    (2)
    [0105]ntr
    =33,n
    test
    =10,r2=0.6256,q
    2loo
    =0.5048,r
    2ext
    =0.7183,q
    2f1
    =0.6270,q
    2f2
    =0.6255,q
    2f3
    =0.8203,ccc
    test
    =0.7757,rmse
    test
    =0.7736,mae
    test
    =0.7123,r
    2m(test)
    =0.6079,δr
    2m(test)
    =0.2056,tsr=9.3548,mae
    95%test
    +3*sd
    95%test
    =1.5475,quality
    test
    =good
    [0106]
    根据vip图分析(图3b),模型中最重要的描述符是shaach和gats5s,次要的描述符是j_d、atsc4、atsc3s和minaach。根据loading图(图4(b)),shaach和gats5s对雄性大鼠的致癌性影响最大,这与vip图分析的结果一致。
    [0107]
    rm模型中描述符可分为两类。第一类描述符与致癌性呈正相关,包括atsc3s和minaach,其值越大,化合物的致癌效力越强,反之亦然。另一类描述符与致癌性呈负相关,包括shaach、j_d、gats5s和atsc4。如图7(a)所示,例如,具有高minaach值(1.945)的化合物2(2-乙酰氨基芴)表现出了高致癌性(ptd
    50
    =5.28),具有高atsc3s值(91.704)的化合物47(2,3,7,8-四氯二苯并-p-二恶英)同样具有高ptd
    50
    值(5.21)。相反,图7(b)所示,化合物50(酚酞)(存在高shaach值)、化合物17(氯苯甲酸酯)(具有高gats5s值)、化合物15(邻苯二甲酸丁苄酯)(具有高j_d值)和化合物28(苯偶姻)(存在高atsc4值)则显示出了低致癌性。
    [0108]
    预测值与实验值的线性相关图和用于表征定义ad的williams图分别为图6(c)和图6(d)。虽然化合物25在一定程度上影响了回归,但rm数据集中没有效应异常值;我们观察到四个训练集化合物(23、55、58和66)和一个测试化合物(60)的h值大于警示h*,但它们的预测残差在可接受的范围内。
    [0109]
    2.3.雌性小鼠(mf)qsar模型
    [0110]
    基于rnd划分获得的mf模型(n
    tr
    =33,n
    test
    =10)效果最好,如等式(3)所示,它可以解释训练集的81.32%的方差(q
    2loo
    为71.55%),以及82.64%的测试集的方差(r
    2ext
    )。基于mae的标准,模型的预测质量被评价为“好”。模型包含六个描述符,即j_d、spmaxa_b(s)、gats8s、spmax2_bh(v)、cl-089和minaaac。
    [0111]
    ptd
    50
    =58.8706

    3.4972j_d-9.3578spmaxa_b(s)+0.3697gats8s-12.5216spmax2_bh(v)+0.9240cl-089-1.7211minaaac
    ꢀꢀꢀ
    (3)
    [0112]ntr
    =33,n
    test
    =10,r2=0.8132,q
    2loo
    =0.7155,r
    2ext
    =0.8264,q
    2f1
    =0.8126,q
    2f2
    =0.8082,q
    2f3
    =0.8597,ccc
    test
    =0.8809,rmse
    test
    =0.5882,mae
    test
    =0.5038,r
    2m(test)

    0.6230,δr
    2m(test)
    =0.1844,tsr=9.2230,mae
    95%test
    +3*sd
    95%test
    =1.1432,quality
    test
    =good
    [0113]
    如图3(c)所示,模型中最重要的描述符为cl-089、spmax2_bh(v)和gats8s,次要的描述符为spmaxa_b(s)、minaaac和j_d。loading图(图4(c))也显示出了相同的结果,即cl-089、spmax2_bh(v)和gats8s对模型的影响最大;其余三个描述符相对靠近原点而远离预测的效应终点,所以重要性次之。
    [0114]
    同样,该模型中描述符被分为两类。第一类描述符与致癌性呈正相关,包括cl-089和gats8s(图8(a))。例如,化合物59(2,3,7,8-四氯二苯并对二恶英)的cl-089值为4.0、化合物7(4-氨基联苯)的gats8s值为1.945,值越大其相应的致癌效力越强(ptd
    50
    分别为8.63和5.23);而化合物69(颜料红3)和化合物10(苯偶姻)中也可以体现,随着描述符值的降低致癌效力也降低了。另一组描述符与致癌性呈负相关,包括spmax2_bh(v)、spmaxa_b(s)、minaaac和j_d(图8(b))。例如,化合物7(4-氨基联苯)、化合物22(氯芬烷)、化合物21(2,2-双(4-氯苯基)-1,1-二氯乙烯)和化合物2(2-乙酰氨基芴)分别具有低spmax_bh(v)(3.671)、spmaxa_b(s)(0.464)、minaaac(0)和j_d(1.6116),反而显示出了高致癌效力。相反,这些描述符的值越高,相应的致癌效力越低,如化合物69(颜料红3)、化合物10(苯偶姻)、化合物51(n-苯基-2-萘胺)和化合物23(十溴二苯醚)所示。
    [0115]
    预测值与实验值的线性相关图和用于表征定义ad的williams图分别为图9(a)和9(b)。这里值得注意的是,在建立的mf致癌性模型中没有发现任何结构异常值和效应异常值。
    [0116]
    2.4.雄性小鼠(mm)qsar模型
    [0117]
    基于ostr划分获得的mm模型(n
    tr
    =36,n
    test
    =10)效果最好,如方程(4)所示,它可以解释67.53%的训练集方差(q
    2loo
    为50%),以及测试集的88.02%方差(r
    2ext
    )。基于mae的标准,模型的预测质量被评价为“好”。该模型中包含了七个描述符,分别为cic4、mats4s、gats7e、p_vsa_mr_7、b10[c-c]、vch-6和maxwhba。
    [0118]
    ptd
    50


    2.7777+0.7292cic4

    5.3604mats4s+1.5330gats7e+0.0085p_vsa_mr_7

    1.2361b10[c-c]+17.2964vch-6+1.1910maxwhba
    ꢀꢀꢀ
    (4)
    [0119]ntr
    =36,n
    test
    =10,r2=0.6753,q
    2loo
    =0.5000,r
    2ext
    =0.8802,q
    2f1
    =0.7952,q
    2f2
    =0.7860,q
    2f3
    =0.9486,ccc
    test
    =0.9133,rmse
    test
    =0.4002,mae
    test
    =0.3488,r
    2m(test)
    =0.6866,δr
    2m(test)
    =0.1437,tsr=9.2230,ma
    e95%test
    +3*sd
    95%test
    =0.8581,quality
    test
    =good
    [0120]
    根据vip分析(图3d),模型中最重要的描述符是maxwhba、p_vsa_mr_7和mats4s,次要的描述符是cic4、gats7e、vch-6和b10[cc]。loading图(图4d)也反映了变量的重要性,结果与vip分析一致。
    [0121]
    同样,将出现在mm模型中的描述符分为两类。第一类描述符是maxwhba、p_vsa_mr_7、vch-6、gats7e和cic4,其与致癌性呈正相关。如图10a所示,化合物56(鱼藤酮)是一种典型的线粒体呼吸链抑制剂,含有许多作为氢键受体的氧原子,对雄性小鼠具有较高的致癌性(ptd
    50
    =5.71);p_vsa_mr_7属于p_vsa-like描述符,与亲脂性特征有关,p_vsa_mr_7值高的化合物22(2,2-双(对氯苯基)-1,1,1-三氯乙烷)显示出很强的致癌性;同样,具有强致癌性的化合物21(2,2-双(4-氯苯基)-1,1-二氯乙烯)、化合物2(2-乙酰氨基芴)和化合物31
    (4-氨基-4'-氟联苯)分别具有较高的cic4、vch值-6和gats7e。另一类描述符是mats4s和b10[c-c],其与致癌性呈负相关(图10(b))。在具有高致癌效力的化合物中观察到其mats4s和b10[c-c]是值较低,例如化合物36(氯芬酸甲酯)和化合物31(4-氨基-4'-氟联苯)。
    [0122]
    从预测值与实验值的线性相关图(图9(c))和用于表征定义ad的williams图(图9(d))中可以直观的观察到,两个化合物被确定为异常值,其中一个是化合物56(鱼藤酮)属于结构异常值,另一个是化合物59(2,3,7,8-四氯二苯并对二恶英)属于效应异常值。这里值得注意的一点是,尽管56的h值(0.8268)大于警示h*(0.6667),但其预测残差非常小。
    [0123]
    2.5.大鼠(r)qsar模型
    [0124]
    基于ostr划分获得的r模型(n
    tr
    =40,n
    test
    =11)效果最好,如等式(5)所示,它可以解释62.77%的训练集方差(q
    2loo
    为60.23%),以及79.21%的测试集方差(r
    2ext
    )。基于mae标准,r模型的预测质量被评价为“好”。模型共有7个描述符,即shaach、sic1、j_d、mats5m、spmad_ea、sm03_ea(bo)和naroh。
    [0125]
    ptd
    50


    17.7427

    0.6262shaach+4.4089sic1

    4.6565j_d+3.7901mats5m+25.0407spmad_ea

    1.8307sm03_ea(bo)

    0.5179naroh
    ꢀꢀꢀ
    (5)
    [0126]ntr
    =40,n
    test
    =11,r2=0.6277,q
    2loo
    =0.6023,r
    2ext
    =0.7921,q
    2f1
    =0.7843,q
    2f2
    =0.7809,q
    2f3
    =0.8710,ccc
    test
    =0.8882,rmse
    test
    =0.6382,mae
    test
    =0.4930,r
    2m(test)
    =0.7121,δr
    2m(test)
    =0.0051,tsr=9.5990,mae
    95%test
    +3*sd
    95%test
    =1.5860,quality
    test
    =good
    [0127]
    根据vip分析(图3(e)),模型中最重要的描述符是shaach和mats5m,次要的描述符是j_d、sic1、naroh、sm03_ea(bo)和spmad_ea。如loading图(图4(e))所示,shaach和mats5m对大鼠致癌性的贡献最大,与vip分析相符。
    [0128]
    r模型中出现的描述符分为两类。第一类描述符与致癌性呈正相关,包括mats5m、sic1和spmad_ea。mats5m出现在r模型中并不奇怪,因为它也是rf模型中的关键变量。如图11(a)所示,化合物49(4,4'-氧双苯胺)(存在高mats5m值)、化合物58(杂菌素)(具有高sic4值)和化合物33(n-羟基-2-乙酰氨基芴)(存在高spmad_ea值)表现出了很强的致癌性。另一类描述符与致癌性呈负相关,包括shaach、j_d、naroh和sm03_ea(bo)。同样,shaach是rm模型中最重要的描述符(图7(b)),如图11(b)所示,这些描述符的较高值通常导致较弱的致癌效力,如化合物57(柳氮磺胺吡啶)(存在高shaach值)、化合物17(氯苄酸盐)(具有高j_d值)、化合物54(槲皮素)(存在四个芳香羟基)和化合物23(十溴二苯醚)(具有高sm03_ea(bo)值)。
    [0129]
    从预测值与实验值的线性相关图(图6(e))和用于表征定义ad的williams图(图6(f))可以直观的观察到,测试集中只有一个化合物64(颜料黄12)的h值大于警示h*,是结构异常值,但是它的预测残差很小,表明模型的预测是可靠性的。我们还发现一个效应异常值(化合物25),其预测标准化残差大于3。
    [0130]
    2.6.小鼠(m)qsar模型
    [0131]
    基于rnd划分获得的m模型(n
    tr
    =44,n
    test
    =11)效果最好,如式(6)所示,可以解释61.61%的训练集方差(q
    2loo
    为54.72%),以及71.02%的测试集方差(r
    2ext
    )。使用基于mae的标准,模型的预测质量被评估为“好”。建立的m模型包括八个描述符,即mats6、spmax8_bh(e)、p_vsa_logp_5、p_vsa_mr_7、spmaxa_ea(dm)、cats2d_07_pl、minaach和eta_dbeta。
    [0132]
    ptd
    50
    =3.9044+1.587mats6e

    1.1674spmax8_bh(e)+0.0192p_vsa_logp_5+0.0092p_vsa_mr_7

    8.423spmaxa_ea(dm)+0.3554cats2d_07_pl+1.2319minaach

    0.1702eta_dbeta
    ꢀꢀꢀ
    (6)
    [0133]ntr
    =44,n
    test
    =11,r2=0.6161,q
    2loo
    =0.5472,r
    2ext
    =0.7102,q
    2f1
    =0.6526,q
    2f2
    =0.6325,q
    2f3
    =0.8062,ccc
    test
    =0.8290,rmse
    test
    =0.7119,mae
    test
    =0.6404,r
    2m(test)
    =0.6015,δr
    2m(test)
    =0.1599,tsr=9.2230,mae
    95%test
    +3*sd
    95%test
    =1.5133,quality
    test
    =good
    [0134]
    如图3(f)所示,vip分数大于1.0的描述符被视为影响最大的描述符,其中包括p_vsa_mr_7、eta_dbeta和minach。相比之下,vip分数小于1.0的描述符被认为是影响较小的描述符,包括p_vsa_logp_5、mats6e、spmax8_bh(e)、spmaxa_ea(dm)和cats2d_07_pl。与loading(图4(f))结果一致。
    [0135]
    m模型中出现的描述符分为两类。第一类描述符与致癌性呈正相关,包括p_vsa_mr_7(也出现在mm模型中)、p_vsa_logp_5、cats2d_07_pl、minaach和mats6e。很明显,前三个描述符与亲脂性特征密切相关,亲脂性特征的化学物质更容易穿透细胞膜与dna或蛋白质发生反应,从而导致致癌性增加。例如,如图12(a)所示,化合物22(2,2-双(对氯苯基)-1,1,1-三氯乙烷)、化合物2(2-乙酰氨基芴)和化合物31(4-氨基-4'-氟联苯)具有较高的此类描述符值,因此具有很强的致癌效力。有趣的是,minaach作为与毒性呈正相关的描述符也出现在rm模型中,具有高minaach值的化合物21(2,2-双(4-氯苯基)-1,1-二氯乙烯)对小鼠表现出较高的致癌性。mats6e与电负性相关,对致癌性也有正向影响,如化合物7(4-氨基联苯)所示。第二类描述符与致癌性呈负相关(图12(b)),包括eta_dbeta、spmax8_bh(e)和spmaxa_ea(dm)。这些描述符的值越高,相应化合物的致癌性越低,如化合物51(n-苯基-2-萘胺)、化合物13(双酚a)和化合物10(苯偶姻)所示。
    [0136]
    从预测值与实验值的线性相关图(图9(e))和用于表征定义ad的williams图(图9(f))中,观察到没有发现任何结构异常值,只有一个化合物25被确定为效应异常值,因为其预测的标准化残差大于3。
    [0137]
    3、大鼠和小鼠pahs致癌性的iqccr模型
    [0138]
    本发明构建了两个种间定量致癌性-致癌性关系(iqccr)模型。
    [0139]
    3.1.大鼠-小鼠(r-m)iqccr建模
    [0140]
    用于预测pahs致癌性的大鼠-小鼠(r-m)iqccr模型(n
    tr
    =28,n
    test
    =9)如公式(7)所示,满足各种内部和外部验证参数,因此具有高度稳健性和外部预测性。r-m iqccr模型可以解释72.9%的训练集方差(q
    2loo
    为65.66%),以及74.46%的测试集方差(r
    2ext
    )。q
    2yscr
    和r
    2yscr
    具有低值表明在模型建立过程中没有任何偶然相关性。
    [0141]
    ptd
    50
    (rat)=0.3553+0.8987ptd
    50
    (mouse)
    ꢀꢀꢀ
    (7)
    [0142]ntr
    =28,n
    test
    =9,r2=0.7290,q
    2loo
    =0.6566,r
    2ext
    =0.7446,q
    2f1
    =0.7351,q
    2f2
    =0.7119,q
    2f3
    =0.8494,q
    2yscr
    =-0.1311,r
    2yscr
    =0.0365,ccc
    test
    =0.8305,
    [0143]
    rmse
    test
    =0.6500,mae
    test
    =0.5003,r
    2m(test)
    =0.6467,δr
    2m(test)
    =0.1602,tsr=8.7784,mae
    95%test
    +3*sd
    95%test
    =2.1217,quality
    test
    =moderate
    [0144]
    与qsar模型一样,本发明也基于mae的标准评估了iqccr模型的预测质量。r-m iqccr模型的预测质量被确定为“中等”,因为它满足以下条件:mae95%
    test
    (0.4237)《0.1
    ×
    tsr(0.8778);mae95%
    test
    +3
    ×
    sd95%
    test
    (2.1217)》0.2
    ×
    tsr(1.7556)。然而,使用“预测可靠性指标”工具对测试集中的每个化合物进行了预测评价,预测质量都被评为“好”。图13(a)可以看出,训练集和测试集化合物在趋势线周围均匀分布。williams图(图13(b))表明只有化合物59被确定为结构异常值,然而,其预测残差相对较低,也说明模型预测准确性高。
    [0145]
    3.2.小鼠-大鼠(m-r)iqccr建模
    [0146]
    用于预测pahs致癌性的小鼠-大鼠(m-r)iqccr模型(n
    tr
    =29,n
    test
    =8)如公式(8)所示,满足各种内部和外部验证指标,因此具有高度稳健性和外部预测性。m-r iqccr模型可以解释72.98%的训练集方差(q
    2loo
    为69.14%)以及79.9%的测试集方差(r
    2ext
    )。q
    2yscr
    和r
    2yscr
    具有低值表明在模型建立过程中没有任何偶然相关性。
    [0147]
    ptd
    50
    (mouse)=0.3426+0.8451ptd
    50
    (rat)
    ꢀꢀꢀ
    (8)
    [0148]ntr
    =29,n
    test
    =8,r2=0.7298,q
    2loo
    =0.6914,r
    2ext
    =0.7990,q
    2fi
    =0.7251,q
    2f2
    =0.7171,q
    2f3
    =0.9103,q
    2yscr
    =-0.1329,r
    2yscr
    =0.0355,ccc
    test
    =0.8815,rmse
    test
    =0.4899,mae
    test
    =0.4687,r
    2m(test)
    =0.6877,δr
    2m(test)
    =0.1737,tsr=8.4514,mae
    95%test
    +3*sd
    95%test
    =0.8209,quality
    test
    =good
    [0149]
    基于mae的标准,m-r iqccr模型的预测质量被评价为“好”,因为它满足以下条件:mae95%
    test
    (0.4351)《0.1
    ×
    tsr(0.8451);
    [0150]
    mae95%
    test
    +3
    ×
    sd95%
    test
    (0.8209)《0.2
    ×
    tsr(1.6903)。此外,所有测试集中的化合物使用“预测可靠性指标”工具进行预测评价,获得了“好”的预测质量。图13(c)可以看出,训练和测试化合物在趋势线周围的均匀分布。与r-m iqccr模型类似,williams图(图13(d))也表明只有化合物59被确定为结构异常值,但是,其预测残差非常低,表明模型预测的可靠性。
    [0151]
    3.4使用建立的qsar和iqccr模型填充数据空白
    [0152]
    本发明建立的qsar和iqccr模型的主要目的之一是在没有实验值的情况下可以预测pahs的致癌性以填补致癌性数据的空白。对于每个数据集,本发明还从cpdb中收集了真实外部集化合物(表1)并预测了相应的致癌性终点。如图14所示,insubria图显示六个qsar模型和两个iqccr模型对真实外部集化合物具有明显的预测覆盖率。rf、rm、mf、mm、r、m、r-m和m-r模型的预测覆盖率分别为84.5%、87.1%、87.1%、90.7%、93.5%、91.7%、100%和100%。此外,根据“预测可靠性指标”工具,将每个化合物的预测质量评价为“好”、“中等”或“差/不可靠”。根据表5中列出了预测结果,总体来看,大多数化合物为“良好”(》83.8%)或“良好和中等”(》90.8%)。rf模型里142个化合物中只有13个、rm模型中132种化合物中只有13个、mm模型中129种化合物中只有2个化合物被预测为“坏/不可靠”。
    [0153]
    表5建立的qsar和iqccr模型的真实外部集的预测质量
    [0154]
    [0155]
    本发明建立的模型严格根据oecd五项原则进行了qsar验证,表现出了良好的外部预测能力,并首次应用于没有实验值的真实外部集化合物的致癌性预测,表明本发明模型可以用于对新的或未经测试的pahs的致癌性进行预测,还可作为制定监管决策和危害评估的有用工具。

    技术特征:
    1.一种基于2d分子描述符预测多环芳烃的致癌性定量构效关系模型,为下述式(1)-式(6)中任一种:ptd
    50
    =4.8314+5.1819mats5m+7.2761mats6v-0.7063minsch3-0.0866natomp+3.3684nfg12ring
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (1)ptd
    50
    =9.7694

    3.3927j_d+0.0194atsc3s-0.5947gats5s-4.4007atsc4-0.8934shaach+1.6534minaach
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (2)ptd
    50
    =58.8706-3.4972j_d-9.3578spmaxa_b(s)+0.3697gats8s-12.5216spmax2_bh(v)+0.9240cl-089-1.7211minaaac
    ꢀꢀꢀꢀ
    (3)ptd
    50


    2.7777+0.7292cic4-5.3604mats4s+1.5330gats7e+0.0085p_vsa_mr_7-1.2361b10[c-c]+17.2964vch-6+1.1910maxwhba
    ꢀꢀꢀ
    (4)ptd
    50
    =-17.7427-0.6262shaach+4.4089sic1-4.6565j_d+3.7901mats5m+25.0407spmad_ea-1.8307sm03_ea(bo)-0.5179naroh
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (5)ptd
    50
    =3.9044+1.587mats6e-1.1674spmax8_bh(e)+0.0192p_vsa_logp_5+0.0092p_vsa_mr_7-8.423spmaxa_ea(dm)+0.3554cats2d_07_pl+1.2319minaach

    0.1702eta_dbeta(6)各式中,ptd
    50
    表示多环芳烃的致癌效力,其余参数表示多环芳烃的2d分子描述符。2.一种基于2d分子描述符预测多环芳烃的种间定量致癌性—致癌性关系模型,为下述式(7)-式(8)中任一种:ptd
    50
    (rat)=0.3553+0.8987ptd
    50
    (mouse)
    ꢀꢀꢀ
    (7)ptd
    50
    (mouse)=0.3426+0.8451ptd
    50
    (rat)
    ꢀꢀꢀꢀ
    (8)式中,ptd
    50
    (mouse)表示多环芳烃对小鼠的致癌效力,ptd
    50
    (rat)表示多环芳烃对大鼠的致癌效力。3.权利要求1所述致癌性定量构效关系模型或权利要求2所述种间定量致癌性—致癌性关系模型在预测多环芳烃致癌性中的应用。4.一种多环芳烃致癌性的预测方法,包括如下步骤:获取多环芳烃的2d分子描述符,根据权利要求1的致癌性定量构效关系模型或权利要求2的种间定量致癌性—致癌性关系模型,得到多环芳烃的致癌效力,即实现对多环芳烃的致癌性预测。5.根据权利要求4所述的预测方法,其特征在于:采用dragon和padel-descriptor软件获取多环芳烃的2d分子描述符。6.一种应用权利要求1所述致癌性qsar模型或权利要求2所述致癌性iqccr模型的多环芳烃致癌性预测装置。7.一种计算机设备,包括处理器和存储有计算机程序的存储器;所述处理器被配置成执行所述计算机程序以实现如权利要求4或5所述的多环芳烃致癌性的预测方法。8.一种计算机存储介质,其上存储有计算机程序,其特征在于:当所述计算机程序被处理器执行时实现如权利要求4或5所述的多环芳烃致癌性的预测方法。

    技术总结
    本发明公开了一种基于2D分子描述符的PAHs致癌性预测方法及预测模型。本发明根据OECD原则,基于简单的2D分子描述符,进行了化学计量学QSAR建模以预测PAHs对啮齿动物的致癌性。使用多个统计验证标准建立和验证了六个针对雌性大鼠、雄性大鼠、雌性小鼠、雄性小鼠以及大鼠和小鼠的PAHs致癌性的QSAR模型。机制分析清楚地表明了描述符与致癌性的相关性,不同模型中同时存在的一些描述符表明可能存在类似的作用机制。此外,本发明还建立了两个iQCCR模型,用于填充种间数据空白。本发明利用QSAR模型和iQCCR模型应用于数百种未经测试的PAHs的致癌性预测,对每个分子的预测质量进行了评估,可以根据PAHs的致癌效力筛选出优先级化合物,因此对于监管框架下的风险评估具有重要意义。义。


    技术研发人员:孙国辉 李非凡 陈硕 赵丽娇 钟儒刚
    受保护的技术使用者:北京工业大学
    技术研发日:2022.02.07
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-22941.html

    最新回复(0)