对新型环境污染物(POPs/PBTs)的识别对危险化学品管控、治理环境污染、以及保护人体健康具有极为重要的意义。但对工业化学品库中潜在的新型环境污染物进行快速准确的筛查鉴定一直是一个难题。由于新型环境污染物在工业化学品库中的比例相对较小,采用传统实验室鉴定方法周期长、价格昂贵、并且效率低下。运用定量-构效原理对已知化学品结构特征进行量化描述,通过建立理论预测模型,对未知化合物进行快速评估,是突破化学品快速识别难题的一个出路。但传统定量-构效模型需要对海量分子特征描述符进行人为筛选,并且训练样本数量有限,极大的限制了该类模型的泛用性及预测准确度。
环境学院孙翔飞博士、曾永平教授及其合作者等基于深度神经网络原理,开发出全新的环境有机污染物快速识别模型。将2424个分子描述符组成的二维平面构象作为输入,使用11296个化合物组成的训练数据集对模型进行监督学习训练。使该模型在测试数据集上的整体预测精度达到了95.3%,对阳性样本的预测精度超过了80%。由于不需要预先对分子描述符进行人为筛选,该方法最大程度的保留了化学品的原始结构特征,使得新模型在泛用性上有显著改善。使用交叉验证对模型的泛用性进行测试,可以观察到模型在不同类型化学品中的表现都非常稳定,甚至对有机金属盐和离子型化合物都具有广泛的适用性。在欧盟REACH PBT评估清单测试中。新模型成功识别出了清单上全部12种已具有实验室鉴定结论的POPs/PBTs(共计52种化合物),整体识别精度达到了90.4%预测。
新模型对各国现有的工业化学品数据库共计58079种化合物进行了测试,共检测出了4011种高度疑似的有机环境污染物,其中包含大量的芳香族化合物(2601种)、含卤有机物(3115)、以及843种多氟或全氟有机物。除此之外,模型还检测出了94种硅氧类化合物、96种磺酸类化合物、74种羟酸类化合物、以及少量的脂肪族类有机物。鉴于新模型在预测新型POPs/PBTs类化合物的有效性,这些新发现的化合物值得进一步的鉴定和研究,为扩充已有的POPs/PBTs清单,完善危险化学品管控名录,具有及其重要的环境学意义。
相关成果近期发表在Environmental Science and Technology上,本研究受到国家自然科学基金项目(No.21637001)资助。
Sun, X.; Zhang, X.; Muir, D. C. G.; Zeng, E. Y., Identification of Potential PBT/POP-Like Chemicals by a Deep Learning Approach Based on 2D Structural Features. Environ. Sci. Technol. 2020, 54 (13), 8221-8231.
论文链接:https://pubs.acs.org/doi/10.1021/acs.est.0c01437