Skip to main content

2024级博士生张乐天的论文在ES&T刊出:跨尺度融合分子动力学—机器学习框架解锁PFAS固液分配预测新范式

发布日期:2026年03月04日  阅读:

   

第一作者:张乐天(2024级博士生)

通讯作者:梁婕教授

论文DOI10.1021/acs.est.5c07998

图文摘要

                         


本研究创新性提出Phys-ML Sorp跨尺度框架,融合分子动力学(MD)模拟与机器学习(ML),量化离子环境下PFAS微观动态特征,实现固液分配系数(logKd)高精度可解释预测,为PFAS污染防控提供新范式。

全文速览

本研究创新性构建Phys-ML Sorp跨尺度融合框架,将分子动力学(MD)微观模拟与机器学习(ML)深度结合,首次量化离子环境对PFAS分子行为的动态影响,实现PFAS固液分配系数(logKd)的高精度可解释预测,为新污染物环境归趋解析与风险管控提供核心技术支撑。

图文导读

全氟和多氟烷基物质(PFAS)作为全球典型持久性新型污染物,其在土壤/沉积物-水界面的固液分配行为直接决定环境迁移转化规律与生态风险。准确预测固液分配系数(logKd)是PFAS环境风险评估的核心,但现有模型多依赖静态宏观参数,忽略实际水化学环境(如离子强度、pH)对PFAS分子构象、界面作用的动态调控,导致预测精度不足、机理解释模糊,难以支撑复杂场景下的污染防控。 

 

1. 研究工作流示意图,总结了数据收集、分子动力学(MD)模拟、特征融合与机器学习模型构建的全流程。

为破解上述难题,本研究旨在:(1)系统整理涵盖35PFAS499组观测数据的固液分配数据集,聚焦纯水与CaCl₂体系以明确离子环境变量;(2)通过分子动力学(MD)模拟提取PFAS微观动态特征,创新引入有效活度系数(logγ)量化离子环境对分子行为的影响;(3)融合微观特征与传统宏观参数,构建堆叠集成机器学习模型,实现logKd的高精度预测;(4)借助SHAP分析揭示关键调控因子与作用机制,打通微观分子行为与宏观分配归趋的关联,为PFAS污染防控提供可解释的理论依据。

   

2. PFAS 固液分配系数(logKd)多尺度机器学习模型的预测性能评估。(a) 最优单一基础模型 LightGBM 预测 PFAS logKd 的性能表现;(b) 堆叠集成模型的预测结果。

如图2所示,作者构建的“5个基础模型+RidgeCV元学习器”堆叠集成模型展现出优异预测能力:测试集R20.8829RMSE=0.32RPD=2.92。与仅依赖宏观特征的模型相比,该框架使RPD提升14.62%RMSE降低13.52%,直接证实MD衍生的微观动态特征对提升模型精度的关键作用,突破了传统模型仅依赖静态参数的局限。

3.分子动力学视角下本征结构与离子环境对 PFAS 微观行为的调控机制。(a, b) PFAS 碳链长度与 (a) 回转半径(Rg)及 (b) 溶剂可及表面积(SASA)的线性关系;(c) 随离子强度(Ca2浓度)升高,有效活度系数(logγ)降低,表明热力学稳定性下降;(d) 随离子强度升高,PFAS 与水形成的平均氢键数量减少;(e, f) 随离子强度升高,PFAS 的 (e) 回转半径(Rg)与 (f) 溶剂可及表面积(SASA)均减小。

如图3所示,MD模拟首次揭示分子结构与离子环境对PFAS行为的双重调控规律:碳链长度与微观特征呈线性正相关,随-CF₂基团增加,PFAS回转半径(Rg)和溶剂可及表面积(SASA)显著增大,疏水作用增强,推动分子向固相分配;高离子强度下,Ca2通过电荷屏蔽效应减少PFAS分子间静电排斥,使RgSASA降低,同时减少PFAS-水氢键数量、降低logγ(热力学稳定性下降),触发“盐析效应”,进一步促进PFAS在固相的吸附。

 

4. PFAS 固液分配系数(logKd)与关键微观结构参数的定量关联。(a) logKd 与溶剂可及表面积(SASA)呈现更强的正线性关系(y=1.07x−4.40,R2=0.7197);(b) logKd 与回转半径(Rg)呈现显著正线性关系(y=13.55x−4.09,R2=0.7010)。图例列出了数据集中包含的 35PFAS 分子。

如图4所示,研究首次建立MD衍生微观特征与logKd的强线性关联:logKdSASA的相关系数R2=0.7197,与RgR2=0.7010。这一发现直接证实,SASA作为分子疏水区域暴露程度的直接表征,是驱动PFAS固液分配的核心微观因子,为宏观分配行为提供了明确的原子级解释,弥补了传统静态描述无法揭示动态机制的缺陷。

 

5.  基于 SHAP 分析的模型可解释性研究。(a) 基于平均绝对 SHAP 值排序的特征重要性,反映各特征对模型预测结果的整体影响程度;(b) SHAP 汇总图,展示各特征影响的分布与方向,点的颜色代表特征原始值(红色为高值,蓝色为低值);(c)-(h) SHAP 依赖图,分别展示 6 个核心影响特征(分子量 MW、溶剂可及表面积 SASA、辛醇 - 水分配系数 log Kow、有机碳含量 Corg、回转半径 RgpH)的取值(x 轴)与对 logKd 预测的边际贡献(y 轴,SHAP 值)之间的关系。

如图5所示,SHAP分析揭示了logKd预测的核心驱动因子层级:(1)分子量(MW0.32)、溶剂可及表面积(SASA0.28)、辛醇-水分配系数(logKow0.23)为Top3主导因子,证实PFAS固有结构与疏水性是分配行为的核心决定因素;(2)MD衍生特征贡献显著:有效活度系数(logγ0.08)、回转半径(Rg0.07)分别位列第57位,其中logγ通过整合Rg量化非理想溶液效应,提供了宏观特征无法捕捉的分子动态响应信息;(3)非线性作用机制清晰:RglogKd呈倒V型影响(存在最优分子尺寸,过大易受空间位阻限制),pHV型影响(中性条件下PFAS与土壤表面静电排斥最强,logKd最低)。

小结

基于以上结论和分析结果,本研究得到如下三条核心启示:

(1)跨尺度融合是提升环境污染物机器学习预测从“黑箱”到“机制驱动”的关键路径:分子动力学(MD)模拟捕捉的微观动态特征(如RgSASAlogγ),为机器学习模型注入物理意义,实现“微观分子行为-宏观分配归趋”的定量衔接。

(2)PFAS精准防控需聚焦核心影响因子:针对长链PFAS及高离子强度污染区域,应优先采取靶向管控措施,同时可基于微观机制设计高效吸附材料,提升新污染物去除效率。

(3)该框架为持久性污染物建模提供通用范式:可推广至PAHsPCBs等其他疏水有机污染物,为复杂环境下污染物归趋预测与风险评估提供全新技术工具。


关闭