基于机器学习的污水处理厂出水水质评价参数及分类模型
第一作者:Ling Chen
通讯作者:Bing Wu
DOI: https://doi.org/10.1016/j.watres.2024.122696
内容速览
文字摘要
随着对新兴污染物和污水处理厂(WWTP)出水中生物毒性风险认识的增加,基于一般化学参数的传统水质管理已无法应对新的挑战。在此背景下,一项研究收集了中国176个市政污水处理厂出水的第一手数据集,该数据集包含9个常规参数、22种金属和无机离子、25个生物毒性参数以及54种新兴污染物。为了确定一个新的评价参数体系,研究人员应用了四种聚类算法和五种分类算法建立了65个性能良好的模型。通过半监督机器学习选择了14个参数,包括总氮(TN)、总磷(TP)、铵态氮(NH4+-N)、亚硝酸盐氮(NO2--N)、硒(Se)、硫酸盐(SO42-)、线虫体宽(Caenorhabditis elegans body width)、72小时鱼胚胎孵化率(72 hpf zebrafish embryo hatching rate)、四环素(tetracycline)、对乙酰氨基酚(acetaminophen)、吉非贝齐(gemfibrozil, Lopid)、全氟丁酸(PFBA)、全氟己酸(PFHxA)和HFPO-DA。这些参数被用来构建一个健康的出水质量指数模型(HEQi)。HEQi的应用效率与中国其他常见方法进行了比较,如水质指数(WQI)、模糊综合评价(FSE)和技术为序优选法(TOPSIS),用于分类176个出水样本。结果表明,在新的评价标准下,中国北方和东北地区的主要任务仍然是减少常规参数,特别是亚硝酸盐氮(NO2--N)。然而,在中国中部和东部的部分地区,则需要加强对生物毒性和新兴污染物的去除。这项研究提供了改进水质评估和确保废水安全排放的新方法工具和科学见解。
图片摘要
Highlights
- 通过机器学习开发了出水水质评价参数体系。
- 对全国176个污水处理厂出水的110个参数数据进行了测量。
- 在31个场景中训练四种聚类算法以获得最优场景。
- 五种分类算法在13种最优场景中训练了65个表现良好的模型。
- 基于参数体系,提出了水质分类方法。
Keywords:
Municipal wastewater;Machine learning;Parameter screening;Water quality classification model;Biotoxicity
研究背景
大多数国家通常使用化学需氧量 (COD)、总氮 (TN) 和磷 (TP) 浓度等参数来评估流出物质量管理。这些参数也是各种水质分类方法/模型的基础,包括水质指数 (WQI)、模糊综合评价 (FSE) 和与理想解相似度排序技术 (TOPSIS)。由于 WQI 易于执行,已被全球各国政府广泛认可。这些全面的化学参数在指导总有机污染物减排方面发挥了重要作用。然而,越来越多的研究发现,它们无法有效表征出水中残留浓度较低的有害化合物,从而对受纳水体产生不利影响。面对这些挑战,科学家和当局越来越多地达成共识,认为当前的流出物质量管理方法需要修改,以获得更连贯、更面向未来的方法。
该研究基于中国各地污水处理厂水质参数的第一手数据集,利用半监督机器学习开发了一种新型水质评价参数系统。然后,基于新参数系统构建了健康污水质量指数 ( *HEQi* ) 模型。通过将该模型应用于 176 种污水,该研究揭示了中国城市污水处理厂的水质状况,并为区级污水管理提供了政策启示。该研究将为污水质量评估提供有价值的方法工具,并为污水安全排放提供指导。
主要方法
数据采集、数据预处理
作者共收集了 176 个污水处理厂出水,并在实验室中对所有样品测量了 110 个水质参数。这些污水处理厂分布在中国 28 个省市。这 110 个参数分为五类:常规参数(CP)、金属和无机离子(MIIs)、毒性参数(TOXs)、全氟和多氟烷基物质 (PFASs) 以及药品和个人护理产品/内分泌干扰化学物质 (PPCPs/EDCs)(表 S1)。
使用原始数据集之前,先使用 Python 中的 NumPy 和 Pandas 库检测缺失值并将其替换为其他污水处理厂的平均值(Budka 等,2010)。然后,将数据集拆分成一系列子集。由于很难确定哪种组合可以达到目标,因此共探索了 31 个实验场景以确定最优方案,31 个实验场景使用了不同的子集,包括单一类别和不同类别的组合(表 S2)。使用 Python 中 sklearn 库中的 StandardScaler() 函数将数据集标准化到 0/1 区间。随后使用 Python 中的 sklearn 库进行主成分分析(PCA)以降低数据维数、消除噪音并丢弃不重要的特征。
参数选择
聚类算法及性能评估:由于原始数据集中缺乏水质分类信息,监督分类算法无法直接用于训练。因此,该研究采用了半监督策略。首先,通过四种经典聚类算法对数据集进行训练,在 31 个实验场景中获得水质分类标签,包括 K-Means、高斯混合模型 (GMM)、层次结构聚类 (BIRCH) 和 MeanShift。
分类模型及性能评估:为了减少算法类型对参数选择结果的影响,采用了五种不同的算法:XGBoost、CatBoost、LightGBM、RF 和分类回归树 (CART)。
健康出水水质指数模型构建
基于所选参数开发了HEQi模型。首先,为了使这些参数能够在统一的尺度上进行比较,进行了标准化处理。每个参数的标准化因子是根据其水质标准、先前的研究、地表水中的检测水平、预测的无效应浓度以及作者数据集的统计特性(参见补充信息M4部分)来设定的。对于那些数值越高表示水质越差的参数,被定义为负向参数;而正向参数则正好相反。随后使用公式(1)和(2)将水质参数的实测值转换为无量纲值。为了研究HEQi的应用效果,采用了三种常见方法(WQI、FSE、TOPSIS)对176个污水处理厂的水质进行了分类。
研究结果
数据集概述
在数据清理过程中,作者发现污水处理厂出水中共有 5 个缺失值。用所有样品的平均值替换这些缺失值后,共获得 110 个参数的 19,360 条有效记录。这些参数分为五类:CP、MII、TOX、PFAS 和 PPCP/EDC(表 S1)。110 个出水水质参数的概率密度图显示,大多数 CP、MII、PFAS 和 PPCP/EDC 参数呈右偏分布(图 S1)。这是因为这些参数在理论上具有零下限但没有上限限制。一些 TOX 参数呈正态分布,而其他参数则集中在特定范围内。
水质参数初步筛选
为了获得水质标签,希望通过遍历不同的参数组合和算法来确定最佳聚类方案。使用 K-Means、GMM、BIRCH 和 MeanShift 训练了总共 31 个实验场景(表 S2),为 176 种流出物产生了 124 个独特的聚类模型。通过同时考虑轮廓系数和二维散点图,从所有场景和算法中选出了对每个参数类别聚类最有效的前3个方案(图1)。
使用了五种分类算法进行训练:XGBoost、CatBoost、LightGBM、随机森林(RF)和分类与回归树(CART)。总共获得了65个水质分类模型。所有模型的准确率、召回率、精确率和F1得分均超过了90%或0.9,表明性能良好。然后,识别出每个分类模型中特征重要性排名前三的参数,并统计它们出现的频率以确定重要的参数(见图1g)。
图1.多种实验情景下水质参数的初步筛选。使用K-Means、GMM、BIRCH和MeanShift算法在以下情景下的轮廓系数:(a)与CPs类别相关的情景;(b)与MIIs类别相关的情景;(c)与TOXs类别相关的情景;(d)与PFASs类别相关的情景;(e)与PPCPs/EDCs类别相关的情景。不同的字母组合表示由相应类别组成的子集。例如,CT代表CPs+TOXs情景。CMP代表CPs+MIIs-PPCPs/EDCs情景。CPF代表与CPs+PPCPs/EDCs+PFASs情景相结合的子集。CMF代表CPs+MIIs+PFASs情景。CTMP代表CPs+TOXs+MIIs+PPCPs/EDCs情景。CM代表CPs+MIIs情景。 (f)最佳聚类方案的二维散点图。聚类算法和实验场景用黑色字体标记。(g)分类模型中特征重要性排名前3的参数计数
评价参数组的优化
将上述包含20个重要参数的新子集用4种聚类算法进行聚类,并与原数据集的结果进行比较。基于K-Means和GMM算法的新子集的轮廓系数变化不大,表明聚类性能没有下降。此外,基于BIRCH和MeanShift算法的新子集的轮廓系数与原数据集相比分别提高了25%和14%,表明聚类性能有所提高。 初步筛选出的新参数子集能够有效地表征水质信息。因此,将这20个重要参数确定为水质分类模型的候选评价参数(图2)。
图2 .评价参数组的确定。(a)从初始阶段到初筛结束silhouette系数的变化情况。(b)删除特定参数后silhouette系数的变化情况。“-()”表示删除的参数。例如-(survial-0.5,72hatching-0.5)表示删除survial-0.5和72hatching-0.5。(c) CatBoost、LightGBM、XGBoost、RF模型中14个评价参数的特征重要性。(d) 14个评价参数的重要性占比。
HEQi模型的构建与解释
HEQi模型是基于评价参数组,采用加权综合指数的方法构建的。该模型的执行过程如下:首先,根据属性相似性将评价参数组分为四部分,以计算有机污染子指数、生物毒性子指数、离子污染子指数和新兴污染物子指数。随后,四个子指数被汇总形成综合HEQi。参数和类别的权重是通过相邻指标比较法确定的,并由机器学习模型特征重要性指导。然后,应用HEQi模型对176个出水样本的水质进行了评估。结果显示,分别有3、38、68、55和12个出水样本被分类为1级到5级。
图3.(a) 每个水质等级组中总磷(TP)、铵态氮(NH4+-N)、对乙酰氨基酚、线虫体宽和72小时孵化率-0.5的平均值。(b) 每个水质等级组中总氮(TN)、亚硝酸盐氮(NO2--N)、硫酸根离子(SO42-)、全氟丁酸(PFBA)、吉非贝齐(Lopid)、硒(Se)、全氟己酸(PFHxA)、四环素(tetracycline)和HFPO-DA的平均值。
HEQi模型的应用效率
为了探讨HEQi模型的应用效率,该研究将其与另外三种常用方法(WQI、FSE和TOPSIS)在评估176个出水样本的水质方面进行了比较。结果显示,基于FSEi和TOPSISi的方法将大多数出水样本分类为4级或5级(图4)。同样地,WQI将大多数出水样本归类为较高水质等级,其中93个(占52.8%)出水样本被分为4级。总体而言,相较于其他方法,基于HEQi的分类显示出最为均衡的分布(图4),并且能够更精细地区分出水样本的水质状况。
图4 . HEQi模型应用效果分析。(a) *HEQi、WQI、FSEi*和*TOPSISi*方法评估的176个出水水质等级分布。(b) *HEQi、WQI、FSEi*和*TOPSISi*方法划分的水质等级变化。可视化结果通过彩色圆圈显示各区域的样本数量,圆圈越大代表样本越多。此外,特定分类方法下的水质等级用彩色矩形表示。矩形上方的黑色文字表示等级和每个等级的样本数量。(c)*WQI、FSEi*和*TOPSISi*方法下误估出水各参数平均值与所有出水平均值之比。水质误估与*HEQi*有关。
来源:Environmodel
免责声明:
文章、图片来源于网络,本文仅供分享不作商业用途,其版权属原作者所有,若您对本网站转发的内容有任何异议或涉及版权问题,请联系通知我们以迅速采取适当措施处理。
最近新闻
-
2025-04-02
-
2025-03-31
-
2025-03-28
-
2025-03-26
-
2025-03-24
-
2025-03-21
-
2025-03-19
-
2025-03-17
-
2025-03-14
-
2025-03-12