1研究背景及目的
蘑菇作为药物和食品对人类有多种益处。在栽培过程中,由于空气湿度高,温度高,蘑菇的菌丝会被各种致病的霉菌和害虫污染。这些病原体会抑制菌丝体生长并降低产量。常规的分子检测方法,例如聚合酶链反应(PCR)和定量PCR(qPCR)技术,对于霉菌检测最为可靠。尽管这些微生物方法可以有效地检测霉菌,但它们耗时,耗人且成本高。因此,它们不适用于快速大量检测蘑菇农场塑料袋菌丝中的霉菌污染。现有的已经开发了几种非破坏性技术来快速检测蘑菇菌丝中的霉菌污染,这些方法仅适用于将堆肥装在托盘的情况下的培养,因为传感器必须与可行的介质接触。关于这些生成物的自动生成物分类尚未发表任何工作。在这里,我们开发了一种检测受污染的菌丝袋的方法。我们评估了特征提取,特征预处理和机器学习方法,并建立了可在自动化系统中采用的无损受污染产卵检测模型。
2材料与方法
2.1菌棒分类
在将菌丝袋送入生殖阶段之前,农民通常将孵化的菌丝袋分为三类-A类,B类和C类。此分类基于菌丝体的污染和生长质量。对于A类,菌丝袋中的菌丝体占基质的90%以上,没有病原性害虫和污染物。在适当的温度和湿度下种植时,此类菌丝在大约3-4个月内产生子实体,转化率达到30-40%。B类菌丝体的生长长度不到布袋长度的90%,并且是不连续的。菌丝只能进行几次冲洗,子实体生长具体取决于菌丝生长时间的长短。C类菌丝被害虫和霉菌污染,这会阻止菌丝体分解底物和菌丝生长。对于收集的样本,有四种受污染的菌丝类型:C-1,C-2,C-3和C-4。需要识别并丢弃C类菌丝袋,以防止害虫或病害扩散。图1显示了A类,B类和四种C类生成的样本。
2.2ROI提取
图2显示了这项工作的流程图。第一步,从捕获的图像中提取感兴趣区域(ROI)。将捕获的图像从RGB转换为灰度,应用模糊功能以减少噪声,然后使用Canny高通滤镜检测生成的边缘。对边缘进行了形态学转换,以消除不想要的边缘以及由于膨胀和腐蚀而造成的狭窄缝隙。检测生成物的轮廓以将生成物与背景分离。图3显示了在这些步骤中提取的ROI的示例。
2.3特征提取
直方图已广泛用于图像分类。在本研究中,使用三元颜色直方图作为检查菌丝生长和菌丝中霉菌的功能。传统上,根据菌丝袋表面的颜色变化,通过人工检查对菌丝进行分类。A类菌丝具有相似的颜色分布,主要是菌丝覆盖木屑的颜色。B类菌丝包括两部分:菌丝体覆盖木屑和深色棕色木屑。根据污染物的类型,C级菌丝的颜色分布会有所不同。在所有类型中,污染物的位置都是不确定的。此处选择一个三元颜色直方图作为特征,其中元素是三维矢量,代表RGB空间中的位置。三个空间中的每一个都有32个级别,从而创建了32,个直方图。
2.4预处理技术
由于每个提取的三元颜色直方图都是高维特征,因此将该特征直接应用于机器学习方法将包括一些不相关的属性和有偏差的信息。随着无关属性的比例增加,几何距离将变得越来越无意义。特征缩放和相关性分析在预处理步骤中减少了不相关的特征成分的数量,从而减少了处理时间。特征缩放可转换数据,以使其在每个维度上都有一个标准偏差。通常应用缩放,因为许多分类器基于两点之间的距离来分离数据。缩放导致每个维度的贡献相似,并允许梯度下降在神经网络中收敛得更快。主成分分析(PCA)用于减少特征。PCA是原始数据到新的不相关的低维空间的线性正交变换,保留了最大的数据方差。PCA用于消除不相关的信息,同时保留重要的信息。对于选定数量的组件N,只有具有最高方差比的N个组件用于模型训练。
2.5分类器
机器学习方法已成为多种农业应用的强大工具,例如杂草检测,产量预测,水果分级和疾病检测。我们评估了五种菌丝分类方法:SVM,NCC,KNN和DNN以及决策树方法。我们还调查了表1中列出的这些分类器的参数的影响。模型验证和参数优化使用了Python的Scikit-Learn模块。
在比较所有方法的总体性能之前,首先要选择参数。对于SVM,我们评估了四个核函数的分类性能:线性函数,三次多项式函数,径向基函数(RBF)和S形函数。对于NCC,用于计算每个类别的质心的距离是欧几里得距离和曼哈顿距离。对于KNN,评估了邻居的不同奇数k∈(1,…,49)的性能。对于DNN,通过梯度下降算法调整神经元的权重。使用了隐藏层的数量(2或3)以及2到64个神经元的神经元数量。所研究的激活函数为线性,S形,双曲正切(tanh)和整流线性单位(ReLU)。对于决策树,研究了来自不同树深度的分类,以避免过度拟合和拟合不足的问题。
3结果
3.1数据采集
来自泰国素攀武里的菌丝图像(14.?E,99.?N),是使用网络摄像头在光控盒中收集的。表2中显示了79个具有相应类别的样本生成物。
3.2预处理和分类器平菇
在使用PCA进行降维后,计算了不同数量组件的解释方差。图4中显示了不同数量的主成分的变化率。PCA将特征的尺寸从32,减少到了17,同时保留了99.5%的变化信息。
由于样本数量有限,使用4倍交叉验证对上一节中讨论的机器学习方法的生成分类性能进行了评估。随机将数据混洗并分成四组,将测试组旋转四次,即对于每个观察,唯一的组是测试数据集,其余三组用作训练数据集。75%的数据用于训练,其余25%的数据用于测试模型。四个观察结果使用交叉验证来衡量每种方法的模型技能得分的平均值。
分类性能指标包括:准确度(A),精确度(P),召回率(R),F1得分(F1)和Kappa值(k),详见等式定义(1)–(5)。由于数据集不平衡,因此计算了混淆矩阵以分析所选模型的分类。精确度和召回率衡量了分类模型仅识别相关数据点并在数据集中查找所有相关案例的能力。较高的精度表示较低的误报率,而较高的召回率则表示较低的误报率。F1分数是精确度和召回率的综合量度。高F1分数表示稳健的分类模型。Kappa值度量了po的注释者间协议,该协议评估了观察到的协议比率和pe,即预期协议。kappa值很高,表明模型具有一致性。我们最初的目的是将样本分为A,B和C类。使用C类样本的特征表示,我们发现,根据类型将C类分为四个类别时分类更为有效检测污染物。在比较五种机器学习方法的整体性能之前,研究了每种方法的最佳参数以优化性能。
TP是阳性;TN是阴性;FN是假阴性;FP是假阳性。
对于SVM分类器,线性核在准确性,精确度,查全率,F1分数和kappa值方面均优于其他核。SVM的性能如图5所示。水平轴代表不同类型的内核,垂直轴代表不同指标的性能。
对于线性核来说,kappa值为0.81,多项式为0.38,RBF为0.72,S型函数为0.68。对于NCC,研究的距离度量参数是欧几里得和曼哈顿。欧几里得距离度量的表现稍好于曼哈顿,且剩余方差更高。图6示出了使用具有不同距离度量的NCC的分类结果。
对于KNN,图7中显示了不同数量的邻居k的分类结果。我们发现,增加k倾向于降低准确性,精确度,F1得分和菌丝分类的召回率。对于k=1的KNN,获得了最佳性能。
对于DNN,在四个激活功能中,ReLU功能具有最佳性能。我们将其归因于在ReLU函数中,线性斜率对于大输入量不会饱和,并且在S形和双曲正切函数中没有消失的梯度问题。选择Softmax激活功能用于输出层,因为它在多类分类中表现良好。三个隐藏层和每个层中的64个节点的组合比其他组合的性能更好。随着隐藏层数和节点数的增加,性能和协议也得到了改善。但是,网络复杂性的增加导致预测时间更长,并导致过拟合。表3显示,对于所有指标,使用不带PCA的特征缩放的DNN分类器明显优于具有PCA的特征缩放。
图8显示了具有不同最大深度的决策树分类。增加最大深度可以将性能提高到5倍,直到达到饱和为止。较高的深度可能会导致过度拟合。预处理有助于为决策树选择判别维度。
在获得所有方法的最佳参数后,我们比较了整体性能并选择了一种方法来创建实用模型。总体结果如表4所示。具有缩放功能且不具有PCA的DNN具有最佳的性能和一致性,但花费的时间明显更长,但10ms的时间仍然可以接受。尽管PCA减少了所有方法的处理时间,但保留特征的所有尺寸对于DNN方法的效果更好。使用混淆矩阵分析DNN错误。从这四个观察结果中,图9中显示了性能最低的混淆矩阵,即它包含错误分类。B类的生成物被错误分类为A类。对于这种情况,B类生成物实际上沿其菌丝体生长约80%的袋子。因此,它具有与A类相似的颜色直方图。但是,菌丝生长达80%的菌丝仍可导致在结果期多次冲洗的产量。所选算法的总体性能如图10所示。kappa值为0.93,证明了该模型的稳健性。
通过我们的算法有效地识别袋子中受污染的菌丝,该算法首先提取ROI,创建一个三元颜色直方图作为特征,然后在预处理步骤中缩放特征,并使用结合了三个隐藏层的DNN分类模型有64个节点。使用4倍交叉验证,这产生了一个高性能模型。从四个模型中,三个模型完美地生成了正确的类。在剩下的模型中,最低精度为95%,混淆矩阵显示错误分类将所有受污染的生成物标识为C类,从而有效地将它们拒绝。
为了使产菌丝分类系统适应实际应用,将需要具有计算机视觉单元的嵌入式系统。该系统应包含一个带有气动执行器的输送机,一个红外接近传感器,一个装在遮光盒中的照相机以及一个用于图像处理的微控制器。我们的DNN创建的模型需要上传到微控制器。红外接近传感器用于检测进入避光箱的菌丝袋并触发相机捕获图像。然后,通过模型对捕获的图像进行分析和分类。当被污染的菌种或菌丝生长不完全的菌种被检测为B类或C类袋子时,微控制器会向气动执行器发出信号,拒绝接收袋子。
4结论
我们的结果展示了机器学习方法在蘑菇菌丝分类中的潜力。三变量颜色直方图用作特征,并对用五种机器学习方法进行了评估。PCA技术减少了特征尺寸并缩短了预测时间。但是,特征尺寸的提取会降低DNN的性能。特征缩放消除了所有方法的误导尺寸并改善了分类。具有特征缩放功能的DNN在所有分类器中均具有最佳的性能和稳健性,并显示出对将塑料袋中的菌丝分类的潜力。使用我们的方法的模型可以完美地识别出所有受污染的菌丝。如果可以获得更多平衡数据,则可以进一步提高模型的性能。该方法可以扩展为包括其他农场中可能出现的其他类型的污染物。将来,我们将使用在Rak-HedFarm创建的模型来实现嵌入式视觉系统。
Reference:TongchamP,SupaP,PornwongthongP,etal.Mushroomspawnqualityclassificationwithmachinelearning[J].ComputersandElectronicsinAgriculture,,:.本期编辑:刘静
往期回顾:
[团队介绍]农业自动化团队
赵春江院士、罗锡文院士做客央视《对话》|农业现代化阔步走来(上)
赵春江院士、罗锡文院士做客央视《对话》|农业现代化阔步走来(下)
信息中心与全国农业技术推广服务中心签署战略合作协议
农业农村部农业信息软硬件产品质量检测重点实验室
[农业管理平台进展07]FarmNXT:使耕种变的更容易和有利可图
团队再获两项“北京市新技术新产品(服务)”认定
国际工程科技战略高端论坛农业传感器暨年智能农业国际学术会议通知
“风达人”:专为农户设计的智能放风机
“多多农园”:把大数据搬进大山里,把论文写在大地上
MannaIrrigation:基于遥感的大田灌溉决策支持系统
GreenWater-AA
绿水智慧农业