自然场景下多目标苹果识别定位融合算法研究

曹春卿,张吴平,李富忠,韩冀皖,余廷熙,刘 帅

(山西农业大学软件学院,山西 晋中 030801)

中国苹果种植广泛,同时也是世界贸易量较大的水果[1]。中国劳动力资源短缺,苹果在人工采摘收获时费时、费力且效率不高[2],需要智能农业设备进行采摘作业;视觉定位系统在苹果采摘机器设备的整体系统上是必不可少的一部分[3],是农业机械未来发展的必然趋势[4,5]。在研究采摘设备的识别定位系统时,尤其要考虑到自然条件下光照反射和表面阴影的影响,还有对果实的晃动要保持良好的时效性,因此,实时精准识别和三维定位是采摘机器人走向广泛应用需解决的问题之一[6,7]。

有关苹果采摘机器设备在识别方面的研究,起初是通过颜色和形状来提取目标苹果。Jiang 等[8]为了对苹果图像进行有效的识别分割,采用RGB 色差法结合自适应阈值分割算法从图像中分割出苹果。Gongal 等[9]在 HSI(Hue saturation and intensity)颜色空间中将图像进行直方图均衡化处理,结合圆形Hough 变换和Blob 分析出图像中的苹果。这类方式大多是针对某些特定图像进行研究,识别效率尚可[10],但是在复杂的自然场景识别中,苹果采摘机器设备面临更加艰巨的识别任务,识别效率和精度要求更高。在含有阴影的情况下,司永胜等[11]为提高识别精度,将归一化的红绿色差法和匹配策略有效结合,从结果来看能够较好地减少苹果表面阴影对苹果目标的定位影响。宋怀波等[12]利用模糊矩阵处理含阴影的图像,运用函数进行模糊化处理,有效地提高了苹果表面阴影的处理水平,达到了去除表面阴影的效果,提高了提取精度。自然条件下识别中也会出现目标物体相互重叠遮挡的情况。徐越等[13]为解决此问题,利用角点检测算法寻找重叠苹果的真实分割点,将分割点连线来实现重叠苹果的分割。吕继东等[14]运用R-G 颜色特征的动态阈值分割方法找出苹果的具体轮廓位置,但是在实际运用中,由于光线因素,在逆光环境下容易造成丢失目标的结果。为解决光环境的影响,引入了深度识别算法。赵德安等[15]在提高苹果识别方面运用YOLOv3 深度卷积神经网络进行苹果识别的方法,通过对比YOLOv3 与RCNN 算法的检测结果,比较分析算法差异,得出YOLOv3 算法的优势并取得了较高的准确率。

SSD(Single shot multi box detector)目标检测算法[16,17]和 YOLO(You only look once)[18,19]算法逐渐在农业上得到应用,其中YOLO 算法原理是将物体检测的问题处理成回归问题,也称one-stage 目标检测,是运用卷积神经网络结构对输入图像进行bounding box 预测和类别概率的算法。

在有效识别的同时,加上定位技术有利于获取目标物体的空间坐标。在定位方面,李振雨等[20]运用图像处理技术识别定位苹果,对像素角的差值进行平滑处理,再对曲率集中的峰值点进行坐标标定,从而转化为抓取坐标点。刘兆祥等[21]也设计了相关设备,通过多个传感设备和PC 机组成了三维视觉传感器,运用目标物体对激光的反射差异进行苹果识别,结合三角测量原理实现果实的定位。高智伟等[22]通过快速鲁棒特征(Speeded up robust features)算法结合Grabcut 算法提取出目标,利用模板匹配求取目标物体中心的三维坐标。

目前针对智能机器采摘苹果的目标识别和三维空间定位研究多数只适用于某些特定情况。本研究将YOLOv3 算法与双目视觉技术融合,在多种自然场景下开展苹果识别定位研究。收集相关数据集,以识别定位为例,用YOLOv3 神经网络方法来实现对目标苹果的识别;在不同自然情形下通过YOLOv3 网络模型提高检测识别速度和精度,再辅以双目视觉系统进行三维空间定位,以期实现对苹果的准确识别和三维空间定位,为后续研究提供理论依据和技术参考。

1 精准识别和三维定位方法通过YOLOv3 算法对多种自然场景下样本进行训练,构建识别模型,利用双目视觉获取2 幅2 560×960 的苹果RGB 图像,运用YOLOv3 模型得到图像目标苹果的二维坐标,再利用双目视觉视差原理得到深度坐标信息,以实现对目标苹果的三维空间定位。其流程如图1 所示。

图1 系统流程

1.1 YOLOv3 网络结构YOLOv3 网络用于分类任务,网络中采用Resnet的残差结构,使用Darknet53 的卷积网络,运用多尺度的特征来检测物体,加快了检测速率,并且提高了相应的检测准确率。本试验考虑到内存成本以及实时性问题,故采用YOLOv3 对目标苹果进行检测。

在YOLOv3 中,首先将图片统一设置,运用主干网络中的卷积层[23],通过调节卷积步长来控制输出特征图的尺寸大小,在进行b-box 预测试时,为找到目标存在最高的可能性,运用Logistic regression 找到映射关系建模分析。

试验通过将图片直接输入到特征提取网络中,利用CNN 来提取,从而将整张图片中的目标回归操作检测,以便提升检测速度。在Darknet53 架构中,对原有层数加深,模型在学习特征时不断与之前学习的特征相融合,增强对特征图的认知效果,提高了训练模型的精度。因此,YOLOv3 是相对成熟且性能较好的模型。

1.2 损失函数及评价指标在YOLOv3模型中,损失函数由3部分组成,分别是目标定位损失、置信度损失和目标分类损失[24]。其中,目标定位损失函数由均方差计算,置信度损失与目标分类损失由交叉熵计算,见式(1)。

式中,λn和λc为损失函数的权重值;xi、yi、wi、hi为预测检测框的坐标值表示真实检测框的坐标值;B为预测框数量;C为分类值表示第i个单元格中第j个检测框对目标物的检测表示第i个单元格中第j个检测框对目标物未进行的检测。

对于其中包含的二分类问题,样本分为4 类:在式(2)中,将正样本正确预测为正样本量表示为TP(True positive),正样本错误预测为负样本量表示为FN(False negative),将负样本正确预测为负样本量表示为TN(True negative),负样本错误预测为正样本量表示为FP(False positive)。APi为苹果单类的精度。关于网络性能的评价指标,本研究选取准确率(Accuracy)、平均准确率(mAP)等指标作为模型检测效果评价标准。其中Precision 表示某一种类预测目标正确占总真实标签个数的比例;Recall 表示预测目标正确的数量占目标预测总数的比例;AP是由精确率(Precision)和召回率(Recall)构成的Precision-Recall 曲线与x、y轴所围成的面积计算得到。计算公式如下。

1.3 标定算法本研究运用张正友标定法获取目标物体的深度位置信息,利用刚体变换将世界坐标转换到相机坐标[25]。如图 2 所示。

图2 坐标变换

像素坐标和世界坐标下的坐标变换映射关系如式(4)所示。

其中,u、v为像素坐标系中的坐标,s为尺度因子,fx、fy、u0、v0、γ为 5 个相机内参[26]。

相较于空间中的点P,在世界坐标系下的坐标为Pw,将其映射在左右相机坐标下的坐标为:

其中Pr和Pl有如下的关系:

综合上式,可以推得:

左摄像头经过标定后获得标定物的旋转矩阵Rl和平移向量Tl,同理得到右摄像头的Rr和Tr[27]。

通过左右相机标定后得到RlTl、RrTr,随后带入式(7)中,就可以计算出左右相机之间的旋转矩阵R和平移T。

1.4 苹果三维空间定位本研究采用2 个内部参数相同的摄像头,根据三角形相似关系建立一个空间坐标点P(X,Y,Z),通过成像图像,分别确立左右2 个点为PL=(uL,vL)和PR=(uR,vR),其中,两摄像头的光心距离为b,焦距设置为f,其坐标几何模型如图3 所示。

图3 双目相机定位几何模型

式(8)中,XR、XL的单位均是物理单位,将图像坐标转换到像素坐标,在横轴x和纵轴y上物理尺寸的像素可表示为:

uR、uL分别为PL、PR距离各自像平面左边缘的像素距离。fx是通过相机标定的内参值。定义视差d=uL-uR,所以有:

通过像素坐标下点的坐标求算空间中某点的三维坐标,利用视差原理,由式(10)可计算出苹果中心点的深度值及三维空间坐标,其中Z坐标值即为测量苹果的深度。

2 系统结构2.1 双目视觉搭建采用双目摄像头作为双目视觉搭建的试验设备,其由 6 cm 基线 USB3.0 双目相机(HNY-CV-003B)进行拍照获取图像,计算机操作系统采用Win10,图像处理软件采用OpenCV3.1。

2.2 双目相机标定在识别图像时,为避免出现图像畸变问题,首先进行双目相机的标定,利用25 mm×25 mm 的棋盘格对相机进行标定,以便获取双目摄像头的所需相关参数。将双目摄像头固定在合适的位置进行双目相机标定,在摄像头可照见的范围内平移、旋转棋盘格标定板,采集20 组不同方位的棋盘格双目左右图像,其中重要的是标定板版面一定要平整。依次对20 组标定4 个边界角点,对存在的定位偏差修改畸变系数,得到相应的数字矩阵,完成单目定标后再对另一目定标,得到双目摄像头的属性参数,并进行立体标定,结果如图4 所示。

图4 双目相机立体标定

2.3 数据集采集与处理本研究所构建的数据集经数据增强后增强了模型的泛化能力,提高了模型的识别准确率。最终共用到3 017 张图片,每张图片包括的苹果数量及环境不等。在采集过程中拍摄角度和拍摄光线会有不同,为避免数据尺寸和环境差异造成的影响,在训练模型前对图像进行裁剪筛选,图像采集的存储格式为jpg,再使用LabelImg 图像标注工具对采集到的图像进行标注,获取与图片对应的xml文件。

本研究中训练平台的主要配置为Win10 环境,处理器为 Intel(R)Core(TM)i7-10700K,主频 3.80 GHz,显卡NVIDIA Quadro P4000。

3 试验过程与结果分析3.1 目标识别结果分析采用VOC20007 格式对数据进行读取,整理好图像数据以及标注好的xml 文件;将图片输入大小设置为 416 px×416 px;在 YOLOv3 测试中,使用 Visual Studio Code 编译器搭建深度学习的训练环境。在试验中,利用随机梯度下降(SGD)来优化训练模型的训练方法,参数设置迭代次数epoch 为40,加速动量值为0.9,权重衰减系数为0.000 5。学习率分为两阶段来进行训练,为了防止一开始学习率下降速度过快,将Ir 设为1e-3,再冻结一部分训练Ir 设为1e-4。通过冻结训练可以加快训练速度,也可以在训练初期防止权值被破坏。从结果来看mAP为96.60%,通过识别出的边界框左上点和右下点的坐标,可以计算出识别框中心点的像素坐标。

为验证模型的稳定性,首先对果树模拟情景进行识别检验,搭建模拟环境,识别目标在9~14 个,变换识别情景进行识别,检验是否能够有效识别,并且验证算法在实际采摘情况下的可行性,通过对果树实地拍摄进行识别试验,并在室外环境下测试光强以及阴影遮挡下的识别效率。

双目相机识别结果见图5。图5A 中,苹果智能采摘设备在光照不均、有大量叶片遮挡和阴影的情况下,均可识别出目标苹果。图5C 中,清晨叶片和果实上挂有露水,容易形成反射,苹果智能采摘设备在有遮挡的情况下,均能良好地识别出目标苹果的数量。图5B 和图5D 都存在光照不强且有遮挡的情况,其中图5B 体现的是傍晚时苹果智能采摘设备对苹果的识别效果,此时光的反射率较高,识别效果较好;图5D 体现的是夜间苹果智能采摘设备对苹果的识别效果,此时光的反射率不高且有大量叶片遮挡,视觉系统没有提取出有效的信息,出现了识别不出的情况。图5E 和图5F 中苹果智能采摘设备在实地采摘场景中均能识别出目标苹果,且识别效果良好。

从苹果智能采摘设备在多种自然场景下的识别结果(图5)可以看出,其识别率较高,对于遮挡方面的识别也能表现出较好的效果,只有在光照严重不足、有遮挡时,有少量苹果未被识别,总体的识别精度能够达到采摘机器人的识别精度需求。

图5 双目相机识别结果

3.2 双目相机标定分析采用张正友标定法得到双目相机参数矩阵、畸变系数,经双目立体标定得到旋转向量rec和平移向量T,如表1 所示。利用相关参数再对双目相机进行畸变校正和立体校正,图6 为双目相机标定结果的重投影误差分析。

图6 双目相机重投影误差分析

表1 双目相机标定结果

获取到识别目标物体的中心点像素坐标后,结合深度信息,提取物体的三维空间坐标信息,通过在不同自然场景下识别定位研究得到目标苹果坐标,同人工实测值进行数据对比分析,结果见图7。由图7 可知,在光照强但是不均匀,果实上存在阴影和遮挡的情况下,最小相对误差为0.193%,最大相对误差为3.670%;露水在苹果表面形成反射,并且果实存在遮挡、有阴影的情况下,最小相对误差为0.176%,最大相对误差为4.205%;在光照不强、阴影小、存在遮挡时,最小相对误差为0.168%,最大相对误差为3.776%;在夜晚光照不足、有遮挡的情况下,最小相对误差为0.831%,最大相对误差为4.417%。其中只有夜晚光照不足、有遮挡时,平均识别精度相对较小,但在误差允许范围内,可满足采摘机器人的识别精度需求。

图7 距离测量误差分析

4 小结与讨论精确识别目标物体和三维坐标是苹果智能采摘设备的重要前提。目前的研究多数集中于特定情况下的采摘,在苹果采摘实践中存在多种复杂的自然场景,由于光线因素,在逆光环境下会造成目标丢失、难以广泛用于实际采摘的情况。本研究融合YOLOv3 和双目视觉算法,分析了多种自然场景下苹果的精准识别和三维定位,着重研究了目标物体的深度信息识别定位和目标苹果的识别提取,构建了一种基于YOLOv3 算法的识别检测模式,完成了苹果的深度空间定位。

此试验模拟苹果的采摘情形,在苹果智能采摘设备上搭载双目立体视觉系统,构建融合YOLOv3算法和双目视觉技术,通过YOLOv3 算法对多种自然场景下样本进行训练,构建识别模型,利用双目视觉获取苹果图像,采用YOLOv3 模型得到图像目标苹果的二维坐标,再利用双目视觉视差原理得到深度坐标信息,来实现对目标苹果的三维空间定位。结果表明,YOLOv3 的mAP 达96.60%,不同自然环境下的识别率较高,具有较高的识别精度;并在不同环境下进行深度距离测试,采取距离调节测试距离信息的准确度,求得不同自然场景下的最小相对误差和最大相对误差,结果表明试验效果可满足苹果采摘机器人采摘作业的识别定位精度需求,为抓取平台提供可靠的定位信息。

本文的研究方法可类推于其他目标物体的采摘识别定位,试验中涉及自然光强度的变化以及光照照射下苹果表面出现反光,还有表面有露水等因素的影响,识别定位准确率良好。在后续的研究中应考虑夜晚对深度识别定位的影响,提高采摘图像的深度识别定位精度。同时,未来应增加和优化数据集,增加苹果种类及成熟度的识别及各种复杂环境下的图像数据采集分类,进而优化识别精度,完善最终的识别定位系统模型。

Copyright © 2088 影月电竞大师赛 - 赛事与排位攻略 All Rights Reserved.
友情链接