竞赛地址:https://www.kaggle.com/c/pku-autonomous-driving
这个竞赛是要求训练一个模型,用这个模型对一张二维图片中的汽车进行三维坐标分析,说白了就是通过一张图片判断出汽车的角度、车头的朝向位置之类的信息,这其实是非常困难的,因为用二维图像预测三维坐标需要用的几何的知识,事实上我在阅读高分作品代码的时候也发现了自己对于几何方面知识的不足,但是本着宁做错也不交白卷的原则,而且这次竞赛给出的图片数据也很多(训练和测试用的图片加起来一共有六千多张),于是我决定趁此机会就学习一下人工智能中的物体检测技术;
在学习物体检测之前需要的前置知识大致有卷积、池化和残差网络,这三种技术都可以提升检测到目标物体的概率,卷积与池化这两个可以放在一起说,这两项技术的作用就是将一张大图片中的重要信息提取出来,大致过程如下图所示
14x14表示有14x14个像素,3表示RGB三种颜色,从图片的变化来看,每张图片的像素变少了,但是层数增加了,最后从400变成了4是因为最后加了一层全连接层,至于到底为什么这么做能使图像训练效率变高,至今也没有一个准确的定义,大致的思路就是在图像中的一些大数字代表了某种含义(这里用的池化层是最大池化层),将这些大数字保留下来,过滤掉小数字,就可以过滤掉一些图片中不重要的信息,从而减少训练量(卷积+池化可以有效的减少算力成本);至于残差网络,是用来防止梯度爆炸和梯度消失问题的,在训练的时候会因为层数的增加导致在梯度下降的时候产生梯度消失(与x轴水平)或梯度爆炸(与y轴水平)的问题,为了解决这个问题,何凯明、张翔宇、任少卿和孙剑这四位大佬设计出了残差网络,残差网络说白了就是为激活值提供一条小路,将前面的激活值带到后面层中,这样就解决了梯度爆炸和梯度消失的问题(从训练结果来看也确实是有效的);这些前置知识在本例中只需要掌握大概原理就行了,并不需要自己动手从头写一个,卷积、池化、全连接和残差网络这几项技术都是需要许多的数学与算法基础的,并非明白原理就能直接写出
讲完前置知识就要开始讲物体检测技术了,物体检测包含了物体定位与图像分类,图像分类后面再讲,物体定位大致分为三种,第一种是关键点检测法,第二种是滑动窗口检测法,第三种就是YOLO用的我称之为网格检测法;第一种关键点检测法可以有效检测一个人的面部、身体的姿态,这种检测方法典型的案例就是美颜相机,但也可用于人体位置的检测;第二种滑动窗口检测法,这种检测法即使使用了卷积+池化后所需要的算力依旧很高,并且因为窗口大小的原因,检测准确度不高,所以不推荐;第三种YOLO检测法是将一张完整的图片分割成一个网状图片,并对每一个网格中的图片进行探测,入下图所示
图中的三个不同的网格尺寸并非是不可更改的,网格的密度越大,所能检测到的图片中细小物体的概率也就越高,而且因为yolo(you only look once)的特点就是只需要将整张图片一次性输入网络中就可以了,不像滑动窗口检测法那样每滑动一次窗口就需要重新输入一次,而且由于滑动窗口的大小的原因,滑动窗口检测法本身的精度也不是很高,而从上图中可以看到,yolo对于目标物体探测的精度会随着网格密度的增高而增高,也不会存在像滑动窗口那样因为步长过大而滑过了目标物体从而导致探测不到的情况;
而我这次用的是yolov3,yolov3用的是一个全卷积神经网络---- Darknet-53,这个网络和之前说的略有不同,这个网络使用卷积层代替了池化层,这么做的目的是因为池化层(这里指的是最大池化)会将图片中的低层级信息丢弃,这会导致低层级特征的损失,而darknet-53的全卷积设计有效的规避了最大池化的缺点;在yolo中还有几个问题,那就是在预测中物体有可能被重复探测到,并且如果多个物体出现在同一个位置,那么很有可能会丢弃掉部分物体,如下图所示
汽车和狗都被重复探测到了,而自行车则完全没有被探测到,H号框则完全探测错误了,为了解决这些问题,yolo引入了非最大值抑制(Non-Maximum Suppression,NMS)和anchor box(其实就是自定义的种类框),简单来说非最大值抑制技术会将两个或多个交并比(ioU)过大的框选择一个概率值最大的将其留下,剩下的则丢弃,并且还会将概率值不足0.5(这个值可以自己设置)的框丢弃,这行就能解决一个物体被重复探测到和像上图中H号框那样完全错误的情况,狗与自行车重叠的情况则需要用到anchor box,anchor box其实就是在制作数据的阶段定义了很多的不同大小的框,这些框有自己的详细尺寸信息,并且还有类别信息,比如汽车框和狗框,这两个就是完全不一样的,yolo之所以优秀是因为早在yolov2版本时期就已经能探测出九千种物体了(论文中称之为yolo9000);在本次使用的yolov3中在最后的图像分类时使用的并不是yolov2的softmax,网上能找到的分析文章有些差异,有的讲是用sigmoid替代了softmax,有的讲是用logistic替代了softmax,这里的sigmoid存疑,就算使用sigmoid也应该换成relu或者leaky relu,因为relu各方面都优于sigmoid(具体使用的是什么还需要我阅读源码后再确定),不过肯定的是yolov3已经放弃了softmax,因为softmax的分类全都是并列关系,没有包含关系,例如在softmax中“人”“男人”“女人”这三个类只能返回其中一个,而事实上“人”这个类是包含了“男人”“女人”这两个类的,总而言之yolov3已经放弃了softmax;
其实并不需要自己实现一个yolo,GitHub上可以直接找到已经写好了的,很多人刚开始学的时候都想全都自己实现一遍,但是站在巨人的肩膀上才能看的更远,所以yolov3我是直接从GitHub上下载了一个保证能完美运行的,并且也已经将模型训练好了,即便如此还是需要自己加上anchor box,然后还要自己实现一个非最大值抑制,代码如下:
scores[2]= tf.Tensor(12.552861, shape=(), dtype=float32)
boxes[2]= tf.Tensor([ 3.8289614 0.14167517 -0.03989506 -3.3593693 ], shape=(4,), dtype=float32)
classes[2]= tf.Tensor(46, shape=(), dtype=int64)
scores.shape= (500,)
boxes.shape= (500, 4)
classes.shape= (500,)
scores[2]= tf.Tensor(8.208248, shape=(), dtype=float32)
boxes[2]= tf.Tensor([ 5.8494906 -0.32543743 0.8039762 -3.6349177 ], shape=(4,), dtype=float32)
classes[2]= tf.Tensor(-5.3616023, shape=(), dtype=float32)
scores.shape= (20,)
boxes.shape= (20, 4)
classes.shape= (20,)
scores[2]= tf.Tensor(183.36862, shape=(), dtype=float32)
boxes[2]= tf.Tensor([-0.9321569 1.2601769 -0.5666194 -1.3579395], shape=(4,), dtype=float32)
classes[2]= tf.Tensor(23, shape=(), dtype=int64)
scores.shape= (20,)
boxes.shape= (20, 4)
classes.shape= (20,)
__________________________________________________________________________________________________
Layer (type) Output Shape Param # Connected to
============================================================
input (InputLayer) [(None, 416, 416, 3) 0
__________________________________________________________________________________________________
yolo_darknet (Functional) [(None, None, None, 40620640 input[0][0]
__________________________________________________________________________________________________
yolo_conv_0 (Functional) (None, 13, 13, 512) 11024384 yolo_darknet[0][2]
__________________________________________________________________________________________________
yolo_conv_1 (Functional) (None, 26, 26, 256) 2957312 yolo_conv_0[0][0]
yolo_darknet[0][1]
__________________________________________________________________________________________________
yolo_conv_2 (Functional) (None, 52, 52, 128) 741376 yolo_conv_1[0][0]
yolo_darknet[0][0]
__________________________________________________________________________________________________
yolo_output_0 (Functional) (None, None, None, 3 4984063 yolo_conv_0[0][0]
__________________________________________________________________________________________________
yolo_output_1 (Functional) (None, None, None, 3 1312511 yolo_conv_1[0][0]
__________________________________________________________________________________________________
yolo_output_2 (Functional) (None, None, None, 3 361471 yolo_conv_2[0][0]
============================================================
Total params: 62,001,757
Trainable params: 61,949,149
Non-trainable params: 52,608
__________________________________________________________________________________________________
[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!
最后于 2022-3-3 15:41
被pureGavin编辑
,原因: 更新内容