指南:PaddleCV是一个开源的工业级CV工具和预训练模型集。提供基于百度实际产品的润色,可以极大方便CV研究人员和工程师的快速应用。用户可以使用PaddleCV快速实现图像分类、目标检测、图像分割、视频分类和动作定位、图像生成、度量学习、场景文本识别和关键点检测等8大类任务,并可直接使用百度开源工业-等级预训练模型可快速应用于工业、农业、医疗、零售、媒体、驾驶等领域。在大大降低研发成本的同时,用户还可以根据行业实践获得更好的应用效果。
一张图看懂PaddleCV!
PaddleCV全文解读
1.图像分类
图像分类是根据图像的语义信息来区分不同类型的图像。它是计算机视觉中一个重要的基础问题,也是其他高级视觉任务的基础指定数字随机组合生成器,如目标检测、图像分割、目标跟踪、行为分析和人脸识别等。领域有着广泛的应用。如:安防领域的人脸识别和智能视频分析、交通领域的交通场景识别、互联网领域的基于内容的图像检索和相册自动分类、医疗领域的图像识别等。
在深度学习时代,图像分类的准确率有了很大的提高。在图像分类任务中,我们介绍了如何在经典数据集ImageNet上训练常用模型,包括AlexNet、VGG、GoogLeNet、ResNet、Inception-v4、MobileNet、SE-ResNeXt、ShuffleNet等模型也开源了预训练模型供用户下载使用。
经典分类模型架构图:
AlexNet结构图
VGG系列结构图
GoogleNet结构图
ResNet系列结构图
Inception-v4结构图
MobileNet核心结构图
SE-ResNeXt系列核心结构图
ShuffleNet系列结构图
性能评估(ImageNet-2012 验证集上的 top-1/top-5 精度):
图像分类系列模型评估结果
门户网站:
2. 物体检测
目标检测任务的目标是给定一张图像或视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。对于人类来说,物体检测是一项非常简单的任务。然而,计算机能“看到”的是图像编码后的数字。图像或视频帧中出现的人物或物体等高级语义概念难以理解,定位目标在图像中出现的区域更是难上加难。. 同时,由于目标会出现在图像或视频帧的任何地方,目标的形状千变万化,与图像或视频帧的背景也有很大差异。许多因素使目标检测成为计算机面临的一个具有挑战性的问题。.
在目标检测任务中,经典模型有SSD、PyramidBox、Faster RCNN、MaskRCNN等。
SSD物体检测模型结构
Pyramidbox人脸检测模型
YOLOv3结构
Faster RCNN结构
Mask RCNN结构
绩效评估
门户网站:
3.图像语义分割
图像语义分割,顾名思义,就是根据表达的不同语义意义对图像像素进行分组/分割。图像语义是指对图像内容的理解。标记 中的每个像素,以及该标记属于哪个类别。近年来在无人驾驶技术中被用于街景分割,以避开行人和车辆,在医学图像分析中辅助诊断。分割任务主要分为实例分割和语义分割。实例分割是对象检测和语义分割的结合。上面介绍的MaskRCNN是实例分割的经典网络结构之一。在图像语义分割任务中,我们引入了兼顾精度和速度的ICNet,以及DeepLab v3+,
DeepLabv3+基本结构
ICNet网络结构
U-Net的基本结构
绩效评估
门户网站:
4.视频分类
视频分类是视频理解任务的基础。与图像分类不同,分类的对象不再是静止图像,而是由多帧图像组成的视频对象,包括语音数据、运动信息等。因此,理解Video需要获取更多的上下文信息,不仅要理解图像的每一帧是什么,包含什么,还要将不同的帧结合起来,才能知道上下文的关联信息。视频分类方法主要包括基于卷积神经网络、递归神经网络或两者结合的方法。
在视频分类任务中,我们介绍了视频分类方向的几个主流领先模型,其中Attention LSTM、Attention Cluster和NeXtVLAD是比较流行的特征序列模型,TSN和StNet是两个End-to-End视频分类模型。Attention LSTM 模型快速准确,NeXtVLAD 是 2nd-Youtube-8M 比赛中最好的单一模型,TSN 是基于 2D-CNN 的经典解决方案。Attention Cluster和StNet是百度自研模型,分别发表在CVPR2018和AAAI2019。它们是在 Kinetics600 比赛中首先使用的模型。
AttentionCluster模型结构
注意力LSTM模型结构
NeXtVLAD模型结构
StNet模型结构
TSN模型结构
绩效评估
基于Youtube-8M数据集的视频分类模型评估结果
基于Kinetics数据集的视频分类模型评估结果
基于ActivityNet的动作定位模型:
门户网站:
5.图像生成
图像生成是指根据输入向量生成目标图像。这里的输入向量可以是随机噪声,也可以是用户指定的条件向量。具体应用场景包括:手写体生成、人脸合成、风格迁移、图像复原、超分辨率重建等。目前的图像生成任务主要是借助生成对抗网络(GAN)来实现。生成对抗网络 (GAN) 由两个子网络组成:生成器和识别器。生成器的输入是随机噪声或条件向量,输出是目标图像。识别器是一种分类器,它将图像作为输入并输出图像是否为真实图像。在训练过程中,生成器和识别器通过不断的相互博弈来提高自己的能力。
在图像生成任务中,我们介绍了如何使用DCGAN和ConditioanlGAN生成手写数字,还介绍了CycleGAN进行风格迁移。
Pix2Pix生成网络结构图
条件GAN结构
DCGAN结构
CycleGAN结构
AttGAN的网络结构
StarGAN的生成网络结构[上]和判别网络结构[下]
STGAN的网络结构
门户网站:
6. 度量学习
度量学习也称为距离度量学习和相似性学习。通过学习物体之间的距离,度量学习可以用来分析物体的时间关联和比较关系。在实际问题中应用广泛,可应用于辅助分类、聚合,也广泛应用于图像检索、人脸识别等领域。以往,针对不同的任务,需要选择合适的特征,手动构建距离函数,而度量学习可以根据不同的任务,自动学习到针对特定任务的度量距离函数。度量学习与深度学习的结合在人脸识别/验证、行人重识别(human Re-ID)、图像检索等领域取得了良好的性能。在这个任务中,
门户网站:
7.场景文字识别
许多场景图像包含丰富的文字信息,文本信息对理解图像信息具有重要作用,可以极大地帮助人们识别和理解场景图像的内容。场景文字识别是在图像背景复杂、分辨率低、字体多样、分布随机的情况下,将图像信息转化为文本序列的过程。可以看作是一个特殊的翻译过程:将图像输入翻译成自然语言输出。场景图像文字识别技术的发展也促进了一些新应用的出现,比如通过自动识别路牌中的文字帮助街景应用获取更准确的地址信息。
在场景文字识别任务中,我们介绍了如何结合基于CNN的图像特征提取和基于RNN的序列翻译技术指定数字随机组合生成器,避免人工特征定义和字符分割,利用自动学习的图像特征完成字符识别。目前介绍了CRNN-CTC模型和基于attention的sequence-to-sequence模型。
CRNN-CTC模型结构
基于attention机制的sequence-to-sequence模型结构:
OCR模型评估结果
门户网站:
8.人体关键点检测
人体关键点检测,通过人体关键节点的组合和跟踪来识别人体运动和行为,对于描述人体姿态和预测人体行为非常重要。它是许多计算机视觉任务的基础,如动作分类、异常行为检测和自动驾驶等,也为游戏、视频等提供了新的交互方式。
在人体关键点检测任务中,我们引入了网络结构简单的coco2018关键点检测项目的亚军方案。
Simple Baselines for Human Pose Estimation in Fluid,coco2018关键点检测项目的亚军程序,没有花哨的技巧,只是在ResNet中插入几层反卷积,将低分辨率特征图扩展到原始图像大小,并生成预测关键点所需的热图。没有任何特征融合,网络结构非常简单,但是达到了state of the art的效果。
视频:演示:BrunoMars - 这就是我喜欢的 [官方视频]
门户网站:
历史PaddleCV文章传送门:
如果你想和更多的深度学习开发者交流,欢迎加入官方QQ群:796771754。