天津安防资质网

技术动态

深度学习技术的进展和未来四大趋势

发表时间:2021-08-05 10:36

    近年来,人工智能越来越多地出现在公众视野,成为各行业广泛讨论的热门话题。在《中华人民共和国国民经济和社会发展十四个五年规划和2035年远景目标纲要》提出的多项建议中,人工智能被列为其中优先发展的方向之一。机器学习是人工智能领域的核心技术之一,其目的是利用数据和经验来提升计算机程序在某种任务上的性能。当前机器学习中最引人注目的技术当属深度学习。深度学习是机器学习的一个分支,绝大多数深度学习模型都以人工神经网络为主体架构,通常被称为深度神经网络。由于深度神经网络在计算机视觉、自然语言处理以及语音识别等任务中通常扮演学习数据表征的角色,因此深度学习也常常被称为表征学习。随着算力的不断发展和数据的多样性,深度学习在安防、教育、零售、自动驾驶等诸多领域落地。
  一、深度学习在计算机视觉领域的新应用
  随着深度学习技术的不断发展和普及,各个行业都开始对其应用进行探索。在计算机视觉领域,目标检测、图像分类和分割是研究最为广泛的,学术界对这些算法不断创新更迭,性能已经逐渐接近甚至超越人类水平。更重要的是,这些算法已经在工业界得到了广泛应用,产生了实际价值。
  1、图像增强
  图像增强是指对低质量图像做变换修改,得到质量更高的图像。根据低质量图像的种类不同,图像增强应用可以包括图像去噪、图像超分辨率、图像去模糊以及亮度提升等。图像增强是计算机视觉领域的传统方向,在20世纪90年代已经成为研究热点。传统方法通常存在需要先验知识和涉及到复杂优化过程等问题。而深度学习为图像增强提供了一个全新的视角和思路,深度学习图像增强算法通常是基于“学习”的方案,即利用神经网络去构建低质量图像与高质量图像的潜在关系。另外也会利用对抗训练等技术来保证生成的高质量图像具备视觉和语义的一致性。基于深度学习的图像增强算法一般不需要复杂而又难以把握的经验知识,而是利用训练数据,依靠网络自身的拟合能力去自动学习。此外,这类算法往往采用重训练、轻部署的方案。
  2、图像修复
 
  图1 黑白图像上色
  如图1所示,近期一键修复老照片等App应用在社交网络上掀起一股潮流,追溯到文艺复兴时期,工匠们就开始修复一些中世纪的艺术品,这一工作就称之为“inpainting”。图像修复在文物保护、影视特技制作、虚拟现实等方面有着重大的应用价值,已是计算机图形学和计算机视觉中的一个研究热点。通过对神经网络的深度优化,在手机端就可以完成黑白老照片的上色、破损照片的修复,更有应用可以实现用单张图像生成一段动态视频的功能,令人叹为观止。
  图像修复通常需要达成视觉一致性和语义一致性两个重要目标。视觉一致性即修复的内容在视觉上必须和周围的内容保持一致、合理,不显得突兀。语义一致性则更近一层,除了在视觉上合理以外,修复的内容也必须符合人的知识认知。
  在技术层面,学术界为了达成这两个目标已经做了非常深入的研究和探讨。例如可以通过生产对抗网络来对图像的视觉一致性建模,其原理是使用一个生成器来生成图像,同时使用一个判别器来区分图像的“真假”,再利用生成器和判别器的对抗训练不断提升两者的精度,最终保证生成的图像在视觉上是真实的。此外,还有例如感知损失函数等技术来保证生成的图像在语义上是合理的,避免出现“指鹿为马”的情况。
  3、信息嵌入和提取
  扫描二维码已经成为日常生活中必不可少的一种认证方式,二维码为了对算法友好,其视觉特征是非常明显的。一种自然的想法是能否把信息在肉眼不可感知的情况下加入到图片中,这样的技术有较广泛的应用场景,比如作为图像的数字水印。
  水印作为版权保护的方式被广泛用于互联网图像,针对水印的各种处理显得越来越重要。传统的数字水印技术很难达到视觉无感知和准确恢复信息这两者的平衡,因此延伸出了很多深度学习的方案。例如UC Berkeley的研究者们通过一个端到端的深度神经网络,将一段二进制信息和一张图像进行融合,通过优化融合前后图像的一致性,保证了图像在加入信息后,视觉上感受不出任何变化。同时,利用恢复模块可以对加了信息的图像进行信息提取,信息恢复的准确性可以达到99%以上。
  4、防篡改
  如果我们在网上搜索ps、美颜等关键词,可以找到大量的图像编辑软件,这些软件使图像编辑变得非常简单。但图像编辑技术在带来便利的同时,也一定程度上造成了潜在危害,例如虚假广告和虚假新闻常常是滥用图像编辑技术的结果。深度学习技术不但可以生成图像,同时也可以区分图像是否被修改,这“矛”与“盾”的较量恰恰说明了深度学习巨大的应用潜力。Adobe公司早在2016年就开始利用深度学习技术研究虚假图片鉴定技术,该项研究通过利用模拟数据训练神经网络,可以较有效地发现剪切、复制等常见的图像编辑痕迹。此外,也有结合图像噪声分布等技术的方案来识别人工编辑的痕迹。其原理是真实图像的噪点分布存在一定规律,而编辑过程会破坏这种规律,利用神经网络学习其中数据分布的区别可以实现高效的图像编辑检测。
  5、防攻击
  深度学习虽然可以在绝大多数领域获得非常高的准确性,但仍然存在被攻击的可能。据报道,某学校学生在一次课外科学实验中发现,只要用一张打印照片就能代替真人刷脸,骗过小区里的智能柜。此外,学术圈对所谓的对抗样本也有多年的研究,只要在图片上增加肉眼不可见的噪声扰动就可以让高准确率的图像分类模型失效。此类事件的发生,反应了深度学习技术在被应用的同时也需要非常谨慎地考虑其安全性和稳定性。
 
  图2 图像识别
  如图2所示,熊猫图片增加噪声干扰,人眼仍然能够分出是熊猫,而模型识别成长臂猿(图片来源于论文Explaining and Harnessing Adversarial Examples)。在人脸识别产品中经常涉及到活体检测技术,其目的就是区分真人和假人(例如人脸的照片、视频等)。通过深度神经网络可以有效地预测照片中人脸的深度信息和纹理信息等,判断该人脸是否是真人。对于防对抗样本技术学术界也做了深入研究,例如在网络学习过程中增加各类对抗样本或使用正则化技术等来提升网络对于外界攻击的鲁棒性。
  二、深度学习技术的瓶颈
  深度学习虽然在工业界得到了广泛认可,但由于受到诸多因素的制约,深度学习要在更多行业落地,技术上还存在比较明显的瓶颈,其中数据、算力、不可解释性是比较重要的几个方面。
  1、数据
  众所周知,深度学习之所以能成功,最重要的一点是需要有大量有标签的数据,但这个前提往往很难达到。首先,数据的采集非常耗费资源,很多应用场景甚至难以采集到真实数据,并且数据的隐私和安全也越来越被关注。其次,采集到的数据通常还需要进行人工标注,需要大量的时间和人力成本。种种因素使得深度学习在“大数据“时代仍然面临数据匮乏的窘境。
  2、算力
  除了数据之外,深度学习最早在图像分类领域获得成功的另外一个重要因素是利用GPU训练深度神经网络,这一结果也直接促进了GPU硬件在今后几年的快速发展。同时,各种移动端、边缘侧的AI芯片也陆续被研发和使用。但对于企业而言,成本永远是需要考虑的重要因素,这也给深度学习部署到各类硬件上的性能提出了更高的要求。虽然研究者在技术层面给出了不同的解决方案,例如通过知识蒸馏、模型剪枝等算法来简化神经网络的复杂度,利用定点化来提升模型推理速度,但随着应用场景和算法功能越来越多,算力仍然是紧缺资源,需要芯片性能的持续提升。
  3、不可解释性
  经典机器学习算法通常有比较严格的理论支撑,在一定程度上保证了算法的准确性。深度学习与之不同,注重的是模型学习数据和标签的“关系”,而很少关注“关系”的物理含义。深度学习出来的模型通常很难解释它学到了什么,也少有扎实的理论可以证明它能学成什么样子,正如贝叶斯网络的创始人Pearl所指出的:“几乎所有的深度学习从突破性的本质上来说都只是曲线拟合罢了”。因此深度学习惯性地被大家认为是黑箱模型,模型训练的过程常被调侃为“炼丹术”。不可解释同样也意味着危险,事实上很多领域对深度学习模型应用的顾虑除了模型本身无法给出足够的信息之外,也有或多或少关于安全性和稳定性的考虑,例如上文提到把熊猫识别成长臂猿的例子。
  三、深度学习技术未来的发展方向
  虽然当前仍然存在一些问题亟待解决,但并不影响深度学习在更多行业的落地。本文总结了深度学习未来几个比较重要的发展方向。值得注意的是,这些方向在各自领域也有非常多的研究工作和应用实例,并非隶属于深度学习范畴,更多地是将这些技术和深度学习相结合。
  1、小样本学习
  人类擅长通过极少量的样本去识别一个新物体,这被视为人类智能的一种关键能力,比如小孩子只需要通过书中的插画就可以认识什么是“斑马”。在人类快速学习能力的启发下,研究者们希望模型在学习了一定量数据之后,对于新的类别,只需要少量的样本就能快速认知,通常也被称为“学习如何去学习”。这一类技术被视为能够解决深度学习需要大量标定样本才能达到预期效果的解决方案。事实上,小样本学习在学术圈已研究多年,也形成了基于元学习、度量学习等等诸多方案,未来必定会有小样本算法在工业界落地。
  2、迁移学习
  顾名思义,迁移学习是通过从已学习的相关任务中转移知识,获得并改进在新任务上的泛化能力。迁移学习对人类来说很常见,例如我们可能会发现学习弹奏电子琴有助于学习钢琴。迁移学习可以在一定程度上缓解深度学习对数据的依赖,提升深度学习算法对场景的适用性。实际上迁移学习已经在深度学习中有所应用,深度学习中的微调通常被认为是迁移学习的一种简单形式。近年来,越来越多的迁移学习技术被应用到深度学习中,使深度学习模型可以更好地训练来自不同领域的数据,从而提高模型在不同场景下的适应性。
  3、联邦学习
  现实中,绝大多数企业和研究机构都存在数据量少质差的问题,不足以支撑人工智能技术的实现。同时国内外监管机构也在加强数据和隐私保护,陆续出台相关政策。数据要在安全合法的前提下使用成为大势所趋。
  诸多因素导致了“数据孤岛”的出现,因此联邦学习应运而生。联邦学习可以在拥有本地数据的多个分布式设备之间训练算法,而无需交换数据样本。联邦学习能够充分利用参与方的数据和算力,共同构造鲁棒的机器学习模型而不需要共享数据。在数据监管越来越严格的大环境下,规避数据所有权、访问权、隐私以及异构数据的访问等关键问题。
  4、深度学习理论研究
  在2017年机器学习顶会NIPS的Test-of-Time Award颁奖典礼上,Ali Rahimi呼吁人们加深对深度学习内在本质的理解,“我希望生活在这样的一个世界,它的系统是建立在严谨可靠而且可证实的知识之上,而非炼金术”。在次年的国际机器学习会议 (ICML) 上,深度学习理论研究成为最大主题之一,研究者们对深度学习领域损失函数的理解、训练方法收敛性分析、算法泛化能力理论分析等因素进行了深入讨论和交流。可以看到,深度学习要真正被广泛、安全、稳定地应用,势必要有扎实的理论研究作为基础。
  (本文刊载于《中国安防》2021年第7期)


X 打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

客服

留言