计算机视觉的历史发展
计算机视觉是一门多学科交叉的科学,它的研究目标是让计算机能够模拟人类的视觉功能,理解和解析图像信息。计算机视觉的发展历程可以追溯到20世纪50年代,经过几十年的发展,现在已经成为了人工智能领域的一个重要分支。
1.20世纪50年代:生物视觉工作原理的研究
计算机视觉的研究始于20世纪50年代,当时的科学家们开始尝试理解动物的视觉系统。神经生理学家David
Hubel和Torsten
Wiesel通过猫的视觉实验,发现了视觉初级皮层神经元对于移动边缘***的敏感性,从而为视觉神经研究奠定了基础。此外,Russell和他的同学研制了一台可以把图片转化为被二进制机器所理解的灰度值的仪器,这是第一台数字图像扫描仪,处理数字图像成为可能。这一时期的研究主要集中在光学字符识别、工件表面分析、显微图片和航空图片的解释等。
2.20世纪60年代:三维视觉理解的研究
20世纪60年代,计算机视觉的研究重点转向了三维视觉理解。Lawrence
Roberts在《三维固体的机器感知》中描述了从二维图片中推导三维信息的过程,这是现代计算机视觉的前导之一。同年,贝尔实验室的Willard
S.Boyle和George
E.Smith研发出了电荷耦合器件(CCD),这种器件可以将光子转化为电脉冲,逐渐应用于工业相机传感器,标志着计算机视觉走上应用舞台。
3.20世纪70年代:课程和明确理论体系的出现
70年代中期,麻省理工学院(MIT)人工智能(AI)实验室CSAIL正式开设计算机视觉课程。David
Marr在MIT的AI实验室提出了计算机视觉理论,这是与Lawrence
Roberts当初引领的积木世界分析方法截然不同的理论。计算机视觉理论成为80年代计算机视觉重要理论框架,使计算机视觉有了明确的体系,促进了计算机视觉的发展。
4.20世纪80年代:独立学科形成,理论从实验室走向应用
1980年,日本计算机科学家Kunihiko
Fukushima建立了Neocognitron,这是一个自组织的简单和复杂细胞的人工网络,包括几个卷积层(通常是矩形的),他的感受野具有权重向量(称为滤波器)。Fukushima的Neocognitron被认为是第一个神经网络,是现代CNN网络中卷积层+池化层的最初范例及灵感来源。1989年,法国的Yann
LeCun将一种后向传播风格学习算法应用于Fukushima的卷积神经网络结构,并发布了LeNet5,这是第一个引入今天仍在CNN中使用的一些基本成分的现代网络。
5.20世纪90年代:特征对象识别开始成为重点
1997年,伯克利教授Jitendra
Malik发表了一篇论文,描述了他试图解决感性分组的问题。研究人员试图让机器使用图论算法将图像分割成合理的部分(自动确定图像上的哪些像素属于一起,并将物体与周围环境区分开来)。1999年,David
Lowe发表《基于局部尺度不变特征(SIFT特征)的物体识别》,标志着研究人员开始停止通过创建三维模型重建对象,而转向基于特征的对象识别。
6.21世纪初:图像特征工程,出现真正拥有标注的高质量数据集
2001年,Paul
Viola和Michael
Jones推出了第一个实时工作的人脸检测框架。虽然不是基于深度学习,但算法仍然具有深刻的学习风格,因为在处理图像时,通过一些特征可以帮助定位面部。2006年,第一台具有人脸监测功能的数码相机问世,它作为人脸检测的第一个应用到大众消费产品的高级视觉识别算法,并没有使用深度学习网络。
7.2010年之后:CNN大放异彩
随着深度学习的发展,尤其是卷积神经网络(CNN)的广泛应用,计算机视觉技术取得了显著的进步。CNN结构受到了生物视觉系统中神经元对简单形状结构反应的启发,能够有效地从图像中提取特征并进行分类和识别。这一时期的重大突破包括AlexNet网络在2012年赢得ImageNet比赛的冠军,这标志着深度学习在计算机视觉领域的广泛应用。
总的来说,计算机视觉的发展历程是一个不断吸收和借鉴生物学、数学、神经科学等多学科知识,并将其应用于解决实际问题的过程。随着技术的进步和应用场景的扩大,计算机视觉在未来将继续发挥重要作用。