自动化学报

姓名
邮箱
手机号码
标题
留言内容
验证码

2014, 40(4).

[封面浏览] [PDF 4617KB](379)

黎万义, 王鹏, 乔红

2014, 40(4): 561-576. doi: 10.3724/SP.J.1004.2014.00561

[摘要](3619) [PDF 2908KB](3158)

摘要:
视觉跟踪在无人飞行器、移动机器人、智能监控等领域有着广泛的应用，但由于目标外观和环境的变化，以及背景干扰等因素的存在，使得复杂场景下的鲁棒实时的目标跟踪成为一项极具挑战性的任务. 视觉注意是人类视觉信息处理过程中的一项重要的心理调节机制，在视觉注意的引导下，人类能够从众多的视觉信息中快速地选择那些最重要、最有用、与当前行为最相关的感兴趣的视觉信息，特别地，人类能够快速指向感兴趣的目标，从而可以轻松地实现对目标的稳定跟踪.因此，将视觉注意机制引入到复杂场景下的目标跟踪中，有利于实现更为稳定和接近于人类认知机制的视觉跟踪算法.本文旨在对引入了视觉注意机制的目标跟踪方法进行综述. 首先，介绍了视觉注意的基本概念及其代表性的计算模型；其次，对视觉注意与跟踪的内在关系进行了阐述；然后，对引入视觉注意机制的目标跟踪方法进行归纳、总结和分类，对代表性的方法进行介绍和分析；最后，对该类方法的特点和优势进行了讨论，并对未来的研究趋势进行了展望.

蛋白质相互作用网络功能模块检测的研究综述

冀俊忠, 刘志军, 刘红欣, 刘椿年

2014, 40(4): 577-593. doi: 10.3724/SP.J.1004.2014.00577

[摘要](2446) [PDF 3527KB](4537)

摘要:
蛋白质相互作用（Protein-protein interaction，PPI）网络是生命活动中一种极其重要的生物分子关系网络，利用计算方法从PPI网络中检测功能模块是目前生物信息学中一项重要的研究课题. 本文首先总结了功能模块检测过程的基本流程，说明了预处理和后处理的作用；其次，提出了一种模块检测方法的分类体系，并对其中一些代表性的检测算法进行了阐述；再次，给出了模块检测常用的数据库、评价指标和相关软件工具，并通过实验对代表性算法进行了性能对比. 最后，通过对该领域挑战性问题的分析预测了模块检测未来的研究方向，以期对相关研究提供一定的参考.

基于多尺度结构自相似性的单幅图像超分辨率算法

潘宗序, 禹晶, 胡少兴, 孙卫东

2014, 40(4): 594-603. doi: 10.3724/SP.J.1004.2014.00594

[摘要](3116) [PDF 6385KB](1534)

摘要:
多尺度结构自相似性是指同一幅图像中存在相同尺度或不同尺度的相似结构，这种多尺度图像结构自相似性广泛存在于遥感图像中.本文提出了一种基于多尺度结构自相似性的单幅图像超分辨率（Super resolution，SR）算法，该算法结合了压缩感知框架与图像结构自相似性，利用非局部方法和基于图像金字塔的K-SVD字典学习方法，将蕴含在相同尺度和不同尺度相似图像块中的附加信息在压缩感知的框架下加入到重构图像中.本文算法的优势在于，它仅借助于单幅低分辨率图像自身所蕴含的信息，实现了空间分辨率的提升.实验表明，与CSSS算法和ASDSAR算法相比，本文算法更有效地提升了遥感图像的空间分辨率.

基于混沌特征的运动模式分割和动态纹理分类

王勇, 胡士强

2014, 40(4): 604-614. doi: 10.3724/SP.J.1004.2014.00604

[摘要](1872) [PDF 7504KB](806)

摘要:
采用混沌理论对动态纹理中的像素值序列建模，提取动态纹理中的像素值序列的相关特征量，将视频用特征向量矩阵表示. 通过均值漂移（Mean shift）算法对矩阵中的特征向量聚类，实现对视频中的运动模式分割. 然后，采用地球移动距离（Earth mover’s distance，EMD）度量不同视频的差异，对动态纹理视频分类. 本文对多个数据库测试表明：1）分割算法可以分割出视频中不同的运动模式；2）提出的特征向量可以很好地描述动态纹理系统；3）分类算法可以对动态纹理视频分类，且对视频中噪声干扰具有一定的鲁棒性.

融合局部与全局信息的头发形状模型

王楠, 艾海舟

2014, 40(4): 615-623. doi: 10.3724/SP.J.1004.2014.00615

[摘要](1602) [PDF 2727KB](742)

摘要:
头发在人体表观中具有重要作用，然而，因为缺少有效的形状模型，头发分割仍然是一个非常具有挑战性的问题. 本文提出了一种基于部件的模型，它对头发形状以及环境变化更加鲁棒. 该模型将局部与全局信息相结合以描述头发的形状.局部模型通过一系列算法构建，包括全局形状词表生成，词表分类器学习以及参数优化；而全局模型刻画不同的发型，采用支持向量机（Support vector machine，SVM）来学习，它为所有潜在的发型配置部件并确定势函数. 在消费者图片上的实验证明了本文算法在头发形状多变和复杂环境等条件下的准确性与有效性.

基于级联重排序的汉语音字转换

李鑫鑫, 王轩, 姚霖, 关键

2014, 40(4): 624-634. doi: 10.3724/SP.J.1004.2014.00624

[摘要](1528) [PDF 911KB](868)

摘要:
N元语言模型是解决汉字音字转换问题最常用的方法. 但在解析过程中，每一个新词的确定只依赖于前面的邻近词，缺乏长距离词之间的句法和语法约束. 我们引入词性标注和依存句法等子模型等来加强这种约束关系，并采用两个重排序方法来利用这些子模型提供的信息：1）线性重排序方法，采用最小错误学习方法来得到各个子模型的权重，然后产生候选词序列的概率；2）采用平均感知器方法对候选词序列进行重排序，能够利用词性、依存关系等复杂特征. 实验结果显示，两种方法都能有效地提高词N元语言模型的性能. 而将这两种方法进行级联，即首先采用线性重排序方法，然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优.

基于指数损失和0-1损失的在线Boosting算法

侯杰, 茅耀斌, 孙金生

2014, 40(4): 635-642. doi: 10.3724/SP.J.1004.2014.00635

[摘要](2700) [PDF 619KB](1403)

摘要:
推导了使用指数损失函数和0-1损失函数的Boosting 算法的严格在线形式，证明这两种在线Boosting算法最大化样本间隔期望、最小化样本间隔方差.通过增量估计样本间隔的期望和方差，Boosting算法可应用于在线学习问题而不损失分类准确性. UCI数据集上的实验表明，指数损失在线Boosting算法的分类准确性与批量自适应 Boosting （AdaBoost）算法接近，远优于传统的在线Boosting；0-1损失在线Boosting算法分别最小化正负样本误差，适用于不平衡数据问题，并且在噪声数据上分类性能更为稳定.

基于HEIV模型的摄像机一维标定

王亮, 段福庆, 吕科

2014, 40(4): 643-652. doi: 10.3724/SP.J.1004.2014.00643

[摘要](1971) [PDF 2280KB](959)

摘要:
多摄像机系统广泛应用于文化创意产业，其高精度标定是迫切需要解决的一个关键问题. 新近出现的摄像机一维标定方法能够克服标定物自身遮挡，特别适合标定多摄像机系统. 然而，现有的摄像机一维标定研究主要集中在降低一维标定物的运动约束，而标定精度较低的问题未受到应有的关注. 本文提出一种基于变量含异质噪声（Heteroscedastic error-in-variables，HEIV）模型的高精度摄像机一维标定方法. 首先，推导出摄像机一维标定的计算模型；其次，利用该计算模型详细分析了一维标定中的噪声，得出摄像机一维标定可以视为一个HEIV问题的结论；最后给出了基于HEIV模型的摄像机一维标定算法. 与现有的算法相比，该方法可以显著改善一维标定的精度，并且受初始值影响小，收敛速度快. 实验结果验证了该方法的正确性和可行性.

一种扩展小孔成像模型的鱼眼相机矫正与标定方法

涂波, 刘璐, 刘一会, 金野, 汤俊雄

2014, 40(4): 653-659. doi: 10.3724/SP.J.1004.2014.00653

[摘要](2534) [PDF 4429KB](1284)

摘要:
鱼眼相机由于其超宽的视场范围（Field of view，FOV）（可以达到180°以上），得到越来越广泛的应用. 常规的基于小孔成像模型的相机矫正与标定算法在超宽视场的鱼眼成像系统中已经不太适用，为了兼顾小孔模型的特点，本文提出了一种扩展小孔成像模型的鱼眼相机矫正与标定方法. 此方法是对小孔成像模型的进一步拓展，不仅具备小孔模型实现简单、适合人眼视觉效果以及相机标定方便等优点，同时将小孔成像模型适用的视场范围扩展到超宽视场领域. 其基本思路是：在利用小孔成像模型对鱼眼相机90°左右视场范围进行矫正与标定的基础上，使用非等间距的点阵模板，并结合直线拟合以及自然邻点插值算法，扩展小孔模型适用的视场范围. 本文使用鱼眼相机从不同的角度拍摄多幅模板图，完成鱼眼相机的矫正与标定. 通过求取的小孔成像模型参数实现相机的标定；对鱼眼相机拍摄的实际场景图进行畸变矫正测试，结果表明此方法能够很好地矫正鱼眼相机存在的畸变，得到符合人眼视觉效果的矫正图；单幅矫正图视场范围达到130°，结合不同角度拍摄的多幅模板图，可把矫正的视场范围扩展到180°.

基于差异性的分类器集成：有效性分析及优化集成

杨春, 殷绪成, 郝红卫, 闫琰, 王志彬<

2014, 40(4): 660-674. doi: 10.3724/SP.J.1004.2014.00660

[摘要](2645) [PDF 1224KB](1142)

摘要:
差异性是分类器集成具有高泛化能力的必要条件. 然而，目前对差异性度量、有效性及分类器优化集成都没有统一的分析和处理方法. 针对上述问题，本文一方面从差异性度量方法、差异性度量有效性分析和相应的分类器优化集成技术三个角度，全面总结与分析了基于差异性的分类器集成. 同时，本文还通过向量空间模型形象地论证了差异性度量的有效性. 另一方面，本文针对多种典型的基于差异性的分类器集成技术（Bagging，boosting GA-based，quadratic programming （QP）、semi-definite programming （SDP）、regularized selective ensemble （RSE））在UCI数据库和USPS数据库上进行了对比实验与性能分析，并对如何选择差异性度量方法和具体的优化集成技术给出了可行性建议.

2DPCA-SIFT：一种有效的局部特征描述方法

颜雪军, 赵春霞, 袁夏

2014, 40(4): 675-682. doi: 10.3724/SP.J.1004.2014.00675

[摘要](2473) [PDF 2062KB](1873)

摘要:
PCA-SIFT （Principal component analysis—scale invariant feature transform）方法通过对归一化梯度向量进行PCA降维，在保留特征不变性的同时，有效地降低了特征矢量的维数，从而提高了局部特征的匹配速度. 但PCA-SIFT中对本征向量空间的求解非常耗时，极大地限制了PCA-SIFT的灵活性与应用范围. 本文提出采用2DPCA对梯度向量块进行降维的特征描述方法. 该方法相比于PCA-SIFT，可以快速地求解本征空间. 实验结果表明：2DPCA-SIFT在多种图像变换匹配和图像检索实验中可以实现与PCA-SIFT相当的性能，并且从计算效率上看，2DPCA-SIFT具有更好的扩展性.

含局部空间约束的t分布混合模型的点集配准

周志勇, 李莉华, 郑健, 蒯多杰, 胡粟, 张涛

2014, 40(4): 683-696. doi: 10.3724/SP.J.1004.2014.00683

[摘要](2337) [PDF 3097KB](1116)

摘要:
基于高斯混合模型（Gaussian mixture model，GMM）的点集非刚性配准算法易受重尾点和异常点影响，提出含局部空间约束的t分布混合模型的点集非刚性配准算法. 通过期望最大化（Expectation maximization，EM）框架将高斯混合模型推广为t分布混合模型；把Dirichlet分布作为浮动点的先验权重，并构造含局部空间约束性质的Dirichlet 分布参数. 使用EM算法获得配准参数的闭合解；计算浮动点的自由度，改变其概率密度分布，避免异常点水平估计误差. 实验表明，本文提出的配准算法具有配准误差小、鲁棒性好、抗干扰能力强等优点.

基于不同色彩空间融合的快速图像增强算法

肖进胜, 单姗姗, 段鹏飞, 涂超平, 易本顺

2014, 40(4): 697-705. doi: 10.3724/SP.J.1004.2014.00697

[摘要](2361) [PDF 8635KB](1253)

摘要:
针对现有Retinex算法中存在的色彩失真、噪声放大及光晕伪影现象等问题，本文提出了一种基于Retinex理论的改进算法. 该算法首先在HSV空间对亮度分量V通道进行增强处理，同时在拉伸得到的对数域反射分量至一定的动态范围时（本文是0～255），引入增强调整因子，调整不同亮度值的增强程度来避免噪声放大及色彩失真现象；然后在RGB空间，通过分析光晕产生的原因，提出一种改进的高斯滤波器来消除光晕现象，并在计算反射分量时，通过参数调整图像颜色的保真度. 最后，对上述两种不同颜色空间的处理结果进行加权平均作为算法的最终输出. 实验结果表明，针对不同光照条件下的图像，1）该算法可以明显地改善光晕伪影现象；2）无色彩失真、噪声放大等问题；3）效果和效率优于带色彩恢复的多尺度Retinex算法（Multi-scale retinex with color restoration，MSRCR）及其他对比算法.

大规模图像集中的代表性图像选取

齐美彬, 朱俊俊, 纪平, 蒋建国

2014, 40(4): 706-712. doi: 10.3724/SP.J.1004.2014.00706

[摘要](1648) [PDF 2085KB](956)

摘要:
针对传统图像检索系统通过关键字搜索图像时缺乏语义主题多样性的问题，提出了一种基于互近邻一致性和近邻传播的代表性图像选取算法，为每个查询选取与其相关的不同语义主题的图像集合. 该算法利用互近邻一致性调整图像间的相似度，再进行近邻传播（AP）聚类将图像集分为若干簇，最后通过簇排序选取代表性图像簇并从中选取中心图像为代表性图像. 实验表明，本文方法的性能超过基于K-means的方法和基于Greedy K-means的方法，所选图像能直观有效地概括源图像集的内容，并且在语义上多样化.

基于主动轮廓探索的多源色彩迁移

潘杰, 王雪松, 程玉虎

2014, 40(4): 713-720. doi: 10.3724/SP.J.1004.2014.00713

[摘要](1513) [PDF 3406KB](1151)

摘要:
传统的多源色彩迁移算法常常利用欧氏色彩距离来分割目标图像，由于色彩序列的模糊性与不确定性，使得这种分割极易出现色彩扭曲现象. 针对这个问题，提出一种基于主动轮廓探索的多源色彩迁移算法. 首先，为将目标图像的主体与背景分离开，利用一种主动进化的方法生成虚拟轮廓线，并采用能量函数评价机制迫使虚拟轮廓线逐渐逼近实际轮廓线. 其次，合理利用源图像与目标图像在RGB、Gray和LMS等不同色彩空间的表示、分割、转换，实现其在lαβ空间的多源色彩迁移. 最后，将在lαβ空间迁移得到的目标图像逆向操作后恢复为RGB显示. 单源与多源色彩迁移的对比、灰度化色彩通道的选择以及各色彩空间不同色彩通道间的干涉性对比等实验验证了所提算法的合理性与有效性.

组合凸线性感知器的极大切割构造方法

冷强奎, 李玉鑑

2014, 40(4): 721-730. doi: 10.3724/SP.J.1004.2014.00721

[摘要](1334) [PDF 1146KB](750)

摘要:
组合凸线性感知器（Multiconlitron）是用来构造分片线性分类器的一个通用理论框架，对于凸可分和叠可分情况，分别使用支持凸线性感知器算法（Support conlitron algorithm，SCA）和支持组合凸线性感知器算法（Support multiconlitron algorithm，SMA）将两类样本分开. 本文在此基础上，提出了一种基于极大切割（Maximal cutting）的组合凸线性感知器构造方法. 该方法由两阶段训练构成，第一阶段称为极大切割过程（Maximal cutting process，MCP），通过迭代不断寻求能够切开最多样本的线性边界，并因此来构造尽可能小的决策函数集，最大程度减少决策函数集中线性函数的数量，最终简化分类模型. 第二阶段称为边界调整过程（Boundary adjusting process，BAP），对MCP得到的初始分类边界进行一个二次训练，调整边界到适当位置，以提高感知器的泛化能力. 数值实验说明，此方法能够产生更为合理的分类模型，提高了感知器的性能. 同其他典型分片线性分类器的性能对比，也说明了这种方法的有效性和竞争力.

一种分步的融合时空信息的背景建模

储珺, 杨樊, 张桂梅, 汪凌峰

2014, 40(4): 731-743. doi: 10.3724/SP.J.1004.2014.00731

[摘要](1420) [PDF 1870KB](720)

摘要:
自然场景中的光照突变和树枝、水面等不规则运动是背景建模的主要困难. 针对该问题，提出一种分步的融合时域信息和空域信息的背景建模方法. 在时域，采用具有光照不变性的颜色空间表征时域信息，并提出对噪声和光照突变具有较好适应性的码字聚类准则和自适应背景更新策略，构造了对噪声和光照突变具有较好适应性的时域信息背景模型. 在空域，通过采样将测试序列图像分成两幅子图，而后利用时域模型检测其中一幅子图，并将检测结果作为另一幅子图的先验信息，同时采用马尔科夫随机场（Markov random field，MRF）对其加以约束，最终检测其状态. 在多个测试视频序列上的实验结果表明，本文背景模型对于自然场景中的光照突变和不规则运动具有较好的适应性.

雾霾天气下可见光图像场景再现

李权合, 毕笃彦, 许悦雷, 查宇飞

2014, 40(4): 744-750. doi: 10.3724/SP.J.1004.2014.00744

[摘要](2184) [PDF 4182KB](1159)

摘要:
为了再现雾霾天气下可见光图像的清晰场景，有效抑制雾霾退化造成的对比度、清晰度下降，提出了单色大气散射模型新的求解方法. 首先，将单色大气散射模型类比Retinex模型，重新解释了大气传递图；依据大气传递图的先验知识和几点假设，建立目标函数的变分模型，将大气传递图的估计问题转化为二次规划问题. 通过带约束的归一化最速下降法获取最优解，并采用多分辨率技术加速计算；在HSI空间的亮度分量上反解单色大气散射模型，得到反射图像，并依据大气传递图自适应校正饱和度分量. 实验结果表明，新算法可有效去除雾霾，再现真实场景的对比度和清晰度，同现有去雾算法相比，本文算法取得了相似甚至更好的去雾效果.

基于多尺度图匹配核的场景单字识别方法

史存召, 王春恒, 肖柏华, 张阳, 高嵩

2014, 40(4): 751-756. doi: 10.3724/SP.J.1004.2014.00751

[摘要](2013) [PDF 1469KB](1271)

摘要:
由于自然场景中的文字具有较大的类内间距, 因此识别场景文字具有很大的挑战性. 本文提出了一种基于多尺度图匹配核的场景单字识别方法. 为了利用字符特有的结构特征, 将每幅图像表示为基于不同网格划分的无向图, 通过计算两个无向图之间图匹配的最优能量值来得到两幅图像的相似度, 由于图匹配在计算每个节点的最佳匹配节点时也考虑了相邻节点之间的空间位置约束, 因此可以应对具有一定形变的文字. 通过图匹配得到的两幅图像之间的相似度很适合用来构造支持向量机的核矩阵. 本文将不同尺度网格划分下得到的核矩阵进行多核融合, 使得最终得到的核矩阵更加地鲁棒. 在国际公开场景文字识别数据集Chars74k和ICDAR03-CH上的实验结果表明, 本方法取得了高于国际上已发表的其他方法的单字识别率.

非下采样轮廓波变换快速算法

严春满, 郭宝龙, 易盟

2014, 40(4): 757-762. doi: 10.3724/SP.J.1004.2014.00757

[摘要](3855) [PDF 2856KB](1543)

摘要:
多尺度几何分析（MGA）是一种有效的图像处理方法. 作为MGA的一种离散实现方法，非下采样轮廓波变换（NSCT）被广泛应用于图像去噪、图像融合、图像增强、特征提取等领域. 然而，由于该变换的高冗余性，其计算效率受到一定限制. 因此，对NSCT快速算法的研究具有现实意义. 本文采用一种优化的方向滤波器改进了原NSCT变换，以损失部分重建图像质量为代价，获得算法处理速度的显著提高. 实验结果可见，在满足重建图像主观质量视觉要求的前提下，算法速度可比原变换提高若干倍. 图像去噪实验进一步验证了算法的可靠性及效率.

数据驱动的层次场景序列识别模型研究

冯文刚

2014, 40(4): 763-770. doi: 10.3734/SP.J.1004.2014.00763

[摘要](1727) [PDF 2233KB](836)

摘要:
针对层次场景图像序列，本文提出了一种数据驱动的基于快速序列视觉表述任务（rapid serial visual presentation task，RSVP）的场景识别模型. 首先基于金字塔模型提取三层尺度图像块，然后构建包括全局和局部特征的词汇字典，接着分别利用生成模型和判决模型训练视觉词汇，最后通过神经网络从图像块标记中获得场景类别. 实验表明算法能够获得更为精确的分类结果.

基于双层模型的维吾尔语突发事件因果关系抽取

钟军, 禹龙, 田生伟, 吐尔根·依布拉音

2014, 40(4): 771-779. doi: 10.3724/SP.J.1004.2013.00771

[摘要](1929) [PDF 1503KB](780)

摘要:
针对传统事件因果关系识别覆盖范围小和人工标注代价高等不足，提出了一种基于双层模型的维吾尔语突发事件因果关系抽取方法. 该方法采用分治思想，将因果关系抽取问题转化为对事件序列的两次模式识别标注. 采用Bootstrapping算法，在第一次模式识别时，标注因果关系的语义角色，并将标注的语义角色标签作为新的特征传递给第二层模式识别，用于因果关系边界标注. 该方法用于维吾尔语突发事件显式因果关系的抽取准确率为85.39%，召回率为77.53%，证明了本文提出的方法在维吾尔语主题突发事件因果关系抽取上的有效性和实用性.

基于核函数的IVEC-SVM说话人识别系统研究

栗志意, 张卫强, 何亮, 刘加

2014, 40(4): 780-784. doi: 10.3724/SP.J.1004.2014.00780

[摘要](1943) [PDF 340KB](1144)

摘要:
在说话人识别研究中，基于身份认证向量（Identity vector，IVEC）的说话人建模方法可以有效地提取说话人信息，是目前处于国际前沿的建模方法.本文对身份认证向量后接支持向量机（Identity vector followed by support vector machine，IVEC-SVM）的说话人识别系统进行了研究，对比了该系统在十种不同核函数下的识别性能，并与文献中身份认证向量后接余弦距离打分（Identity vector followed by cosine distance scoring，IVEC-CDS）系统进行了比较. 在美国国家标准技术局（American National Institute of Standards and Technology，NIST）组织的2010年电话信道——电话信道说话人识别核心评测数据库上的实验结果显示，基于核函数的IVEC-SVM系统性能明显优于IVEC-CDS的系统性能.此外，实验结果表明基于Spline核的IVEC-SVM系统可取得最好的识别性能，与IVEC-CDS系统相比，其等错点（Equal error rate，EER）在分数归一化前后分别降低了10%和3%.

留言板

2014年第40卷第4期

特别推荐

公告More

相关链接

访问统计

留言板

2014年 第40卷 第4期

特别推荐

公告More

相关链接

访问统计

2014年第40卷第4期