-
轻轨在城市公共交通系统中扮演着重要的角色. 其因运行环境复杂, 难以实现信息化和智能化管理, 在一定程度上影响行车安全. 因此, 开发针对轻轨的高级驾驶辅助系统(Advanced Driver Assistance System, ADAS)势在必行[1]. 列车定位技术作为自动驾驶系统的重要组成部分之一, 能否提供准确地轻轨定位信息, 直接影响行车安全和调度的有效性. 目前查询应答器、里程计以及全球定位系统等技术被普遍地应用于列车实时定位任务中[2]. 在城市环境中, 由于建筑群、隧道的普遍存在, 通常会因遮挡产生多路径效应导致小范围内定位出现偏差[3]; 目前广泛应用的地面查询应答器属于非连续定位且需要昂贵的运营维护成本; 基于里程计的定位技术依赖于特殊的传感器, 比如车轮测速传感器、惯性测量传感器, 这两种传感器都会受到列车本身的影响从而随列车的运行产生累计误差[4-5]. 在此情况下, 基于单目相机的定位方法由于其成本效益和信息的丰富性, 在轻轨定位系统中可以发挥关键作用[6]. 对于视觉定位系统而言, 其主要包含三个关键部分: 场景特征提取, 路径地图构建, 以及真实匹配生成三大模块[7-8]. 由此可见, 一个综合定位系统的复杂度会非常高, 想要使整个系统达到实时性, 更需要从整体考虑使各个模块算法的时间开销都尽可能地减少.
面对复杂的运行环境, 如何快速地从图像中提取鲁棒性好的特征描述符一直是视觉定位领域研究的热点. 近年来, 视觉定位任务中常用的特征提取方法主要有两类, 分别是手工制作特征[6, 9-12]和深度学习特征[13-19]. 目前基于局部特征的视觉定位方法通常在光照、季节等因素导致环境外观出现明显变化时表现不佳[9-10]. 主要是因为基于特征点的描述符缺少整体的结构信息易导致感知混淆, 从而降低局部描述符的辨别力. 此外, 基于全局特征的方法虽然相较于前者具有更好的条件不变性, 但对视点变化和遮挡的鲁棒性较差[11]. 为弥补两者各自的缺点, 将局部和全局特征有效融合在一起是目前研究的趋势[6, 12]. 然而, 这类算法虽能够有效提升定位准确率却因特征向量维数的激增与场景规模的扩大无法满足实时性的要求.
近年来, 深度卷积神经网络在特征提取方面取得突出的成绩[13, 14, 16]. 相比于Gist、Fisher vector、VLAD等手工制作特征, 深度学习特征在光照变化的环境下具有更好的识别能力[14, 16]. 因此越来越多的研究者为获得更精确的定位结果, 将卷积神经网络作为一种特征提取手段应用于视觉定位任务中[17-19]. 目前许多方法结合目标检测先提取显著性高的区域作为地标候选者, 再利用卷积神经网络描述该区域稳定特征, 最后筛选出潜在地标并将其映射到低维空间从而生成特征描述符. 这类方法因融合了全局和局部特征描述方法的优势, 在视觉定位领域卓有成效[17-18]. 此外, 还有的方法通过人工标定方式构建丰富的场景识别数据库, 并利用这些数据反复学习到稳定的场景特征, 虽然深度学习特征具有更好的稳定性, 但仅靠全局描述符作为场景匹配的依据仍难以实现鲁棒性高的定位, 且昂贵的时间成本和巨大的人工成本根本无法满足实际应用的需求.
针对上述问题, 本文设计了一种高精度实时视觉轻轨定位系统, 该系统的创新之处主要体现在以下四个方面:
1) 提出一种衡量像素显著性的方法来识别参考序列中的关键帧, 为在线模块提供适合的检索窗口, 避免因列车经停站造成的离散相似场景的影响, 同时有效提升了大规模复杂环境下场景匹配过程的计算效率.
2) 为消除场景中掺杂的不稳定信息对定位结果产生的干扰, 本文提出一种融合语义特征的关键区域检测方法, 在减少特征提取运算量的同时有效地保留了场景中有助于列车定位的显著性信息.
3) 提出一种无监督学习结合像素点位置线索的二值化特征描述方法, 在降低场景匹配计算复杂度的同时因不受描述区域形状的限制具有更广的应用范围. 在场景跟踪中, 将该描述符与场景序列匹配算法相结合能够克服因高帧率造成的连续相似场景使定位精度降低的问题.
4) 本系统只需单目相机采集数据既可, 兼容性高且可移植性强, 并实现了视觉定位任务对实时性和高精度的要求.
本文结构如下: 第一部分概述了所提轻轨定位系统的构成以及详细地描述了系统中各个模块所涉及的关键技术; 第二部分展示了实验结果并对结果进行分析讨论. 最后是结论部分.
-
系统的整体框架如图1所示, 可概括为四个子模块: 1)首先对预处理后的参考序列利用所提出的像素显著性计算方法得到每帧图像的显著性分数, 以其作为依据筛选出序列中的关键帧; 2)其次利用语义分割网络生成的二值化掩模与像素显著性分数作为评判依据, 建立参考序列中每帧图像的关键区域; 3)然后利用无监督学习方法并结合像素点位置信息得到场景特征抽取模式, 为后续在线模块快速生成二值化特征描述符做准备; 4)最后, 通过离线部分获得的关键帧与场景特征提取模式完成在线匹配, 获取轻轨实时位置.
-
轻轨在运行过程中, 经常会因为经停站造成不同位置场景内容离散相似的问题, 这增大了视觉定位任务的难度. 针对该问题, 本研究提出一种基于像素显著性分数的关键帧识别算法. 获取的关键帧为后续场景跟踪提供合适的检索窗口, 提升匹配精度.
在场景匹配中, 采集到的参考帧中通常会保留影响定位精度的不稳定信息, 因此需建立感兴趣区域(Region Of Interest, ROI)将参考帧中包含运动物体、铁轨和边缘模糊的区域移除. 衡量视频帧重要程度的显著性分数越高则表示该帧包含的特异性信息越多. 本方法利用滑动窗口遍历感兴趣区域中所有像素, 从而计算得到像素显著性分数.
记当前待计算的视频帧为ft, 其时域邻域内包含N个视频帧(图2中以N等于4为例). 当滑动窗口处于像素点(x,y)位置时, 如式(1)所示, 分别计算当前帧所包含的图像块R(x,y,ft) 与其他视频帧相同位置以及其十字邻域内, 五个图像块R(x±1,y±1,ft’)之间的差别, 使求和得到的当前帧(x,y)位置处像素分数既在时间域和空间域具有显著性又均衡因外界不可抗力因素造成的抖动影响.
$$ {S_p}(x,y,{f_t}) \!\!=\!\! \frac{1}{{5N}}\!\!\!\!\sum\limits_{{f_{t'}} \in N,t' \ne t}\!\! \!\!{{D_E}(} R(x,y,{f_t}),\!R(x \!\pm \!1,y\! \pm\! 1,{f_{t'}})) $$ (1) 其中,
${D_E}(\cdot )$ 表示图像块间的差别, 通过HOG特征利用欧式距离计算得到, 以降低光线变化带来的干扰. R(x±1,y±1,ft’) 是序列中其他帧相同位置及十字邻域内的图像块. Sp(x,y,ft) 表示像素的显著性分数.将ROI中所有像素显著性分数求和得到视频帧的显著性分数. 关键帧作为划分参考序列的标志, 其显著性分数应在全局和局部范围内都高于一般的视频帧, 因此利用关键帧检索窗口能够在场景匹配中获得高置信度的匹配结果. 关键帧提取主要分为两步, 先基于适当的检索窗口提取参考序列局部范围内显著性分数最高的视频帧, 并对显著性分数进行降序排序; 其次将前Nk帧作为关键帧. 如图3所示, 这些关键帧均匀分布在整个参考序列, 为后续场景匹配提供了稳定的跟踪锁定.
-
针对视觉定位任务, 出于高精度和低计算复杂度兼得的考量, 本文提出一种融合语义特征的关键区域检测方法. 关键区域是参考帧中包含特异性信息的区域, 这些信息不随时间的变化而变化, 能有助于提高定位结果的鲁棒性. 期望检测到的关键区域中尽可能少的包含背景信息和动态目标, 类似天空、树木、车辆等. 因为这些场景在序列中普遍存在, 定位时不能提供有效的信息.
为了减少冗余信息对场景匹配的干扰, 同时提高后续提取二值化特征的效率. 所提出的关键区域检测算法可以分为三步: 首先利用之前计算像素显著性分数的方法, 将显著性分数高于一定阈值TK的像素保留作为初步关键区域, 检测结果如图4(a)所示. 因每帧中像素显著性分数分布在不同尺度, 故而采用自适应阈值TK, 从而保障算法的鲁棒性. 阈值计算方式如公式(2)所示:
$${T_K}({f_t}) = K \times \frac{1}{{{N_p}}}\sum\limits_{(x,y) \in ROI} {{S_p}(x,y,} {f_t})$$ (2) 其中, Np为ROI中像素的总个数, K为间接调整阈值的系数. 从图4(a)中发现, 提取到的特征区域虽然保留住图像中特异性场景, 但是仍混入了无用信息. 针对该问题, 本文使用多个在Cityscapes数据集上训练的网络模型对参考帧进行语义分割. 按照特异性和稳定性的原则, 分割时只保留所需要的六类场景分别是: 建筑物、墙、电线杆、围栏、信号灯、标志牌. 对不同模型分割后的结果, 再通过加权融合的方式生成分割精度更高的二值化掩模. 最后将前两步检测到的特征区域取交集, 得到如图4(b)所示, 精细化后的关键区域.
-
场景匹配模块作为实时处理单元, 不仅要求场景特征描述符具有高区分性还需降低计算特征间相似度的复杂度. 基于之前获取的关键区域, 使用HOG或SIFT等特征描述符进行场景匹配, 虽然可以获得更精确的匹配结果但巨大的计算复杂度难以满足系统实时性的要求. 二值化特征描述符因使用汉明距离计算特征间相似度, 能够大幅度提升匹配效率. 受此启发, 本文提出一种基于无监督学习的全局-局部场景二值化特征提取方法. 该方法利用一种新颖的像素对筛选机制, 使保留下来的像素对包含丰富的空间和上下文信息.
当前帧的特征描述符是由级联所筛选出像素对的二值化比较结果得到的. 只有提取到描述力强的像素对才能增加描述符的区分力. 本文利用公式(3), 计算得到像素对显著性分数, 由此来评估其辨别度.
$${S_{pair}}(P,{f_t}) = \sum\limits_{i = 0}^{{N_f}} {({D_I}} (P,{f_i}) - {D_I}(P,{f_t}))$$ (3) 其中Spair(P,ft) 是当前帧ft内某点对P的显著性分数, DI(P, ft)是当前帧ft内点对P的两像素间的灰度差, DI(P, fi)是第i个相邻帧内点对P的两像素间的灰度差. Nf是相邻帧的数量.
除此之外, 提取到的所有像素对还需要包含丰富的空间信息. 在关键区域中通常包含两类像素对. 一种是两个像素来自相同特征子区域; 另一种是像素来自不同特征子区域. 两者二值化的结果分别保留了图像中的局部细节信息和全局结构信息. 然而, 根据关键区域获取的所有像素对, 因数量庞大, 即使离线处理仍会耗费巨大的计算内存和时间成本. 因此, 本文引入像素点位置线索对区域内包含的像素对进行初步筛选. 将具有相同位置线索的像素对按照显著性分数降序排列, 只保留其中排名靠前的Nt对像素点作为初步筛选结果.
像素对来自不同区域, 会包含不同的信息. 保留空间相关性高的像素对会使描述符的区分力降低, 因此本文基于原型聚类算法进一步筛选得到相关性低的点对. 首先, 基于像素对的初步筛选结果, 利用公式(4)逐一计算其分布向量构建对于当前帧的训练样本集D.
$${{{x}}_1}\left({{P_1},{f_t}} \right) = \left({\begin{array}{*{20}{c}} {\Delta \left({{P_1},{f_{t - m}}} \right)} \\ {\Delta \left({{P_1},{f_{t - m + 1}}} \right)} \\ \vdots \\ {\Delta \left({{P_1},{f_t}} \right)} \\ \vdots \\ {\Delta \left({{P_1},{f_{t + m}}} \right)} \end{array}} \right)$$ (4) $$\Delta \left({P,{f_t}} \right) = \Delta P\left({{p_i},{p_j},{f_t}} \right) = I\left({{x_i},{y_i},{f_t}} \right) - I\left({{x_j},{y_j},{f_t}} \right)$$ 其中, 分布向量x1(P1, ft) 表示像素对P1中所对应像素pi和pj间的灰度值之差在视频帧fi中的分布, i∈[t-m, t+m]. I(·)表示像素的灰度值, 基无监督学习的场景特征模式提取过程伪代码如算法1所示.
算法1. 基于无监督学习的场景特征模式提取过程伪代码
输入: 训练样本集
$D = \left[ {{{{x}}_1},{{{x}}_2}, \ldots ,{{{x}}_{{N_t}}}} \right]$ ; 预定义筛选像素对个数Nc.过程:
1: 从D中随机选取1个样本作为初始聚类中心
${{{\mu}} _1}$ 2: repeat
3: for j =
$1,2,\cdots, $ Nt do4: 计算分布向量
${{{x}}_j}$ 与初始聚类中心${{{\mu}} _1}$ 的距离:${d_j} = $ $ {\left\| {{{{x}}_j} - {{{\mu}} _1}} \right\|_2}$ 5: end for
6: for j =
$1,2,\cdots, $ Nt do7: 计算分布向量
${{{x}}_{{j}}}$ 被选为下一个聚类中心的概率:${p_j} = \frac{{d_j^2}}{{\sum\nolimits_{j = 1}^{{N_t}} {d_j^2} }}$ 8: end for
9: 选取概率最大值对应的样本作为下一个聚类中心
${{\mu}} _2$ 10: until 选择出Nc个聚类中心
11: repeat
12: 令Ci为空集,
$1 \le i \le {N_c}$ 13: for j =
$1,2,\cdots, $ Nt do14: 计算分布向量
${{{x}}_{{j}}}$ 与聚类中心${{{\mu}} _i}$ 的距离记为${d_{j,i}} = $ $ {\left\| {{{{x}}_{{j}}} - {{{\mu}} _i}} \right\|_2}$ ;15: 以距离为依据确定
${{{x}}_{{j}}}$ 所属簇${C_{{\tau _{\rm{j}}}}}$ :$${\tau _j} = \mathop {\arg \min }\limits_{i \in \left\{ {1,2,\cdots,{N_c}} \right\}} {d_{j,i}};$$ 16: end for
17: for i = 1, 2, …, Nc do
18: 依据所划分的簇Ci, 计算新聚类中心
$${{{\mu}} _i}' {\rm{ = }}\frac{1}{{\left| {{C_i}} \right|}}\sum\limits_{x \in {C_i}} {{x}} ;$$ 19: if
$ {{{\mu}} _{{i}}}' \ne {{{\mu}} _{{i}}} $ then20: 更新当前聚类中心为
${{{\mu}} _{{i}}}'$ 21: else
22: 聚类中心保持不变
23: end if
24: end for
25: until聚类中心不再变化
26: 遍历所有簇Ci, 将簇中与聚类中心
${{{\mu}} _i}$ 距离最近的分布向量yi作为最终的结果输出: 结果集
$R = \left[ {{{{y}}_1},{{{y}}_2}, \cdots ,{{{y}}_{Nc}}} \right]$ -
图像序列匹配算法[20-22]因结合了时域信息和序列图像的一致性, 即使在环境外观复杂变化的情况下, 获得的匹配结果也具有较高的鲁棒性. 其中, 最具代表性的就是SeqSLAM算法[20], 但该算法对因高帧率造成的连续相似场景和因轻轨经停站造成的离散相似场景区分力不足. 针对此缺陷, 本文利用1.2节中获取的关键帧, 将参考序列划分为多个场景间区分度大的子序列作为当前帧的候选检索窗口, 在提高场景匹配效率的同时有效地控制了定位误差的范围.
如图5所示, 上一个匹配过的关键帧flast到下一个将要匹配的关键帧fnext之间的范围作为当前帧ft的检索窗口. 直接使用所提方法在离线部分生成的场景特征提取模式, 获得ft与fnext的二值化特征向量, 并计算两者之间的汉明距离DH(ft, fnext). 根据该距离与阈值TL间的大小关系, 从而确定检索窗口Et的范围. 若DH(ft, fnext)≤TL, 则ft对应的检索窗口将移动到下一个场景子序列, 即令fnext作为新的flast, 将关键帧集合中居于fnext之后的相邻关键帧作为新的fnext; 反之, 则ft对应的检索窗口保持不变.
利用场景序列匹配算法在ft对应的检索窗口Et内搜索与ft最匹配的参考帧并建立候选匹配参考帧集合Qt. 然后, 对属于Qt的任意参考帧fi, 通过特征模式计算其对应的描述符, 记为Bi(fi); 使用同一特征模式计算当前帧ft的场景描述符, 记为Bi(ft). 通过公式(5), 可检索到Qt内与ft最佳匹配的参考帧fmatched.
$${f_{matched}}({f_t}) = \mathop {arg}\limits_{{f_i} \in {Q_t}} \min ({D_H}({B_i}({f_t}),{B_i}({f_i})))$$ (5) -
实验中使用的MTRHK数据集和Nordland数据集分别由来自中国香港港铁(Mass Transit Railway, MTR)和挪威广播公司(Norwegian Broadcasting Corporation, NRK)提供[6]. MTRHK数据集采集自轻轨507号路线, 包含3组视频序列, 共13859帧. 分辨率为640×480像素, 帧率为25帧/s, 每组视频序列包含两段序列, 其是从同一列车在相同的路径上不同运行时间采集到的[5]. 由于采集时间不同, 序列间存在环境以及列车速度变化, 需人工校准作为真实标定. 此外, 该数据集中包含了大量具有挑战性的场景, 如图6(a)-(c)所示. Nordland数据集包含四个季节采集的视频序列, 原始分辨率为1920×1080像素, 帧率为25帧/s, 其场景包含城市以及自然等不同类型环境[12]. 本文选取秋季和夏季共12000帧作为训练和测试数据, 并降采样至640×480像素. 这两段序列采集自相同运行速度, 故而具有相同帧号的视频帧采集自相同的位置.
-
本文将轻轨定位任务近似作图像检索任务, 将准确率和召回率用来评价所提出方法的性能. 对于Nordland数据集, 由于列车运行速度保持不变, 与当前帧具有相同帧号的参考帧可直接作为真实标定; 对于MTRHK数据集, 手动标定不同序列间视频帧的对应关系, 将此结果作为真实标定. 在实验中, 将匹配结果与真实标定间的差别, 称为匹配偏差, 单位为帧. 若匹配上的两幅场景称为阳性样本, 则匹配偏差大于容差范围的阳性样本被称为假阳性样本(FP), 反之称为真阳性样本(TP).
-
在实验中, 所提出方法针对不同数据集所需参数的默认值存在差异, 如表1所示.
表 1 Nordland和MTRHK数据集中所需参数设置
Table 1. Parameter settings for Norland and MTRHK datasets
参数符号 参数定义 参数值(Nordland) 参数值(MTRHK) Vmin 最小路径拟合速度 0.8 0 Vmax 最大路径拟合速度 1.2 1.5 Vstep 路径拟合速度步长 0.1 0.1 Nc 像素对提取个数 512 512 K 关键区域检测系数 1.05 1.05 TL 最佳匹配距离阈值 175 175 -
通过分割模型得到的语义特征对关键区域检测具有指导作用. 由于单一模型的性能存在局限性, 本文通过模型融合的方式将不同分割网络获得的语义信息有机地结合在一起, 从而优化最终的分割效果. 本文从参考序列中筛选出50个关键帧进行人工标定, 用标定真值与分割结果计算平均交并比. 由表2结果可知, 融合后得到的分割效果明显优于单个模型. 对于场景更为复杂的轻轨数据集而言, 效果提升尤为明显. 图7对分割结果进行了可视化展示.
表 2 不同语义分割模型间的精度对比
Table 2. Accuracy comparison of different semantic segmentation network
语义分割网络 平均交并比(%) Nordland MTRHK FCN 67.9 54.9 PSPNet 70.8 32.7 Deeplab 71.7 55.8 RefineNet 72.5 59.2 DFN 73.0 48.2 BiSeNet 72.2 36.2 融合模型 78.0 64.6 为来验证关键区域检测方法的有效性, 实验中利用HOG特征作为描述符, 比较了特征描述区域大小不同的五种场景描述方法. 通过匹配偏差反映场景识别的质量, 匹配偏差越小则表示匹配效果越好. 方法一, 将整个视频帧作为特征描述区域计算一个HOG特征; 方法二, 将整个视频帧分割成40×40互不重叠的图像块, 分别计算HOG特征. 匹配时, 计算两幅图像对应位置小块的HOG特征向量间的欧氏距离, 并将所有的欧氏距离相加得到图像间的相似度; 方法三与法二类似, 匹配时只考虑ROI中包含的图像块; 方法四是对基于像素显著性分数检测到的特征区域进行描述, 其场景描述符通过计算每个连通的关键区域的HOG特征获得. 方法五是在第四种的基础上融合语义信息获取关键区域, 再进行描述符的提取.
图8显示了这五种方法的匹配偏差和时间成本. 纵轴为匹配偏差, 横轴为计算时间以对数刻度方式呈现. 如图8所示, 全局HOG特征方法的匹配偏差最高, 局部HOG特征方法的计算时间最长. 相比于前两者, 基于特征区域的局部HOG特征方法有效地权衡了计算效率与匹配质量间关系. 虽然与局部HOG特征相比, 基于感兴趣区域的场景匹配方法因描述区域的缩小导致匹配精度下降但是计算效率有显著提升. 此外, 融合语义信息后所得到的匹配精度最高. 由此可见, 在计算场景特征描述符前, 先对图像进行关键区域检测是必不可少的. 不仅能够减少无用信息的干扰提升匹配精确度, 还能大幅度缩减时间成本.
如前文所述, 所提出的关键区域检测方法需要根据像素显著性分数和自适应阈值TK对视频帧提取初步特征区域. 根据公式(2)可知TK是帧内平均显著性分数与系数K的乘积, 通过系数K能够间接调整阈值大小. 为确定系数K的值, 对所有可能的系数K通过改变公式(1), 中N的值(变化范围10-50), 获取五组不同的关键区域进行对比实验. 如图9所示, 横轴为系数K的值, 纵轴为匹配偏差, 图中不同线型分别代表不同取值的N. 对比发现, 当系数K等于1.05时, 其匹配偏差最低.
SeqSLAM算法中使用归一化降采样图像作为全局特征描述符[20], 其因运算速度快常被用于实时场景匹配模块. 为验证所提特征提取算法的性能, 在实验中将其与SeqSLAM算法以及在轻轨定位方面做出突出贡献的LRT-ULL算法[6]进行了对比, 观察这三种方法在单帧场景识别中的表现. 图10中只展示了三种方法在四组场景真实标定帧中的表现, 横轴为邻近帧与真实标定间的相对索引, 左侧纵轴为匹配距离, 右侧纵轴为匹配分数. 其中, 仅SeqSLAM算法用匹配距离来衡量. 匹配距离越小则代表场景越相似, 匹配分数越大则代表场景匹配程度越高.
图 10 不同方法在单帧场景识别中的性能表现
Figure 10. Performance of different methods in single frame scene recognition
SeqSLAM算法的匹配结果显示, 真实标定附近大约10个参考帧均与当前帧的匹配距离为0. 这表明基于全局特征的场景匹配方法无法区分连续相似场景. 通过观察图11匹配分数曲线可知, 基于全局-局部特征的LRT-ULL算法与本文所提算法, 均能区分出连续场景间存在的差异. 但是, 所提算法匹配分数的峰值总是出现在真实标定位置, 而LRT-ULL算法存在较为明显的匹配偏差. 由此可见, 所提算法能够保留识别度高的特征, 对相似度高的连续场景具备显著的区分力, 能够对最终获得精确的定位结果起到积极作用.
除此之外, 这三种方法对每帧图像的平均处理时间如表3所示. 所提出的场景特征提取算法明显比LRT-ULL算法速度快. 这是因为本文方法通过引入像素位置线索, 降低了训练矩阵的维数, 使场景描述效率得到显著提升.
表 3 不同方法对每帧图像的平均描述时间对比(s)
Table 3. Comparison of average describing times for each image by different methods (s)
方法 SeqSLAM LRT-ULL 本文方法 时间 0.1327 1.2791 0.1238 -
本文提出的定位方法通过引入关键帧检索机制, 避免了因长距离行驶和部分极端场景给匹配性能带来的影响. 表4为本文方法与SeqSLAM方法[20]和SeqCNNSLAM方法[18]分别在Nordland和MTRHK数据集上进行对比实验的结果. 可以看出, 在相同的的容差范围内, 针对场景复杂的MTRHK数据集, 本文所提出的定位方法在召回率为100%时精确度能达到90.2%, 明显高于另外两种方法. 图11展示了在MTRHK数据集中, 所提出算法的场景匹配结果以及其真实标定. 对场景变化相对简单的Nordland数据集而言, 虽然本文方法在性能上稍逊于使用卷积神经网络提取场景特征的SeqCNNSLAM方法[18], 但精确度仍然能够到达99.24%.
表 4 不同场景跟踪算法的准确率(%)与召回率(%)
Table 4. Precision (%) and recall (%) of different scene tracking methods
数据集 准确率(%)(召回率(%)) SeqSLAM SeqCNNSLAM 本文方法 Nordland 89.56(100) 99.67(100) 99.24(100) MTRHK 39.71(100) 60.72(100) 90.20(100) 表5中对比了在Nordland数据集和MTRHK数据集中, 不同算法完成场景匹配时每帧的平均处理消耗时间. 该结果表明, 相比于全局特征和CNN特征, 使用本文方法计算得到的场景特征, 在场景匹配时所消耗时间最少. 这是因为该描述符使用汉明距离进行特征间相似度的计算, 大幅度提高了特征匹配的效率, 从而满足定位系统对实时性的要求. 结合表4和表5的实验结果可知, 本文所提出的定位方法实现了在匹配精度和计算复杂度之间的最佳平衡.
表 5 在Nordland数据集和MTRHK数据集中不同场景跟踪算法的消耗时间(s)
Table 5. The consumption time (s) of different scene tracking methods in the Nordland and the MTRHK dataset
数据集 平均消耗时间(s) SeqSLAM SeqCNNSLAM 本文方法 Nordland 0.67×10?1 6.51×10?3 3.17×10?3 MTRHK 0.50×10?1 4.90×10?3 2.37×10?3 -
本文以高精度轻轨实时定位系统为研究背景, 采用视觉定位技术, 针对场景变化繁杂的轻轨运行环境, 提出结合关键帧检索机制和全局-局部场景二值化特征的定位方法. 该方法中, 通过融合语义特征检测到的关键区域既能有效降低计算时间成本, 又能提升场景识别的准确度. 其次, 在聚类算法的基础上结合像素位置线索筛选出低相关性的像素对, 不仅使提取到的场景描述符包含丰富的空间和上下文信息, 还减少了其中的冗余信息. 最后, 设计并实现了一个基于单目视觉信息的高精度轻轨实时定位系统. 实验结果表明, 本系统不仅解决了因高帧率造成的连续相似场景使定位精度降低的问题, 同时在场景内在结构发生变化等极端情况的干扰下依旧保持了较高的匹配精度, 既满足了轻轨定位系统对精度的要求也保证了实时性.
Real-time Visual Localization Method for Light-rail with High Accuracy
More Information-
摘要: 轻轨作为城市公共交通系统的重要组成部分, 对其实现智能化的管理势在必行. 针对城市轻轨定位系统要求精度高、实时强且易于安装等特点, 本文提出一种基于全局-局部场景特征与关键帧检索的定位方法. 该方法在语义信息的指导下, 从单目相机获取的参考帧中提取区别性高的区域作为关键区域. 并结合像素点位置线索利用无监督学习的方式筛选关键区域中描述力强的像素对生成二值化特征提取模式, 不仅能够提升匹配精度还显著提高了在线模块场景特征提取与匹配的速度. 其次, 以场景显著性分数为依据获取的关键帧避免了具有相似外观的场景给定位带来的干扰, 并能辅助提高场景在线匹配的精度与效率. 本文使用公开测试数据集以及具有挑战性的轻轨数据集进行测试. 实验结果表明, 本系统在满足实时性要求的同时, 其定位准确率均可达到90%以上.Abstract: As an important part of the urban public transportation system, it is imperative to realize the intelligent management of light rail. By considering the practical requirements like high accuracy, real-time performance, and easy installation, this paper proposes a visual localization method based on global-local features and keyframe retrieval. Under the guidance of semantic information, the region with high significance in each reference frame obtained by the monocular camera is extracted as the key region. Combined with the location cues of pixels, unsupervised learning is used to filter the pixel pairs with strong description force in the key region to generate the binary pattern, which greatly reduces the computation of feature extraction and matching in the online module while improving the matching accuracy. Secondly, the keyframes obtained based on the discrimination score can effectively avoid the interference caused by the scene with analogous appearance, and assist to improve the accuracy and efficiency of online scene matching. The Nordland dataset and the challenging light rail dataset are used for testing. The experimental results show that the precision of the system can reach more than 90% while meeting real-time requirements.
-
Key words:
- Visual localization /
- place recognition /
- keyframe retrieval /
- key region detection /
- sequence matching
-
表 1 Nordland和MTRHK数据集中所需参数设置
Table 1 Parameter settings for Norland and MTRHK datasets
参数符号 参数定义 参数值(Nordland) 参数值(MTRHK) Vmin 最小路径拟合速度 0.8 0 Vmax 最大路径拟合速度 1.2 1.5 Vstep 路径拟合速度步长 0.1 0.1 Nc 像素对提取个数 512 512 K 关键区域检测系数 1.05 1.05 TL 最佳匹配距离阈值 175 175 表 2 不同语义分割模型间的精度对比
Table 2 Accuracy comparison of different semantic segmentation network
语义分割网络 平均交并比(%) Nordland MTRHK FCN 67.9 54.9 PSPNet 70.8 32.7 Deeplab 71.7 55.8 RefineNet 72.5 59.2 DFN 73.0 48.2 BiSeNet 72.2 36.2 融合模型 78.0 64.6 表 3 不同方法对每帧图像的平均描述时间对比(s)
Table 3 Comparison of average describing times for each image by different methods (s)
方法 SeqSLAM LRT-ULL 本文方法 时间 0.1327 1.2791 0.1238 表 4 不同场景跟踪算法的准确率(%)与召回率(%)
Table 4 Precision (%) and recall (%) of different scene tracking methods
数据集 准确率(%)(召回率(%)) SeqSLAM SeqCNNSLAM 本文方法 Nordland 89.56(100) 99.67(100) 99.24(100) MTRHK 39.71(100) 60.72(100) 90.20(100) 表 5 在Nordland数据集和MTRHK数据集中不同场景跟踪算法的消耗时间(s)
Table 5 The consumption time (s) of different scene tracking methods in the Nordland and the MTRHK dataset
数据集 平均消耗时间(s) SeqSLAM SeqCNNSLAM 本文方法 Nordland 0.67×10?1 6.51×10?3 3.17×10?3 MTRHK 0.50×10?1 4.90×10?3 2.37×10?3 -
[1] Martinez C M, Heucke M, Wang F Y. Driving style recognition for intelligent vehicle control and advanced driver assistance: a survey. IEEE Transactions on Intelligent Transportation Systems, 2017, 19(3): 666?676 [2] 俞毓锋, 赵卉菁, 崔锦实, 査红彬. 基于道路结构特征的智能车单目视觉定位. 自动化学报, 2017, 43(5): 725?734 Yu Yu-Feng, Zhao Hui-Jing, Cui Jin-Shi, Zha Hong-Bin. Road structural feature based monocular visual localization for intelligent vehicle. Acta Automatica Sinica, 2017, 43(5): 725?734 [3] Bresson G, Alsayed Z, Yu L. Simultaneous localization and mapping: a survey of current trends in autonomous driving. IEEE Transactions on Intelligent Vehicles, 2017, 2(3): 194?220 doi: 10.1109/TIV.2017.2749181 [4] 丁文东, 徐德, 刘希龙, 张大朋, 陈天. 移动机器人视觉里程计综述. 自动化学报, 2018, 44(3): 385?400 Ding Wen-Dong, Xu De, Liu Xi-Long, Zhang Da-Peng, Chen Tian. Review on visual odometry for mobile robots. Acta Automatica Sinica, 2018, 44(3): 385?400 [5] Cadena C, Carlone L, Carrillo H. Past, present, and future of simultaneous localization and mapping: toward the robust-perception age. IEEE Transactions on robotics, 2016, 32(6): 1309?1332 doi: 10.1109/TRO.2016.2624754 [6] 姚萌, 贾克斌, 萧允治. 基于单目视频和无监督学习的轻轨定位方法. 电子与信息学报, 2018, 40(9): 2127?2134 doi: 10.11999/JEIT171017 Yao Meng, Jia Ke-Bin, Siu Wan-Chi. Learning-based localization with monocular camera for light-rail system. Journal of Electronics & Information Technology, 2018, 40(9): 2127?2134 doi: 10.11999/JEIT171017 [7] Piasco N, Sidibé D, Demonceaux C. A survey on visual-based localization: on the benefit of heterogeneous data. Pattern Recognition, 2018, 74: 90?109 doi: 10.1016/j.patcog.2017.09.013 [8] Lowry S, Sünderhauf N, Newman P. Visual place recognition: a survey. IEEE Transactions on Robotics, 2015, 32(1): 1?19 [9] Cummins M, Newman P. Appearance-only slam at large scale with fab-map 2.0. The International Journal of Robotics Research, 2011, 30(9): 1100?1123 doi: 10.1177/0278364910385483 [10] Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: a versatile and accurate monocular slam system. IEEE Transactions on Robotics, 2015, 31(5): 1147?1163 doi: 10.1109/TRO.2015.2463671 [11] Naseer T, Burgard W, Stachniss C. Robust visual localization across seasons. IEEE Transactions on Robotics, 2018, 34(2): 289?302 doi: 10.1109/TRO.2017.2788045 [12] Qiao Y, Cappelle C, Ruichek Y. Visual localization across seasons using sequence matching based on multi-feature combination. Sensors, 2017, 17(11): 2442 doi: 10.3390/s17112442 [13] Zhang X, Zhao Z, Zhang H. Unsupervised geographically discriminative feature learning for landmark tagging. Knowledge-Based Systems, 2018, 149: 143?154 doi: 10.1016/j.knosys.2018.03.005 [14] Hou Y, Zhang H, Zhou S. Convolutional neural network-based image representation for visual loop closure detection. In: Proceedings of the 2015 IEEE International Ionference on Information and Automation. Lijiang, China: IEEE, 2015. 2238−2245 [15] 刘丽, 赵凌君, 郭承玉, 王亮, 汤俊. 图像纹理分类方法研究进展和展望. 自动化学报, 2018, 44(4): 584?607 Liu Li, Zhao Ling-Jun, Guo Cheng-Yu, Wang Liang, Tang Jun. Texture classification: state-of-the-art methods and prospects. Acta Automatica Sinica, 2018, 44(4): 584?607 [16] Sünderhauf N, Shirazi S, Dayoub F. On the performance of convnet features for place recognition. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany: IEEE, 2015. 4297−4304 [17] Kong Y, Liu W, Chen Z. Robust convnet landmark-based visual place recognition by optimizing landmark matching. IEEE Access, 2019, 7: 30754?30767 doi: 10.1109/ACCESS.2019.2901984 [18] Bai D, Wang C, Zhang B. Sequence searching with CNN features for robust and fast visual place recognition. Computers & Graphics, 2018, 70: 270?280 [19] Arroyo R, Alcantarilla P F, Bergasa L M. Fusion and binarization of CNN features for robust topological localization across seasons. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon, South Korea: IEEE, 2016. 4656−4663 [20] Milford M J, Wyeth G F. SeqSLAM: visual route-based navigation for sunny summer days and stormy winter nights. In: Proceeding of the 2012 IEEE International Conference on Robotics and Automation. Saint Paul, USA: IEEE, 2012. 1643−1649 [21] Milford M. Vision-based place recognition: how low can you go?. The International Journal of Robotics Research, 2013, 32(7): 766?789 doi: 10.1177/0278364913490323 [22] Pepperell E, Corke P I, Milford M J. All-environment visual place recognition with SMART. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China: IEEE, 2014. 1612−1618 -

计量
- 文章访问数: 10
- HTML全文浏览量: 4
- 被引次数: 0