-
人体行为识别是计算机视觉领域和模式识别领域的一个重要的分支, 应用范围十分广泛, 在智能监控、虚拟现实等应用中表现十分优秀[1-5]. 传统的人体行为识别是使用彩色摄像机[6]生成的RGB图像序列, 而RGB图像受到光照、背景、摄像器材的影响十分的大, 识别稳定性较差.
随着技术的发展, 特别是微软Kinect体感设备的推出, 基于图像序列的人体行为识别研究得到了进一步的发展. 相比于彩色图像序列, 深度图序列更有优势. 不仅可以忽略光照和背景带来的影响, 还可以提供深度信息, 深度信息表示为在可视范围内目标与深度摄像机的距离. 深度图序列相较于彩色图序列, 提供了丰富的人体3D信息, Hu等人[7]综述了RGB-D行为识别研究进展和展望. 至今已经探索了多种基于深度图序列的表示方法, 以Bobick等人[8]的运动能量图(motion energy images, MEI)、运动历史图(motion history images, MHI)作为的时空模板的人体行为识别的特征提取方法, 提高了识别的稳健性; Su等人[9]采用函数型数据分析的行为识别方法; Anderson等人[10]基于三维Zernike的图像数据尝试行为分类, 并且该分类对于具有低阶矩的行为是有效的; Wu等人[12]基于三维特征和隐马尔可夫模型对人体行为动作进行分类并加以识别; Wang[13]等人从深度视频中提取随机占用模式(Random Occupancy Pattern, ROP)特征, 并用稀疏编码技术进行重新编码; Zhang[14]等人使用梯度信息和稀疏表达将深度和骨骼相结合, 用于提高识别率; Zhang[15]等人从深度序列中提取的动作运动历史图像和静态历史图像(Sub-action Motion History Image SMHI and Static History Image SHI); Liu[16]等人利用深度序列和相应的骨架联合信息, 采用深度学习进行动作识别; Xu[17]等人提出了深度和骨骼融合的人体行为识别; Wang[18-20]等人采用卷积神经网络进行人体行为识别;Yang[21]等人深度运动图(Depth Motion Maps, DMM), 将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2D地图, 在此基础上差分堆叠整个深度序列动作能量图生成DMM. DMM虽然展现出人体行为丰富的空间信息, 但是无法记录人体行为的时序信息. 针对现有深度序列特征图时序信息缺失的问题, 本文提出了一种新的深度序列表征方式, 即深度时空图(Depth Space Time Maps, DSTM).
DMM特征侧重于表征人体行为的空间信息, 而DSTM侧重于表征人体行为的时序信息. 通过融合空间信息与时序信息进行人体行为识别, 可以提高人体行为识别的鲁棒性, 其中融合算法的可靠性直接影响了识别的精确度. 在一些实际应用中, 数据以不同的方式从不同的区域中收集, 但表现的却是相同的主旨, 随着这种多媒体数据的快速增长, 需要有效的分析融合不同模式的数据. 常见的用于不同模态的数据的融合方法主要依赖于子空间学习, 例如Li等人[22]将典型性相关分析(Canonical Correlation Analysis, CCA)应用于基于非对应区域匹配的人脸识别, 使用CCA来学习一个公共空间, 其中可以测量两个非对应面部区域是否属于同一面部的可能性; Haghighat等人[23]改进CCA提出的判别相关分析(Discriminant Correlation Analysis, DCA); Rosipal[24]等人使用偏最小二乘法(Partial Least Squares, PLS)用于执行多模态人脸识别; Liu等人[25]的字典学习(dictionary learning method)广泛应用于多视图的人脸识别, Zhuang等人[26]使用基于图的学习方法(graph-based learning method)进行多模态的融合; Sharma[28]等人将线性判别分析(LDA)和边际Fisher分析(MFA)扩展到它们的多视图对应物, 即广义多视图LDA (GMLDA)和广义多视图MFA (GMMFA), 并将它们应用于处理跨媒体检索问题; wang等人[29]对子空间学习进行改进, 同样将它们应用于跨媒体的检索问题. 为增大不同模态数据经过投影后的类间距离, 本文提出多聚点子空间学习算法用于融合空间信息与时序信息进行人体行为识别.
-
Bobick[7]通过对彩色序列中相邻帧进行图片差分, 获得人体行为的区域, 在此基础上进行二值化后生成二值的图像序列
$ D(x, y, t), $ 进一步获得二值特征图MEI:$$ E_{\tau}(x, y, t) = \bigcup\limits_{i = 0}^{\tau-1} D(x, y, t-i) $$ (1) 其中
$ E_{\tau}(x, y, t) $ 为视频序列中帧处, 由帧序列生成的MEI.Bobick[7]在MEI的基础上, 为了表示出行为的时序性, 提出了MHI. 在MHI中像素亮度是该点处运动的时间历史函数. MHI通过简单的替换和衰减运算获得:
$$ \begin{array}{l}{H_{\sigma}(x, y, t)} =\\ { \left\{\begin{array}{ll}{\sigma,} & {\;{\rm{if}}\; D(x, y, t) = 1} \\ {\max \left(0, H_{\sigma}(x, y, t-1)-1\right),} & {\rm { otherwise }}\end{array}\right.}\end{array} $$ (2) 其中
$ H_{\sigma}(x, y, t) $ 的初始像素亮度为$ \sigma ,D(x, y, t) $ 为整个图像序列. -
Yang[21]等人提出了将深度图序列中的深度帧投影到笛卡尔直角坐标平面上, 易于获取3D结构和形状信息, 在这个过程中提出了DMM (Depth Motion Maps)描述行为, 每个深度帧在投影后获得主视图, 侧视图和俯视图三个2D投影图, 表示为
$ map_{v}, $ 假设一个有$ N $ 帧的深度图序列,$ DMM_{v} $ 特征计算方式:$${\rm{DM}}{{\rm{M}}_v} = \sum\limits_{i = 2}^N {\left| {{\rm{map}}_v^i - {\rm{map}}_v^{i - 1}} \right|} v \in \{ {\rm{f}},{\rm{s}},{\rm{t}}\} $$ (3) 其中
$ i $ 表示帧索引,$ {map}_{v}^{i} $ 表示第$ i $ 帧深度帧在$ v $ 方向上的投影,$ f $ 表示主视图,$ s $ 表示侧视图$ t $ 表示俯视图. -
子空间学习的应用是庞大的数据集样本背后最质朴的特征选择与降维, 空间学习的基础是Harold Hotelling提出的典型性相关分析[16](Canonical Correlation Analysis, CCA), CCA主要思想是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合), 用这些指标的相关关系来表示原来的两组变量的相关关系, 假设有两组数据样本
$ X $ 和$ Y, $ 其中$ X $ 为$ x_{1} \times m $ 的样本矩阵,$ Y $ 为$ x_{2} \times m $ 的样本矩阵, 对$ X , Y $ 做标准化后CCA的计算公式:$$ \arg \max (a, b) = \frac{{\rm{cov}}\left(X^{\prime}, Y^{\prime}\right)}{\sqrt{D\left(X^{\prime}\right) D\left(Y^{\prime}\right)}} $$ (4) 其中
$ a , b $ 分别为$ X , Y $ 的投影矩阵,$X^{\prime} = a^{\mathrm{T}} \cdot X, Y^{\prime} =$ $a^{\mathrm{T}} \cdot Y,$ 其中$ cov $ 为协方差,$ {\rm{cov}}\left(X^{\prime}, Y^{\prime}\right) $ 协方差和方差的计算公式:$$ \begin{split} {\rm{cov}}\left(X^{\prime}, Y^{\prime}\right) =& {\rm{cov}}\left(a^{\mathrm{T}} X, b^{\mathrm{T}} Y\right)= \\ & \mathrm{E}\left(<a^{\mathrm{T}} X, b^{\mathrm{T}} Y>\right) =\\ & a^{\mathrm{T}} \mathrm{E}\left(X X^{\mathrm{T}}\right) b \end{split} $$ (5) $$ D(X) = {\rm{cov}}(X, X) = \mathrm{E}\left(X X^{\mathrm{T}}\right) $$ (6) CCA的优化目标公式:
$$ \arg \max (a, b) = \frac{a^{\mathrm{T}} {\rm{cov}}(X, Y) b}{\sqrt{a^{\mathrm{T}} {\rm{cov}}(X, X) a} \sqrt{b^{\mathrm{T}} {\rm{cov}}(Y, Y) b}} $$ (7) 以CCA为基础的子空间学习将大规模的数据样本进行优化, 但它的计算复杂度很高, 同时无法消除阶级间的相关性并无法限制类内的相关性.
-
由于DMM存在着无法记录人体行为的时序信息的缺陷, 本文提出一种深度图序列表示算法DSTM, DSTM反映的是人体3D时空行为在空间直角坐标轴上的分布随着时间变化情况, 人体所在空间直角坐标系三个轴分别为宽度轴(
$ w $ )代表宽度方向、高度轴($ h $ )代表高度方向、深度轴($ d $ )代表深度方向, 图1为DSTM的流程图.如图1所示, 首先将深度帧投影在三个笛卡尔正交面上, 获得主视图, 侧视图和俯视图三个2D投影图, 表示为
$ \operatorname{map}_{v} , v \in\{\mathrm{f}, \mathrm{s}, \mathrm{t}\} .$ 然后根据每张2D投影图得到两个轴的行为分布情况. 任选两张2D投影图即可得到宽度轴, 高度轴, 深度轴的行为分布情况.对
$ a $ 轴上的投影投影列表:$${\rm{su}}{{\rm{m}}_a}(i) = \sum\limits_{x = 1}^W {{{{\mathop{\rm map}\nolimits} }_v}} (x, i)\;{\rm{or}}\;\sum\limits_{y = 1}^{\rm{H}} {{{{\mathop{\rm map}\nolimits} }_v}} (i, y)$$ (8) 其中
$ a \in\{\mathrm{w}, \mathrm{h}, \mathrm{d}\}, \mathrm{W}, \mathrm{H} $ 分别表示为2D投影图的宽度和高度.$ sum_{a} $ 表示2D投影图序列在$ a $ 轴上投影列表. 2D投影图序列在a轴上的投影列表进行二值化:$$ {\rm{list}}_{a}(i) = \left\{\begin{array}{l}{1, {\rm{sum}}_{a}(i)>\varepsilon} \\ {0, { {\rm{otherwise}} }}\end{array}\right. $$ (9) 其中
$ list_{a} $ 表示在2D投影图序列在$ a $ 轴上的投影列表进行二值化,$ a \in\{\mathrm{w}, \mathrm{h}, \mathrm{d}\}, \varepsilon $ 表示二值化的阈值. 假设有N帧投影, DSTM的计算公式:$$ \mathrm{DSTM}_{a}(\mathrm{t}) = \mathrm{list}_{a}^{\mathrm{t}} $$ (10) 其中
$ {\rm{list}}_{a}^{t} $ 表示第t帧2D投影图序列在$ a $ 轴上投影列表进行二值化后,$ {\rm{DSTM}}_{a}(\mathrm{t}) $ 表示$ {\rm{DSTM}}_{a} $ 的第t行.最后对DSTM的进行感兴趣区域(region of interest, ROI)处理, 根据感兴趣区域的主旨, 对图片进行裁剪、大小归一化处理.
-
子空间学习存在着计算复杂度高, 同时存在无法消除阶级间相关性的缺陷, 本文提出了多聚点子空间学习的方法, 在约束平衡模态间样本关系的同时, 通过构建同类别各样本的多个投影聚点, 疏远不同类别样本的类间距离, 降低了投影目标区域维度. 多聚点子空间学习算法的思想可表示为.
$$ \begin{split}&{\min _{U_{1}, \cdots, U_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}\!-\!Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21}}+ \\ &{\lambda_{2} \Omega\left(\mathrm{U}_{1}, \cdots, \mathrm{U}_{M}\right)\!+\!\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{\mathrm{L}\!-\!1}\left\|X_{p}^{T} U_{p}-G_{c}\right\|_{F}^{2}}\end{split} $$ (11) 其中
$ X_{p} $ 表示未经投影各模态样本, 即原空间样本;$ U_{p} ,p = 1, \cdots, M $ 是各模态样本的投影矩阵;$ X_{p}^{T} U_{p} $ 表示经投影后各模态样本, 即子空间样本;$ L $ 表示类别总数;$ Y $ 为子空间内目标投影矩阵, 由各类别样本目标投影聚点$ y_{i} $ 组成;$ G_{c} $ 为多个各模态同一类别样本新建目标投影点矩阵;$ \lambda_{1}, \lambda_{2} , \lambda_{3} $ 为各项超参. -
我们将传统子空间学习称为单聚点子空间学习. 多聚点子空间学习与单据点子空间学习的主要区别是聚点个数的不同, 具体定义如下:
(1)单聚点子空间学习: 通过学习每种模态数据的投影矩阵, 将不同类别数据投影到公共子空间. 投影矩阵的学习通常是最小化投影后样本与各类数据唯一主聚点的距离得到, 公式如下:
$$ \min\limits_{U_{1}, \cdots, U_{M}} \sum\limits_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum\limits_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21} $$ (12) 公式(12)中,
$ Y $ 为子空间内目标投影矩阵, 由各类别样本目标投影聚点$ y_{i} $ 组成, 可表示为$Y = [\mathrm{y}_{1}, $ $ \mathrm{y}_{2}, \cdots, \mathrm{y}_{N}]^{\mathrm{T}} ,$ 其中$y_{i} = \left(\mathrm{v}_{1}, \mathrm{v}_{2}, \cdots, \mathrm{v}_{j}, \cdots, \mathrm{v}_{\mathrm{L}}\right), j = 1,$ $\cdots, \mathrm{L} , \mathrm{v}_{j} = \left\{\begin{aligned}&{1,} \quad {x_{\mathrm{i}} \in j-\operatorname{th} \mathrm{class}} \\ &{0,} \quad {\rm { otherwise }}\end{aligned}\right.$ ,$ x_{i} $ 为样本图2为单聚点子空间学习. 通过最小化子空间样本与各类别投影聚点之间距离来减少样本的类内距离.
(2)多聚点子空间学习: 多聚点子空间学习是对单聚点子空间学习的优化, 都是通过学习每种模态数据的投影矩阵, 将不同类别数据投影到公共子空间. 不同的是, 投影矩阵的学习是同时最小化投影后样本与各类数据唯一主聚点以及与多个副聚点的总距离得到, 有以下公式:
$$ \begin{split}&{\min _{U_{1}, \cdots, U_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21}} +\\ &\qquad{\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{\mathrm{L}-1}\left\|X_{p}^{T} U_{p}-G_{c}\right\|_{F}^{2}}\end{split} $$ (13) $ G_{c} $ 为各类别样本的第c个副投影聚点集合矩阵. 副投影聚点为其他类别投影聚点关于当前类别目标投影聚点的对称聚点.$ G_{c} $ 的构建步骤如下:Input: a. 子空间样本:
$ \mathrm{Y} = \left\{\mathrm{y}_{i}\right\}, i = 1,\cdots, \mathrm{L} $ Input: b. 类别数:
$ L $ Output: a.多聚点子空间内目标投影矩阵:
$ G_{c} $ $ \mathrm{A} \Leftarrow \mathrm{Y} $ for all
$ c \Leftarrow\{1,\cdots, L-1\} $ dofor all
$ j \Leftarrow\{1, \cdots, \mathrm{L}\} \mathrm{d} \mathrm{o} $ if
$ c = =0 $ then$ \mathrm{B}^{0} \Leftarrow \mathrm{A}^{j-1} $ else
$ \mathrm{B}^{j} \Leftarrow \mathrm{A}^{j-1} $ end if
end for
$ \mathrm{A} \Leftarrow \mathrm{B} $ $ G_{c} \Leftarrow 2 \mathrm{Y}_{j}-\mathrm{A} $ end for
注*
$ {{\rm{B}}^j} $ 为矩阵$ B $ 中第$ j $ 列图3为多聚点子空间学习. 通过为各类别样本构建了多个投影聚点并使用了模态内、模态间数据相似度关系, 使得子空间样本向多个投影目标点附近的超平面聚拢, 有效增大了子空间样本之间的距离, 降低了投影目标区域的维度, 使得投影目标区域从n维的超球体变为n-1维的超平面, 使得同一类别的子空间样本更为紧凑, 从而有效的提高了算法的特征优化效果. 因此结合使用数据模态内、模态间相似度关系的多聚点子空间学习可表示为:
$$ \begin{split}&{\min _{U_{1}, \cdots, U_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21}} +\\ &{\lambda_{2} \Omega\left(\mathrm{U}_{1}, \cdots, \mathrm{U}_{M}\right)\!+\!\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{\mathrm{L}-1}\left\|X_{p}^{T} U_{p}\!-\!G_{c}\right\|_{F}^{2}}\end{split} $$ (14) -
本文以公式(14)第一项为基准确定式中各项超参, 设定子空间样本与目标投影聚点之间约束程度等同于同类别子空间样本之间约束程度. 第一项中子空间样本与目标投影点之间约束共有个, 计算如式所示:
$$ {F_1} = M \times N $$ (15) 其中
$ M $ 为模态数,$ N $ 为样本数.第三项中子空间样本之间约束共有
$ {F_2} $ 个, 其中同一模态子空间样本相似度的约束共有$ {F_a} $ 个, 不同模态同一类别的子空间样本之间的相似度的约束共有$ {F_b} $ 个,$ {F_2} ,{F_a} , {F_b} $ 计算如式所示:$$ {F_a} = \frac{{M \times N \times N}}{2} $$ (16) $$ {F_b} = \sum\limits_{{\rm{i = 1}}}^L {[{N_i} \times M} \times ({N_i} \times M + 1)]/2 $$ (17) $$ {F_2} = {F_a} + {F_b} $$ (18) 其中
$ L $ 为样本类别数;$ N_i $ 为各类样本数, 并且$ N = $ $ \sum\nolimits_{i = 1}^{\rm{L}} {{N_i}} $ 第四项中子空间样本与目标投影聚点之间约束共有
$ {F_3} $ 个,$ {F_3} $ 计算如式所示:$$ {F_3} = {F_1} \times (L - 1) = M \times N \times (L - 1) $$ (19) 在子空间样本与目标投影聚点之间约束程度等同于同类别子空间样本之间约束程度前提下, 根据
$ {F_1} $ 、$ {F_2} $ 、$ {F_3} $ 比例关系, 可以确定第三项与第四项超参如公式(15)-(19)所示:$$ \begin{split}\lambda_{2} \!=& \frac{F_{1}}{F_{2}} \!=\! \frac{2 \!\times\! M \times N}{M \!\times\! N \!\times\! N\!+\!\sum\limits_{i = 1}^{L}\left[N_{i} \!\times\! M \!\times\!\left(N_{i} \!\times\! M\!+\!1\right)\right]} =\\ &{ \frac{2}{N}+\frac{2 \sum\limits_{i = 1}^{L} N_{i}}{M \sum\limits_{i = 1}^{L} N_{i}^{2}+\sum\limits_{i = 1}^{L} N_{i}}}\\[-30pt]\end{split} $$ (20) $$ {\lambda _3}{\rm{ = }}\frac{{{F_1}}}{{{F_3}}} = \frac{{M \times N}}{{M \times N \times (L - 1)}} = \frac{1}{{L - 1}} $$ (21) 最后本文通过实验, 以最终识别率依据, 确定
$ {\lambda _1} $ . -
对于本文公式(16)中的几项可进行优化, 公式中的第二项是对各模态的数据样本投影矩阵的约束项, 防止算法过拟合. 第二项中含有
$ {l_{2,1}} $ 范数, 它是非平滑且不能得到的一个闭式解[32]. 对于投影矩阵, 其$ {l_{2,1}} $ 范数定义:$$ \sum\limits_{p = 1}^M {{{\left\| {{{\rm{U}}_p}} \right\|}_{21}}} \!=\! \sum\limits_{p = 1}^M {\left( {\sum\limits_{i = 1}^m {\sqrt {\sum\limits_{j = 1}^n {u_{ij}^2} } } } \right)} \!=\! \sum\limits_{p = 1}^M {{\rm{Tr}}} \left( {{\rm{U}}_p^T{{\rm{R}}_p}{{\rm{U}}_p}} \right) $$ (22) 其中
$ {R_p} = [{r_{ij}}] $ 是一个对角阵,$ {r_{ij}} = \dfrac{1}{{2||{u_p}|{|_2}}} , {u_p} $ 表示投影矩阵$ U $ 的第$ i $ 个行向量, 为了避免$ ||{u_p}|{|_2} $ 的值为0, 根据文献[33]对于$ {l_{2,1}} $ 的分析, 引入一个不为0的无穷小数$ \varepsilon , {r_{ij}} $ 重新定义为:$$ {r_{ij}} = \frac{1}{{2\sqrt {||{u_p}||_2^2 + \varepsilon } }} $$ (23) 公式(14)中第三项是不同模态同一类别的子空间样本之间的约束. 第三项可以通过如下方式进行推导
$$ \begin{split} \Omega\left(\mathrm{U}_{1}, \cdots, \mathrm{U}_{M}\right) =& \frac{1}{2} \sum\limits_{i = 1}^{N} \sum\limits_{j = 1}^{N} W_{i j}\left\|f_{i}-f_{j}\right\|^{2} =\\ & \sum\limits_{i = 1}^{N} \sum\limits_{j = 1}^{N} W_{i j} f_{i}^{2}-\sum\limits_{i = 1}^{N} \sum\limits_{j = 1}^{N} W_{i j} f_{i} f_{j} =\\ & \mathrm{F} D F^{T}-F W F^{T} =\\ & {\rm{Tr}}\left(\mathrm{FLF}^{T}\right) =\\ & \sum\limits_{p = 1}^{M} \sum\limits_{q = 1}^{M} {\rm{Tr}}\left(\mathrm{U}_{p}^{T} \mathrm{X}_{p}^{b} \mathrm{L}_{\mathrm{pq}}\left(\mathrm{X}_{q}^{b}\right)^{T} \mathrm{U}_{q}\right) \end{split} $$ (24) 其中
$ \mathrm{N}^{\prime} $ 是所有模态的样本总数,$ p,q $ 为两个不同的模态,$ L $ 是拉普拉斯矩阵并且$ F = (F_1^T,\cdots,F_M^T) =$ $ (U_1^TX_1^b,\cdots,U_M^TX_M^b) ,W $ 为模态相似度矩阵, 其定义为:$$ W_{ij}^{pq} = \left\{ {\begin{array}{*{20}{l}} {1,}&{{\rm{x}}_i^p\;{\rm{is}}\;{\rm{the}}\;{\rm{same}}\;{\rm{category}}\;{\rm{of}}\;x_j^q}\\ {0,}&{{\rm{ otherwise }}} \end{array}} \right. $$ (25) 公式(14)通过优化后可以重新表达为
$$ \begin{split}&{\min _{U_{1}, V_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M} {\rm{Tr}}\left(U_{p}^{T} {\bf{R}}_{p} \mathrm{U}_{p}\right)+} \\ &{\lambda_{2} \sum_{p = 1}^{M} \sum_{q = 1}^{M} {\rm{Tr}}\left(\mathrm{U}_{p}^{T} \mathrm{X}_{p}^{b} \mathrm{L}_{\mathrm{pq}}\left(\mathrm{X}_{q}^{b}\right)^{T} \mathrm{U}_{q}\right)^{+}} \\ &{\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{L-1}\left\|X_{p}^{T} U_{p}-G_{c}\right\|_{F}^{2}}\\[-20pt]\end{split} $$ (26) 通过下述步骤求解线性系统问题来计算(26)的最优解
Input: a.原空间样本:
$ {X_p},p = 1,\cdots,M $ Input: b.子空间样本:
$ Y{\rm{ = \{ }}{{\rm{y}}_i}{\rm{\} ,}}i{\rm{ = 1}} \cdots L $ Output: 子空间内目标投影矩阵:
$ {U_p},p = 1,\cdots,M $ a. 计算
$ L $ 的拉普拉斯矩阵b. 设置
$ t = 0 $ , 初始化$ U_{p} $ repeat 1,2:
1. 通过求解方程(26)中的线性系统问题,
$ U_p^t $ 更新如下:$$ \begin{split} U_{p}^{t+1} = &\left(\mathrm{X}_{p} \mathrm{X}_{p}^{T}+\lambda_{\mathrm{s}} \mathrm{X}_{p} \mathrm{X}_{p}^{T}+\lambda_{1} \mathrm{R}_{p}+\right.\\ &\left.\lambda_{2} \mathrm{X}_{p} \mathrm{L}_{p p}\left(\mathrm{X}_{p}\right)^{T}\right)^{-1}\left(\mathrm{X}_{p} \mathrm{Y}+\lambda_{\mathrm{s}} \sum\limits_{c = 1}^{L} \mathrm{X}_{p} \mathrm{G}_{c}-\right.\\ &\left.\lambda_{2} \sum\limits_{p \neq q} X_{p} L_{p q}\left(\mathrm{X}_{q}\right)^{T} \mathrm{U}_{q}^{t}\right) \\[-20pt]\end{split} $$ (27) 2.
$ t = t + 1 $ until convergence
通过算法2进行求解, 先计算出拉普拉斯矩阵, 然后求解出然后代入公式(27)进行重复求解, 重复步骤1, 2, 直到收敛.
-
文献[11]对数据集进行了详细的研究,本文采用的是由Kinect摄像头采集的MSR-Action3D[30]数据库和UTD-MHAD[27]数据库.
MSR-Action3D(MSR)数据库由10个人20个动作重复
$ 2\sim 3 $ 次, 共计557个深度图序列, 涉及人的全身动作. 详情如表1所示表 1 MSR数据库中的人体行为
Table 1. Human Actions in MSR
动作 样本数 动作 样本数 高挥手(A01) 27 双手挥(A11) 30 水平挥手(A02) 26 侧边拳击(A12) 30 锤(A03) 27 弯曲(A13) 27 手抓(A04) 25 向前踢(A14) 29 打拳(A05 26 侧踢(A15) 20 高抛(A06) 26 慢跑(A16) 30 画叉(A07) 27 网球挥拍(A17) 30 画勾(A08) 30 发网球(A18) 30 画圆(A09) 30 高尔夫挥杆(A19) 30 拍手(A10) 30 捡起扔(A20) 27 UTD-MHAD (UTD)数据库由8个人(4男4女) 27个动作重复4次, 共计861个深度图序列. 详情如表2所示
表 2 MSR数据库中的人体行为
Table 2. Human Actions in MSR
动作 样本数 动作 样本数 向左滑动(B01) 32 手臂卷曲(B16) 32 向右滑动(B02) 32 挥网球(B15) 32 挥手(B03) 32 网球发球(B17) 32 鼓掌(B04) 32 推(B18)) 32 扔(B05) 32 敲(B19) 32 双手交叉(B06) 32 抓(B20) 32 拍篮球(B07) 32 捡起扔(B21) 32 画叉(B08) 31 慢跑(B22) 31 画圆(B09) 32 走(B23) 32 持续画圆(B10) 32 坐下(B24) 32 画三角(B11) 32 站起来(B25) 32 打保龄球(B12) 32 弓步(B26) 32 冲拳(B13) 32 蹲(B27) 32 挥羽毛球(B14) 32 为了验证时序信息在人体行为中的重要性, 本文将与原深度图序列顺序相反的行为称为反序行为. 本文中的反序行为是通过将正序行为的深度图序列进行反序排列操作得到新数据库D1, D2, 其中D1为MSR数据库及MSR反序数据库, D2为UTD数据库及UTD反序数据库. D1正反高抛动作如图4所示.
-
本文采用10×10像素的图像单元分割图像, 每2×2个图像单元构成一个图像块, 以10像素为步长滑动图像块来提取图像的HOG[28]特征. 采用采样半径为2, 采样点数为8的参数设置来提取图像LBP[31]特征. 尺寸归一化后
$ {\rm{DM}}{{\rm{M}}_f} $ 大小为320*240,$ {\rm{DM}}{{\rm{M}}_s} $ 大小为500*240,$ {\rm{DM}}{{\rm{M}}_t} $ 大小为320*500, 所以DMM-HOG的特征数量为120 924. DMM-LBP的特征数量为276 800. 同样尺寸归一化后$ \mathrm{DSTM}_{\mathrm{w}} $ 大小为320*60,$ \mathrm{DSTM}_{\mathrm{h}} $ 大小为240*60,$ \mathrm{DSTM}_{\mathrm{d}} $ 大小为500*60, 所以DMM-HOG的特征数量为18 540. DMM-LBP的特征数量为63 600.实验中分为两个设置. 设置一在MSR数据库的上将20个行为分为3组(AS1、AS2、AS3)[31]方法相同, 行为分布情况如表1, 其中AS1和AS2组内相似度较高, AS3组内相似度较低. 如表3所示
表 3 MSR数据库中的人体行为
Table 3. Human Actions in MSR
AS1 AS2 AS3 A02 A01 A06 A03 A04 A14 A05 A07 A15 A06 A08 A16 A10 A09 A17 A13 A11 A18 A18 A14 A19 A20 A12 A20 设置二在MSR数据库和UTD数据库上选取全部的动作.
在设置中可采用4种测试方法. 测试1, 1/3作为训练数据, 2/3作为测试数据; 测试2[13], 1/2作为训练数据, 1/2作为测试数据; 测试3, 2/3作为训练数据, 1/3作为测试数据; 测试4, 采用5折交叉验证
-
本文提出的人体识别的模型中, 首先要确定参数
$ {\lambda _1}, {\lambda _2}, {\lambda _3} $ 的值. 在进行子空间学习的时候, 参数对于结果有着巨大的影响, 所以需要优先估计最优的参数. 通过列举参数的不同, 以识别率的高低作为评判标准. 识别率= (预测正确测试样本数/总测试样本数), 通过采用设置一测试1的方法, 采用HOG特征进行实验, 其中根据公式(20)(21)分别可以得到${\lambda _2}{\rm{ = }}\dfrac{1}{{13\;847}} , {\lambda _3} = \dfrac{1}{{19}},$ 根据图5可知, 当$ {\lambda _1} = 20$ 时, 本文算法具有较高的人体识别性能. -
同一种特征图而言, 采用不同的分类器识别效果会有较大的差异. 为了选择特征图识别效果较好的分类器, 本实验通过DSTM在不同的分类器的识别效果, 最终以识别率作为标准, 采用设置一测试3的方法, 如图6所示:
从图6中可以发现HOG特征采用了不同的分类器得到的识别率差异较, 不同特征图采用同一分类器, 与同一特征图采用不同分类器, 支持向量机(SVM)的识别效果较好, 下面实验均采用SVM作为分类器.
-
为了筛出空间信息和时序信息的特征图, 采用设置一在MSR数据库使用测试一、二、四的方法上进行实验, 并且对3组实验结果设置了平均值. 采用设置二在UTD数据库上使用测试1, 测试2, 测试3的方法进行实验; 通过个体识别率和平均识别率来筛出空间信息和时序信息的特征图.
表4和表5使用HOG和LBP两个特征图序列. 表4中无论单个识别率或平均识别率和表5中所有动作的识别率可以得出结论: 在同一特征图中, HOG特征较LBP特征有着更高的识别率. LBP特征反映的是像素周围区域的纹理信息; HOG特征能捕获轮廓, 弱化光照, 对于深度图有着更好的表征特点, 有着较高的识别率. 就本文实验而言. HOG特征更适合于本实验.
表 4 MSR数据库上不同特征的识别率
Table 4. Different of feature action recognition on MSR
method Test One Test Two Test Three AS1 AS2 AS3 avg AS1 AS2 AS3 avg AS1 AS2 AS3 avg MEI-HOG 69.79 77.63 79.72 75.71 84.00 89.58 93.24 88.94 86.95 86.95 95.45 89.78 MEI-LBP 57.05 56.58 64.19 59.27 66.66 69.79 78.37 71.61 69.56 73.91 77.27 73.58 DSTM-HOG 83.22 71.71 87.83 80.92 94.66 84.37 88.23 89.80 91.30 82.61 95.95 89.95 DSTM-LBP 84.56 71.71 87.83 81.37 88.00 82.29 95.94 88.74 86.96 82.61 95.45 88.34 MHI-HOG 69.79 72.36 70.95 71.03 88.00 84.37 89.19 87.19 95.65 82.60 95.45 91.23 MHI-LBP 51.67 60.52 54.05 55.41 73.33 70.83 78.37 74.18 82.60 65.21 72.72 73.51 DMM-HOG 88.00 87.78 87.16 87.65 94.66 87.78 100.00 94.15 100.00 88.23 95.45 94.56 DMM-LBP 89.52 87.78 93.20 90.17 93.11 85.19 100.00 92.77 94.03 88.98 92.38 91.80 表 5 UTD数据库上不同特征的识别率
Table 5. Different of feature action recognition on UTD
method Test One Test Two Test Three MEI-HOG 69.51 65.42 68.20 MEI-LBP 45.12 51.97 52.61 DSTM-HOG 71.08 80.28 89.54 DSTM-LBP 68.81 80.97 86.06 MHI-HOG 56.44 66.58 73.14 MHI-LBP 49.82 53.82 57.40 DMM-HOG 78.39 75.40 87.94 DMM-LBP 68.98 74.94 86.75 在表4和表5中选择同为HOG特征的特征图, 从表中的识别率可以得出DMM和DSTM与MEI和MHI相比有更高的识别率, 主要原因是MEI将深度帧二值化后的进行叠加, 掩盖了时序图中每张图的轮廓信息, 丢失了时序图自身的深度信息, 但反映出一定的轮廓信息, 保留了一定的空间信息; MHI虽然通过图像的亮度衰减, 增加了一部分的时序信息, 但由于人为干预图像的亮度丢失了图像自身的深度信息.
使用DSTM和DMM的优势主要有以下几点: 一是DMM是将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2D地图, 在此基础上差分堆叠整个深度序列动作能量图. 相较于MEI, DMM充分了使用了时序图的深度信息, 丰富了特征中的空间信息, 很大程度上保留了轮廓信息, 并且从三个方向上可以很明显的看出行为动作, 充分展现了空间信息. 二是DSTM是将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2维地图, 提取任意两个2维地图投影到3个正交轴上获取三轴坐标投影, 将获得的坐标投影二值化后按时间顺序进行拼接. DSTM将深度帧的时序信息很好的保留了下来, 相较于MHI有了很大程度上的改善. DSTM较好保存了时序信息.
时序信息在行为识别中有着重要的作用. 对比DMM, DSTM蕴含着重要的时序信息. 本文在D1和D2数据库上采用设置二, 使用测试1的方法
通过对比表6的识别率和表7时间复杂度, 在D1与D2数据库的实验证明, DMM由于未含有时序信息,与DSTM识别率差异较大. 另外DMM相较于DSTM时间复杂度较高, DSTM的时序信息在行为识别中起着重要的作用.
表 6 DMM和DSTM对比实验结果
Table 6. Experimental results of DMM and DSTM
method D1 D2 DSTM 62.83 81.53 DMM 32.17 63.93 表 7 DMM和DSTM平均处理时间
Table 7. Average processing time of DMM and DSTM
method D1(s) D2(s) DSTM 2.1059 3.4376 DMM 5.6014 8.6583 -
本文选取的深度运动图代表的空间信息与深度时空图代表的特征图使用多聚点子空间学习的算法(简称本文方法). 为了表征本文方法对于单一特征有着更高的识别率以及本文方法对于融合方法同样有着更高的识别率, 通过与当前主流单一算法和融合算法进行比较. 在MSD-Action3D上采用设置二测试2, 设置二测试4的方法. 在UTD-MHAD上采用设置二测试4
表8采用了均文献[13]方法的实验设置,其中文献[34-40]方法使用了深度学习的模型框架. 识别率最高为91.45. 本文的识别率达到了90.32%,接近文献[34]中的最优结果, 主要原因是: 本文提出的DSTM算法可以将深度帧的时序信息很好地保留下来,因此获得的特征信息更加丰富和完善. 多聚点子空间的方法构建了多个投影聚点并使用了模态内、模态间数据相似度关系, 使得子空间样本向多个投影目标点附近的超平面聚拢, 有效增大了子空间样本之间的距离, 所以在行为识别中表现出了较为优越的性能. 表9和表10在多聚点子空间学习加单个特征图的识别率有一定的提升,但相较于融合DSTM特征和DMM特征图略有不足. 在采用不同的融合方法时, 识别率也有一定提升. 本文方法的识别率在MSR数据库高达98.21%和UTD数据库98.84%. 为了更深层次的了解本文方法的识别效果, 本文给出了本文方法的每个动作识别效果的混淆矩阵.
表 8
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $ 在上的实验结果Table 8. Experimental results on
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $ 表 9
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $ 在上的实验结果Table 9. Experimental results on
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $ 表 10 UTD-MHAD在设置二测试4上的实验结果
Table 10. Experimental results on UTD-MHAD
融合DMM的空间信息和DSTM的时序信息的两种特征图后, 得到空间时序特征. 多聚点子空间学习是通过为各类别样本构建了多个投影聚点. 图7(b)为MSR的混淆矩阵, 从中可以看出整体识别率, 图中显示本文方法将画叉识别成画圈, 发网球识别成了画勾. 两类动作差异性小, 较容易出错. 图7 (c)为UTD的混淆矩阵, 从图中显示本文方法将慢跑别成走路. 出现错误原因是动作行为轨迹相似性较大.
-
针对现有的深度图序列特征图冗余过多, 时序和空间信息缺失等问题, 本文提出一种新的深度序列表示方式DSTM和多聚点子空间学习, 并在此基础上进行了人体行为识别研究. 首先将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2D地图, 提取任意两个2D地图投影到3个正交轴上获取三轴坐标投影, 将获得的坐标投影二值化后按时间顺序进行拼接生成DSTM, 对每张DSTM提取HOG特征以获得时序信息, 然后对DMM提取HOG特征以获得空间信息. 多聚点子空间学习, 在约束平衡模态间样本关系的同时, 通过构建了同类别各样本的多个副投影聚点, 疏远不同类别样本的类间距离, 降低了投影目标区域维度, 最后送入分类器进行人体行为识别. 本实验表明本文提出的DSTM和多聚点子空间学习的方法能够减少深度序列的冗余, 保留丰富的空间信息和良好的时序信息, 有效的提高行为识别的准确性.
Recognizing Action Using Multi-center Subspace Learning-based Spatial-temporal Information Fusion
More Information-
摘要: 基于深度图序列的人体行为识别, 一般通过提取特征图来提高识别精度, 但这类特征图通常存在时序信息缺失的问题. 针对上述问题, 本文提出了一种新的深度图序列表示方式, 即深度时空图(Depth Space Time Maps, DSTM), 该算法降低了特征图的冗余度, 弥补了时序信息缺失的问题. 本文通过融合空间信息占优的Depth Motion Maps (DMM) 与时序信息占优的DSTM, 进行高精度的人体行为研究. 提出了一种名为多聚点子空间学习Multi-Center Subspace Learning (MCSL)的多模态数据融合算法. 该算法为各类别数据构建了多个投影聚点,以此增大了样本的类间距离, 降低了投影目标区域维度. 本文在MSR-Action3D深度数据集和UTD-MHAD深度数据集上进行人体行为识别最后实验结果表明, 本文方法相较于现有人体行为识别方法有着较高的识别率.Abstract: Human action recognitions from depth map sequences improve the recognition accuracy by extracting feature maps. A new representation of depth map sequences called Depth Space Time Maps (DSTM) is proposed in this paper for overcoming the lack of temporal information in e feature maps. DSTM reduces the redundancy of action features. We conduct high-precision human action recognitions by fusing Depth Motion Maps (DMM) and DSTM based on a new multi-modal data fusion algorithm called Multi-Center Subspace Learning (MCSL). The algorithm constructs multiple projection centers for each class data to expand the samples inter-class distance and reduce the projection target area dimension. Experiments conducted on MSR-Action3D and UTD-MHAD depth database show the effectiveness of the proposed method.
-
Key words:
- action recognition 1 /
- information fusion 2 /
- DSTM 3 /
- multi-center subspace learning 4
-
表 1 MSR数据库中的人体行为
Table 1 Human Actions in MSR
动作 样本数 动作 样本数 高挥手(A01) 27 双手挥(A11) 30 水平挥手(A02) 26 侧边拳击(A12) 30 锤(A03) 27 弯曲(A13) 27 手抓(A04) 25 向前踢(A14) 29 打拳(A05 26 侧踢(A15) 20 高抛(A06) 26 慢跑(A16) 30 画叉(A07) 27 网球挥拍(A17) 30 画勾(A08) 30 发网球(A18) 30 画圆(A09) 30 高尔夫挥杆(A19) 30 拍手(A10) 30 捡起扔(A20) 27 表 2 MSR数据库中的人体行为
Table 2 Human Actions in MSR
动作 样本数 动作 样本数 向左滑动(B01) 32 手臂卷曲(B16) 32 向右滑动(B02) 32 挥网球(B15) 32 挥手(B03) 32 网球发球(B17) 32 鼓掌(B04) 32 推(B18)) 32 扔(B05) 32 敲(B19) 32 双手交叉(B06) 32 抓(B20) 32 拍篮球(B07) 32 捡起扔(B21) 32 画叉(B08) 31 慢跑(B22) 31 画圆(B09) 32 走(B23) 32 持续画圆(B10) 32 坐下(B24) 32 画三角(B11) 32 站起来(B25) 32 打保龄球(B12) 32 弓步(B26) 32 冲拳(B13) 32 蹲(B27) 32 挥羽毛球(B14) 32 表 3 MSR数据库中的人体行为
Table 3 Human Actions in MSR
AS1 AS2 AS3 A02 A01 A06 A03 A04 A14 A05 A07 A15 A06 A08 A16 A10 A09 A17 A13 A11 A18 A18 A14 A19 A20 A12 A20 表 4 MSR数据库上不同特征的识别率
Table 4 Different of feature action recognition on MSR
method Test One Test Two Test Three AS1 AS2 AS3 avg AS1 AS2 AS3 avg AS1 AS2 AS3 avg MEI-HOG 69.79 77.63 79.72 75.71 84.00 89.58 93.24 88.94 86.95 86.95 95.45 89.78 MEI-LBP 57.05 56.58 64.19 59.27 66.66 69.79 78.37 71.61 69.56 73.91 77.27 73.58 DSTM-HOG 83.22 71.71 87.83 80.92 94.66 84.37 88.23 89.80 91.30 82.61 95.95 89.95 DSTM-LBP 84.56 71.71 87.83 81.37 88.00 82.29 95.94 88.74 86.96 82.61 95.45 88.34 MHI-HOG 69.79 72.36 70.95 71.03 88.00 84.37 89.19 87.19 95.65 82.60 95.45 91.23 MHI-LBP 51.67 60.52 54.05 55.41 73.33 70.83 78.37 74.18 82.60 65.21 72.72 73.51 DMM-HOG 88.00 87.78 87.16 87.65 94.66 87.78 100.00 94.15 100.00 88.23 95.45 94.56 DMM-LBP 89.52 87.78 93.20 90.17 93.11 85.19 100.00 92.77 94.03 88.98 92.38 91.80 表 5 UTD数据库上不同特征的识别率
Table 5 Different of feature action recognition on UTD
method Test One Test Two Test Three MEI-HOG 69.51 65.42 68.20 MEI-LBP 45.12 51.97 52.61 DSTM-HOG 71.08 80.28 89.54 DSTM-LBP 68.81 80.97 86.06 MHI-HOG 56.44 66.58 73.14 MHI-LBP 49.82 53.82 57.40 DMM-HOG 78.39 75.40 87.94 DMM-LBP 68.98 74.94 86.75 表 6 DMM和DSTM对比实验结果
Table 6 Experimental results of DMM and DSTM
method D1 D2 DSTM 62.83 81.53 DMM 32.17 63.93 表 7 DMM和DSTM平均处理时间
Table 7 Average processing time of DMM and DSTM
method D1(s) D2(s) DSTM 2.1059 3.4376 DMM 5.6014 8.6583 表 8
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $ 在上的实验结果Table 8 Experimental results on
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $ 表 9
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $ 在上的实验结果Table 9 Experimental results on
$ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $ 表 10 UTD-MHAD在设置二测试4上的实验结果
Table 10 Experimental results on UTD-MHAD
-
[1] Yousefi S, Narui H, Dayal S, Ermon S, Valaee S. A Survey on Behavior Recognition Using WiFi Channel State Information. IEEE Communications Magazine, 2017, 55(10): 98?104 doi: 10.1109/MCOM.2017.1700082 [2] Mabrouk A B, Zagrouba E. Abnormal behavior recognition for intelligent video surveillance systems: A review. Expert Systems with Applications, 2018, 91: 480?491 doi: 10.1016/j.eswa.2017.09.029 [3] Fang C C, Mou T C, Sun S W, Chang P C. Machine-Learning Based Fitness Behavior Recognition from Camera and Sensor Modalities//2018 IEEE International Conference on Artificial Intelligence and Virtual Reality (AIVR). IEEE, 2018: 249?250 [4] Chen C, Liu K, Jafari R, Kehtarnavaz N. Home-based Senior Fitness Test measurement system using collaborative inertial and depth sensors//Engineering in Medicine and Biology Society. IEEE, 2014: 4135?4138 [5] Laver K E, Lange B, George S, Deutsch J E, Saposnik G, Crotty M. Virtual reality for stroke rehabilitation. Cochrane database of systematic reviews, 2017, (11) [6] Sun J, Wu X, Yan S, Cheong L F, Chua T S, Li J. Hierarchical spatio-temporal context modeling for action recognition. Cvpr, 2009: 2004?2011 [7] 胡建芳, 王熊辉, 郑伟诗, 赖剑煌. RGB-D行为识别研究进展及展望. 自动化学报, 2019, 45(5): 829?840 Hu Jianfang, Wang Xionghui, Zheng Weishi, Lai Jianhuang. RGB-D Action Recognition: Recent Advances and Future Perspectives. Acta Automatica Sinica, 2019, 45(5): 829?840 [8] Bobick A F, Davis J W. The Recognition of Human Movement Using Temporal Templates. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2001, 23(3): 257?267 [9] 苏本跃, 蒋京, 汤庆丰, 盛敏. 基于函数型数据分析方法的人体动态行为识别. 自动化学报, 2017, 43(5): 866?876 Su Benyue, Jiang Jing, Tang Qingfeng, Sheng Min. Human Dynamic Action Recognition Based on Functional Data Analysis. Acta Automatica Sinica, 2017, 43(5): 866?876 [10] Anderson D, Luke R H, Keller J M, Skubic M, Rantz M J, Aud M A. Modeling human activity from voxel person using fuzzy logic. IEEE Transactions on Fuzzy Systems, 2009, 17(1): 39?49 doi: 10.1109/TFUZZ.2008.2004498 [11] 朱红蕾, 朱昶胜, 徐志刚. 人体行为识别数据集研究进展. 自动化学报, 2018, 44(6): 978?1004 Zhu Honglei, Zhu Yusheng, Xu Zhigang. Research Advances on Human Activity Recognition Datasets. Acta Automatica Sinica, 2018, 44(6): 978?1004 [12] Wu Y, Jia Z, Ming Y, Sun J, Cao L. Human behavior recognition based on 3D features and hidden markov models. Signal, Image and Video Processing, 2016, 10(3): 495?502 doi: 10.1007/s11760-015-0756-6 [13] Wang J, Liu Z, Chorowski J, Chen Z, Wu Y. Robust 3d action recognition with random occupancy patterns//Computer vision-ECCV 2012. Springer, Berlin, Heidelberg, 2012: 872?885 [14] Zhang H, Zhong P, He J, Xia C. Combining depth-skeleton feature with sparse coding for action recognition. Neurocomputing, 2017, 230: 417?426 doi: 10.1016/j.neucom.2016.12.041 [15] Zhang S, Chen E, Qi C, Liang C. Action Recognition Based on Sub-action Motion History Image and Static History Image//MATEC Web of Conferences. EDP Sciences, 2016, 56: 02006. [16] Liu Z, Zhang C, Tian Y. 3D-based deep convolutional neural network for action recognition with depth sequences. Image and Vision Computing, 2016, 55: 93?100 doi: 10.1016/j.imavis.2016.04.004 [17] Xu Y, Hou Z, Liang J, Chen C, Jia L, Song Y. Action recognition using weighted fusion of depth images and skeleton's key frames. Multimedia Tools and Applications, 2019: 1?16 [18] Wang P, Li W, Li C, Hou Y. Action recognition based on joint trajectory maps with convolutional neural networks. Knowledge-Based Systems, 2018, 158: 43?53 doi: 10.1016/j.knosys.2018.05.029 [19] Kamel A, Sheng B, Yang P, Li P, Shen R, Feng D D. Deep convolutional neural networks for human action recognition using depth maps and postures. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2018 [20] Li C, Hou Y, Wang P, Li W. Joint distance maps based action recognition with convolutional neural networks. IEEE Signal Processing Letters, 2017, 24(5): 624?628 doi: 10.1109/LSP.2017.2678539 [21] Yang X, Zhang C, Tian Y L. Recognizing actions using depth motion maps-based histograms of oriented gradient//Proceedings of the 20th ACM international conference on Multimedia. ACM, 2012: 1057?1060 [22] Li A, Shan S, Chen X, Gao W. Face recognition based on non-corresponding region matching//2011 International Conference on Computer Vision. IEEE, 2011: 1060?1067 [23] Haghighat M, Abdel-Mottaleb M, Alhalabi W. Discriminant correlation analysis: Real-time feature level fusion for multimodal biometric recognition. IEEE Transactions on Information Forensics and Security, 2016, 11(9): 1984?1996 doi: 10.1109/TIFS.2016.2569061 [24] Rosipal R, Kr?mer N. Overview and recent advances in partial least squares//International Statistical and Optimization Perspectives Workshop" Subspace, Latent Structure and Feature Selection". Springer, Berlin, Heidelberg, 2005: 34?51 [25] Liu H, Sun F. Material identification using tactile perception: A semantics-regularized dictionary learning method. IEEE/ASME Transactions on Mechatronics, 2018, 23(3): 1050?1058 doi: 10.1109/TMECH.2017.2775208 [26] Zhuang Y T, Yang Y, Wu F. Mining Semantic Correlation of Heterogeneous Multimedia Data for Cross-Media Retrieval. IEEE Transactions on Multimedia, 2008, 10(2): 221?229 doi: 10.1109/TMM.2007.911822 [27] Chen C, Jafari R, Kehtarnavaz N. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor//2015 IEEE International conference on image processing (ICIP). IEEE, 2015: 168?172 [28] Sharma A, Kumar A, Daume H, Jacobs D W. Generalized multiview analysis: A discriminative latent space//2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 2160?2167 [29] Wang K, He R, Wang L, Wang W, Tan T. Joint feature selection and subspace learning for cross-modal retrieval. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(10): 2010?2023 doi: 10.1109/TPAMI.2015.2505311 [30] Shotton J, Fitzgibbon A, Cook M, Sharp T, Finocchio M, Moore R, et al. Real-Time Pose Recognition in Parts from Single Depth Images//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2013: 1297?1304 [31] Chen C, Jafari R, Kehtarnavaz N. Action recognition from depth sequences using depth motion maps-based local binary patterns//2015 IEEE Winter Conference on Applications of Computer Vision. IEEE, 2015: 1092?1099 [32] Nie F, Huang H, Cai X, Ding C H. Efficient and robust feature selection via joint?2, 1-norms minimization//Advances in neural information processing systems. 2010: 1813?1821 [33] He R, Tan T, Wang L, Zheng W S. l21 regularized correntropy for robust feature selection//2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 2504?2511 [34] Koniusz P, Cherian A, Porikli F. Tensor representations via kernel linearization for action recognition from 3d skeletons//European Conference on Computer Vision. Springer, Cham, 2016: 37?53 [35] Ben Tanfous A, Drira H, Ben Amor B. Coding Kendall's Shape Trajectories for 3D Action Recognition//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2840?2849 [36] Vemulapalli R, Chellapa R. Rolling rotations for recognizing human actions from 3d skeletal data//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4471?4479 [37] Wang L, Huynh D Q, Koniusz P. A Comparative Review of Recent Kinect-based Action Recognition Algorithms. arXiv preprint arXiv: 1906.09955, 2019. [38] Rahmani H, Mian A. 3D action recognition from novel viewpoints//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1506?1515 [39] Tanfous A B, Drira H, Amor B B. Sparse Coding of Shape Trajectories for Facial Expression and Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019 [40] Amor B B, Su J, Srivastava A. Action recognition using rate-invariant analysis of skeletal shape trajectories. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(1): 1?13 -

计量
- 文章访问数: 12
- HTML全文浏览量: 7
- 被引次数: 0