软件世界网 购物 网址 三丰软件 | 小说 美女秀 图库大全 游戏 笑话 | 下载 开发知识库 新闻 开发 图片素材
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
移动开发 架构设计 编程语言 Web前端 互联网
开发杂谈 系统运维 研发管理 数据库 云计算 Android开发资料
  软件世界网 -> 研发管理 -> FindingActionTubes -> 正文阅读

[研发管理]FindingActionTubes


转自:http://www.cnblogs.com/xuanyoumeng/p/4993408.html

Finding Action Tubes - cvpr - 2015


论文题目Finding Action Tubes, 论文链接
该篇论文是CVPR 2015的, 主要讲述了action tube的localization.
[img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001716046-1545699501.jpg
直接看图说话, 该论文的核心思想/步骤可以分为两个components:
  1 Action detection at every frame of the video
  2 Linked detection in time produce action tubes
下面就分开来说每个component.
Action detection at every frame of the video
  大概思想就是: 训练Spatial-CNN和Motion-CNN来提feature, 在feature上为每个类别训练线性svm.      [img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001716593-607100949.jpg
  具体步骤如下:
    a. 找出each frame的interesting regions. 基于ground-truth的region及action label, 构建正负样本.
         这里用IoU的方法: >0.5 为positive region, <0.3为negative region.
         为什么要这样做呢? 个人觉得论文里面的action tube是针对里面的actor来弄的, 
         也就是对视频里面的某个actor进行action的跟踪和action 分类. 
         必然数据集会给出视频的每一帧的action类别和对应的actor.
      那么怎么找出这些regions? 以及怎么消除不必要的regions?

         对于proposals的产生会有很多方法, 论文里面采用了selective search的方法来产生视频里每帧的proposals(大约2K)

         显然这些proposals很大一部分是non-discriminative的, 而且会造成计算上严重的消耗, 不利于实时检测.

         论文里面用了一种很简单的方法来消去这些not descriptive的regions:

          [img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001717015-969656034.png

         需要注意的是, rgb和motion images的regions是一样的, 
         也就是prososals是用上述方法在rgb上提取到, 然后直接用到motion上的.
    b. 训练Spatial-CNN和Motion-CNN
       这里就展开说这两个CNN模型的framework了, 具体看论文. 

       训练它们的方式和RCNN的方式差不多. 具体可以实验室师兄的一篇blog

       个人觉的该训练的要点有两个:

          i. 在单帧上训练的.

          ii. CNN模型的初始化. 

             众所周知, deep model的初始化很重要.

             Spatial-CNN是用在Pascal Voc 2012的detection task上训练好的CNN模型来初始化.

             Motion-CNN则是在UCF101 Motion数据集上训练好的CNN模型来初始化.

       至于训练时的一些细节问题, 如学习率, 数据argumentation等, 请各位看官自己看论文哈.

    c. 提取训练Spatial-CNN和Motion-CNN的FC7特征
       这里只是将CNNs的fc7特征拼接起来, 简单暴力. 
       可以看下这篇blog的特征是怎么进一步融合的.
    d. 训练actions的linear svms.
         [img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001717296-201685960.png

2 Linked detection in time produce action tubes
  这一步是基于component 1来弄的.
     a. 对每帧提取相应的regions, 每个region过Spatial-CNN和Motion-CNN, 来提取fc7特征, 
        后经svms, 来获取对应的action scores.
     b. 对每个类别, 每个视频, 利用下图的公式来找出linked-action tubes.

      [img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001717546-677136080.png

      [img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001717796-226231391.png
       即通过找出相邻两帧之间属于某个action类别的得分最高(score+IoU)的两个regions(一帧一个)
       然后将这些regions串联起来形成action tube.
       那么怎么计算一个action tube的action acore?

          [img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001718140-592112185.png

当然论文没有这么就完事了, 基于action tube的基础上, 进行了video的action classification.
这个非常简单, 请看公式:
    [img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001718374-1247480507.png
至于效果嘛, 肯定是state-of-art的说说.
[img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001719109-1727268005.jpg
[img]http://images2015.cnblogs.com/blog/361188/201511/361188-20151125001720437-863138453.jpg
该篇论文的main contributions, 个人觉有以下几点:
  a. 结合了Appearance和Motion signals.
  b. 证实了Appearance和Motion signals是complementary的.
  c. 用Motion signal来消去那些non-discriminative的regions, 这个比较新颖.



当然也有不足:
  a. dataset大部分是针对一个actor的, 该方法会在多个actor的情况下效果是非常poor的.

  b. Motion是事先算好的, 而不是学习的.
  c. 整个framework非常pipeline.


......显示全文...
    点击查看全文


上一篇文章      下一篇文章      查看所有文章
2016-03-26 16:29:39  
研发管理 最新文章
拉格朗日乘数
maven之可视化项目依赖(Visualizingdepend
mac效率工具
Atitit.css规范bem项目中CSS的组织和管理
git入门
Asimplemodelfordescribingbasicsourcesofp
Linux进程管理浅析
我的openwrt学习笔记(十九):linux便捷开
2、微控制器选择
Git使用手册:为Git仓库创建Submodule
360图书馆 软件开发资料 文字转语音 购物精选 软件下载 美食菜谱 新闻资讯 电影视频 小游戏 Chinese Culture 股票 租车
生肖星座 三丰软件 视频 开发 短信 中国文化 网文精选 搜图网 美图 阅读网 多播 租车 短信 看图 日历 万年历 2018年1日历
2018-1-23 3:48:27
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  软件世界网 --