博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Deep TEN: Texture Encoding Network
阅读量:6405 次
发布时间:2019-06-23

本文共 1024 字,大约阅读时间需要 3 分钟。

纹理特征,材料分类(Material Classification),在MINC-2500、Flickr Material Database、KTH-TIPS-2b、4D-Light-Field-Material、GTOS上state-of-the-art(2017年)。

思想主要来源是:传统图片分类方法都是提取人工设计的特征(SIFT等)然后使用BOW进行编码,再用SVM进行分类,后面BOW被VLAD、Fisher Vector编码替换并融合CNN特征可以达到sota的效果。然而这样的方法有缺点,就是编码和特征的学习并不是end-to-end的,所以作者设计了一个learnable residual encoding layer。作者还提到一般的CNN的方法虽然在图片分类和物体识别上有比较好的效果,但是在纹理识别上表现并不理想,给出的理由是:

``` recognizing textures needs for a spatially invariant representation describing the feature distributions instead of concatenation ```

这篇论文的主要贡献:

1. learnable residual encoding layer。能够生成鲁棒的残差编码例如(VLAD和Fisher Vector),能接收任意的输入分辨率,并且生成固定长度的特征表示,这种编码方式非常适合pretrained feature的迁移。关于该层的一个后向传播可以看论文的附录A,给了很清楚的推导。一个前向计算如下公式:

2.将feature extraction, dictionary learning, encoding 融合成一个end-to-end的形式。

 

整个网络模型结构:

 开源代码:

Pytorch:https://github.com/zhanghang1989/PyTorch-Encoding-Layer

FisherVector的教程:http://www.vlfeat.org/api/fisher-fundamentals.html

VLAD的教程:http://www.vlfeat.org/api/vlad-fundamentals.html

转载于:https://www.cnblogs.com/Key-Ky/p/7183748.html

你可能感兴趣的文章
NPOI批量导入大量数据
查看>>
了解 Windows Azure 存储计费 – 带宽、事务和容量
查看>>
mysql5.7.22 zip 版安装
查看>>
【题解】最大公约数之和 V3 51nod 1237 杜教筛
查看>>
架构师速成6.7-设计开发思路-uml 分类: 架构师速成 ...
查看>>
js设置radio选中
查看>>
8皇后以及N皇后算法探究,回溯算法的JAVA实现,非递归,数据结构“栈”实现...
查看>>
第一次发博客-说说我的B/S开发框架(asp.net mvc + web api + easyui)
查看>>
python之路之线程,进程,协程
查看>>
ZROI2018提高day3t1
查看>>
VC的水波效果
查看>>
微信支付SDK集成
查看>>
如何使用wepy和 vant-weapp开发小程序
查看>>
Angular7教程-03-Angular常用操作(上)
查看>>
洛谷 P1200 [USACO1.1]你的飞碟在这儿Your Ride Is Here
查看>>
【python】python的列表表达式或解析式,帅就一个字
查看>>
聊聊 Spring Boot 2.x 那些事儿
查看>>
写Markdown费事?Typora让你像写word一样行云流水,所见即所得。
查看>>
TCP协议中的三次握手和四次挥手(图解)
查看>>
实例分析ASP.NET在MVC5中使用MiniProfiler监控MVC性能的方法 
查看>>