[转帖]时间卷积网络TCN,时序模型不再是递归网络的天下_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  AI.人工智能讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2923 | 回复: 0   主题: [转帖]时间卷积网络TCN,时序模型不再是递归网络的天下        下一篇 
huang.wang
注册用户
等级:中将
经验:17623
发帖:407
精华:1
注册:1970-1-1
状态:离线
发送短消息息给huang.wang 加好友    发送短消息息给huang.wang 发消息
发表于: IP:您无权察看 2018-8-8 9:34:29 | [全部帖] [楼主帖] 楼主


本文转自机器不学习网站


image.png

深度学习似乎进入了“泛模型”阶段,同一个问题可以用不同深度学习结构解决,但是没有人可以证明哪个模型一定最好。


最近读到文章说“TCN(时间卷积网络)将取代RNN成为NLP预测领域王者”。一方面想为RNN抱不平,请大家别过于迷信CNN,毕竟只是一种特征提取方法,不必神话它(想想当年有人认为SVM可以解决所有建模问题)。

另一方面,可以感受到深度学习进入了“泛模型”的阶段。模型的结构创新没有衰退的趋势,而这些创新不出意料很快会被其他模型超越。这些“超越”都是实验与经验上的“超越“,没有SVM这样扎实的理论。

回顾历史可以发现,广义的计算机”模型“一直在”向上”做更灵活的事情

ML时代那些机器学习”模型“(SVM,随机森林)一般只做最后的分类、聚类或回归;现在深度学习时代“模型”(以CNN、RNN为主)把特征提取的工作也一并做掉了。可以预见,未来物联网IOT发展到一定阶段,我们需要更复杂“模型”去自动收集数据,具体是什么形式的“模型”我们可以拭目以待。

言归正传,今天 要把TCN(时间卷积网络,CMU的研究总结)这个“坑”给填了。其实TCN只是一维卷积变形之后在时序问题上变得适用(以前也讲过一维卷积):

image.png

来自论文:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

仔细观察就可以发现,TCN的卷积和普通1D卷积最大的不同就是用了扩张卷积(dilated convolutions),越到上层,卷积窗口越大,而卷积窗口中的“空孔”越多。

image.png

上式是扩展卷积操作的式子,其中d是扩展系数(即评价“空孔”的多少)。

为什么要这样 ? 还不是因为要适应时序问题的应用 !

时序问题有两个关键要求:

1. 网络输入x0, . . . , xT 的时序数据,我们希望输出也是一样大小的 y0, . . . , yT 的预测。扩张卷积可以做到每一层隐层都和输入序列大小一样,并且计算量降低,感受野足够大。

2. 时序预测要求对时刻t 的预测yt只能通过t时刻之前的输入x1到xt-1来判别(像隐马尔科夫链)。这在CNN里面就叫做因果卷积(causalconvolutions)。本质上,David 9认为就是通过限制卷积窗口滑动做到的。

然后,TCN还为了提高准确率,还加入了残差卷积的跳层连接,以及1×1的卷积操作

image.png

来自论文:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

残差卷积无需多讲,把下层特征拿到高层增强准确率。为什么要1×1卷积呢?我们以前提到过,1×1卷积是可以用来降维的 。所以David 9的理解是,作者直接把较下层的特征图跳层连接到上层,对应的每个Cell的特征图数量(也就是通道数channel)不一致,导致不能直接做类似Resnet的跳层特征图加和操作,于是,为了两个层加和时特征图数量吻合,用1×1卷积做了一个降维的操作。

可以看到TCN只是一维CNN的一个结构创新。广义上,自动提取特征信息至今仍是一个非常灵活难以把握的问题,虽然现在TCN可以与RNN在时序模型上有相当或者更出色的性能,其实,很可能明天的RNN变形、或RNN与TCN结合的模型、亦或是另一种完全不同结构的模型可以轻松超越现有深度结构:

image.png

论文中TCN与其他递归神经网络的性能比较

况且,TCN提出的一部分原因是为了和现在有限的计算力做妥协(获得更快的计算速度),未来,RNN的密集计算或许不是问题。



我超级酷,但是如果你回复我的话我可以不酷那么一小会儿。


——来自logo.png


赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论