应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

ResNet假说被推翻?Reddit小哥这么多年都没人搞懂T

  来源:Reddit
  编辑:LRS【新智元导读】ResNet发布至今已经有六年多了,但它的工作原理至今仍然是个迷。最近Reddit上一个网友发帖表示,是否ResNet的创新出发点就有问题?
  2015年,一个里程碑的神经网络模型ResNet发布。因为在过深的网络训练会产生梯度消失和梯度爆炸,并且训练过深的网络中会出现准确率下降的问题,而RestNet采用残差连接很容易让研究人员训练出上百层甚至上千层的网络。
  在ResNet论文观察到的退化问题(degradationproblem),即34层的网络在整个训练过程中比18层的网络具有更高的训练误差,但18层网络的解空间显然是34层网络的子空间。
  一个很自然的假设是这个问题和RNN网络中观察到的梯度消失问题(VanishingGradientProblem)相同,也是长短时记忆网络(LongShortTermMemoryNetworks,LSTM)主要改进的问题。
  但论文的作者Kaiming大神当时并不这么认为,他在论文中写道
  我们认为这种优化困难不太可能是由梯度消失引起的,因为这些普通神经网络使用BN进行训练,确保前向传播的信号具有非零方差可以缓解这个问题。我们还验证了反向传播的梯度,结果可以看到表现出BN的结果也很正常。因此,前向或后向的信号都不会消失。事实上,34层的普通网络仍然能够达到有竞争力的精度,这表明这个解决方法在一定程度上是有效的。我们推测普通神经网络的收敛速度可能呈指数级低,这会影响训练误差的减少。未来将研究这种优化困难的原因。
  这个论点也被网友称为ResNet假说,而关于ResNet假说的正确性最近又在Reddit上引起了热议。
  提问者认为,最近的许多论文和教程似乎都假设ResNet假设是错误的,论文的作者大多添加了跳跃连接以改进梯度传播流,并引用了原始的ResNet论文来支持这一主张。虽然添加跳跃连接会改善梯度流是很有道理的,但首先是什么导致了退化问题依然没有答案。
  跳过连接通过改进梯度流来解决退化问题的想法似乎与ResNet假设明显矛盾;那么这个想法是从哪里来的呢?ResNet假说是否被证伪了?
  有网友从技术角度认为并没有完整的分析,关于ResNets的工作原理主要存在三种相互竞争的假说,并且给出了相关的论文:
  1、进行了迭代细化(iterativerefinement)
  这篇论文从分析和实证两方面研究了resnet。研究人员通过显示残差连接自然地鼓励残差块的特征在从一个块到下一个块的过程中沿着损失的负梯度移动,从而在resnet中形式化了迭代细化的概念。
  此外,实证分析表明,resnet能够进行表征学习和迭代优化。通常,Resnet块倾向于将表示学习行为集中在前几层,而更高层执行特征的迭代细化。
  最后,研究人员观察到共享残差层会导致表示爆炸和反直觉的过拟合,文中提出了一个简单的策略可以帮助缓解这个问题。
  2、指数级的集成模型
  这项工作中对残差网络提出了一种新颖的解释:这个模型可以被视为许多不同长度路径的模型的集成。此外,残差网络似乎通过在训练期间仅利用短路径来实现非常深的网络。为了支持这一观察,研究人员将残差网络重写为一个显式的路径集合。
  研究结果表明,这些路径表现出类似整体的行为并不强烈地相互依赖。并且大多数路径都比人们预期的要短,在训练期间也只需要短路径,因为较长的路径不会产生任何梯度。
  例如,具有110层的残差网络中的大部分梯度来自仅1034层深的路径。这篇论文的结果认为Resnet能够训练非常深的网络的关键特征之一是残差网络通过引入可以在非常深的网络范围内携带梯度的短路径来避免梯度消失问题。
  3、原始论文中提到的,梯度传播过程被改进了
  答主也看过一些神经切线内核(neuraltangentkernelstuff)的东西,但他仍然不明白其中的原理,并且他也认为没有人真正坐下来试图弄清楚真正的解释是什么。
  不过他有一个想法,可以通过考虑具有重叠跳过连接(overlappingskipconnections)的网络来测试集成理论(ensembletheory),这些网络具有集成论文中定义的最大多样性(maximalmultiplicity)。并且可以改变跳过连接长度的同时保持多重性不变,但还没有人这样做过任何与此有关的实验。
  还可以尝试的另一件事是使Resnets的梯度流保证完美而无需跳过连接的情况,但是当用户添加残差连接时,大多数此类事情都无法达到完美的情况,因此必须考虑新的方式来达成完美梯度传播。
  另一个高赞网友表示,捷径连接(shortcutconnections)改善了损失情况,能够使优化变得更加容易,有很多研究结果都支持这一点。
  TheShatteredGradientsProblem:Ifresnetsaretheanswer,thenwhatisthequestion?(ICML2017)表明ResNet具有更稳定的梯度。
  VisualizingtheLossLandscapeofNeuralNets(NeurIPS2018)再次表明ResNets具有更平滑的损失表面。
  并且也有研究表示,可以不需要捷径来学习有效的表示,但优化会更难。例如,FixupInitialization:ResidualLearningwithoutNormalization(ICLR2019)表明,如果你对初始化结果进行多次调整,那你可以在没有残差连接的情况下训练ResNets以获得不错的结果。
  RepVGG:MakingVGGstyleConvNetsGreatAgain(CVPR2021)表明可以在训练后移除捷径并仍然拥有性能不错的网络。
  但这仍然符合ResNet的原始想法:将每个块初始化为一个identifyfunction,因此最初看起来好像参数实际上并不存在,也对网络训练没有产生任何影响,然后逐渐让块的效果发挥作用。
  也有网友认为标题的用词实在不准确,因为debunked相当于直接给Resnet判定为错误,提问者也表示自己确实是标题党了,但标题无法更改了。
  参考资料:
  https:www。reddit。comrMachineLearningcommentspx3hzddhastheresnethypothesisbeendebunked

中国唯一嵌入沙漠的县城,早该火了本文转自媒体九行作者思雯这个季节,是北疆喀纳斯、禾木,南疆塔里木河胡杨林的全盛时期。地貌丰富、疆域广袤的新疆,正以戈壁与森林、丘陵与盆地,一草一木,向游客们释放着魅……杨紫更博自曝梦想,配图过于诚实!粉丝激动直呼抱大腿求包养众所周知,在娱乐圈中杨紫算得上是女星中的一股清流了,作为性格非常大大咧咧的开心果,与杨紫合作的不少演员都对杨紫给予了极高的评价。可以说,与杨紫交朋友,还是让他们非常的开心的。……雪铁龙库存成灾!4S店销售降至5。5W没人买,还想怎么降雪铁龙库存成灾!4S店销售:降至5。5W没人买,还想怎么降!雪铁龙作为非常经典的法系车型旗下也是有非常多的代表车型,雪铁龙爱丽舍就是其中一款。车型作为车的一个灵魂竞争车型……没有金银珠宝的古墓,内藏超前科技,可是专家不同意这个说法在世界上,出现过先进文明的地区,其实不算多。最为知名的几个国家,就是在现代我们常说的四大文明古国。这些古国在历史上都留下了不少记载,比如说我国,自从秦始皇的陵墓被发现之后,就在……薇娅发长文评你好,李焕英,贾玲或将破中国电影史纪录2月15日晚间的时候,薇娅发长文评论电影《你好,李焕英》,谈到了看过《你好,李焕英》的感受。大家都知道,薇娅是带货女王,今年也上了春晚,人气极高。虽然她的发文看起来表面是……木村拓哉与工藤静香约会遛狗,结婚21年依然甜蜜相爱6月4日,日媒曝光了木村拓哉与工藤静香约会遛狗的照片,据报道今年四月的惠比寿花园广场,木村拓哉(48岁)和工藤静香(51岁)夫妇一起散步遛狗,享受约会时光。工藤静去了一家……不同教育方式,会带给孩子怎样的差别?沙溢夫妻俩告诉我们这些大柒妈妈说:在育儿群里的二胎宝妈经常说一句话:老大照书养,老二照猪养。这种现象真的很普遍,我们对孩子的教育方式、方法不一样,他们的性格也会有很大的差别。比如胡可沙溢夫妇俩,他们……最纯粹的感情最讲究的细节,避开雷点,御赐小仵作值得二刷《御赐小仵作》已经大结局,但是网友对电视剧的热情可是丝毫没有减弱,反而有不断上涨的趋势,而网剧也在大结局的时候终于进入人们的视线,这对于一般网剧来说,已经为时已晚。但是对……她是狂野版赫本,从16岁美到63岁,被老佛爷视为缪斯很难想象,在2021年即将到来之际,一场上世纪80年代的CHANEL走秀竟然能在微博走红不得不承认经典是永远不会衰败的。横跨几十年的造型,放到现在来看仍时髦得飞起。……正青春大结局圆满加遗憾,更让人意外的是章小鱼?经过一个月的追剧,由吴谨言、殷桃领衔主演的《正青春》,今晚迎来大结局。作为一部都市职场剧,该剧自开播以来也是热议不断。收官之日豆瓣分定格在4。4分,说句实话不理想!大部分……明朝悍将蓝玉,当众玷污北元皇妃,被狠心处死,斩全族一万五千人《明史》中这样评价蓝玉:饶勇略,有大将才,在明朝众多开国将领中,大家耳熟能详的也许是徐达、常玉春等人,但殊不知蓝玉也为明朝的建立和巩固立下汗马功劳。蓝玉是明朝开国将领之一……周润发为陈玉莲喝药自杀,将余安安扫地出门,却独宠她33年有一段时间,女生们都喜欢问男朋友一个问题:假如我和你妈一起掉进水里了,你先救谁?这是一个送命题,无论你怎么回答,都难保万无一失,救妈妈吧,得罪了女友,救女友吧,难免开罪妈……
温碧霞真是好运到极致的,她在息影的时候,偶然遇到了丈夫何祖光不得不说,温碧霞真是好运到极致的,她在息影的时候,偶然遇到了丈夫何祖光。结婚后,温碧霞就退圈,做起了全职太太。而何祖光也是几十年如一日的对温碧霞好,哪怕是结婚19年没有孩子,依……陶虹真不像奔五的人!穿紧身花裙秀丰腴身材,扎鱼骨辫少女感爆棚近日,陶虹拍摄得写真曝光,在这组写真的陶虹更是化身为穿搭博主,演绎出各式各样大的风格和造型。虽然如今的陶虹快奔五的年纪,但是状态和颜值都保持得非常好,每次亮相都是惊艳到大家,在……戴AirPods耳机后,耳朵瘙痒疼痛?原来真相是前几天有朋友问为什么戴AirPods无线耳机,耳朵里会瘙痒难耐。其实不止这位朋友发生了这种情况,网络上关于戴AirPods无线耳机造成耳朵不适的讨论早已热火朝天。比……高晓松爆瘦26斤一个中年人的身材就是他的人生状态高晓松爆瘦到单薄,竟然上热搜了?毕竟上一个因为爆瘦上热搜的还是郑爽。主要是我不太懂,高晓松减肥这事有啥好令人喜出望外的,毕竟摸着良心说,减肥前后,他无非就是换了一种……女子网恋陷杀猪盘被骗690万元,这种女孩很容易被骗,千万要警01hr只是谈个恋爱而已,690万就没了。这并非编故事,而是真实发生的案例,深圳一姑娘跟网上认识的男人恋爱,一步步深陷对方设计好的圈套,直接导致690万元的经济损失。这件……粉丝互撕?赵丽颖疑似模仿杨幂,机场照曝光后粉丝急了赵丽颖、杨幂,两人虽然没有正面合作过,但是却被网友从头到脚被比了个遍。有明星的地方就有比较,而且俩人身上的相似点却确实很多:同为85后女演员,都曾凭借于正的电视剧走红,并……依靠桃色绯闻迅速蹿红?如今大荧幕热舞,用实力为自己洗白近日,娱乐圈里的保熟保甜的大瓜已经吃到够了,短短的一段时间竟然发生了这么多的事情,不得不说娱乐圈里总是各种惊喜不断。综艺节目《乘风破浪的姐姐2》也是见缝插针地上了微博热搜,当中……龚俊新剧A级制作S级宣传,22个热搜明确火焰蓝自我定位近几年的国产剧似乎从来没有拍出过令观众满意的职业剧,缉毒剧《不说再见》、军人职业剧《爱上特种兵》、电竞题材《你微笑时很美》口碑无一例外都崩了。龚俊、张慧雯主演的《你好,火……谢娜真的有危机感了,张雨绮代替主持,好评满满优势明显谢娜真的有危机感了,张雨绮代替主持,好评满满优势明显谢娜在快本主持了很多年,在这个舞台上谢娜也体现了自己的价值,最大程度地展现了自己,创立了独属于自己的娜式风格,曾经也被……风水轮流转?泰王室春节海报删除诗妮娜,王后笑容灿烂成赢家在泰国,春节也是一个非常重要的传统节日。每年的这一天(指农历春节),泰王照例会带着家眷出席春节献祭仪式。在今年的这一天,泰王玛哈也带着家眷们出席了一场喜气洋洋的庆祝春节仪……德云社再次停演,郭德纲压力很大,网友郭麒麟肩上担子好重对民间艺人来讲,过去的一年承受了巨大的生存压力,德云社还稍微好一点,本身商演受到追捧,有一定的积蓄,再加上德云社还有其他的产业,在停止演出的时间段里,可以填补一下这个窟窿。……甄嬛传余莺儿冒名顶替时,果郡王明明看出,为何又不戳破?导语:余莺儿冒名顶替时,果郡王明明看出,为何又不戳破?在甄嬛传中,甄嬛原本就不想要进宫去,去庙中乞求自己可以不要别选中。在选秀时,还特意穿得十分的素净,希望皇上看不上自己……
友情链接:中准网快好知易事利快百科快传网七猫云快生活中准网快软网聚热点文好找快好找