斯坦福大学CS博士新作Attention提速24倍，BERT

商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

斯坦福大学CS博士新作Attention提速24倍，BERT

　　机器之心报道
　　编辑：陈萍
　　FlashAttention是一种具有IO感知，且兼具快速、内存高效的新型注意力算法。
　　一种快速、内存高效的注意力算法来了，被命名为FlashAttention。通过减少GPU内存读取写入，FlashAttention的运行速度比PyTorch标准注意力快24倍，所需内存减少520倍。
　　这项研究由斯坦福大学、纽约州立大学布法罗分校的研究者共同完成。共同一作是两位斯坦福计算机博士生TriDao和DanFu。
　　下面我们介绍一下论文具体内容。
　　FlashAttention
　　Transformer已然成为自然语言处理和图像分类等应用中最广泛使用的架构。随着研究的不断前进，Transformer尺寸变得越来越大、层数也越来越深，但是给Transformer配备更长的上下文仍然很困难，因为Transformer核心自注意力模块的时间复杂度以及内存复杂度在序列长度上是二次方的。
　　有研究者提出一些近似注意力的方法，旨在减少注意力计算和内存需求。这些方法包括稀疏近似、低秩近似以及它们的组合。从序列长度来看，尽管这些方法可以将计算降低到线性或接近线性，但它们并没有显示出针对标准注意力的wallclock加速，因而没有被广泛使用。这其中一个主要原因是这些研究专注于减少FLOP（这可能与wallclock速度无关）并且倾向于忽略来自内存访问（IO）的开销。
　　在本文中，该研究认为应该让注意力算法具有IO感知即考虑显存级间的读写。现代GPU计算速度超过了内存速度，transformer中的大多数操作都被内存访问所阻塞。IO感知算法对于类似的内存绑定操作至关重要，这种重要性体现在当读写数据占据很大运行时例如数据库连接、图像处理、数值线性代数等。然而，用于深度学习的常见Python接口，如PyTorch和Tensorflow，不允许对内存访问进行细粒度控制。
　　论文地址：https：arxiv。orgpdf2205。14135。pdf
　　GitHub地址：https：github。comHazyResearchflashattention
　　该研究提出了一种新的注意力算法FlashAttention，它可以使用更少的内存访问来计算精确的注意力。FlashAttention旨在避免从HBM（HighBandwidthMemory）中读取和写入注意力矩阵。这需要做到：（i）在不访问整个输入的情况下计算softmaxreduction；（ii）在后向传播中不能存储中间注意力矩阵。
　　该研究采用两种成熟的技术来应对这些挑战：
　　（i）该研究重组注意力计算，将输入分成块，并在输入块上进行多次传递，从而逐步执行softmaxreduction（也称为tiling）；
　　（ii）该研究存储前向传递的softmax归一化因子，在后向传播中快速重新计算片上注意力，这比从HBM中读取中间注意力矩阵的标准方法更快。
　　该研究在CUDA中实现FlashAttention，以达到对内存访问的细粒度控制，并将所有注意力操作融合到一个GPU内核中。即使由于重新计算导致FLOPs增加，但其运行速度更快（在GPT2上高达7。6倍，图1右图）并且使用更少的内存（序列长度线性），主要是因为大大减少了HBM访问量。
　　该研究分析了FlashAttention的IO复杂度，证明它需要（221）HBM访问，其中是head维度，是SRAM的大小，而标准的注意力需要（2）HBM访问。对于和的典型值，与标准注意力相比，FlashAttention需要的HBM访问次数要少很多（最多减少9倍，如图2所示）。此外，该研究还提供了一个下限，表明没有精确的注意力算法可以渐近地提高所有SRAM大小的HBM访问次数。
　　该研究还表明，FlashAttention可以作为一种原语（primitive），通过克服内存访问开销问题来实现近似注意力算法。作为概念证明，该研究实现了块稀疏FlashAttention，这是一种稀疏注意力算法，比FlashAttention快24倍，可扩展到64k的序列长度。该研究证明了块稀疏FlashAttention比FlashAttention具有更好的IO复杂度。
　　值得一提的是，该研究还开源了FlashAttention。
　　实验结果
　　BERT：FlashAttention得到了最快的单节点BERT训练速度。该研究在Wikipedia上用FlashAttention训练了一个BERTlarge模型。表1将FlashAttention训练时间与NvidiaMLPerf1。1进行了比较，结果表明FlashAttention的训练速度提高了15。
　　GPT2：表2显示，与HuggingFace相比，FlashAttention端到端加速可达3倍，与MegatronLM相比，加速可达1。7倍
　　LongrangeArena：该研究在longrangearena（LRA）基准上进行了实验，他们测量了准确率、吞吐量、训练时间。每个任务有不同的序列长度，从1024到4096不等。此外，实验遵循Tay和Xiong等人的实验设置。表3显示，与标准注意力相比，FlashAttention的速度提高了2。4倍。块稀疏FlashAttention比所有近似注意力方法都要快。
　　具有长上下文的语言模型：FlashAttention的运行时间和内存效率允许我们将GPT2的上下文长度增加4倍，同时仍然比MegatronLM的运行更快。从表4可以看出，上下文长度为4K的FlashAttentionGPT2仍然比上下文长度为1K的Megatron的GPT2快30，同时perplexity提高了0。7。
　　表5表明，在MIMIC上序列长度为16K的性能比长度为512的高出4。3个点，而在ECtHR上，序列长度为8K的比长度512高出8。5个点。
　　表6展示了Transformer模型可以解决PathX、Path256问题。该研究在Path64上预训练transformer，然后通过空间插值位置嵌入迁移到PathX。FlashAttention在PathX上达到61。4的准确率。此外，块稀疏FlashAttention使得Transformers将序列扩展到64K，在Path256实现63。1的准确率。
　　图3（左）报告了以毫秒为单位的FlashAttention和块稀疏FlashAttention前向后向传播的运行时间与基准比较，图3（右）显示了与各种精确、近似和稀疏注意基线相比，FlashAttention和块稀疏FlashAttention的内存占用情况。

社区做电商，左右为难双11历来是阿里、京东唱主角。最近两年，抖音和快手高调加入，搅动旧格局。今年的新变化是，B站、小红书和知乎纷纷加码电商，也要从中分一杯羹。B站的切入点是直播电商。10月中……湿地之美丨内蒙古额尔古纳湿地7月26日拍摄的额尔古纳湿地风光。广袤无垠的呼伦贝尔大草原、源远流长的额尔古纳河、绵延的大兴安岭原始森林共同孕育出了156。31万公顷的高纬度、低海拔、原生木本湿地内蒙古……新一轮拉扯微软称FTC阻止其收购动视暴雪违反宪法微软近期公布了一份新的文件声明，称联邦贸易委员会（FTC）阻止其收购动视暴雪违反了宪法。此前，FTC针对微软收购案提出了反垄断诉讼，认为该行为将损害行业内竞争和市场环境。……美国宇航局正借助AI开发可在月球使用的定位导航系统IT之家12月29日消息，宇航员在登陆月球之后应该如何进行定位导航？在地球人类还可以通过观察周围事物、通过北斗、GPS等卫星进行定位，但是在月球上就会出现巨大的挑战。科学家现在……ampampquot人间蜜桃ampampquot殷桃救李小冉如果殷桃挑男人的眼光有选剧本的10那她就不会42岁都无人敢娶2010李小冉男朋友鄢颇被人在地下车库砍成重伤甚至脚筋都被挑断此等恶劣事件的始作俑者……国际超模现场喷件成衣走秀！北京新开学术又好玩的展览艺术栗子星期日2022年10月2日10月1日去北京798看展，被步行街环绕的主路上，人山人海。798又开了很多适宜公众看展的机构和项目，艺术市场是否会因此受到影响暂未可知，……服贸会首日，顺义区签约项目金额达92。58亿元北京日报客户端记者王可心9月1日上午，2022年服贸会北京主题日举办，在两区建设两周年主题活动中，顺义区五个重大项目签约，签约金额为92。58亿元，主要涉及航空航天、高新……台积电超越三星，第三季度跃居全球半导体市场龙头据南韩媒体报道的最新数据显示，台积电第3季营收超越三星电子，跃居全球半导体龙头，而上季全球半导体委外封测代工厂（OSAT）前十强排行榜中，由台厂日月光摘冠，中国大陆、美国的厂商……华为WATCH3Pronew这块手表牛的不只是new随着天气越来越冷，小乐渐渐地不喜欢给自己身上加太多饰品了，主要是衣服穿的越来越多会显麻烦，还有就是那些饰品都比较凉，小乐就只想更舒适一些。但是不管取下哪些饰品，手表小乐是……全球手工具龙头，巨星科技手工具丹纳赫，储能赛道高增，超预期（报告出品方分析师：财通证券于健李跃博）1巨星科技：具有全球化视野的手工具行业龙头巨星科技是全球领先的工具制造企业。公司主营手工具，并逐步拓展激光测量工具、工业存储……基于微信小程序的购物平台设计与实现计算机毕业设计源码LW文档毕业论文（设计、创作）开题报告一、选题的背景与意义（本研究的现状综述、理论价值与实际意义；设计或创作的思路、观念、表现技法及理论意义）研究目的：通过这次的课题研究希望使自……秋天吃饺子，韭菜白菜靠边站，这种三鲜馅饺子，鲜香好吃不油腻导语：秋天吃饺子，韭菜白菜靠边站，这种三鲜馅饺子，鲜香好吃不油腻大家好，我是小董美食，为了家人的一日三餐，用心做好菜。俗话说好吃不如饺子，舒服不如倒着，饺子一直都是我们的……

<<<<<<－>>>>>>

苹果将在深圳开设第二家AppleStore4月3日消息，在近日，苹果官网的官方零售店信息有所更新，其新增了在广东省深圳市的第二家AppleStore信息，该信息指出，苹果在深圳的第二家AppleStore即将开幕。……到石景山打卡工业美学！10条北京工业旅游主题线路发布上世纪的北京，遗留下众多老旧厂房，如今它们华丽变身，既保留了原有的历史风貌，又兼具赛博朋克美感。北京市文化和旅游局推出10条北京工业旅游主题线路，融合了多类型工业旅游资源和历史……KPL登场四周年，武术国家二级运动员钎城仍在为冠军而战3月9日，2023KPL（王者荣耀职业联赛）春季赛常规赛第二轮打响，来自B组的两支队伍在上海展开角逐。这天，同处B组的深圳DYG没有比赛安排，但对队内选手周诣涛（ID：钎城）来……微软高管称即将发布GPT4，或实现文本图像语音等多模态运行据悉，近日，微软德国首席技术官安德烈亚斯布劳恩（AndreasBraun）对媒体表示：我们即将推出GPT4，届时我们将推出多种模态的模型，提供完全不同的可能性，例如视频。……以后幼儿园的老师必须是清华北大研究生毕业了！当幼儿园老师拿到这份同学们的名单的时候，估计老师也彻底崩溃了，真的不敢念出口你是老师，你会点谁的名？这份名单让幼儿园的老师是多么的自卑呀！工作是真难呐，连幼儿……泸州市江阳区江北镇中心幼儿园开展支部书记讲清廉党课活动为进一步推进清廉学校建设，积极营造风清气正的育人氛围，3月27日，江北镇中心幼儿园开展支部书记讲清廉党课活动。活动中，党支部书记龙梅组织全体教师学习《江阳区清廉学校建设工……如何培养孩子的观察力观察力是一种非常重要的能力，生活中我们在处理问题时，需要通过观察获取有用信息，帮助自己做出最优决策，而获取有用信息的多少，就反映了一个人观察力的强弱，这不仅与观察方法有关，更与……国乒排名更新！男队仅4人进前十，巴西神童一路飙升，王皓有压力1月17日，国际乒联公布了最新一期世界排名。上周乒坛主要经历了多哈世预赛和德班常规挑战赛，其中前者不设置积分，但事关世乒赛名额。由于国乒大部队并未前往非洲南部，欧美参赛选手积分……你穿的衣服，往往决定了你的命运中国有句老话：人靠衣装马靠鞍。我们每个人的一生，都是在不断改变自己，去适应这个世界。你的穿着打扮，就是你人生的第一张名片，更是一张对别人产生第一印象的名片。我……2023物联中国年度盛典启幕物联网企业家共话数字经济2023物联中国年度盛典24日在厦门举办。厦门市物联网行业协会供图中新网厦门3月24日电（杨伏山陈丽红）2023物联中国年度盛典24日在厦门举办，来自全国各地的300余名……小学老师谈公立和私立幼儿园孩子一年级入学后的不同表现一直听说私立幼儿园教的知识多，我就怕幼儿园过度教授小学知识，孩子压力大，甚至厌学，就一心想让孩子度过一个愉快的童年，轻松的幼儿园生活。再加上公立幼儿园老师有编制，比较固定，所以……第二代骁龙8赋能MEIZU20系列实现全方位无界体验日前，魅族正式发布全新旗舰MEIZU20系列。MEIZU20系列全系搭载第二代骁龙8移动平台，在性能、游戏、影像、连接等多领域为用户带来全新体验。MEIZU20系列包括无……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网