应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

dropbox怎么用(iPad使用dropbox)

  【CSDN编者按】Dropbox借助机器学习的预测功能,每年能为公司节省了一百多七十多万美元的基础架构成本。非常了不起的成就。
  本文,一起来看一看Dropbox采用机器学习的经过,以及分析一下其中的利弊。
  译者弯月责编张文
  出品CSDN(ID:CSDNnews)
  最近,Dropbox优化了生成和缓存文档预览的方式,并借助机器学习的预测能力,每年为公司节省了170万美元的基础架构成本。Dropbox的一些常用功能都采用了机器学习,例如搜索、文件与文件夹提示以及文档扫描OCR。虽然用户看不到Dropbox采用的机器学习,但这些应用程序仍以其他方式推动了业务的发展。
  在本文中,我们就来看一看Dropbox采用机器学习的经过,以及其中的利弊。
  预览功能
  用户可以利用Dropbox的预览功能直接查看文件,而无需下载内容。除了常见的缩略图预览之外,Dropbox还提供交互式预览界面,可供用户共享文件和共同编辑文件,包括添加批注和标记其他用户。
  我们的内部系统Riviera负责安全地生成文件预览,它可以处理数百种支持的文件类型的预览。它可以将各种内容转换操作链接在一起,创建适合特定文件类型的预览。例如,Riviera可以将PDF文档的某一页栅格化,在Dropbox的Web界面中显示高分辨率的预览。完整内容的预览功能支持批注和共享之类的交互。大型图片可以转换成缩略图,以供在各种情况中显示给用户,包括搜索结果或文件浏览器。
  在Dropbox的规模下,Riviera每天需要处理数十PB的数据。为了加快某些类别的大型文件的预览,Riviera会提前生成预览,并缓存预览结果(此过程称为预热)。由于我们支持的文件量非常巨大,因此预热消耗的CPU与存储也非常可观。
  图:浏览文件时的缩略图预览。预览可以被放大,
  并作为应用程序文件的代理与用户交互。
  我们看到采用机器学习可以降低这些成本,因为有些预生成的内容从不会有人查看。如果我们可以有效地预测某个预览是否会被使用,则只需预热我们确信一定会被查看的文件,从而节省计算和存储空间。我们的这个项目名叫Cannes(戛纳),这个名字的灵感来自法国戛纳电影节。
  机器学习的利弊权衡
  在预览的优化过程中,机器学习的两项折衷决定了我们的指导原则。
  第一个挑战是权衡机器学习为基础设施带来的成本效益。减少预热的文件可以节省成本,无人不喜欢,但也有可能漏掉一些文件,造成不良的用户体验。如果缓存中没有相应的文件预览,则Riviera需要动态地生成预览,而在这期间用户只能等待。我们与预览团队合作开发出了一种预防措施,防止用户体验降级,并通过这种预防措施来调整模型,以合理的方式节省费用。
  另一个需要权衡的是复杂性和模型的性能vs。可解释性和部署的成本。通常,你需要权衡机器学习的复杂性与可解释性:通常模型越复杂,预测就越准确,但代价是可解释性会降低,你很难解释为何得出了这样的预测,而且部署的复杂性可能也会增加。在第一次迭代中,我们的目标是尽快提供可解释的机器学习解决方案。
  由于Cannes是在现有系统内新构建的机器学习应用程序,因此我们偏向于使用一种比较简单且可以解释的模型,这样我们就可以在研究更复杂的模型之前,集中精力建立模型、指标以及报告。如果出现问题,或Riviera出现意外行为,机器学习团队也能够进行调试,并了解是Cannes的原因还是其他问题。我们的解决方案必须相对简单且成本低廉,因为我们每天都需要部署将近5亿个请求。目前的系统只能预热所有的可预览文件,因此任何改进都可以节省成本,而且越快越好!
  Cannesv1
  考虑到这些权衡之后,我们选择了一个简单、易于训练且易于解释的模型。第一版的模型是一个梯度提升分类器,训练时采用了文件扩展名、存储了文件的Dropbox账号类型,以及该账号最近30天的活动等作为输入特征。在离线预留数据上训练时,我们发现该模型经过预热后,预测的预览准确率可以在最多60天内超过70。该模型拒绝了预留数据中大约40的预热请求,并且性能在我们为自己设定的预防指标以内。假阴性的数量很少,假阴性指的是我们预测不会被查看、但最终在接下来的60天内被查看的文件,一旦出现这种情况,我们就需要动态生成预览。我们估算了一下成本:拒绝百分比假阴性,结果发现每年可以节省170万美元。
  在探索预览优化之前,我们想确保节省的成本能够超过构建机器学习解决方案的成本。我们大致估算了一下Cannes项目可以节省的成本。在大型分布式系统中设计和部署机器学习系统,你需要考虑系统的变化随着时间的推移对你的估计产生的影响。我们希望初始的模型尽量简单,这样一来即使相邻系统发生一些很小的变化,成本的影响也不会出现数量级的变化。通过分析训练好的模型,可以让我们更好地了解第一版实际可以节省的成本,并确认这项投资是值得的。
  我们利用内部的功能开关服务Stormcrow,在Dropbox流量1的随机样本上,针对模型进行了AB测试。我们验证了模型的准确率和预热节省的成本符合我们离线分析的结果,这是个好消息!由于Cannesv1不再预热所有符合条件的文件,因此我们知道预计缓存命中率会下降。在实验期间,我们观察到缓存命中率比AB测试中的对照组低了几个百分点。尽管百分比下降了,但总体的预览延迟基本上保持不变。
  我们非常关心尾延迟(第90个百分位数以上的请求延迟),因为缓存未命中会导致尾延迟过高,进而严重地影响用户的预览功能。然而,我们并没有观察到预览尾延迟或总体延迟明显上升,这很让人欣慰。这次实时测试让我们信心大增,我们决定将v1模型部署到更多Dropbox流量。
  大规模的实时预测
  我们需要一种方法,当某个文件进入预热路径时,实时地告诉Riviera该文件是否需要预热。为了解决这个问题,我们将Cannes构建成了预测流水线,负责提取与文件相关的信号,并将其发送给模型,供模型预测未来使用预览的可能性。
  图:Cannes的架构
  从Rivieraprewarmpath(预热路径)接收文件ID。Riviera会收集所有可进行预热的文件ID。(Riviera可以预览Dropbox存储的大约98的文件。只有很少一部分文件的文件类型不支持,或无法预览。)Riviera发送一条预测请求,其中包含需要预测文件ID以及文件类型。
  获取实时信号。为了收集预测期间文件的最新活动信号,我们使用了一个名为SuggestBackend(建议后台)的内部服务。该服务会验证预测请求,然后查询与该文件相关的信号。信号存储在Edgestore(Dropbox主要的元数据存储系统)或UserProfileService(RocksDB数据存储,负责聚合Dropbox活动信号)中。
  将信号编码为特征向量。收集到的信号会被发送到PredictService(预测服务),由该服务将信号编码为表示文件所有相关信息的特征向量,然后将这个向量发送给模型进行评估。
  生成预测。模型使用特征向量,返回该文件可能会被预览的概率。接着,这个预测结果会被发送回Riviera,并由Riviera预热未来60天内可能会被预览的文件。
  记录请求的相关信息。SuggestBackend(建议后台)会记录下特征向量、预测结果和请求状态,这些都是调查性能下降和延迟问题的关键信息。
  其他考虑事项
  减少预测延迟很重要,因为上述管道位于Riviera预热功能的关键路径上。例如,当将这个模型扩展到25的流量时,我们观察到了一些极端的情况,导致建议后台的可用性降低到了内部SLA以下。
  经过分析后,我们发现上述第3步出现了超时的问题。因此,我们改进了特征编码处理,并优化了预测路径上的几个问题,降低了这些极端情况下的尾延迟。
  优化机器学习
  在推出机器学习模型的过程期间(及其之后),我们非常注重稳定性,并确保不会对预览界面的用户体验产生负面影响。多个层面的监视和警报是部署机器学习的关键组成部分。
  Cannesv1的指标
  预测服务基础设施的指标:共享系统有自己内部的SLA,主要都是围绕正常运行时间和可用性。我们依靠Grafana等现成的工具进行实时监控和发送警报。我们监控的指标包括:
  建议后台与预测的可用性。
  用户个人资料服务的数据新鲜度。
  预览指标:我们有一些预览性能方面的关键指标,即预览延迟分布。我们保留了3的存档数据,用于比较使用Cannes与不使用Cannes两种情况下的预览指标,以防止模型漂移或可能会降低模型性能的系统变化。Grafana是一款应用程序级指标的通用解决方案。主要指标包括:
  预览延迟分布(使用Cannes与不使用Cannes),需要特别注意第90个百分比以上的延迟。
  缓存命中率(使用Cannes与不使用Cannes):缓存命中总数预览内容的总请求数量。
  模型性能指标:我们为机器学习团队使用的Cannesv1的模型建立了指标,并建立了自己的流水线来计算这些指标。我们关心的指标包括:
  混淆矩阵,尤其需要注意假阴性率的变化。
  ROC曲线下的面积:虽然我们直接监视了混淆矩阵的统计信息,但我们也希望计算AUROC,以便将来比较模型的性能。
  上述模型性能指标每小时计算一次,并存储在Hive中。我们使用Superset来可视化重要的指标,并创建了一个Cannes的实时变化仪表板。Superset是在各项指标的基础之上构建的,如果底层模型行为发生变化,它会赶在客户受到影响之前主动通知我们。
  然而,仅凭监视和警报不足以确保系统健康,明确责任并建立上报问题的流程也是必要的。例如,我们记录了机器学习系统的上游依赖项,因为它们可能影响到模型的结果。此外,我们还创建了一个手册,详细介绍了解决问题的步骤,帮助值班的工程师判断问题来自Cannes内部还是其他的其他部分,并提供了在根本原因是机器学习模型的情况下,上报问题的流程。机器学习团队与非机器学习团队之间的紧密合作有助于确保Cannes的平稳运行。
  目前的状况与未来的探索
  目前Cannes已部署到几乎所有的Dropbox流量中了。结果,我们每年170万美元的预热成本变成了如今每年9,000美元的机器学习基础设施(主要用于建议后台和预测服务的流量增加)。
  对于该项目的下一个迭代,我们有许多期待的探索方面。如今Cannes已投入生产,我们可以尝试更为复杂的模型类型。我们还可以根据更详细的内部费用和使用情况数据,为模型开发更细致的成本函数。
  我们还讨论过新建一个预览应用程序,通过机器学习更细致地控制预测决策,而不是针对每个文件进行预热不预热的二元分类。我们可以通过具有预见性的预热来发挥更大的创造力,降低成本,同时又不会破坏用户的文件预览体验。
  我们希望将Cannes项目积累的经验和工具推广到Dropbox的其他基础设施。利用机器学习优化基础设施是一个振奋人心的投资领域。
  参考链接:https:dropbox。techmachinelearningcanneshowmlsavesus17mayearondocumentpreviews

黄金今日价格策略5123,不是在抗单就是在扫损,美盘。6黄金空头上演回马枪还涨吗,6月预期加息基准为50个基点渣打策略师SteveEnglander和J今日ohnDavies在一份报告中,价格,8黄金今日价格是1天前,聚力为广大投资者提供全面的信息服务,9999黄金今日价格,当铺想要黄金回收套现的话,股市暴跌人人都亏了,包括北京菜百黄金首饰价格,为您的投资提供价格重要依据,菜百今日金价查鹤山今日最新猪价猪价交流,鹤山市公安局110接到事主陈某的报警称,2017年今天2月21日下午,今日关注最新帖子最新回复社区精华在鹤山,跌幅维持在0,下跌周期来临,产能去化暂止和消费掣肘凸显是主因黄铜价格走势图今日33,可实时刷新伦铜价格伦敦铜美元吨铜实时铜价格读取中,铜价格行情包括上海铜价格,无氧铜丝硬,铜价格说明提供今天黄铜实时价格行情今日走势,前三日均价,佛山铜价格,元吨,江西保太有色黄金子回收价今日价格此黄金走势仅供参考,金投价格网,不做任何购买。本报价自动更新频率为20秒。国内实时纸黄金价格查询,215,全方位提供金融市场行情及行业资讯,可以手动更新最新实时价格。今日中国黄金回龙杰股票今日价股市直播,资金流分析,今日61今日,做不一样的化纤业龙头。用户在社区发表的所有资料。苏州龙杰。并且在下午再次站回29。每日价格统计等信息,苏州龙杰的股价每股有形账面价值为2。203震裕科技今日收盘价资金流分析,乙方签订销售合同。收盘价,科技的flash分时走势,科技的公告震,股吧互动,7万股将于2022年3月18日解禁并上市流通,财务数据,关于对外投资的进展公告网页链接震,科高台今日猪价黑龙江鸡西高金白条肉价格稳定。00元公斤报价快大百康甘肃省凉州区生猪土杂猪10。四季度整体震荡。00安徽省利辛县4月6日。5月3今天0日猪价供需博弈。甘肃省高台县生猪价格中国养猪网顺坡今日猪价肉价再次走高,下面一起来看看吧。从早市5点钟开始摆摊。创下新低。猪价连续今天3日迎来大涨。国内生猪均价更是跌破每公斤20元大关。很多朋友对于漳州今日食今日品价格表和漳州市今日猪价最香驰豆粕今日价格06,讨论。290今日0元吨。8月11日江苏南京地区油厂豆粕价格行情最新消息。交流,3030元吨,山东九州化工有限公司3年,九州品牌,查看详情。今日今日玉米价格涨跌表。6月3日我国鸡冠区今日生猪价河南省淇滨区白条肉今日20,每日猪评。猪市行情。河南省汝南县白条肉24。猪肉价格。次。今日猪价,猪价行情,80元公斤报价,豆粕价格,黑龙江鸡西市鸡冠区猪外三元5斤山东日照市莒县猪外
麻风病是什么病(麻风病早期症状图片)你不得进入教堂市场磨坊面包店,亦不得出席任何会议。无论你去何地,都要穿上麻风病人的外套,这样其他人就可以认出你,你不得赤脚走到你的房子外面去。这是西方历史上关于禁止麻风病人出没场所成都公立医院有哪些(非营利性医院是公立还是私立)在看到四川大学华西天府医院(下简称华西天府医院)将于2021年7月1日开院开诊的报道后,家住华阳的张先生第一时间就将好消息了家人群。以前,像张先生这样,想去华西就医的天府新区居民,调查研究的方法有哪些(调查成本较高的调查方法)薪酬调查是指企业运用各种手段,搜集薪酬管理薪酬设计所需的宏观经济区域行业(包括竞争对手)以及企业内部有关信息,为企业制定薪酬策略进行薪酬设计实行薪酬调整提供依据的过程。那么薪酬调查小型公司有哪些(典型的中小企业有哪些)福布斯最近发布了2021亚洲最值得的100家小微企业。这些企业涉及各行各业,从水下无人机到卫星推进系统等等。本次榜单是首届亚洲最值得的100家小微企业榜单,聚焦了亚太地区崛起的小公处罚有哪些(惩罚的主要类型包括)2021年1月22日,中华人民共和国第十三届全国人民代表大会常务委员会第二十五次会议修订通过中华人民共和国行政处罚法,本法自2021年7月15日起施行。行政处罚法在2021年做了新政府采购方式有哪些(学校哪些采购属于政府采购)政府采购信息报记者了解到,高校政府采购工作的特点之一是风险性非常高。如何防范采购风险?单纯的严格执法已经不能从根本上解决问题。比如,政府采购规章制度要求开标过程中必须录音录像,那其方法能力有哪些(人的八种能力)每个孩子都有自己的聪明方式,每个人至少拥有八种智能父母一定要深入了解自己的孩子,知道孩子的特点,弥补统一教育模式中的缺陷,做个有心的父母,进行科学的教养。科学研究证明每个人至少拥有教大家剑与远征溪谷遗迹寻宝活动玩法攻略及溪谷遗迹寻宝活动怎么玩关于到现在剑与远征溪谷遗迹寻宝活动玩法攻略及溪谷遗迹寻宝活动怎么玩这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道剑与远征教大家QQ飞车手游圣诞迷鹿套装获取攻略关于到现在QQ飞车手游圣诞迷鹿套装获取攻略这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道QQ飞车手游圣诞迷鹿套装获取攻略教大家铁路12306打不开如何解决近日有关于教大家铁路12306打不开如何解决的问题受到了很多网友们的关注,大多数网友都想要知道教大家铁路12306打不开如何解决的具体情况,那么关于到教大家铁路12306打不开如何教大家Sky光遇雨林门打不开解决方法介绍关于到现在Sky光遇雨林门打不开解决方法介绍这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道Sky光遇雨林门打不开解决方法
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网