Google在三月份发布了CoralDevBoard,这是一款紧凑型PC,具有张量处理单元(EdgeTPU)AI加速器芯片,此外还带有USB加密狗,旨在加速对现有RaspberryPi和Linux系统(CoralUSBAccelerator)的机器学习推理。)。从那时起,对工具包支持资源的更新就达到了稳定的水平,今天,谷歌发布了新的分类模型系列EfficientNetEdgeTPU它说经过了优化,可以在Coral板的模块系统上运行。 GitHub上提供了EfficientNetEdgeTPU的训练代码和预训练模型。 机器学习加速器架构师SuyogGupta和GoogleResearch软件工程师写道:ldquo;随着缩小晶体管尺寸的难度越来越大,业界重新关注开发特定于领域的体系结构(例如硬件加速器),以继续提高计算能力。rdquo;谭明兴ldquo;具有讽刺意味的是,虽然这些架构在数据中心和边缘计算平台中一直在稳定增长,但在它们上运行的〔AI模型〕很少定制以利用基础硬件的优势。rdquo; 因此,EfficientNetEdgeTPU项目的目标是定制从GoogleEfficientNets衍生的模型,以适应节能,低开销的EdgeTPU芯片。在以前的测试中,EfficientNets在现有AI系统的某些类别上展示了更高的准确性和更高的效率,从而将参数大小和FLOPS(浮点计算)减小了一个数量级。 这是因为EfficientNets使用网格搜索来确定固定资源约束下基准AI模型的缩放维度之间的关系。搜索确定每个维度的合适缩放系数,然后将这些系数应用于将基线模型按比例缩放到所需的模型大小或计算预算。 根据Gupta,Tan和同事的说法,重新配置EfficientNets以利用EdgeTPU要求调用Google开发的AutoMLMNAS框架。MNAS通过结合强化学习来考虑硬件限制(特别是片上存储器),然后通过执行各种模型并在选择作物的奶油之前测量其实际性能,从候选列表中确定理想的模型体系结构。团队使用等待时间预测器模块对它进行了补充,该模块在EdgeTPU上执行时提供了算法等待时间的估计。 整体方法产生了一个基线模型EfficientNetEdgeTPUS,研究人员通过选择输入图像分辨率缩放比例,网络宽度和深度缩放比例的最佳组合来进行放大。在实验中,与流行的图像分类模型(例如Inceptionresnetv2和Resnet50)相比,由此产生的更大的体系结构EfficientNetEdgeTPUM和EfficientNetEdgeTPUL以增加的延迟为代价实现了更高的准确性,并且在EdgeTPU上运行得更快。 EfficientNetEdgeTPU的发布谷歌的模型优化工具包TensorFlow的工具套件,其中包括混合动力量化,全面整数量化,并修剪后首次亮相的前一天。值得注意的是训练后的float16量化,它可以将AI模型的大小减少多达50,同时又会降低精度。