谷歌的工程师们经常被问到这么个问题: 怎么上手用深度学习做语音识别或其它音频识别,比如关键词或指令? 虽然,现在出现了些很优秀的开源语音识别系统,比如Kaldi,就能把神经网络作为其中的一个模块。但其高度复杂性,让它们并不适合作为解决简单任务的指南。更重要的是,对于新手而言,免费、可公开获取的数据集并不多,经过预处理的、或适合于简单的关键词检测的也很少。 为解决这些问题,谷歌的TensorFlow和AIY团队创建了SpeechCommandsDataset,即ldquo;语音命令数据集rdquo;,并基于它向TensorFlow添加训练和推理的示例代码。 谷歌在今日宣布开源该数据集。 对30个命令短语,该数据集有65000次的长约一秒钟的发音。这来自数千个不同的人向AIY网站提交的贡献。它以CreativeCommonsBY4。0许可发布,随着新贡献的添加,该数据集在未来会不断扩大。 建立这个数据集的目的,是帮助大家为应用创建基础但有用的语音交互,比如ldquo;Yesrdquo;、ldquo;Nordquo;、数字、方向等词语。谷歌也已经将开发这一数据集的基础设施开源,并希望看到更多人借此创建更多版本的数据集,尤其是针对冷门语言和应用。 下载预建的TensorFlow安卓演示APP,打开ldquo;TFSpeechrdquo;,就能体验谷歌基于该数据集开发的识别模型。另外,你可以通过TensorFlow。org的音频识别tutorial学习怎么开发你自己的模型。