极具价值的教育培训与互动学习平台

Facebook 开源首个全卷积语音识别工具包 wav2letter++

2018-12-27 17:26:21 投稿人 : haixia002 围观 : 61069 次 0 评论

  雷锋网(公众号:雷锋网) AI 科技评论按:近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++。系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。他们在博客中对此次开源进行了详细介绍。

Facebook 开源首个全卷积语音识别工具包 wav2letter++

  由于端到端语音识别技术能够轻易扩展至多种语言,同时能在多变的环境下保证识别质量,因此被普遍认为是一种高效且稳定的语音识别技术。虽说递归卷积神经网络在处理具有远程依赖性的建模任务上很占优势,如语言建模、机器翻译和语音合成等,然而在端到端语音识别任务上,循环架构才是业内的主流。

  有鉴于此,Facebook 人工智能研究院 (FAIR) 的语音小组上周推出首个全卷积语音识别系统,该系统完全由卷积层组成,取消了特征提取步骤,仅凭端到端训练对音频波形中的转录文字进行预测,再通过外部卷积语言模型对文字进行解码。随后 Facebook 宣布开源 wav2letter ++——这种高性能框架的出现,让端到端语音识别技术得以实现快速迭代,为技术将来的优化工作和模型调优打下夯实的基础。

  与 wav2letter++ 一同宣布开源的,还有机器学习库 Flashlight。Flashlight 是建立在 C++基础之上的机器学习库,使用了 ArrayFire 张量库,并以 C++进行实时编译,目标是最大化 CPU 与 GPU 后端的效率和规模,而 wave2letter ++工具包建立在 Flashlight 基础上,同样使用 C++进行编写,以 ArrayFire 作为张量库。

  这里着重介绍一下 ArrayFire,它可以在 CUDA GPU 和 CPU 支持的多种后端上被执行,支持多种音频文件格式(如 wav、flac 等),此外还支持多种功能类型,其中包括原始音频、线性缩放功率谱、log 梅尔谱 (MFSC) 和 MFCCs 等。

  Github 开源地址:

  https://github.com/facebookresearch/wav2letter/

  在 Facebook 对外发布论文中,wav2letter++被拿来与其他主流开源语音识别系统进行对比,发现 wav2letter++训练语音识别端到端神经网络速度是其他框架的 2 倍还多。其使用了 1 亿个参数的模型测试,使用从 1~64 个 GPU,且训练时间是线性变化的。

Facebook 开源首个全卷积语音识别工具包 wav2letter++

  图片来源:Facebook

  上面为系统的网络结构图,主要由 4 个部分组成:

  可学习前端(Learnable front end):这部分包含宽度为 2 的卷积(用于模拟预加重流程)和宽度为 25 ms 的复卷积。在计算完平方模数后,由低通滤波器和步长执行抽取任务。最后应用于 log-compression 和 per-channel mean-variance normalization 上。

  声学模型:这是一款带有门线性单元(GLU)的卷积神经网络,负责处理可学习前端的输出内容。基于自动分割准则,该模型在字母预测任务上进行训练。

  语言模型:该卷积语言模型一共包含 14 个卷积残差块,并将门线性单元作为激活函数,主要用来对集束搜索解码器中语言模型的预备转录内容进行评分。

  集束搜索解码器(Beam-search decoder):根据声学模型的输出内容生成词序列。

  想深入了解系统背后运作原理感的同学,可以自行查阅完整内容:

  https://arxiv.org/abs/1812.07625

  wav2letter++: The Fastest Open-source Speech Recognition System

  via https://opensource.fb.com/

  雷锋网 AI 科技评论 雷锋网

  雷锋网原创文章,未经授权禁止转载。详情见转载须知。

原文链接:https://www.leiphone.com/news/201812/t4K6BSfiYXkruwZb.html

来源:育学天下,转载请注明作者或出处,尊重原创!

相关文章

  • 2020紫荆·国际金融人才发展年会暨全球校友年会圆满举行
    2020紫荆·国际金融人才发展年会暨全球校友年会圆满举行

    听闻远方有你,我动身跋涉千里。2020年1月11日-12日,由紫荆教育主办的以“思想·洞见·正念——从个人进化到组织重塑”为主题的2020紫荆·国际金融人才发展年会暨全球校友年会在北京龙城温德姆酒店隆重举行。紫荆教育董事长张博、紫荆教育副总...

    2020-01-16 15:46:42
  • 小杯故事2020DC动漫杯新品发布会暨新年派对盛势来袭
    小杯故事2020DC动漫杯新品发布会暨新年派对盛势来袭

    活动主题:小杯故事2020DC动漫杯新品发布会暨新年化妆晚会总 统 筹:郑剑浩策 划 人:涂秋敏 夏欢欢主办单位:小杯故事承办单位:迦尔文化支持单位:德化县陶瓷发展委员会办公室活动时间:2020年1月11日星期六17:00活动地点:小杯故事...

    2020-01-03 10:03:36
  • 泽悟武夷茶问鼎2019年水仙茶王
    泽悟武夷茶问鼎2019年水仙茶王

    12月29日下午,第八届海峡两岸茶文化季(秋季)颁奖典礼在厦门帝元维多利亚酒店圆满收官。典礼上,颁发了本届海峡两岸茶王赛获奖奖项,并同步举行了重量级的茶业丝路高峰论坛,探讨以“茶叶”为载体,如何将中国茶及茶文化传播到全球的命题。此次活动由海...

    2020-01-02 20:07:40
  • 英语教育专家麦迪老师受邀与奥巴马会面
    英语教育专家麦迪老师受邀与奥巴马会面

    2019年12月14日, 2019可持续发展峰会暨奥巴马总统对话会在新加坡召开。此次峰会以“打造新动力、开启新征程”为主题,汇聚了诸多政商界领袖巨擘。奥巴马卸任美国总统后,首次赴新加坡演讲,亮相2019可持续发展峰会。这场吸引了来...

    2019-12-18 11:29:20
  • 福安:第三届好穆阳线面文化旅游节举行
    福安:第三届好穆阳线面文化旅游节举行

      福安市穆阳镇苏堤村手工线面制作工艺展示现场。福建日报记者 范陈春 通讯员 吴宁俊 摄  东南网12月2日讯 (福建日报记者 范陈春 通讯员 吴宁俊)11月30日,“第三届好穆阳线面文化旅游节”在全国特色小镇——福安市穆阳镇举行。穆阳...

    2019-12-02 16:10:41
  • 教育部拟新规:合理界定师生关系保障正常教学秩序
    教育部拟新规:合理界定师生关系保障正常教学秩序

      教育部拟制订中小学教师实施教育惩戒规则  合理界定师生关系保障正常教学秩序  11月22日,教育部发布了《中小学教师实施教育惩戒规则(征求意见稿)》(以下简称《征求意见稿》)公开征求意见的通知,意见反馈截止时间为2019年12月22日。...

    2019-11-29 17:03:04
  • 乔布斯签名软盘拍卖,拍卖行称:这是“博物馆级的计算发展史”
    乔布斯签名软盘拍卖,拍卖行称:这是“博物馆级的计算发展史”

      11月27日上午消息,一家国外拍卖行对一张苹果公司已故创始人史蒂夫·乔布斯(Steve Jobs)签名的Macintosh系统软盘进行拍卖。目前拍卖尚未结束,出价已经达到4600美元。  乔布斯已经成为硅谷乃至世界科技界创新的代表,...

    2019-11-28 17:06:02
  • 泉州:中外偶艺“美美与共”
    泉州:中外偶艺“美美与共”

      昨日,匈牙利西洛卡剧院的木偶艺术家来到把幼儿木偶教育列入园本课程的泉州刺桐幼儿园,为孩子们带来木偶经典剧目《如何捕捉星星》的片段,中外偶艺借此“美美与共”。这是第六届中国泉州国际木偶展演校园行活动之一。林升 摄  外国木偶艺术家与孩...

    2019-11-27 15:55:56
  • 上海举行纪念巴金诞辰115周年活动
    上海举行纪念巴金诞辰115周年活动

      11月25日,在上海徐汇艺术馆,观众在参观巴金与叶圣陶的往来手札及照片。 当日,上海举行纪念巴金诞辰115周年活动。巴金故居、中国现代文学馆、上海文学发展基金会在徐汇艺术馆联合主办的“温暖的友情——巴金与友朋往来手札展”开幕,展出巴...

    2019-11-26 16:56:37
  • 央视两度聚焦 海艺节上热搜
    央视两度聚焦 海艺节上热搜

      连日来,第四届海上丝绸之路国际艺术节精彩节目不断,在吸引八方来客的同时,各大媒体纷纷以消息、通讯、特写、评论等方式,浓墨重彩地报道海艺节盛况。  中央和省级主流媒体继续在重要版面和主要新闻节目推出海艺节相关报道,聚焦海艺节的重要内容和亮...

    2019-11-25 15:59:15
发表评论