今日,谷歌通过博客悄然宣布实时语音识别技术的突破。使用人工智能技术并利用其Pixel手机的神经处理功能,Gboard用户现在可以进行离线实时语音识别。

  

 

  图源:谷歌

  目前,如果用户在Pixel设备上使用Gboard,要进行语音识别并转化成文本,实时语音处理需要使用Wi-Fi或蜂窝数据连接进行。谷歌宣布,自从它首次引入神经学习来处理人类语音以来,它一直在继续开发软件架构,以便使用其Pixel设备的神经处理功能完全离线工作。

  据介绍,谷歌新型递归神经网络传感器(RNN-T)体积已经足够小,可以完全安装在手机上,消除网络延迟和零散连接,这是随时使用该技术的障碍。它可以实时输出逐字输出的字样,就好像有人在说出你说的那样。

  谷歌已经能够通过将数据处理要求从2GB(需要无线连接进行离线处理)降低到仅仅80 MB进行处理来实现这一目标。

  虽然最初只适用于使用Pixel设备并仅使用美国英语的Gboard用户,但Google希望其开发的研究技术将被用于更多语言和更多设备以及用于其他环境。