使用Python和Keras创建简单语音识别引擎

作者: 不靠谱的猫 2020-03-04 10:51:35

 语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力。通常,这些算法的简单实现有一个有限的词汇表,它可能只识别单词/短语。但是,更复杂的算法(例如Cloud Speech-to-Text和Amazon Transcribe)具有广泛的词汇量,并包含方言、噪音和俚语。

在本文中,我将演示:

  • 语音转文字的工作原理
  • 如何处理要转录的音频
  • 使用Keras解决问题的深度学习模型
  • 一种评估此模型的方法
  • 将预测模型集成到项目中的脚本

简介

语音只是由我们的声带引起的空气周围振动而产生的一系列声波。这些声波由麦克风记录,然后转换为电信号。然后使用高级信号处理技术处理信号,分离音节和单词。得益于深度学习方面令人难以置信的新进展,计算机也可以从经验中学习理解语音。

语音识别通过声学和语言建模使用算法来工作。声学建模表示语音和音频信号的语言单元之间的关系;语言建模将声音与单词序列进行匹配,以帮助区分听起来相似的单词。通常,基于循环层的深度学习模型用于识别语音中的时间模式,以提高系统内的准确性。也可以使用其他方法,例如隐马尔可夫模型(第一个语音识别算法是使用这种方法)。在本文中,我将仅讨论声学模型。

信号处理

有多种方法可以将音频波转换为算法可以处理的元素,其中一种方法(在本教程中将使用的一种方法)是在等距的点上记录声波的高度:

使用Python和Keras创建简单语音识别引擎

我们每秒读取数千次,并记录一个代表当时声波高度的数字。这是一个未压缩的.wav音频文件。“ CD质量”音频以44.1 kHz(每秒44,100个读数)采样。但是对于语音识别而言,16khz(每秒16,000个样本)的采样率足以覆盖人类语音的频率范围。

用这种方法,音频是通过一个数字向量来表示的,其中每个数字以1/16000秒的间隔表示声波的振幅。这个过程类似于图像预处理,如下例所示:

使用Python和Keras创建简单语音识别引擎

多亏尼奎斯特定理(1933年— 弗拉基米尔·科特尔尼科夫(Vladimir Kotelnikov)),我们知道,只要采样速度至少是我们要记录的最高频率的两倍,我们就可以使用数学方法从间隔采样中完美重建原始声波。

Python库

为了完成这个任务,我使用Anaconda环境(Python 3.7)和以下Python库:

  • ipython (v 7.10.2)
  • keras (v 2.2.4)
  • librosa (v 0.7.2)
  • scipy (v 1.1.0)
  • sklearn (v 0.20.1)
  • sounddevice (v 0.3.14)
  • tensorflow (v 1.13.1)
  • tensorflow-gpu (v 1.13.1)
  • numpy (v 1.17.2)
  1. from tensorflow.compat.v1 import ConfigProto 
  2. from tensorflow.compat.v1 import Session 
  3. import os 
  4. import librosa 
  5. import IPython.display as ipd 
  6. import matplotlib.pyplot as plt 
  7. import numpy as np 
  8. from scipy.io import wavfile 
  9. import warnings 
  10.  
  11. config = ConfigProto() 
  12. config.gpu_options.allow_growth = True 
  13. sess = Session(config=config) 
  14.  
  15. warnings.filterwarnings("ignore"

1.数据集

我们在实验中使用TensorFlow提供的语音指令数据集。它包括由成千上万不同的人发出的由30个短单词组成的65000个一秒钟长的话语。我们将建立一个语音识别系统,它可以理解简单的语音命令。您可以从此处下载数据集(https://www.kaggle.com/c/tensorflow-speech-recognition-challenge)。

2.预处理音频波

在使用的数据集中,一些记录的持续时间少于1秒,并且采样率太高。因此,让我们阅读声波并使用下面的预处理步骤来解决这个问题。这是我们要执行的两个步骤:

  • 重采样
  • 删除少于1秒的短命令

让我们在下面的Python代码片段中定义这些预处理步骤:

  1. train_audio_path = './train/audio/' 
  2.  
  3. all_wave = [] 
  4. all_label = [] 
  5. for label in labels: 
  6.     print(label) 
  7.     waves = [f for f in os.listdir(train_audio_path + '/'+ label) if f.endswith('.wav')] 
  8.     for wav in waves: 
  9.         samples, sample_rate = librosa.load(train_audio_path + '/' + label + '/' + wav, sr = 16000) 
  10.         samples = librosa.resample(samples, sample_rate, 8000) 
  11.         if(len(samples)== 8000) :  
  12.             all_wave.append(samples) 
  13.             all_label.append(label) 

由上可知,信号的采样率为16000 hz。我们把它重采样到8000赫兹,因为大多数语音相关的频率都在8000赫兹。

第二步是处理我们的标签,这里我们将输出标签转换为整数编码,将整数编码标签转换为one-hot 向量,因为这是一个多目标问题:

  1. from sklearn.preprocessing import LabelEncoder 
  2. from keras.utils import np_utils 
  3.  
  4. label_enconder = LabelEncoder() 
  5. y = label_enconder.fit_transform(all_label) 
  6. classes = list(label_enconder.classes_) 
  7. y = np_utils.to_categorical(y, num_classes=len(labels)) 

预处理步骤的最后一步是将2D数组reshape为3D,因为conv1d的输入必须是3D数组:

  1. all_wave = np.array(all_wave).reshape(-1,8000,1) 

3.创建训练和验证集

为了执行我们的深度学习模型,我们将需要生成两个集合(训练和验证)。对于此实验,我使用80%的数据训练模型,并在其余20%的数据上进行验证:

  1. from sklearn.model_selection import train_test_split 
  2. x_train, x_valid, y_train, y_valid = train_test_split(np.array(all_wave),np.array(y),stratify=y,test_size = 0.2,random_state=777,shuffle=True

4.机器学习模型架构

我使用Conv1d和GRU层来建模用于语音识别的网络。Conv1d是一个仅在一维上进行卷积的卷积神经网络,而GRU的目标是解决标准循环神经网络的梯度消失问题。GRU也可以看作是LSTM的一个变体,因为两者的设计相似,在某些情况下,可以产生同样优秀的结果。

该模型基于deepspeech h2和Wav2letter++ algoritms这两种著名的语音识别方法。下面的代码演示了使用Keras提出的模型:

  1. from keras.layers import Bidirectional, BatchNormalization, CuDNNGRU, TimeDistributed 
  2. from keras.layers import Dense, Dropout, Flatten, Conv1D, Input, MaxPooling1D 
  3. from keras.models import Model 
  4. from keras.callbacks import EarlyStopping, ModelCheckpoint 
  5. from keras import backend as K 
  6. K.clear_session() 
  7.  
  8. inputs = Input(shape=(8000,1)) 
  9. x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(inputs) 
  10. #First Conv1D layer 
  11. x = Conv1D(8,13, padding='valid', activation='relu', strides=1)(x) 
  12. x = MaxPooling1D(3)(x) 
  13. x = Dropout(0.3)(x) 
  14. #Second Conv1D layer 
  15. x = Conv1D(16, 11, padding='valid', activation='relu', strides=1)(x) 
  16. x = MaxPooling1D(3)(x) 
  17. x = Dropout(0.3)(x) 
  18. #Third Conv1D layer 
  19. x = Conv1D(32, 9, padding='valid', activation='relu', strides=1)(x) 
  20. x = MaxPooling1D(3)(x) 
  21. x = Dropout(0.3)(x) 
  22. x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x) 
  23. x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x) 
  24. x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x) 
  25. x = Bidirectional(CuDNNGRU(128, return_sequences=False), merge_mode='sum')(x) 
  26. x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x) 
  27. #Flatten layer 
  28. # x = Flatten()(x) 
  29. #Dense Layer 1 
  30. x = Dense(256, activation='relu')(x) 
  31. outputs = Dense(len(labels), activation="softmax")(x) 
  32. model = Model(inputs, outputs) 
  33. model.summary() 
使用Python和Keras创建简单语音识别引擎

注意:如果仅使用CPU来训练此模型,请用GRU替换CuDNNGRU层。

下一步是将损失函数定义为分类交叉熵,因为它是一个多类分类问题:

  1. model.compile(loss='categorical_crossentropy',optimizer='nadam',metrics=['accuracy']) 

Early stopping和模型检查点是回调,以在适当的时间停止训练神经网络并在每个epoch后保存最佳模型:

  1. early_stop = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=10, min_delta=0.0001)  
  2. checkpoint = ModelCheckpoint('speech2text_model.hdf5', monitor='val_acc', verbose=1, save_best_only=True, mode='max'

让我们在32的batch size上训练机器学习模型,并评估保留集上的性能:

  1. hist = model.fit( 
  2.     x=x_train,  
  3.     y=y_train, 
  4.     epochs=100,  
  5.     callbacks=[early_stop, checkpoint],  
  6.     batch_size=32,  
  7.     validation_data=(x_valid,y_valid) 

该命令的输出为:

使用Python和Keras创建简单语音识别引擎

5.可视化

我将依靠可视化来了解机器学习模型在一段时间内的性能:

  1. from matplotlib import pyplot 
  2. pyplot.plot(hist.history['loss'], label='train'
  3. pyplot.plot(hist.history['val_loss'], label='test'
  4. pyplot.legend() 
  5. pyplot.show() 
使用Python和Keras创建简单语音识别引擎

6.预测

在这一步中,我们将加载最佳的权重,并定义识别音频和将其转换为文本的函数:

  1. from keras.models import load_model 
  2. model = load_model('speech2text_model.hdf5'
  3.  
  4. def s2t_predict(audio, shape_num=8000): 
  5.     prob=model.predict(audio.reshape(1,shape_num,1)) 
  6.     index=np.argmax(prob[0]) 
  7.     return classes[index

对验证数据进行预测:

  1. import random 
  2. index=random.randint(0,len(x_valid)-1) 
  3. samples=x_valid[index].ravel() 
  4. print("Audio:",classes[np.argmax(y_valid[index])]) 
  5. ipd.Audio(samples, rate=8000) 

这是一个提示用户录制语音命令的脚本。可以录制自己的语音命令,并在机器学习模型上测试:

  1. import sounddevice as sd 
  2. import soundfile as sf 
  3.  
  4. samplerate = 16000   
  5. duration = 1 # seconds 
  6. filename = 'yes.wav' 
  7. print("start"
  8. mydata = sd.rec(int(samplerate * duration), samplerate=samplerate, 
  9.     channels=1, blocking=True
  10. print("end"
  11. sd.wait() 
  12. sf.write(filename, mydata, samplerate) 

最后,我们创建一个脚本来读取保存的语音命令并将其转换为文本:

  1. #reading the voice commands 
  2. test, test_rate = librosa.load('./test/left.wav', sr = 16000) 
  3. test_sample = librosa.resample(test, test_rate, 4351) 
  4. print(test_sample.shape) 
  5. ipd.Audio(test_sample,rate=8000) 
  6.  
  7. #converting voice commands to text 
  8. s2t_predict(test_sample) 

最后

语音识别技术已经成为我们日常生活的一部分,但目前仍局限于相对简单的命令。随着技术的进步,研究人员将能够创造出更多能够理解会话语音的智能系统。

Python 算法 脚本语言
上一篇:如何在人工智能时代发展自己的IT职业生涯 下一篇:一文看懂:疫情冲击七大科技巨头 看他们如何应对
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

BAIR最新RL算法超越谷歌Dreamer,性能提升2.8倍

pixel-based RL 算法逆袭,BAIR 提出将对比学习与 RL 相结合的算法,其 sample-efficiency 匹敌 state-based RL。

Aravind Srinivas ·  2天前
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。

佚名 ·  2020-05-21 14:50:37
谷歌中国工程师提出颠覆性算法模型,Waymo实测可提高预测精准度

“周围的车辆和行人在接下来数秒中会做什么?”要实现安全的自动驾驶,这是一个必须回答的关键问题,这也就是自动驾驶领域中的行为预测问题。

DeepTech深科技 ·  2020-05-21 10:16:41
GitHub近10万星:印度小哥用Python和Java实现所有AI算法

今天两个算法实现的项目又登上了GitHub热榜,每逢招聘季必上榜?此前,这两个项目曾多次登顶,分别用Python和Java实现了面试中常考的算法,AI行业就业形势日趋严峻,而算法岗更是竞争激烈,是时候复习一下基本功了!

佚名 ·  2020-05-19 14:27:10
有了K均值聚类,为什么还需要DBSCAN聚类算法?

聚类分析是一种无监督学习法,它将数据点分离成若干个特定的群或组,使得在某种意义上同一组中的数据点具有相似的性质,不同组中的数据点具有不同的性质。

读芯术 ·  2020-05-13 15:57:59
边做边思考,谷歌大脑提出并发RL算法,机械臂抓取速度提高一倍

RL 算法通常假设,在获取观测值、计算动作并执行期间环境状态不发生变化。这一假设在仿真环境中很容易实现,然而在真实机器人控制当中并不成立,很可能导致控制策略运行缓慢甚至失效。

机器之心 ·  2020-05-12 10:43:30
再也不怕别人动电脑了!用Python实时监控

最近突然有个奇妙的想法,就是当我对着电脑屏幕的时候,电脑会先识别屏幕上的人脸是否是本人,如果识别是本人的话需要回答电脑说的暗语,答对了才会解锁并且有三次机会。

佚名 ·  2020-05-07 09:05:22
神经网络之父Hinton再审视34年前的奠基性成果,欲在大脑中搜寻AI方法的“存在”

直到现在,几乎你听说过的每一个关于人工智能的进步,仍基于 30 年前的一篇阐述多层神经网络训练方法的论文演变而来。那就是 Geoffrey Hinton 在 1986 年写下的《Learning representations by back-propagation errors》。

黄珊 ·  2020-05-02 10:54:13
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载