使用Python和Keras创建简单语音识别引擎

作者: 不靠谱的猫 2020-03-04 10:51:35

 语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力。通常,这些算法的简单实现有一个有限的词汇表,它可能只识别单词/短语。但是,更复杂的算法(例如Cloud Speech-to-Text和Amazon Transcribe)具有广泛的词汇量,并包含方言、噪音和俚语。

在本文中,我将演示:

  • 语音转文字的工作原理
  • 如何处理要转录的音频
  • 使用Keras解决问题的深度学习模型
  • 一种评估此模型的方法
  • 将预测模型集成到项目中的脚本

简介

语音只是由我们的声带引起的空气周围振动而产生的一系列声波。这些声波由麦克风记录,然后转换为电信号。然后使用高级信号处理技术处理信号,分离音节和单词。得益于深度学习方面令人难以置信的新进展,计算机也可以从经验中学习理解语音。

语音识别通过声学和语言建模使用算法来工作。声学建模表示语音和音频信号的语言单元之间的关系;语言建模将声音与单词序列进行匹配,以帮助区分听起来相似的单词。通常,基于循环层的深度学习模型用于识别语音中的时间模式,以提高系统内的准确性。也可以使用其他方法,例如隐马尔可夫模型(第一个语音识别算法是使用这种方法)。在本文中,我将仅讨论声学模型。

信号处理

有多种方法可以将音频波转换为算法可以处理的元素,其中一种方法(在本教程中将使用的一种方法)是在等距的点上记录声波的高度:

使用Python和Keras创建简单语音识别引擎

我们每秒读取数千次,并记录一个代表当时声波高度的数字。这是一个未压缩的.wav音频文件。“ CD质量”音频以44.1 kHz(每秒44,100个读数)采样。但是对于语音识别而言,16khz(每秒16,000个样本)的采样率足以覆盖人类语音的频率范围。

用这种方法,音频是通过一个数字向量来表示的,其中每个数字以1/16000秒的间隔表示声波的振幅。这个过程类似于图像预处理,如下例所示:

使用Python和Keras创建简单语音识别引擎

多亏尼奎斯特定理(1933年— 弗拉基米尔·科特尔尼科夫(Vladimir Kotelnikov)),我们知道,只要采样速度至少是我们要记录的最高频率的两倍,我们就可以使用数学方法从间隔采样中完美重建原始声波。

Python库

为了完成这个任务,我使用Anaconda环境(Python 3.7)和以下Python库:

  • ipython (v 7.10.2)
  • keras (v 2.2.4)
  • librosa (v 0.7.2)
  • scipy (v 1.1.0)
  • sklearn (v 0.20.1)
  • sounddevice (v 0.3.14)
  • tensorflow (v 1.13.1)
  • tensorflow-gpu (v 1.13.1)
  • numpy (v 1.17.2)
  1. from tensorflow.compat.v1 import ConfigProto 
  2. from tensorflow.compat.v1 import Session 
  3. import os 
  4. import librosa 
  5. import IPython.display as ipd 
  6. import matplotlib.pyplot as plt 
  7. import numpy as np 
  8. from scipy.io import wavfile 
  9. import warnings 
  10.  
  11. config = ConfigProto() 
  12. config.gpu_options.allow_growth = True 
  13. sess = Session(config=config) 
  14.  
  15. warnings.filterwarnings("ignore"

1.数据集

我们在实验中使用TensorFlow提供的语音指令数据集。它包括由成千上万不同的人发出的由30个短单词组成的65000个一秒钟长的话语。我们将建立一个语音识别系统,它可以理解简单的语音命令。您可以从此处下载数据集(https://www.kaggle.com/c/tensorflow-speech-recognition-challenge)。

2.预处理音频波

在使用的数据集中,一些记录的持续时间少于1秒,并且采样率太高。因此,让我们阅读声波并使用下面的预处理步骤来解决这个问题。这是我们要执行的两个步骤:

  • 重采样
  • 删除少于1秒的短命令

让我们在下面的Python代码片段中定义这些预处理步骤:

  1. train_audio_path = './train/audio/' 
  2.  
  3. all_wave = [] 
  4. all_label = [] 
  5. for label in labels: 
  6.     print(label) 
  7.     waves = [f for f in os.listdir(train_audio_path + '/'+ label) if f.endswith('.wav')] 
  8.     for wav in waves: 
  9.         samples, sample_rate = librosa.load(train_audio_path + '/' + label + '/' + wav, sr = 16000) 
  10.         samples = librosa.resample(samples, sample_rate, 8000) 
  11.         if(len(samples)== 8000) :  
  12.             all_wave.append(samples) 
  13.             all_label.append(label) 

由上可知,信号的采样率为16000 hz。我们把它重采样到8000赫兹,因为大多数语音相关的频率都在8000赫兹。

第二步是处理我们的标签,这里我们将输出标签转换为整数编码,将整数编码标签转换为one-hot 向量,因为这是一个多目标问题:

  1. from sklearn.preprocessing import LabelEncoder 
  2. from keras.utils import np_utils 
  3.  
  4. label_enconder = LabelEncoder() 
  5. y = label_enconder.fit_transform(all_label) 
  6. classes = list(label_enconder.classes_) 
  7. y = np_utils.to_categorical(y, num_classes=len(labels)) 

预处理步骤的最后一步是将2D数组reshape为3D,因为conv1d的输入必须是3D数组:

  1. all_wave = np.array(all_wave).reshape(-1,8000,1) 

3.创建训练和验证集

为了执行我们的深度学习模型,我们将需要生成两个集合(训练和验证)。对于此实验,我使用80%的数据训练模型,并在其余20%的数据上进行验证:

  1. from sklearn.model_selection import train_test_split 
  2. x_train, x_valid, y_train, y_valid = train_test_split(np.array(all_wave),np.array(y),stratify=y,test_size = 0.2,random_state=777,shuffle=True

4.机器学习模型架构

我使用Conv1d和GRU层来建模用于语音识别的网络。Conv1d是一个仅在一维上进行卷积的卷积神经网络,而GRU的目标是解决标准循环神经网络的梯度消失问题。GRU也可以看作是LSTM的一个变体,因为两者的设计相似,在某些情况下,可以产生同样优秀的结果。

该模型基于deepspeech h2和Wav2letter++ algoritms这两种著名的语音识别方法。下面的代码演示了使用Keras提出的模型:

  1. from keras.layers import Bidirectional, BatchNormalization, CuDNNGRU, TimeDistributed 
  2. from keras.layers import Dense, Dropout, Flatten, Conv1D, Input, MaxPooling1D 
  3. from keras.models import Model 
  4. from keras.callbacks import EarlyStopping, ModelCheckpoint 
  5. from keras import backend as K 
  6. K.clear_session() 
  7.  
  8. inputs = Input(shape=(8000,1)) 
  9. x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(inputs) 
  10. #First Conv1D layer 
  11. x = Conv1D(8,13, padding='valid', activation='relu', strides=1)(x) 
  12. x = MaxPooling1D(3)(x) 
  13. x = Dropout(0.3)(x) 
  14. #Second Conv1D layer 
  15. x = Conv1D(16, 11, padding='valid', activation='relu', strides=1)(x) 
  16. x = MaxPooling1D(3)(x) 
  17. x = Dropout(0.3)(x) 
  18. #Third Conv1D layer 
  19. x = Conv1D(32, 9, padding='valid', activation='relu', strides=1)(x) 
  20. x = MaxPooling1D(3)(x) 
  21. x = Dropout(0.3)(x) 
  22. x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x) 
  23. x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x) 
  24. x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x) 
  25. x = Bidirectional(CuDNNGRU(128, return_sequences=False), merge_mode='sum')(x) 
  26. x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x) 
  27. #Flatten layer 
  28. # x = Flatten()(x) 
  29. #Dense Layer 1 
  30. x = Dense(256, activation='relu')(x) 
  31. outputs = Dense(len(labels), activation="softmax")(x) 
  32. model = Model(inputs, outputs) 
  33. model.summary() 
使用Python和Keras创建简单语音识别引擎

注意:如果仅使用CPU来训练此模型,请用GRU替换CuDNNGRU层。

下一步是将损失函数定义为分类交叉熵,因为它是一个多类分类问题:

  1. model.compile(loss='categorical_crossentropy',optimizer='nadam',metrics=['accuracy']) 

Early stopping和模型检查点是回调,以在适当的时间停止训练神经网络并在每个epoch后保存最佳模型:

  1. early_stop = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=10, min_delta=0.0001)  
  2. checkpoint = ModelCheckpoint('speech2text_model.hdf5', monitor='val_acc', verbose=1, save_best_only=True, mode='max'

让我们在32的batch size上训练机器学习模型,并评估保留集上的性能:

  1. hist = model.fit( 
  2.     x=x_train,  
  3.     y=y_train, 
  4.     epochs=100,  
  5.     callbacks=[early_stop, checkpoint],  
  6.     batch_size=32,  
  7.     validation_data=(x_valid,y_valid) 

该命令的输出为:

使用Python和Keras创建简单语音识别引擎

5.可视化

我将依靠可视化来了解机器学习模型在一段时间内的性能:

  1. from matplotlib import pyplot 
  2. pyplot.plot(hist.history['loss'], label='train'
  3. pyplot.plot(hist.history['val_loss'], label='test'
  4. pyplot.legend() 
  5. pyplot.show() 
使用Python和Keras创建简单语音识别引擎

6.预测

在这一步中,我们将加载最佳的权重,并定义识别音频和将其转换为文本的函数:

  1. from keras.models import load_model 
  2. model = load_model('speech2text_model.hdf5'
  3.  
  4. def s2t_predict(audio, shape_num=8000): 
  5.     prob=model.predict(audio.reshape(1,shape_num,1)) 
  6.     index=np.argmax(prob[0]) 
  7.     return classes[index

对验证数据进行预测:

  1. import random 
  2. index=random.randint(0,len(x_valid)-1) 
  3. samples=x_valid[index].ravel() 
  4. print("Audio:",classes[np.argmax(y_valid[index])]) 
  5. ipd.Audio(samples, rate=8000) 

这是一个提示用户录制语音命令的脚本。可以录制自己的语音命令,并在机器学习模型上测试:

  1. import sounddevice as sd 
  2. import soundfile as sf 
  3.  
  4. samplerate = 16000   
  5. duration = 1 # seconds 
  6. filename = 'yes.wav' 
  7. print("start"
  8. mydata = sd.rec(int(samplerate * duration), samplerate=samplerate, 
  9.     channels=1, blocking=True
  10. print("end"
  11. sd.wait() 
  12. sf.write(filename, mydata, samplerate) 

最后,我们创建一个脚本来读取保存的语音命令并将其转换为文本:

  1. #reading the voice commands 
  2. test, test_rate = librosa.load('./test/left.wav', sr = 16000) 
  3. test_sample = librosa.resample(test, test_rate, 4351) 
  4. print(test_sample.shape) 
  5. ipd.Audio(test_sample,rate=8000) 
  6.  
  7. #converting voice commands to text 
  8. s2t_predict(test_sample) 

最后

语音识别技术已经成为我们日常生活的一部分,但目前仍局限于相对简单的命令。随着技术的进步,研究人员将能够创造出更多能够理解会话语音的智能系统。

Python 算法 脚本语言
上一篇:如何在人工智能时代发展自己的IT职业生涯 下一篇:一文看懂:疫情冲击七大科技巨头 看他们如何应对
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

如何用Python开发QQ机器人

虽然该文最终是达到以python开发mirai机器人的目的,但起步教程,尤其是环境配置上仍然有大量的相同操作,对其他编程语言仍有借鉴之处。

佚名 ·  21h前
你的「在看」有人看,清华研究者从微信「看一看」发现了这些规律

该研究还提出了一个预测模型,预测准确率相比其他方法有所提升。目前,该论文已发表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 期刊上。

佚名 ·  1天前
2021年进入AI和ML领域之前需要了解的10件事

自从2012年数据科学被评为21世纪最性感的工作以来,来自不同领域的许多人开始转向数据科学或相关的机器学习角色

deephub ·  2021-04-30 23:43:04
机器学习新算法更好描述量子系统模型

近日,英国布里斯托大学量子工程技术实验室的研究人员在《自然·物理学》杂志上发表一篇新论文,解释了一种通过充当自主代理,使用机器学习对哈密顿模型进行逆向工程的算法。这种新算法对量子系统基本物理原理提供了宝贵见解,有望带来量子计算和传感领域的重大进步,并有可能翻开科学研究的新篇章。

张佳欣 ·  2021-04-30 15:12:07
为什么Python是机器学习的理想选择?

Python 人工智能项目在各种形式和规模的公司中变得非常流行。以下是 Python 语言非常适合 ML 开发的原因。

佚名 ·  2021-04-25 10:26:34
走出“题海战术”,让模型学会像人一样思考

当你在社交媒体上发表内容时,在打出#时,社交媒体会推荐给你一个合适的Hashtag (话题词) ,把内容划分到相应的话题下面去,方便对社交媒体的内容进行分类管理。

天筭 ·  2021-04-23 15:13:16
高数有救了!神经网络不到一秒就能求解偏微分方程

对于特别复杂的偏微分方程,可能需要数百万个CPU小时才能求解出来一个结果。随着问题越来越复杂,从设计更优秀的火箭发动机到模拟气候变化,科学家们需要一个更「聪明」的求解方法。

新智元 ·  2021-04-22 09:44:40
数据能否为当今的企业建立竞争优势?

对于世界各地的企业来说,数据是一个巨大的竞争优势和增长源泉。

Cassie ·  2021-04-20 10:21:13
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载