Sitemap

基于对立样本的数据扩充鲁棒语音识别和要害词检出中的运用

文:孙思宁,王雄,谢磊 陕西省西安市西北工业大学,盘算机学院 | 2019年第二期 (0) | (0)

1.摘要

  本文将对立样本用于语音识别和要害词检出中深度神经网络声学模子的教练进程中,以用来进步声学模子的鲁棒性。模子教练进程中,运用基于疾速符号梯度方法来发生对立样本举措原始教练样本的扩充,与古板的基于数据变换的数据扩充方法差别,本文所提出的方法是一种模子和数据相关的方法,模子教练进程中,依据模子的参数和目今教练数据动态地生成对立样本。本文中,关于语音识别义务,我们Aurora-4数据库上举行了实行,我们提出的方法可以分明地进步模子对噪声和信道的鲁棒性,而且,我们将本文所提出的数据扩充方法和教师/学生进修计谋联合,Aurora-4数据库上,我们可以取得23%的相对词过失率下降。要害词检出义务中,我们所提出的方法也分明地低沉了基于当心力机制的叫醒模子的误叫醒率和误拒绝率。

要害词:鲁棒语音识别,要害词检出,对立样本,疾速符号梯度法,数据扩充

2.前言

  近年来,跟着深度进修(DeepLearning,DL)的兴起以及深度神经网络(DeepNeuralNetworks,DNNs)声学模子上的胜利运用,自动语音识别(AutomaticSpeechRecognition,ASR)[1][2]和要害词检出(KeywordSpotting,KWS)[3][4]取得了疾速开展。种种网络构造,比如CNN,RNN和LSTM等,都胜利运用声学修模中。基于DNNs的声学模子实行运用中,外现出了精良的噪声鲁棒性,因为其特别构造以及众层非线性变换,让其具有较强的修模才能。即使云云,基于DNNs的ASR和KWS体系,仍然还会受到噪声、混响以及信道等因素的影响[6],变成识别功用地下降。为理办理这些题目,大宗的义务差别的方面被提出来,比如数据扩充[7]、单/众通道语音增强、特征变换,另有少许有用的进修计谋,比如教师/学生(Teacher/Student,T/S)进修[8]、对立教练[9]等。本文中,我们主要汇合数据扩充的方法,来进步ASR和KWS体系的鲁棒性。

  当教练数据和测试数据之间保管分布的不立室时,声学模子的功用将会大打扣头。为了补偿这种不立室的题目,数据扩充是一个十分有用而且被广泛采用的方法,数据扩充的目标是通过对洁净数据添加噪声、混响等搅扰,发生洁净数据的带噪副本,模拟实的带噪数据,进步教练数据的众样性,然后将其用于模子教练。这种教练方法,被称作众场景教练。另外,T/S进修也是一种常用的进步模子鲁棒性的方法,它可以有监视或者无监视的场景下举行运用,T/S进修需求并行的数据区分教练T模子和S模子。

  为了进步模子关于噪声的鲁棒性,本文提出来一种运用对立样本来举行数据扩充的方法。对立样本(AdversarialExamples)的看法起首是[10]中盘算机视觉义务上被提出来,研讨者们发明,关于一个曾经被完备教练好的图像识别网络,假如对一个可以被准确分类的图像,举行少许十分纤细的像素级另外扰动,即使扰动是人眼难以察觉的,模子也将会将扰动后的图像过失分类,这种被过失分类的样本被称作对立样本。对立样本的保管,阐明现有的模子对某些极小的扰动十分的敏锐!盘算机视觉范畴,对立样本吸引的研讨者的广泛兴味。近来,对立样本的研讨也扩展到语音信号范畴,[12]提出来一种对端到端语音识别模子的定向攻击方法:给定一段语音,发生一段人耳不可感知的扰动,扰动后的语音可以被识别成任何目标文本。同样地,KWS体系中,我们很自然地把误叫醒(Falsealarmed,FA)或误拒绝(Falserejected,FR)的样本当成对立样本!当体系碰到与要害字完备无关的样例时,仍然会保管过失叫醒的现象,或者当输入分明是要害字时,体系会过失地拒绝。因为繁杂的声学状况和许众其他不可预测的启事,触发FA和FR的样例往往是不可重现的。恰是因为云云,这种不可重现的属性使得进一步进步KWS功用变得很艰难。

  之前基于对立样本改良模子鲁棒性的义务,重假如为了进步模子对对立样本的鲁棒性。而我们本文的义务中,我们的目标是通过运用基于对立样当地数据扩充来进步模子关于平常的带噪声数据的鲁棒性,而不光是针对对立样本。教练阶段,疾速符号梯度法(FastGradientSignMethod,FGSM)[11]被用来动态的生成对立样本,与其他方法比较,FGSM方法比较高效。关于每一个mini-batch的教练数据,对立样本生成之后,模子参数将会运用对立样本举行更新。另外,ASR义务中,我们还将提出的基于对立样本的数据扩充方法和T/S进修联合,发明两个方法带来的增益可以互相叠加。

本作品节布置如下:第2章精细先容FGSM生成对立样本的方法;第3章先容对立样本声学模子教练中的运用;第4章将会给出实行修立以及实行结果;第5章对全文举行总结。

3.对立样本

对立样本定义

  对立样本的目标是胜利地摧毁一个曾经被教练好的神经网络模子,即使一个十分好的模子,也特别容易遭受对立样本的攻击,即模子的预测十分容易被输入端的人工扰动搅扰,即使扰动是人耳无法察觉的。这种人工扰动,称为对立扰动,而这种被对立扰动搅扰的样本,称为对立样本。对立样本的保管,阐明网络的输出关于输入保管不屈滑的题目,即输入端的极小改造可以变成输出端的一个庞大的跳跃。

  一般来说,一个板滞进修模子,比如神经网络,可以外示为一个参数化的函数智能体系孙思宁_对立样本2622.png,此中,智能体系孙思宁_对立样本2627.png是输入特征向量,智能体系孙思宁_对立样本2636.png 是模子的参数。给定一个输入样本智能体系孙思宁_对立样本2652.png ,及其对应的标签智能体系孙思宁_对立样本2661.png ,一个教练好的模子智能体系孙思宁_对立样本2671.png 将用来预测样本的标签。而对立样本,可以通过下面的公式来构修:

智能体系孙思宁_对立样本2703.png(1)

而且有

智能体系孙思宁_对立样本2736.png 

此中

智能体系孙思宁_对立样本2742.png 

智能体系孙思宁_对立样本2744.png被称举措对立扰动。关于一个曾经被教练好的神经网络,一般来说,一般的随机扰动将不会影响网络的输出,于是,对立样本发生的要害是对立扰动的计划和生成,一朝可以生成对立扰动,对立样本就可以举措教练数据来举行网络教练,从而进步模子的的腻滑性和鲁棒性。

对立样本的生成

  本文中,我们运用疾速符号梯度法(FGSM)来举行对立样本的生成。FGSM应用目今的模子参数和教练数据,生成公式(1)中的对立扰动。给定模子参数智能体系孙思宁_对立样本2946.png ,输入智能体系孙思宁_对立样本2950.png 和输出智能体系孙思宁_对立样本2954.png,模子教练阶段运用教练数据来最小化耗损函数智能体系孙思宁_对立样本2977.png,一般的分类义务中,耗损函数一般采用交叉熵,也是本文中运用的耗损函数。当网络参数曾经被优化,网络收敛之后,为了输入空间上寻找一个可以使网络耗损函数增大的扰动偏向,即可以使网络对输入举行过失分类的偏向,FGSM提出运用下面公式来举行扰动的盘算:

智能体系孙思宁_对立样本3102.png 

此中,智能体系孙思宁_对立样本3108.png 是一个极小的常量,当心到,FGSM运用了一个符号函数来获取的耗损函数关于输入的梯度的符号,而并非直接运用梯度的值,目标是为了满意扰动的最大范数束缚,而且容易掌握扰动的幅度,从而满意公式(3)的束缚。我们后面的实行中标明,一个小的智能体系孙思宁_对立样本3224.png 便足够发生增强模子鲁棒性的对立样本。

4.运用对立样本举行声学模子教练

  与其他的基于数据仿真的数据扩充的方法差别,比如添加噪声和混响的方法,基于对立的样本的数据扩充方法是一种模子和数据相关的方法,而且明晰的将对立样本和耗损函数联系起来,明晰发生了能使耗损函数的数值增大的样本,于是,这种方法更为高效。一朝生成对立样本,这些对立样本将用来教练网络,进而增强网络对搅扰的鲁棒性。本义务中,FGSM方法用来为每一个mini-batch的教练数据动态地生成对立样本。算法1给出了声学模子教练进程顶用到的流程。

算法1:运用对立样本教练声学模子

1.1.jpg

  声学模子教练中,输入特征智能体系孙思宁_对立样本3695.png 一般为MFCC特征,目标智能体系孙思宁_对立样本3708.png 为绑定的隐马尔可夫模子的形态。上述的算法1,每一个mini-batch的教练数据中,我们采用4步操作,来举行模子的教练:(1)运用原始的教练数据教练模子参数,然后将模子参数固定,发生目今数据的对立扰动智能体系孙思宁_对立样本3810.png 。因为FGSM运用了符号函数,于是,对立扰动每一维上的数值为 智能体系孙思宁_对立样本3841.png或者智能体系孙思宁_对立样本3844.png;(2)运用生成的对立扰动来生成对立样本;(3)将对立样本和原始数据的目标举行组合,发生新的教练数据;(4)运用新生成的教练数据举行模子教练,更新模子参数。这里,我们要夸张的是,我们将对立样本和原始的标签举行了组合,因为我们的实行里,扰动十分小,我们期望神经网络可以输出和原始的样本相同的预测种别。通过FGSM生成的对立样本,可以时ィ型耗损函数分明上升,阐明这些样本是目今模子的“盲点”,模子无法胜利掩盖这些区域,导致模子发生了不可预知的过失。

5.实行

数据库和体系描画

Aurora-4数据库

  Aurora-4数据库是一个基于华尔街日报(WallStreetJournal,WSJ)的噪声鲁棒的中词汇量的延续语音识别数据库,即以WSJ0数据库为根底通过加噪发生的。Aurora-4中,两种麦克风被用来举行录音:主要麦克风和次要麦克风。次要麦克风中包罗众种差别的型号,两种麦克风同时用来举行7138句教练数据的录制。Aurora-4的教练数据汇合可分为两个:洁净教练数据和众场景带噪声教练数据。洁净教练数据通通运用主麦克风录制,不含有任何噪声。众场景教练数据也包罗7138句话,包罗主麦克风和次麦克风录制的数据,同时也包罗洁净的和带噪声的数据,于是,众场景教练数据掩盖了更众的噪声和信道(麦克风)失真。Aurora-4的测试汇合也包罗4种:洁净测试集(A)、带噪测试集(B)、信道失真测试集(C)以及噪声和信道失真测试集(D)。A汇合只包罗330句主麦克风录制的洁净语音;B汇合包罗6个A汇合的带噪数据的副本,合计330*6=1980句;C汇合只包罗330句次麦克风录制的洁净语音;D汇合包罗6个C汇合的带噪数据的副本。

叫醒数据库

  我们运用出门问问(Mobvoi)智能音箱TicKasaFox2搜罗的叫醒数据验证我们的方法。叫醒词由三个一般话音节构成(“嗨小问”)。这一数据集涵盖了523个差别的语言者,包罗303名儿童和220名成年人。另外,每个语言人的汇合包罗正样例(带叫醒词)和负样例,每个语言人的汇合包罗差别的麦克风的间隔和差别的信噪比下录制的数据,此中噪音来自典范的家庭状况。总共有20K正样例(约10小时)和54K负样例(约57小时)用举措教练数据。校验集包罗2.3K正样例(约1.1h)和5.5K负样例(约6.2h),而测试集包罗2K正样例(约1h)和5.9K的负样例(约6h)。

体系描画

  语音识别义务中,我们采用了CNN举措声学模子,CNN模子众个义务中外现出来了对噪声较强的鲁棒性,本文中,我们采用了和[15]中相同的模子构造。关于Aurora-4的实行,40维的FBANK特征,曾经11帧的上下文新闻被用来教练神经网络。关于CHiME-4的实行,我们运用Kaldi的fMLLR特征举措网络教练的特征,通通的特征提取以及高斯混淆模子声学模子的教练,都是基于Kaldi[13]完毕的,神经网络的教练曾经对立样本的完成,则是基于Tensorflow[14]。两个实行中,开辟集适用来确定最优模子的参数,包罗对立样本的对立扰动权重智能体系孙思宁_对立样本5196.png ,之后最优的模子直接运用于测试汇合。

  要害词检出义务中,我们遵照了[5]中运用的基于当心力机制的端到端模子构造。编码器采用1层GRU。因为与正样例比较,负样例的继续时间较长,于是我们教练中对正样例举行了支解,支解的长度为200帧(约2s)。测试进程中,运用一个帧长200的窗口,帧移为每次1帧。假如一个样例中起码有一帧挪动后的得分大于预先修立的阈值,则触发KWS体系。我们的实行是基于TensorFlow举行的,采用ADAM举措优化器。

实行结果

Aurora-4语音识别实行

智能体系孙思宁_对立样本5462.png 

图1Aurora-4数据库开辟集上的WER(%)和对立权重的联系

  图1展现了Aurora-4数据库开辟汇合上词过失率(WordErrorRate,WER)和对立权重的联系。基于图1的结果,当智能体系孙思宁_对立样本5587.png时,开辟汇合上取得了最优的效果。于是,我们将词模子运用测试汇合举行测试。外1给出了Aurora-4的4个测试汇合上的结果,此中,基线模子是运用众场景教练数据举行教练的模子,对立样本模子是运用算法1的流程举行教练的,从外1中我们可以看出,运用对立样本之后,我们取得了平均14.1%的WER的相对下降,3个具有失真的测试集上,对立样本模子都取得了晋升,特别是汇合D上,我们提出的方法取得了18.6%的WER的相对晋升。洁净测试汇合A上虽然识别效果变差,主要启事是教练数据中引入了过众的带噪数据,这个题目可以通过添加更众的洁净数据来补偿。

外1Aurora-4测试汇合上基线模子和运用对立样本模子的WER(%)的比照

1.2.jpg 

  另外,本文提出的数据扩充的方法,可以与其它的进修和教练计谋举行联合,为了验证这一点,我们将其与T/S进修举行联合,实行结果标明,两中计谋所带来的收益是可以叠加的。Aurora-4数据库里包罗成对的洁净和带噪语音,于是,我们可以应用洁净的模子教练T模子,带噪数据用来教练S模子,当S模子举行教练的时分,运用下面的耗损函数举行教练:

智能体系孙思宁_对立样本6202.png(5)

  此中,智能体系孙思宁_对立样本6213.png ,CE为交叉熵耗损函数,智能体系孙思宁_对立样本6226.png 为S模子的参数,智能体系孙思宁_对立样本6235.png 为带噪数据的特征,智能体系孙思宁_对立样本6245.png 为原始的监视新闻,智能体系孙思宁_对立样本6255.png 为教师模子的输出的概率分布,它是通过将洁净语音智能体系孙思宁_对立样本6279.png 输入到T模子取得的概率分布:智能体系孙思宁_对立样本6295.png 

  此中,智能体系孙思宁_对立样本6300.png 为T模子教练好的参数。外2给出了我们运用T/S进修和对立样本联合的实行结果。从外2中可以看出,运用T/S进修可以分明低沉WER,将T/S进修和对立样本联合之后,我们可以取得8.50%的最好的识别结果,同时,为了标明增益是来自对立样本而不是因为数据量的添加,我们将对立扰动换成了随机扰动,我们发明随机扰动只带来了很小的增益,从而标清楚对立样本的有用性。更众细节可以参考作品[16]。

外2Aurora-4测试汇合上对立样本和T/S联合的实行结果

 1.3.jpg

叫醒实行

  为了验证FGSM方法对模子发生的影响,我们测试集上运用FGSM生成了相反的样例,正样例扰动(即Pos-FGSM)外示扰动只添加到要害字部分。负样例扰动(即Neg-FGSM)则将扰动直接被添加到通通样例。当我们测试取得的结果是KWS模子面临对立样本时,FRR疾速添加。如图3,我们剖析了的当心力层的权重添加对立扰动之前和之后的改造。可以看出,模子的权重爆发了较大的偏移,即当心力机制被摧毁,模子所“当心”的要害词位置过失,从而导致很容易输堕落误的结果。

 智能体系孙思宁_对立样本6947.png

图3(1)正样例当心力权重层图3(2)负样例当心力权重层

  这一观察结果外明,目前的模子是对对立性扰动的样例十分敏锐的题目确实保管。为了进步模子的鲁棒性,我们运用对立性样本进一步扩展了教练数据。精细来说,我们运用对立样例对模子举行了从头教练。教练阶段,为每一步中的教练数据生成对立性样例(包罗正样例和负样例)。然后这些样例被用来再次教练一个曾经教练精良的KWS模子。精细实行中,我们也相同实验了差别的教练计谋,包罗只运用正样例对立样本、只运用负样例对立样本和运用正负样例对立样本,举措比照我们还修立了随机扰动样本。

外4一小时误叫醒一次时的误拒绝率

智能体系孙思宁_对立样本7248.png 

智能体系孙思宁_对立样本7250.png 

图4差别教练计谋的ROC弧线

  图4为种种方法的ROC弧线结果,这里超参数智能体系孙思宁_对立样本7290.png 。Pos-FGSM和Neg-FGSM区分外示运用正负对立样例扩充,而ALL-FGSM外示正负样例都扩充。Random外示对通通教练数据加上随机符号扰动,而非运用对立扰动。外4外示测试汇合FAR为1.0时的FRR的大小。从中我们看到基于Pos-FGSM和Neg-FGSM的对立样例数据扩充能分明低沉FRR,低沉比例区分为45.6%和24.8%。举措比较,随机的扰动扩充样例也能稍微进步模子功用。综上所述,运用对立样例扩充教练数据是进步模子鲁棒性的有用方法。更众细节可参考作品[17]。

6.结论

  本文提出了一种基于对立样本的数据扩充方法,并将其运用鲁棒ASR和KWS义务中。模子教练进程种,FGSM方法被用来举行对立样本的动态发生。Aurora-4鲁棒语音识别义务上,我们的提出的方法可以取得14.1%的WER的相对低沉。同时,实行结果外明,将本文和其它进修方法联合,比如T/S进修,可以取得更进一步的进步,Aurora-4义务上,通过和T/S联合,我们取得了23%的WER相对下降。KWS义务中,我们针对KWS义务,举行了差别方法数据扩充,所提出的数据扩充方法同样可以有用低沉基于当心力机制的KWS模子的FAR和FRR。

7.参考文献

1.4.jpg

1.5.jpg




杂志订阅

填写邮件地址,订阅精美资讯: