相关服务

  • 《现代电子技术》2006年第24期摘录:李庆山等:基于小词汇表语音识别

如发现有乱码,请点击下面链接浏览原文
正文摘录:

李庆山等:基于小词汇表语音识别技术的运动控制系统在识别阶段,将输入语音的特征矢量参数(序列)和参考模式库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。而后处理模块对上述得到的候选识别结果继续处理,通过更多的知识(比如:语言学的语言模型、词法、句法和语义信息等)的约束,得到最终的识别结果。3小词汇语音识别运动控制设计3.1系统硬件结构本系统核心芯片为TI公司的16位定点数字信号处理芯片T.MS320LF2407,该芯片处理能力为40MI/S,片内数据空间为16kWOI。ds(16b),片内程序空间为16kWOEds(16b),核心处理器与片外12位A/D芯片TL’V2544,E。PROM,及LCD显示器构成硬件主体。系统结构如图2所示。图2系统结构图输入的语音信号经抗混叠滤波后,被12位A/D芯片TLV2544采样,系统采样频率为8kHz,E。PRoM用于存放语音模板数据,LCD显示当前系统状态及识别词条,如果能够正确识别语音指令,系统驱动步进电机完成相应的动作。3.2软件结构本系统软件流程如图3所示。图3软件流程系统首先进行端点判别,判别方法是采用短时能量和过零率,如果检测到语音,则进行语音特征参数提取计算。系统读取参考模板数据到片内存储器,对每一个参考模板进行DTw得到距离,取距离最小值对应模板作为识别结果。1043.2.1端点判别端点判别就是判断当前信号流中是否有语音,并确定语音的起点和终点。系统采用短时能量和过零率来实现,前者描述了信号的幅度,后者描述了一帧信号穿越零电平的次数。在求取语音信号短时能量前,对信号进行预加重,将高频成分提高,弥补声音的高频损失。然后对语音信号加汉明窗,再计算能量值并进行判断,连续3帧超过门限为语音起始点,连续6帧低于门限为语音结束点,可以避免误判。3.2.2特征参数提取语音识别中对语音特征参数的要求是:(1)能够有效代表语音特征;(2)各阶参数之间有比较好的独立性;(3)特征参数要计算方便,保证识别的实时实现。系统基于人工耳蜗语音信号处理模型,采用耳蜗滤波器组提取语音信号的特征参数。基于滤波器组的人工电子耳蜗语音信号处理方法不断在发展,如最大谱峰声音处理法、谱峰法、压缩模拟方案和连续交替取样方案等。系统采用压缩模拟方法,该方法是一种基于模拟滤波的方法,首先对声音信号进行自动增益控制(AGC)等预处理,然后用若干个模拟的带通滤波器,取每个频段中信号较强的部分,达到压缩的目的。设计了一个由50个带通滤波器组组成的耳蜗滤波器组,在每一个滤波器组中求出通过其语音的最大值,即减抽样。这样功率谱由原来的一个1×256的矩阵变为一个1×50的矩阵,使其数据量大大减小,但信号的主要特征基本保持不变,耳蜗滤波器的原理如图4所示。帧语音——州FFT计算功率谱滤波器1H求出峰值处的频率滤波器50H求出峰值处的频率求出一帧语音中经过耳蜗滤波器组的相同频率个数及其对应的耳蜗滤波器个数泵面二币而弄再i!;司一帧听觉谱的频率个数的幅度值r_图4耳蜗滤波器原理3.2.3模板匹配语音识别中的模板匹配和训练技术主要有动态时间弯折(DTw)算法、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。DTw应用动态规划方法,解决了语音信号特征参数序列比较时时长不等的问题,在孤立词语音识别中获得了良好的性能。对于连续语音大词汇量语音识别系统,用得比较多的是HMM模型和ANN。系统采用DTw求出与模板的最小距离。DTw算法用于计算2个长度不同的模式之间的相似程度,即失真距离。假设,测试语音参数共有I帧矢量,而参考模板共有J

阅读此文(图):   点击此处在线翻阅