上QQ阅读APP看书，第一时间看更新

第0章　绪论

0.1　研究依据

在信息化社会中，以语言信息处理为核心的语言技术已成为当代科技创新的重要基础、动力和源泉。信息技术为人类创造了一个新的虚拟世界，改变了人类的生存方式和生活方式。利用语音技术而开发的智能手机、语音云驾驶系统、语音智能搜索引擎等智能化互动产品，为人们的日常生活和社会交往带来了极大便利。

近年来，高性能计算、信号处理、模式识别及声学技术发展迅速，针对不同应用需求而研究开发语音识别系统已成为可能，因此语音识别技术在工业生产、交通运输、国防安全等众多领域得到了广泛的推广和应用。目前，语音识别所涉及的语种得以扩展。就俄语语音识别而言，对大词汇量、非特定人、连续语音识别的研究仍然面临着许多困难，与人们预期的目标还有较大距离。俄语连续语音识别面临的主要难题有：①在声学层面，俄语的重音变化及自由重音现象难以处理；②俄语语音识别系统的适应性较弱，随着语言交际环境的变化，系统的性能会严重下降；③噪声环境和传输设备会直接影响俄语语音特征的提取，如何排除环境噪声的干扰以提升识别性能也是一大难题；④因发音人不同或随发音人的生理及心理状态的变化，俄语发音特征会产生很大的差异性；⑤在俄语连续语流中，语音的基本单元（如音素、词形等）之间存在协同发音，由于边界模糊而导致难以进行精确的语音分割。

语音信号的端点检测方法是判定语音识别准确率的重要手段，即使在纯净环境下，语音识别系统50%的错误识别均来自端点检测。因此，俄语大词汇量连续语音识别系统的开发必须解决上述难题，才能在一定程度上提高识别的速度和准确率。

鉴于俄语连续语音识别研究中存在的诸多难题，本书集中研究以下三个主要方面：①优化声学层模型，合理利用俄语语音学和计算语音学知识，改进声学模型结构，采用更好的算法以解决训练数据不足和训练速度慢的问题；②增强俄语语音识别的健壮性，在具有较强背景噪声或多说话人参与的环境下采用降噪技术，进而增强俄语语音识别系统的适应性；③充分利用一切能够辅助俄语语音识别的语言信息。除俄语语音的频谱特征参数、能量参数、韵律参数之外，还要综合利用俄语构词及词变规则、句法表现形式甚至语义辨析和语境条件，从而有效降低语音识别的错误率。

0.2　研究对象与研究目标

本书的研究对象是基于标注新闻的俄语大词汇量连续语音识别的基本原理和关键技术，主要包括以下几点。

1. 俄语语音语料库和文本语料库的构建

大规模语音语料库和文本语料库是语音识别系统的重要基础性资源，实证语料数据的规模与加工质量直接影响着俄语声学模型与语言模型训练的效果。目前，国内外已有一些IT企业和研究机构（如ELDA、LDC、海天瑞声）能够提供大量语音和文本数据库资源，可用于本研究的俄语声学模型和语言模型的构建与训练。

2. 俄语声学建模的基本识别单元的选定

基于计算语音学的理论方法构建俄语声学模型，其目的在于利用高效的算法计算俄语语音的多维特征矢量序列和每一个发音模板之间的距离。充分利用俄语语言学及语音学的知识，设计基于HMM的俄语音素模型，提取声学基元，利用有效的相关算法训练HMM模型，这对于扩大声学模型的训练数据规模、增强识别系统的准确率和灵活性均具有重要作用。

3. 俄语语言模型中数据稀疏问题的求解

俄语新闻文本语料库的覆盖度不全面，可能导致一些语言现象无法统计，进而导致在已建立的语言模型中检索不到与该模型对应的某些语言现象，即概率为零且无法识别，因此造成语言模型的数据稀疏问题。鉴于此，需要尽可能全面地采集并加工处理俄语新闻文本语料，为俄语语言模型的有效训练提供覆盖面更大的实证数据支撑。

本书的研究目标包括：基于Kaldi设计实现俄语连续语音识别原型系统，使之具备在线识别和离线识别功能，以验证声学模型和语言模型优化算法的有效性，进而为面向特定领域的俄语语音识别实用系统的研发提供理论方法、实验数据和关键技术支撑。为了实现上述目标，需要进行如下环环紧扣的操作步骤：俄语语音语料的采集、加工、处理，俄语文本语料的采集、清洗、过滤，俄语发音词典的自动预测生成，声学模型建模的基本单元（音素集）的确定，声学模型和语言模型的优化等。

0.3　研究方法

1. 语音数据加工处理方法

基于众包模式设计开发俄语语音标注平台，通过标注规范制定和标注质量控制等手段，对采集的俄语语音进行规范化标注，注重提高语音标注的效率。

2. 声学模型构建方法

根据俄语语音学规律和连续语流的发音特点，通过HMM-GMM和HMM-DNN进行对比实验，优化设计基于SAMPA的俄语音素集以训练声学模型；采用Phonetisaurus和Sequitur算法，验证俄语字音转换的有效性。

3. 语言模型构建方法

通过编写程序，从通用和特定领域的网站上下载俄语新闻类网页，设计网页文本清洗过滤系统，生成可用于训练的纯净文本。基于SRILM训练四元语言模型，采用Katz和KN算法对数据稀疏问题进行平滑处理，采用REP等剪枝算法对语言模型进行剪枝优化，生成效率更高的四元语言模型。

4. 俄语连续语音识别原型系统的设计与实现方法

基于Kaldi平台设计研发俄语连续语音识别原型系统，设计图形用户界面（Graphical User Interface，GUI），实现在线识别功能；利用GPU优化算法大幅降低计算时间，提高计算效率，通过不断扩充语料数据规模提高俄语语音的识别准确率。

0.4　研究意义

1. 理论意义

俄语语音识别的基本原理与方法研究可以为从语言类型学角度开展的与俄语相关的其他语种语音识别研究提供参考借鉴。俄语语音识别是一项综合性基础研究课题，需要综合运用语音学和语言学知识、语言计算方法和人工智能技术，相关成果可以为深入研究俄语语音信息处理奠定坚实的理论基础。

2. 实践意义

俄语语音识别技术具有广泛的实际应用价值，不仅有助于推进俄语实验语音学的纵深发展，而且有助于研发具有俄语语音对话功能的智能化信息产品。本书开发的俄语大规模语音语料库和文本语料库、俄语发音词典和俄语连续语音识别原型系统，在经过数据规模扩充训练和相关算法的进一步优化后，必将在俄语语音教学、网络环境下的俄语实时通信、多用途俄语语音信息处理等领域发挥显著效益。

0.5　本书的创新点

本书的创新之处主要体现在以下三个方面。

①设计建立了基于众包的俄语语音标注平台和语音语料库，可用于建立并有效训练俄语声学模型；通过设计面向俄语新闻网页文本数据的过滤清洗系统而构建的俄语文本语料库，可用于建立并有效训练语言模型，这两类模型的建立为俄语连续语音识别系统的研究开辟了新途径。

②自动预测生成的俄语发音词典是连续语音识别系统的核心资源，利用发音词典数据资源可将俄语文本转写为相应的俄语标准发音，并对俄语语音识别音素集和字音的转换规则进行优化，进而降低声学模型的训练难度，提高该模型的训练效果；采用KN、Katz等数据平滑算法和REP等剪枝算法，能够在WER基本不变的情况下降低语言模型的规模。

③设计实现的俄语连续语音识别原型系统具有在线识别和离线识别功能，这在中国俄语学界和俄语信息处理领域尚属首次探索性研究，它在一定程度上填补了中国俄语语音识别研究的某些空白，相关成果将为面向特定领域的俄语语音识别实用系统的研发提供基础理论和关键技术支撑。

0.6　语料来源

1. 俄语语音语料来源

所采集的语音语料主要涉及俄罗斯时事新闻，包括俄语网络语音、俄语电视台、俄语广播电台、校园网IPTV、通过录音软件对指定俄语文本的录音等。

语音语料加工处理：以基于众包的语音标注平台为主、以Praat人工标注为辅，对所采集到的各类语音语料进行标注。

2. 俄语文本语料来源

主要通过通用领域和特定领域这两种途径采集俄语文本语料。

①通用领域。从36个俄语网站采集政治、经济、文化、军事、体育等不同领域的新闻语料，经过过滤清洗，生成可训练的文本语料，规模约9GB。

②特定领域。从Twitter爬取消息类俄语文本，通过过滤清洗和系统去噪，生成约1GB的纯净文本语料。

俄语文本语料主要通过36个俄语网站和Twitter获取，其中以政治、经济、军事、文化、体育等领域的俄语新闻语料居多，消息类俄语文本语料较少，经过清洗过滤和去噪处理，分别生成可训练的新闻类文本语料规模约7.8GB、消息类纯净文本语料规模约2.2GB。

3. 俄语发音词典语料来源

通过网络采集大约1000个俄语常用单词的发音信息，利用Phonetisaurus和Sequitur两种算法，通过迭代预测自动生成约9万个俄语单词的发音形式，经过适当的人工干预，最终形成包含76277个词形的俄语发音词典。

0.7　本书的结构

本书由七个部分组成，主体部分为第1~5章，各部分的研究内容如下。

绪论部分简要论述本书的选题依据、研究对象与研究目标、研究方法与研究意义、创新点、语料来源和本书的结构。

第1章“语音识别技术研究综述”。首先，对语音识别技术的相关概念进行界定，阐述语音识别的基本类型；对近60年来国内外语音识别技术的发展概况和俄语连续语音识别的研究现状进行评析；最后，重点阐述语音识别系统研发的基本原理，明确指出建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。

第2章“语音数据的加工处理”。语音语料数据加工处理是语音识别研究的重要环节，俄语声学模型的建模需要以大规模语音语料为基础。本章尝试引入众包思想，简述众包的基本概念及解决方案，设计并开发基于校园网的语音标注平台，制定俄语语音标注规范和质量控制策略，通过手工标注和平台标注的实验对比验证语音标注平台的有效性。

第3章“俄语声学模型的建立”。主要探究适用于俄语连续语音识别的声学模型的构建与训练方法，它是本书的核心内容之一。首先，描述连续语音识别系统的整体构架，并对声学模型的两种训练方法（HMM-GMM和HMM-DNN）进行比较；然后，阐释俄语音素的发音特征及元音和辅音音素的随位变化规律，确定俄语声学基本单元，设计和建立俄语SAMPA音素集；最后，采用G2P算法对比和验证音素集设计的合理性和有效性，并分析实验结果。

第4章“俄语语言模型的建立”。主要探究俄语语言模型及其优化测试方法，它是本书的另一个核心内容。首先，简述语言模型的基本理论；然后，描述语言模型的平滑技术和剪枝算法、基于SRILM的语言模型训练流程以及词典选取等问题；最后，通过实验分析和验证语料规模、语料分类及相关算法对语言模型优劣的影响。

第5章“基于Kaldi的俄语语音识别原型系统”。本章对前述理论成果进行综合集成，并尝试向工程实践转化，以突显研究成果的示范应用。首先，阐明基于Kaldi平台的系统设计目标和原则、系统开发环境与整体架构、Kaldi实验环境的搭建与模型训练的优化方法；然后，采用图形处理器设计和实现具有在线识别和离线识别功能的俄语连续语音识别原型系统；最后，通过基于HMM-GMM与HMM-DNN的识别结果比较、语音数据规模与DNN的关系、语言模型与识别结果的关系这三个实验，对原型系统的识别准确率、优化算法对识别结果的影响等进行测试验证。

结论部分总结本书的研究内容、取得的主要成果以及存在的问题，并对下一步的研究计划进行展望。

第0章 绪论

0.1 研究依据

0.2 研究对象与研究目标