语音识别生物特征模态是生理模态和行为模态的结合。语音识别只不过是声音识别。它依赖于影响以下因素的特征−
-
Physiological Component −人的声带、嘴唇、牙齿、舌头和口腔的物理形状、大小和健康状况。
-
Behavioral Component −说话时的个人情绪状态、口音、语调、音高、说话速度、嘟囔等。
Voice Recognition System
语音识别也被称为说话人识别。在注册时,用户需要对麦克风说出单词或短语。这对于获取候选人的语音样本是必要的。
来自麦克风的电信号由模数转换器 (ADC) 转换成数字信号。它以数字化样本的形式记录在计算机内存中。然后,计算机比较并尝试将候选人的输入语音与存储的数字化语音样本进行匹配,并识别出候选人。
Voice Recognition Modalities
语音识别有两种变体− speaker dependent 和 speaker independent 。
说话者相关的语音识别依赖于候选人的特定语音特征的知识。此系统通过语音训练(或注册)学习这些特征。
-
系统需要对用户进行培训,以使其适应特定的口音和语调,然后再使用它来识别所述内容。
-
如果仅有一个用户需要使用系统,则这是一个好选择。
说话者无关系统能够通过限制单词和短语等语音环境识别不同用户的语音。这些系统用于自动电话界面。
-
它们不需要对每个单独用户训练系统。
-
它们是不同个人使用时的良好选择,无需识别每个候选人的语音特征。
Difference between Voice and Speech Recognition
说话者识别和语音识别很容易被误认为是同一技术;但它们是不同的技术。让我们看看原因:
Speaker Recognition (Voice Recognition) |
Speech Recognition |
语音识别的目的是识别谁在说话。 |
语音识别的目标是理解和领会说了什么。 |
它用于通过分析语音的音调、音高和重音来识别一个人。 |
它用于免提计算、地图或菜单导航。 |
Merits of Voice Recognition
Demerits of Voice Recognition
-
它易受麦克风质量和噪音的影响。
-
无法控制影响输入系统因素可能会显著降低性能。
-
一些说话者验证系统还容易受到录音声的欺骗攻击。
Applications of Voice Recognition
-
执行电话和互联网交易。
-
与基于交互式语音响应 (IRV) 的银行和医疗保健系统协同工作。
-
对数字文档应用音频签名。
-
在娱乐和紧急服务中。
-
In online education systems.