口腔执业医师

考试动态

复习指导

不同语音输入法的比较研究

医学教育网2008-08-28

大号

　　摘　要：目的　比较不同语音输入法的异同，为进一步认识汉语病理性语言的音声特征提供参考。方法　11例腭咽闭合功能不全患者，男性6例，女性5例；年龄7～35岁，平均16.18岁。被检敏感音为/m/、/pa/、/ku/，分别直接和间接输入计算机语音工作站，测定音长、能量、音高和第一、二、三共振峰，并使用统计软件（SPSS9.0）对数据进行处理和分析。结果　两种语音输入法的音长、音高和第一共振峰无明显差异（P＞0.05），而能量和第二、三共振峰有明显差异（P＜0.01）。结论　直接语音输入法和间接语音输入法有一定的区别，二者不能互相代替。

　　在唇腭裂序列治疗中，语音治疗已越来越受到广大临床医师的重视。但有关病理性语音的研究在国内尚不多见。随着计算机技术的高速发展，计算机语音工作站（computerspeechlab，CSL）也已进入了语音研究领域，它可以直接对语音进行图像化和定理分析，使“只能听”的声音“可视化”，使人们对语音的特性有了更加深入、全面的了解。由于大量的临床语音资料均由磁带保存，本文通过对病理性语音的直接输入和间接输入进行对照研究，希望能够阐明两种方法之间的异同，为进一步认识汉语病理性语音的音声特征提供参考。医学教育网搜集整理

　　1.材料与方法

　　研究对象：选自1999年6月～1999年9月在上海第二医科大学附属第九人民医院口腔颌面外科确诊的11例腭咽闭合功能不全（velopharyngealincompetence，VPI）患者，男性6例，女性5例，年龄7～35岁，平均16.18岁，其中6例为腭裂术后腭咽闭合功能不全，3例为咽成形术后腭咽闭合功能不全，2例为先天性腭咽闭合功能不全。所有患者智力正常，无明显听力障碍，熟练掌握普通话，未接收过语音治疗。

　　研究方法：被检者取坐位，自然放松，距麦克风5cm，练习被检敏感音/m/、/pa/、/ku/后，直接输入CSL4300B（美国KAY公司）和录音（日本松下公司EAC录音器材）。录音机距麦克风5cm，磁带播放录音再次输入CSL.样本采样频率为10000Hz，均测量音长（DOMAIN）、能量（ENERGY）、音高（PITCH）和第一、二、三共振峰（FORMANT）的平均值。重复三次，取平均值。使用SPSS9.0对数据行配对t检验。

　　2.结果

　　间接输入法的平均能量较直接输入法低，而它的第二、三共振峰的平均值较直接输入法高（见表1），且有统计学上的差异（P＜0.01），见表2.直接输入法的音长、音高和第一共振峰的平均值较间接输入法高，但无统计学上的差异（P＞0.05），见表2。

表1　统计量　

		均值	例数	标准差	标准误
1	音长a 音长b（SEC）	33 　33	0.568 　0.551	0.123 　0.138	0.021 　0.024
2	能量a 能量b（dB）	33 　33	67.627 　61.965	6.097 　6.900	1.061 　1.201
3	音高a 音高b（H₂）	33 　33	200.899 　192.945	47.001 　44.261	8.182 　7.705
4	第一共振峰a 第二共振峰b（H₂）	33 　33	461.617 　427.653	177.252 　162.330	30.856 　28.258
5	第二共振峰a 第地共振峰b（H₂）	33 　33	1240.445 　1413.815	235.222 　216.350	40.947 　37.662
6	第三共振峰a 第三共振峰b（H₂）	33 　33	2249.395 　2438.370	257.777 　218.276	44.873 　37.997

　　注：末位字母为a是直接输入法，末位字母为b是间接输入法。

　　3.讨论

　　CSL：CSL是一种动态音频频谱分析议，可将声音信号转变为可视图谱并输入计算机，具有语音信号获取、分析、编辑和回放功能，能提供图谱中的各种物理量并显示它们之间的动态关系。它操作简单、技术先进，分析手段主要包括波形图、FFT频谱和LPC滤波曲线、语图和音高，为语音学研究提供了一种准确而有效的仪器，也是目前国际上在语音分析中最常用和先进的仪器之一。它的优点为：对患者无损害，不带来痛苦，在学龄前儿童中也可广泛应用，既可研究元音，又可研究辅音，重复性和可靠性好。其不足之处是需要有一定的专业知识，同时其价格昂贵，还需要计算机、打印机和电腭图等配套设备，难以在基层医院推广。

　　VPI的诊断：VPI的诊断并不复杂，常包括以下几个方面：详细询问病史、体格检查、语音清晰度测试、辅助检查（包括X线、内窥镜、呼气流体力学、超声、电腭图、EMG、CT等）和智力、个性和可教性的评价（包括IQ测试，个性测试和其它测试）。值得注意的是语音清晰度测试的手段。国际上通常是使用各种严格设计且经过科学论证的字表进行测试。如美国一般使用IowaPressureArticulationTest（IPAT），现在国内也有类似的《汉语语音清晰度测试字表》。它既能较全面地评价语音障碍的程度，又能客观地语音反映障碍的类型。还有比较重要的VPI的临界值，Warren（1964）用气流动力学方法对健康人和腭咽模型进行的试验研究表明区别腭咽闭合是否完善的腭咽口面积的临界值是20mm2，McWilliams（1981）采用鼻流计、压力气流仪、口腔气压计、和多位X线电影投照等四种方法结合语音检查对腭裂术后患者的腭咽闭合状况进行了深入的研究，提出应将临界值修订的15mm2，腭咽口面积0～5mm2者可认为有完善的腭咽闭合。Mayo（1998）再次将临界值修订为10mm2.也有学者（1985）认为语音效果优劣的不一定与腭咽通道的大小有直接关系，腭咽结构的神经肌肉运动模式才是最主要的影响因素。总而言之，腭咽口闭合面积是一个重要依据，但它并非是诊断VPI的唯一标准。

表2　配对t检验

		均值	标准差	标准误	t	自由度	概率
1	音长	0.017	0.190	0.033	0.522	32	0.605
2	能量	5.662	4.576	0.797	7.108	32	0.000
3	音高	7.953	40.556	7.060	1.127	32	0.268
4	第二共振峰	33.963	127.678	22.226	1.528	32	0.136
5	第二共振峰	-173.370	219.213	38.160	-4.543	32	0.000
6	第三共振峰	-188.975	217.105	37.793	-5.000	32	0.000

　　被检音的选择：音声研究中被检音的选定非常重要。VPI患者的异常语音有其自身的特点，以辅音为主，其语音清晰度往往较低，通常包括声门爆破音、咽喉爆破音、咽喉摩擦音等。本研究所选的/pa/、/ku/均为VPI患者的敏感音，它们最容易在声门爆破音和咽喉爆破音中检测出。/m/为双唇鼻辅音，它代表声波在鼻腔内的共振状况，对于过低鼻音的检测有重要的意义。此三个音节也是选自于《汉语语音清晰度测试字表》。医学教育网搜集整理

　　语音的特征：音色、音高、响度和音长是语音的四要素。它们为笔者提供了区别所有语音的最方便的方法。音色是声音互相产生区别的本质特征。发音方法、发音体以及共鸣腔形态的不同都会产生音色上的差异。对音色的区别可以通过波形、共振峰频率等表征语音声学特征的物理量表现。国内有学者报道：“腭裂语音”的第一共振峰与正常人接近，而第二、三共振峰均低于正常人。本研究选择了第一至三共振峰为对象，第一共振峰与开口度成正比；第二共振峰与舌位前后成反比，也与园唇有关，唇越园，第二共振峰越低；第三共振峰与软腭的升降有关，软腭降低，咽腔面积增大，第三共振峰就越低。根据本研究结果：两种语音输入法的第一共振峰无统计学差异，这是因为患者在发相同音节时开口度不会有较大变化。而间接输入法的第二、三共振峰明显高于直接输入法，这可能与录放音器材对不同频率的语音处理不同有关，也可能与患者对敏感音的不稳定发声有关。音高是一种听觉的主观心理量，人们对声音信号频率的感觉表现为音调的高低，即音量。任何声音都有基频和许多谐波组成。音高的确切数值用声音的基频表示，而不包括声音的谐波部分。本研究显示：两种语音输入法的音高无统计学差异。这说明录音对声音的基频影响较小。响度也是一种听觉的主观心理量，它受声强的制约。音接输入法的能量值明显低于直接输入法，可能与录放音过程中能量的损耗有关，也可能与每次发音的响度不同有关。音长在辅音中非常重要，起着区别特征的作用。它包括声母时长和韵母时长。本研究所指音长是指整个音节的长度。两种输入法的音长基本相同。这说明患者每次发音的长短基本一致。

　　综上所述，直接语音输入法和间接语音输入法虽然在音高、音长和第一共振峰上保持一致，但在决定音色的第二、三共振峰上有明显的差别。这说明二者难以互相代替。建议在语音研究中固定使用一种输入法，以保持数据的准确性和可靠性。

小编精选

2025年口腔执业医师《技能备考全能包》上线备考利器 “搞”分秘籍！ 2025笔试高频考点+命题预测100+页 2025年口腔执业医师“医考爱打卡”第二期正式开启实力讲师团队！2025考季医师资格甄选面授高端班 2025年口腔执业新课上线！下单送24年同款基础课！

全部评论（0） 打开APP查看全部 >

精品课程

高效定制班

直播+录播含班级服务

￥4180

查看详情

考生必看

口腔执业医师

不同语音输入法的比较研究

复制链接，粘贴给您的好友