三、音频处理
(一)声音的本质
声音,其实是各种波源的振动通过空气等弹性介质传播到耳膜引起的振动,牵动听觉神经,经过大脑加工处理后,就会产生听觉。如果从本质谈起,我们称之为“机械波”,这种波的特性是需要弹性介质传播,而电磁波(光)不需要介质传播。任何物体的机械振动均可以产生声音,只不过不是所有频率的声音我们都能听见。我们人为地把20~20000Hz频率的机械波定义为声波,这个频段的声波可以引起我们的听觉,即所谓的“声音”(图1-1)。而某些动物,例如狗的听觉比我们灵敏,对于它们来说,声音就不一样了。
图1-1 声音的本质
(二)声音的数字化
声音本质上是一种机械波,但计算机并没有类似人耳的结构,那么它如何去感知声音呢?计算机可以识别二进制编码的数字信号,所以我们需要将连续声波信号转换为数字信号,其中需要经过如下步骤。
1.通过传感器将声波转换为电信号(图1-2)
图1-2 声波转换为电信号
2.ADC(analog digital convert)采样-数模转换(图1-3)。通过采样将电信号在时间维度切片,从而变得离散,然后对每个切片测量“高度”,也就是量化。所以说切片越细(采样频率越高),量的尺子上的格子越细(PCM量化深度越大),采样后的数字离散信号就越接近原有的模拟连续信号。因为人耳对高频的声音不敏感,一般采样频率大于40kHz,采样对音色造成的损耗就微乎其微。以我们较为熟悉的MP3格式的为例,采样频率为44.1kHz。
图1-3 ADC采样-数模转换
3.将离散的电信号编码为数字信号。
(三)深度学习算法在音频处理中的应用
以深度学习算法在音频处理领域最为广泛的语音识别技术为例。随着计算机技术的快速发展,语音交互已经成为一种十分重要的人机交互手段,但是语音识别是一项非常复杂的工作,想要达到实用的水平非常困难。语音是人体发声器官发出的一种声波,具有一定的音色、音高、强度和长度。音色也叫音质,是区分一种声音与另一种声音的基本特征。音素是发音的最小单位,在中文中,是指我们熟知的声母和韵母,由于拼音中声母和韵母的数量比汉字的数量少很多,所以可以利用声学特征来提高语音识别的准确性。但采用这种方式可能会在一些场景遭遇同音词的困扰,比如我们依据声学特征识别出“tian qi”这个词,那它到底是“天气”还是“田七”呢?这其中就要依据语境、同音词的使用频率等信息进行综合判断。
和其他领域类似,受益于2006年Hinton提出用深度置信网络(deep belief networks,DBN)初始化神经网络,使训练深层的神经网络变得容易后,在语音识别方面,掀起了以深度神经网络(deep neural network,DNN)、卷积神经网络等为代表的深度学习浪潮。长期以来,隐马尔可夫模型-高斯混合模型(HMM-GMM)是传统语音识别的主要框架,主要由声学模型、发音模型及语音模型三部分构成,该框架针对不同的语种和方言,需要构建不同的发音字典,存在专业门槛高、建模周期长、成本高等诸多不利限制。最近,基于CTC的端到端模型或基于注意力机制的端到端模型使用一个深层网络替换了既往HMM模型的多个模块,实现从声信号直接映射到标签序列,简化了语音识别模型的构建和训练(图1-4)。
图1-4 简化后的语音识别模型构建与训练
(四)医疗智能语音应用场景
结合我们之前介绍的NLP技术,智能语音技术已广泛应用于医疗诊前、诊中、诊后各环节,《2020年中国医疗人工智能发展报告》中显示,在医疗就诊(57.35%)、检查报告(45.59%)、医疗记录输入(35.29%)、患者服务(35.29%)等场景均有落地应用(图1-5),这得益于针对性结合医疗领域的大量文本术语语义知识,构建统计医疗语言模型,降低医疗语言识别的错误率。
图1-5 智能语音技术医疗应用分布
随着医疗信息化建设的不断发展,围绕EMR的医院信息系统,包括影像、手麻、护理、检验等子系统得到不断完善,通过集成化平台不断建设优化,促进了医疗数据共享和挖掘。随着系统的增加和完善,医务人员所需录入的医疗文书如病程记录、手术记录也越来越多,香港德信对中国医院电子文本录入工作量调查显示,40%以上的医生每天进行文字录入的时间约为4小时,一半以上的医生每天文字录入的时间占工作总时间的40%左右,说明文字录入工作严重地影响着医生的工作效率。智能语音技术是目前临床应用中较为理想的人机交互方式,该技术可以在一定程度上降低医生的工作强度、提高工作效率,最终提高医院的整体工作效率,达到降低医院运作成本的目的。HIMSS Europe调查显示,大部分欧美诊疗机构已经采用语音作为病历收集的方式。全美72%以上的医疗机构正在使用语音系统。基于语音识别、语音合成和智能问诊等核心能力,提供智能问诊决策模板,通过患者在候诊区手机扫描二维码进行语音病史录入,系统可智能化将病史信息同步到门诊病历系统相应位置,便于医生查看,提高医生问诊及病历书写效率,避免患者遗忘病情。研究表明,语音识别技术能提高医生40%的病例录入效率。此外,调查显示,94%的欧美医疗机构正在使用或考虑使用该技术来提高医生的工作效率。
当然,语音识别技术在医疗场景的应用并非一帆风顺,受限于目前医院信息化水平,很多外接语音输入设备的数据无法快捷对接到相应的文本记录系统,阻碍了语音识别技术的进一步推广应用。另外,医学领域涉及的特殊字符、单位等的识别准确率还有待进一步提升。目前进行语音识别技术探索的医院多数仅限于语音转为文字,相当于语音输入法,并没有真正实现软硬件结合的人机交互技术。相信在未来发展中,通过不断实践探索,智能语音技术在医院应用中可以实现人机对话,通过语音口令唤醒设备,并根据口令准确快速地调取、记录相关诊疗信息,甚至调整医疗设备参数,真正地实现医疗智能化。