[原创] 闻声识人 - 声纹欺骗研究 (上)-智能设备-看雪-安全社区|安全招聘|kanxue.com

[原创] 闻声识人 - 声纹欺骗研究 (上)

发表于: 2022-3-1 11:38 24054

[原创] 闻声识人 - 声纹欺骗研究 (上)

星舆实验室

2022-3-1 11:38

24054

大家好, 我是星舆车联网实验室李四伟。团队成员在漏洞挖掘, 硬件逆向与AI大数据方面有着丰富经验, 连续在GeekPwn等破解赛事中斩获奖项。发现众多产品高危漏洞，并获相关厂商致谢。团队研究成果多次发表于DEFCON等国内外顶级安全会议, 成功入选2021特斯拉漏洞名人堂。星舆实验室拥有特斯拉等诸多靶车供研究使用, 期待更多志同道合的小伙伴加入我们。

声纹识别，生物识别技术的一种，也称为说话人识别(Speaker Recognition), 就是把声信号转换成电信号，再用计算机进行识别的一种技术。声纹识别是语音处理的一个基础任务，在安防，金融，智能设备，汽车等领域都有着广泛的应用。大到公安领域的反电信诈骗、司法鉴定、侦察破案、身份认证，小到智能音箱，汽车车机的认证登陆都是声纹识别技术的实践应用。而随着声纹识别技术的落地部署，安全性问题已经成为影响公共安全，个人信息财产安全的重要问题。本系列文章分为上下两篇来综合阐述声纹识别的安全性问题。上篇主要对声纹识别的原理，发展，常见的实现算法进行简要描述，同时阐述针对声纹识别常见的几种攻击方法，下篇中将结合具体实践通过实现几种声纹识别的对抗算法，对几个包含声纹识别的系统进行测试，成功欺骗几款常见的包含声纹识别功能的设备，分析成功的原理，验证声纹识别系统的安全性问题，最后对声纹识别系统的安全性提出改进意见，帮助建立鲁棒性更强，安全性更高的声纹识别系统。

图为一段双声道，采样率44100Hz，32位语音的波形图与mel spectorgram

1.声纹识别的定义

人体的发音器官分为声门上系统、喉系统、声门下系统，每个人都有自己的一套发音器官，人在讲话时使用的发声器官在形态构造各有差异，每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性（也称语音四要素）：音质、音长、音强、音高。这些物理量的差异，决定了语音在声纹图谱上呈现不同的声纹特征。一个人的发音器官发育成熟后，其解剖结构和生理状态是稳定不变的，加之发音人的言语习惯等语音的社会心理属性，使得每个人在不同时段所说的相同文本内容的话，基本语音特征是稳定不变的，声纹是对声音的特殊性，稳定性的一种独特的表征。声纹识别是通过该特征能将不同人的声音进行有效的区分，声纹识别的本质, 就是要找到描述特定对象的声纹特征。

2.声纹识别主要任务

声纹识别主要分为两类任务：说话人辨认(Speaker Verification)和说话人确认(Speaker Identification)。说话人辨认任务是已知目标人物，通过给定的音频判断是否由目标人物发出，是一个简单的判定问题，结果只有是与否。说话人确认是在注册了多个人员声纹的系统中，通过给定音频，识别出音频是由哪个人发出的，同时根据识别的范围分为开集说话人确认(OSI)和闭集说话人确认(CSI)。说话人确认任务允许多个人员在登记阶段进行声纹注册，形成一个声纹底库，OSI是对于任意输入语音X，根据X与声纹底库中所有声纹特征的相似度评分以及预设的阈值，判定X是否为其中一个注册者说的，或者说话人不在声纹底库中。CSI是对于输入的语音X已经确定是在声纹底库中，从有限的底库中选取相似度最高的注册者，是一个N选一的任务。

3.声纹识别的发展

4.声纹识别的结构

5.声纹识别的方法

简单介绍几种经典的声纹特征提取方法：

5.1 混合高斯-通用背景模型

5.2 d-vector
d-vector是最早的基于DNN的embeddings之一。d-vector的核心思想是将训练话语的ground-truth speaker身份作为训练阶段该音频数据的所属训练帧的标签，将模型训练转化为分类问题。DNN训练好后，在测试阶段，将DNN最后一层隐藏层的每一帧输出activation作为该帧的深度embedding特征，将一段音频数据所有帧的深度embedding特征做平均，作为该音频的一个新的compact representation，这就是d-vector。如果一个人有多条注册语音，那么所有这些d-vector做平均，就是这个人的声纹的表征。d-vector的一个基本假设是，从训练集产生的紧凑表示空间可以很好地推广到测试阶段的看不见的发言者。下图是d-vector的网络结构：

5.3 x-vector

5.声纹识别的应用

6.声纹识别常见的攻击方法
前面5节主要对声纹识别技术进行的简要阐述，下面将对如何欺骗一个声纹识别系统的方法做描述。声纹识别对抗常见的方法：模仿攻击，重放攻击，语音转换，语音合成，对抗样本攻击。
6.1模仿攻击
是指模仿攻击目标声音的音调，音强，发音习惯等其它音律特征，对声纹识别系统进行攻击。是一种相对传统的攻击方法，对攻击的条件限制要求都很高，并且很容易被当前的声纹识别系统防御。
6.2重放攻击
主要针对于固定语句验证的系统，使用录音设备录制目标说话人的固定语句，在验证时通过将录制的语句进行播放，来欺骗声纹识别系统。这是一种简单有效的攻击方法，通过简单的设备采集后直接播放就能够欺骗众多不包含活体检测的声纹识别系统，而使用高保真设备的采集，播放的重放攻击甚至有一定概率欺骗带有活体检测的声纹认证系统。
6.3语音转换
将语音模拟到目标人物的语音特征空间，在保持语言内容不变的同时改变说话人的身份。语音转换涉及多种语音处理技术，如语音分析、频谱转换、韵律转换、说话人特征化和语音编码等，理论和实践方面的最新进展，我们现在能够产生具有高说话人相似度接近真人的语音质量。通过采集目标人物的说话的语音数据片段，提取说话人特征，然后将特征迁移，迁移到攻击人员语音数据，使得转换攻击人员身份为目标人物，进而欺骗声纹识别系统。语音转换其实是语音合成的一个研究方向，单独列出来主要是为了展示这种独特的攻击方法。下图是一个简单的语音转换示例：

6.4语音合成
语音合成，又称文语转换(Text To Speech, TTS)，是一种可以将任意输入文本转换成相应语音的技术。是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。使用语音合成对声纹识别攻击应该属于语音合成一个极端的应用，首先通过大量数据进行预训练，训练出效果较好的TTS系统（可能包括vocoder，synthesizer，encode，decode），然后对目标人物语音数据进行收集，标注，制作相关的训练集，对该系统模型进行fine-tuning，最终产出一个对目标人员高度拟合的TTS系统，基于此系统进行语音合成，对声纹识别系统进行攻击，该方法对声纹识别系统欺骗能达到较好的效果。下图是语音合成的一个通用结构：

6.5对抗样本攻击

6.结论

References

D Sztahó，G Szaszák，A Beke.Deep learning methods in speaker recognition: a revie
Guangke Chen, Sen Chen, Lingling Fan, Xiaoning Du, Zhe Zhao, Fu Song, Yang Liu.Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems
Zhongxin Bai, Xiao-Lei Zhang. Speaker Recognition Based on Deep Learning: An Overview
Rohan Kumar Das1, Xiaohai Tian1, Tomi Kinnunen2and Haizhou Li .The Attacker’s Perspective on Automatic Speaker Verification: An Overview
Zhaoxi Mu，Xinyu Yang，Yizhuo Dong. Review of end-to-end speech synthesis technology based on deep learning
Shipra J. Arora，Rishi Pal Singh. Automatic Speech Recognition: A Review
http://smarthome.qianjia.com/html/2021-10/11_384248.html
https://blog.csdn.net/u013625492/article/details/109715387
https://blog.csdn.net/qq_41571456/category_9625985.html
https://blog.csdn.net/qq_40168949/article/details/88424878
https://zhuanlan.zhihu.com/p/34440000
https://www.jianshu.com/p/19d34b19517b
https://zhuanlan.zhihu.com/p/67563275?ivk_sa=1024320u
https://blog.csdn.net/qq_36653505/article/details/85082746
https://www.zhihu.com/question/53707809/answer/316946465
https://blog.csdn.net/jojozhangju/article/details/78637118
https://blog.csdn.net/qq_36653505/article/details/85082746
http://www.doc88.com/p-20759537276528.html
https://www.zhihu.com/tardis/sogou/qus/30141460
https://blog.csdn.net/YZhang0108/article/details/105862743
https://baijiahao.baidu.com/s?id=1666466767203759018&wfr=spider&for=pc
https://tieba.baidu.com/p/6420955423
https://blog.csdn.net/weixin_39059031/article/details/106181409

欢迎加入星球一起学习探讨

声纹识别的研究至少可以追溯到20世纪60

年代。在接下来的六十年里，许多先进的技术推动了声纹识别技术的发展。声学特征方面从传统的声学特征梅尔倒谱系数MFCC、感知线性预测系数PLP、到近几年的深度特征Deep Feature、能量规整谱系数PNCC等，各种声学特征都可作为声纹识别在特征提取层面可选且表现良好的声学特征。下图是声纹识别的一个简要的发展历程：

登录后可查看完整内容

[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入！

最后于 2022-3-15 11:05 被星舆实验室编辑，原因：

#安全研究 #技术分享 #汽车安全

收藏・10

免费・4

支持

打赏 + 2.00雪花

orz1ruo

打赏次数 1

雪花 + 2.00

orz1ruo

+2.00

2022/03/02

感谢分享～

最新回复 (2)
pureGavin 雪币： 14653 活跃值： (17749) 能力值： ( LV12，RANK：290 ) 在线值：发帖 85 回帖 1422 粉丝 272 关注私信	pureGavin 3 2 楼 geekpwn我也去过几次，每次都会有AI安全的大佬现场攻击，我感觉AI安全以后应该会很火，毕竟研究AI的人可能也没想到他们用合成样本去训练，我们用合成样本去攻击 2022-3-1 14:17 0
大大薇薇雪币： 1887 活跃值： (2771) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 17 关注私信	大大薇薇 1 3 楼，强强强 2022-3-1 20:04 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

星舆实验室

发帖

回帖

140

RANK

关注

私信

他的文章

关于我们

联系我们

企业服务

看雪公众号

最新回复 (2)
pureGavin 雪币： 14653 活跃值： (17749) 能力值： ( LV12，RANK：290 ) 在线值：发帖 85 回帖 1422 粉丝 272 关注私信	pureGavin 3 2 楼 geekpwn我也去过几次，每次都会有AI安全的大佬现场攻击，我感觉AI安全以后应该会很火，毕竟研究AI的人可能也没想到他们用合成样本去训练，我们用合成样本去攻击 2022-3-1 14:17 0
大大薇薇雪币： 1887 活跃值： (2771) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 17 关注私信	大大薇薇 1 3 楼，强强强 2022-3-1 20:04 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复