无法听到的语音命令注入是对语音助手最具威胁性的攻击之一。现有的攻击旨在远程注入攻击信号,但它们需要访问授权用户的语音才能激活语音助手。此外,在嘈杂的环境中,攻击的有效性会大大降低。在本文中探索了一种新型信道,即电源线侧信道,以启动听不见的语音命令注入。通过修改后的充电线在电源线路上注入音频信号,攻击对各种环境因素和活体检测模型更具弹性。同时,可以通过修改后的充电线窃听智能手机的音频输出,从而实现高度交互的攻击。
为了利用电源线侧信道,本研究提出了一种新的隐藏语音攻击:GhostTalk,能够同时注入和窃听。通过快速修改移动电源线,攻击者可以通过远程拨打电话或从语音助手那里获取私人信息来发起交互式攻击。 GhostTalk 通过悄悄触发开关组件来模拟耳机上的按钮,克服了绕过说话者验证系统的挑战。如果智能手机通过未更改的标准充电线充电,发现可以通过监控电源线上的充电线来恢复智能手机扬声器的音频信号。为了证明可行性,设计了GhostTalk-SC,这是一种针对在公共 USB 端口充电的智能手机的自适应窃听系统。为了正确识别音频中的隐私信息,GhostTalk-SC 仔细提取音频频谱并集成神经网络模型对语音中的语音数字进行分类。
本研究针对 9 款主流商品智能手机发起 GhostTalk 和 GhostTalk-SC 攻击。实验结果证明,GhostTalk 能够以 100% 的成功率向不同的智能手机注入未经授权的语音命令,并且注入的音频可以欺骗普通人的耳朵和多种活体检测模型。此外,GhostTalk-SC 在识别不同智能手机上的语音数字方面平均达到 92% 的准确率,这使其成为一种易于部署但高效的攻击,可以渗透口令和验证码等敏感信息。
智能手机已经成为每个人日常生活中不可或缺的通讯和娱乐工具。如今,许多用户在社交网络、手机游戏和直播平台等智能手机应用程序上花费了大量时间。随着技术从短信向图像和视频流发展,智能手机的能耗急剧增加,对大容量电池和快速充电器的需求十分迫切。近年来,公共充电器已成为需要充电服务的旅行者的热门实用工具,已发展成为一个数十亿美元的巨大市场。
全球已有数亿用户使用充电站和移动电源。主流充电站一般可以分为共享充电宝和公共充电口两种。共享移动电源通常为不同的智能手机提供不同的充电线。用户通常在租用这些移动电源之前使用他们的智能手机扫描二维码,这样他们就可以根据使用时间支付账单。同时,公共充电端口,例如 USB 端口,允许用户通过该端口为智能手机充电。这些公共充电端口广泛部署在公共场所,如商场、酒店和机场。然而,尽管这些充电站为智能手机用户带来了便利,但随之而来的安全威胁却在迅速升级。例如,安全研究人员已经暴露了许多攻击,这些攻击可以通过充电线嗅探数据传输,或者从功耗配置文件中披露敏感的应用程序使用情况。最近的一项研究表明,通过监控充电器的输入电压,攻击者甚至可以恢复智能手机密码。
从攻击者的角度来看,这些充电电源,包括充电线和电源设备可以被修改,这进一步加剧了威胁。此外,新一代智能手机放弃了 3.5mm 耳机孔,将耳机音频功能集成到充电端口。这项创新改变了智能手机的前景,但当用户在公共场所充电时,它给智能手机音频系统带来了新的威胁。在这项研究中发现在快速修改充电线后,攻击者可能有能力远程入侵智能手机并控制其语音助手。最近的一些研究表明,攻击会破坏智能手机上的语音助手。一项早期研究表明,攻击者可以破坏扬声器验证系统,并通过重放攻击将恶意命令注入受害者智能手机。然而,附近的受害者可以很容易地检测到声音命令的重放。 DolphinAttack和 SurfingAttack都通过利用智能手机麦克风的非线性来实现听不见的语音命令注入。然而,这些现有的听不见的语音命令攻击不能同时实现两个攻击目标,即语音注入和窃听。换句话说,攻击者无法访问语音助手的响应。因此,他们通常无法衡量攻击结果并实现更复杂的攻击,例如GhostTalk或私人信息盗窃。
此外,现有的语音注入攻击容易受到环境噪声的影响。为了使攻击成功,受害设备应位于安静的环境中,并且攻击者必须靠近它。请注意,所有这些攻击都有一个主要缺点,即它们需要受害者的声音来生成特定的话语,例如“Hey Siri”或“Hello, Google”,才能激活语音助手。如果攻击者无法访问受害者的声音,则无法执行攻击。此外,由于这些听不见的语音命令通常由扬声器传输,因此它们可以被活体检测模块有效地检测到。
为了进一步扩展攻击场景,本研究引入了 GhostTalk,这是一种试图通过电源线侧信道破坏智能手机语音助手的新攻击。 GhostTalk成功通过改造移动电源充电线,操纵改造后的充电线中的电信号,完全缩小了注入和窃听之间的差距,即不仅可以远程向受害智能手机注入恶意语音指令,还可以窃听私人信息从语音助手。值得注意的是,GhostTalk 触发一个开关组件来激活按钮操作,从而有效地激活语音助手,而无需授权发言者的声音。下图(a) 说明了 GhostTalk 的攻击场景:当用户使用共享电源为他/她的手机充电时,攻击者可以远程查询用户的家庭地址,然后通过与智能手机的语音交互来解锁门助手。与现有工作相比,GhostTalk 是第一个同时实现隐身音频注入和窃听,同时对环境噪声和活体检测系统保持弹性的交互式攻击。
在另一种攻击场景中,当用户在公共充电端口为手机充电时,他们通常会插入自己的标准充电线。通过实验观察到手机扬声器的功率使用模式可以用作提取私人音频信号的侧信道。具体来说,当电池电量超过 95% 时,攻击者可以通过被动监控充电线来提取音频信号。基于这一观察设计了 GhostTalk-SC(即带有标准充电线的 GhostTalk),以从由标准充电线充电的智能手机中窃听敏感信息。在攻击过程中,只要受害者通过智能手机扬声器播放音频,攻击者就可以通过测量和分析不同的充电功率来识别泄漏的音频。但是,其他智能手机应用程序引入的背景噪声对捕获的音频的可感知性有很大影响。为了克服这一挑战,GhostTalk-SC 通过信号处理对音频进行降噪,并利用深度神经网络 (DNN) 识别对话中的敏感数字。建立了一个网站(https://ghosttalkattack.github.io/ )来演示攻击。
智能手机上的传统充电端口主要有两个功能:充电和数据传输。在新一代智能手机上,制造商倾向于完全去除耳机插孔,同时支持直接通过充电端口传输音频信号。相应地,闪电接口(Lightning)和USB-C口这两个主流充电口都支持通过充电口进行音频传输。
下图(a) 展示了 iPhone 上配备的 Lightning 充电端口的电路。一般来说,Lightning 接口可以工作在四种模式下:USB 主机、USB 设备、配件和电源。配件模式支持同时进行电池充电和音频传输。具体来说,pin 2和pin 3收发音频信号,pin 1和pin 5负责给电池充电。
广泛部署在 Android 智能手机中的 USB-C 端口如上图(b) 所示。当插入耳机时,引脚 6 和引脚 7 将向耳机发送音频信号,引脚 8 将接收来自麦克风的输入音频信号。同时,引脚 1 和引脚 4 连接直流电源进行充电。因此,USB-C也同时支持充电和音频信号传输。主要由于这些端口的集成和多功能特性,智能手机受到未经授权的音频注入和窃听攻击的威胁,如本工作所示。
下图显示了带有 Lightning 或 USB-C 插孔的典型有线耳机的电路。在耳机中,4 根线从智能手机收发音频信号:左扬声器、右扬声器、麦克风 (Mic) 和音频接地 (GNDA)。当耳机播放音频时,智能手机将数字信号输出到充电端口,由微芯片数模转换器 (DAC) 将其转换为模拟电压信号。之后,电压信号会触发耳机喇叭线圈电流的变化。这种变化的电流继而刺激扬声器膜的振动以产生可听见的声波。
声波会引起膜振动,从而改变麦克风的容量。由于电容上的电压是恒定的,变化的电容转化为变化的电流,从而产生与输入音频对应的模拟信号。然后,微芯片模数转换器 (ADC) 将模拟音频信号转换为数字数据,并将数据传输到智能手机。
大多数智能手机耳机都有一个“press”按钮,可以进行智能手机操作,例如拨打电话或控制音乐播放器。单击按钮时,麦克风和音频接地短路,智能手机检测到来自麦克风的电流脉冲。值得注意的是,按键还可以激活语音助手,GhostTalk利用此功能实现了隐藏激活。
锂离子电池广泛应用于智能手机,一般而言,锂离子电池的充电过程可分为三个阶段:
1)在电池电量低时,充电器会提供恒定电流以提升电池电压;
2)在充电过程中,调整充电电流以保持充电电压恒定;
3)电池充满电后,会消耗充电电量以平衡智能手机的电量使用。在最后阶段,充电功率由智能手机硬件组件和运行的应用程序共同决定。
最近的工作表明,当电池状态超过 95%时,充电功率与智能手机应用程序有很强的相关性。因此,充电功率模式可以反映智能手机的工作状态,从而为攻击者打开了一条侧信道。例如,攻击者可以通过识别不同的充电功率模式对特定网站和应用程序进行指纹识别,甚至通过测量充电电压波动来窃取锁屏密码。本文工作开发了新的攻击来从电源线侧信道中提取音频信号。
为了实施攻击,攻击者必须修改标准充电线以支持音频信号传输。但是,攻击者很难在标准充电线中添加音频功能。幸运的是可以使用耳机适配器,它的充电线可以同时传输音频信号和充电,这在市场上非常受欢迎,价格公道(~10 美元)。
上图显示了一条专门设计的 Lightning 适配器充电线,可实现音频功能和充电。通过在微芯片中集成音频功能,充电线可以对音频信号进行编码和解码。如上图中间框所示,两根充电线为智能手机充电,另外四根音频线用于传输音频信号(见上图左框)。 USB C 存在类似的适配器充电线。然后,攻击者可以用这种特殊设计的充电线替换共享移动电源的标准充电线,并对正在充电的智能手机发起攻击。
如第二部分所示,充电端口上的音频信号本质上是由变化的电流来表示的。因此,如果攻击者可以通过音频线操纵电流,他们就可以将听不见的音频信号注入智能手机。
为了验证通过充电线注入音频信号的可行性,在麦克风和音频地之间添加了调制电压信号,以改变麦克风中的电流。具体来说为调制信号添加了一个额外的 DC 偏移(~1.45V),并将其应用到麦克风线上。然后,受害智能手机(即 iPhone X)记录从 Lightning 端口注入的音频信号。同时,使用 ADC 板来测量输入电压信号。上图(a) 显示了语音命令“Hey Siri”的注入电压波形,得到的音频波形如上图(b) 所示。显然,电压和音频波形的形状彼此相似。因此,结果证明了通过控制充电线麦克风线上的电压输入来注入听不见的语音命令的可行性。这种现象表明存在充电端口后门,可以利用该后门偷偷攻击语音助手。
接下来,通过监测充电线上的电压信号来评估窃听的可行性。首先在同一个 iPhone X 上播放一个录制的单词“password”,并监测扬声器和音频地线之间的电压。原始音频波形如下图(a) 所示,而实测电压波形如下图(b) 所示。电压波形几乎与音频波形非常相似,这表明通过电压测量可以准确地恢复音频信号。
如果用户将自己的标准充电线插入公共充电端口,攻击者将无法访问和修改这些充电线。但是,发现充电电源线侧信道仍然可能泄漏音频信号。这种功率侧信道可能是由扬声器的高功率分布或来自扬声器的电磁 (EM) 场引起的,由于扬声器和充电端口组件非常接近而改变了充电电流。通过设计了四个实验来找出这种电源线侧信道的根本原因。特别是,通过分流电阻测量充满电的 iPhone X 的充电电流。首先,手机通过左声道播放来自底部扬声器的啁啾音频(0∼2 kHz)。其次,手机通过右侧音频信道播放相同的啁啾音频,源自顶部扬声器。第三,智能手机播放音频后空闲。最后,在智能手机关闭时进行额外测量。
上图给出了不同实验下的充电电流谱图。 ➀ 和 ➁ 中的结果表明,无论扬声器的位置如何(即顶部或底部),充电电流的信号强度完全相同。因此,电源线侧信道不太可能由 EM 干扰引起,EM 干扰在不同位置显着变化。上图还显示充电电流信号 (0∼4 kHz) 的频率是音频信号 (0∼2 kHz) 的两倍。实际上,当扬声器在播放 k Hz 音频信号时,其功耗 Pl 可以表示为:
其中a是常数,R是扬声器的电阻。上式说明用电频率是音频信号频率的两倍,与实验结果完全吻合。因此可以看到充电电流中的音频信号模式是由扬声器的高功率曲线带来的,远远超过了空载充电功率。然而,如下图所示,由于智能手机固件和应用程序也会消耗电量,因此泄漏的音频噪音太大而无法被人耳识别。因此,使用卷积神经网络 (CNN) 来识别语音音频中的敏感信息。此外,鉴于噪声水平与智能手机硬件设计相关,泄漏音频的信号强度变化很大适用于不同的智能手机。
移动电源改装: 由于每个人都可以使用共享移动电源,因此可以合理地假设攻击者可以用专门设计的充电线替换共享移动电源的充电线,并在移动电源中隐藏额外的硬件。受害者租用(被黑)移动电源在机场、酒店或购物中心等公共场所为智能手机充电。
无使用者交互: 假设当移动电源为手机充电时,受害者用户不会继续使用他们的智能手机。这是几乎所有语音命令注入攻击的共同假设。例如,人们将手机和移动电源一起放在手提包中是很正常的。
攻击场景: 对于 GhostTalk 攻击,攻击者不需要物理靠近受害设备,因为攻击设备(即修改过的电源线)包含 WiFi 模块。通过连接到公共 WiFi 热点,攻击者可以通过从远程站点发送/接收音频信号来远程发起攻击。上图展示了 GhostTalk 的三种具体攻击场景:
1)攻击者可以查询语音助手窃取隐私信息,例如用户姓名、家庭住址和电话号码;
2)攻击者在检索到受害者身份后,可以通过爬取社交媒体或运行语音合成的方式收集或生成受害者的语音样本,并在互联网上搜索受害者的家庭和工作信息。然后,攻击者可以通过注入和窃听语音信号来发起GhostTalk,如上图(b)所示;
3)攻击者可以请求将语音验证码发送到智能手机,并在接收时偷偷窃听。验证码可用于入侵受害者的社交媒体或银行账户。
虽然 GhostTalk 攻击带来了显着的威胁,但它只能在由修改后的移动电源充电的智能手机上实施。为了进一步扩展攻击场景,另一种攻击 GhostTalk-SC 无需修改充电线即可工作。
电源改装: 最近的工作显示了通过附加恶意硬件来入侵公共 USB 充电端口的可行性。对于 GhostTalk-SC 攻击,攻击者还可以将 ADC 板隐藏在酒店和机场的 USB 端口中。 ADC 板将持续监控充电电流并将测量结果发送给攻击者。
受害者的行为: 假设受害者不会在电池状态超过 95% 后立即停止充电。还假设受害者在免提模式下与手机交互时会提高扬声器音量,这在日常生活中很常见。
攻击场景: 如果受害者在电池状态达到 95% 后继续为智能手机充电,则来自扬声器的音频信号将被攻击者提取。尽管有充电状态假设,但攻击场景仍然相当现实。例如,在公共场所,受害者将智能手机插入壁挂式充电端口。充电时,受害者通过电话检索验证码或提供私人信息,例如信用卡信息和 SSN 号码。验证码和对话由智能手机扬声器大声播放并不罕见。 GhostTalk-SC 可以通过识别充电电流模式来窃听语音验证码或密码。
下图说明了 GhostTalk 的系统设计。在用前文中描述的特殊设计的充电线替换标准充电线后,攻击者能够操纵麦克风线上的电压并监控喇叭线上的电压。移动电源中的直流电源可为手机充电,同时为 GhostTalk 系统的硬件供电。在麦克风、扬声器和 GNDA 线之间添加了两个电阻器 Rm 和 Rs,以模拟耳机的存在。 Rm 和 Rs 的电阻分别为 2,000 和 20 Ω。
1)语音助手激活: GhostTalk的第一个挑战是在没有授权用户语音的情况下激活语音助手。以前的听不见的语音命令注入攻击需要来自授权用户的语音样本集合来生成特定的命令,例如“Hey Siri”或“Hello Google”来唤醒语音助手。但是,如果无法访问可用的授权语音样本,则此类攻击将变得不可行。
为了应对这一挑战,通过操纵充电线中的电压来模拟耳机按键功能。该想法来自于:当用户使用有线耳机时,即使智能手机处于锁定状态,也可以通过按下按钮来激活语音助手。因此,攻击者可以利用按钮按下后门来激活语音助手。为了复制按钮操作,在麦克风和 GNDA 线之间添加了一个 MOSFET。在注入恶意语音命令之前,攻击者会激活 MOSFET 以短路麦克风和 GNDA。该操作会让手机误认为用户正在按下按键,从而激活语音助手。与其他隐形语音助手激活方法相比,GhostTalk 有两个优势:第一,GhostTalk 攻击者通过电信号激活语音助手,与语音命令注入攻击相比,在嘈杂环境中更具弹性;其次,GhostTalk 可以绕过说话者识别系统。激活语音助手后,智能手机一般不会再次验证说话者的声音。因此,攻击者可以使用任何语音命令语音助手。
2)音频注入: 激活后,攻击者可以向智能手机注入听不见的语音命令。下式说明了注入信号调制过程,其中 xi(t) 是注入音频信号,k 是调整电压范围的因素。考虑到麦克风电容具有初始电压,使用放大器在注入信号上添加直流偏移 ΔVin (∼ 1.5V) 以补偿麦克风的初始电压。调制后的电压信号 Vi 可以写为:
然而,调制电压的直接注入将产生噪声注入音频。下图(b)显示了注入语音命令“take a photo”的频谱图。与下图(a) 中的原始音频频谱图相比,注入的音频具有大量背景噪声。这种噪声可能会降低音频质量并允许听众识别注入的音频。
在实验中观察到耳机麦克风的电容器不仅用于产生变化的电流,而且还起到信号平滑器的作用,平滑离散的电压信号。因此,添加了一个具有相似电容的附加电容器来抑制噪声。上图(c)显示了添加电容器后注入的音频频谱图,这与原始音频频谱图几乎无法区分。
3)听不见的音频窃听: 当通过修改后的充电线充电时,受害智能手机将通过一个不存在的“earphone”而不是扬声器播放音频。因此,攻击者能够在不访问可听声音的情况下捕获音频信号。具体来说,攻击者通过测量喇叭线的电压来窃听音频信号,如前图中的蓝色框所示。注意修改后的充电线有两根线分别用于左右扬声器,GhostTalk 只需要测量其中之一的电压。由于喇叭线承载模拟信号,攻击者使用 ADC 对信号进行处理和归一化。此外,使用放大器添加初始电压偏移 ΔVout (∼ 1.5V) 以获得音频输入的绝对正电压 Vo(t),因为攻击者的 ADC 只能处理具有正电压的信号。然后可以解调音频信号 xe(t) 如下,其中 k = max{|Vout - ΔVout|}。
在这种情况下,受害者使用自己的标准充电线为手机充电。通过被动监控充电电流,攻击者可以通过电源线侧信道窃听私人信息。下图说明了 GhostTalk-SC 的系统设计。与 GhostTalk 相比,GhostTalk-SC 系统只需要测量标准充电线中的充电电流即可。然而,解调后的音频只有一个有限的频带,被强烈的背景噪声所扭曲,使人耳无法理解。为了解决这一挑战,设计了一种信号处理机制并应用深度学习模型来促进语音音频中私人信息的识别。
1) 信号处理: 采集电流测量结果Im(t)后,使用高通滤波器去除电流信号中的直流偏移和低频噪声,恢复原始音频xn(t),应用频谱减法来增强 xn(t) 中的语音音频信号。首先,通过快速傅里叶变换 (FFT) 获得 Xn(ω),即 xn(t) 的频域频谱。同时,通过监测空闲的智能手机充电电流,可以估计噪声信号 N(ω) 的信号强度。然后通过:Xc(ω) = Xn(ω)−N(ω) 对 Xn(ω) 进行去噪,并将去噪后的频谱 Xc(ω) 转换回时域信号 xc(t)。
2) 数字化分类: 不幸的是,在去除背景噪声后,恢复的音频 xc(t) 仍然无法被人类或 AI 模型识别。这是因为由于信号丢失,仅从当前信号中恢复了音频中的低频分量(低于 2 kHz)。CNN 等深度学习模型可以从语音信号中提取更复杂的模式,这有助于使用低频音频识别语音。与现有的攻击类似,GhostTalk-SC旨在实现数字识别以提取密码、SSN号和验证码等敏感信息。
上图显示了 GhostTalk-SC 的 CNN 架构,用于将口语数字从“zero”分类到“nine”。 CNN 的输入是由短时傅里叶变换 (STFT) 生成的去噪音频信号的 130 × 130 频谱图矩阵。 CNN 模型由两个具有 ReLU 激活功能的卷积层和两个 2 × 2 最大池化层组成。两个丢失率为 0.5 的密集层用于提高分类性能并防止过度拟合。最后,softmax 层输出十位数的概率分布。使用经过训练的模型,攻击者可以从泄露的语音音频中推断出口语数字。与其他语音识别方法相比,CNN 架构从时域和频域信号中连贯地学习。
1)实验设置: 在实验中评估了来自苹果、谷歌、三星、华为和小米等 5 家主流制造商的 9 款不同智能手机的 GhostTalk 攻击。实验装置如下图所示。带有 WiFi 和蓝牙模块的 ESP-32 板用于控制 MOSFET 并测量喇叭线的电压。蓝牙音频芯片将调制后的音频命令注入受害手机,LM-358 双信道放大器用于施加直流电压偏移。
2) GhostTalk 注入性能: 为了评估 GhostTalk 注入攻击的性能,使用 Google WaveNet API生成 20 个语音命令,每个命令包含 3∼8 个单词。激活语音助手后将语音命令注入每个受害智能手机,并重复实验 10 次。然后,计算语音命令记录的信噪比 (SNR)。
结果列于上表。对于所有受害智能手机,平均注入音频 SNR 均高于 15 dB,人耳可以清楚地感知。此外,注意到注入的音频 SNR 与受害智能手机的麦克风采样频率 fs 有关。例如,对于三星 Note 10 (fs = 44.1 kHz),注入的记录具有比 Pixel 4XL (fs = 32.0 kHz) 更高的平均 SNR 值。攻击者可以通过调整等式中的放大因子 k 来进一步提高注入的音频音量。 (2)。值得注意的是,如果麦克风中的电流超出智能手机采样范围,较大的 k 可能会降低 GhostTalk 注入的性能。在实验中,设置 k = 0.1 来平衡音频质量和 SNR 值。
接下来重复实验,测试这些注入的语音指令能否被语音助手识别。在上表的最后一列列出了 GhostTalk 注入攻击的攻击成功率(ASR)结果。令人惊讶的是,尽管硬件设计和采样频率不同,但所有受害智能手机都容易受到 GhostTalk 注入攻击。对于所有受害者智能手机,GhostTalk 注入攻击可以以 100% 的成功率危及他们的语音助手,这优于所有最先进的听不见命令注入攻击。
3)GhostTalk 窃听性能: 为了评估 GhostTalk 窃听攻击,以受害者智能手机的最大音量设置播放来自 TIMIT 数据集的 100 个人类语音样本。同时,ESP-32 板作为 ADC 以 10 kHz 采样频率测量喇叭线的电压输出。作为比较,在安静的环境(噪音水平≤ 25 dB)中以最大音量播放这些语音样本,并使用 iPhone 8 在距离受害智能手机 30 厘米处录制音频。随后,将 GhostTalk 的窃听性能与正常录音进行比较。
对于正常录音,智能手机扬声器的输出功率决定了被窃听音频的 SNR。对于 GhostTalk 攻击,恢复的音频 SNR 受喇叭线电压范围和 ADC 采样频率的限制。上图显示了录音窃听和 GhostTalk 窃听的音频 SNR 比较。对于所有受害者智能手机,GhostTalk 窃听的平均 SNR 值较低,因为采样频率低且电压幅度受限。然而,由于大多数人声频谱图都低于 5 kHz,因此窃听攻击仍然可以恢复清晰的人类语音音频。
为了进一步评估窃听音频的质量和清晰度,使用 Google Speech-to-Text API来识别窃听音频中的语音内容。对于录音窃听和 GhostTalk 窃听,Google Speech to-Text API 可以准确识别语音音频中大约 95% 的单词,无论 SNR 是多少。结果表明,GhostTalk 可以通过电源线窃听音频,并在安静的环境中获得与正常录音进行窃听攻击相同的音频清晰度。
4)Human Study: 攻击者可以使用 GhostTalk 攻击发起GhostTalk,即攻击者可以通过注入语音命令来发起电话呼叫,并用受害者的声音“speak”。为了欺骗人耳,GhostTalk 注入的音频应该具有与自然人类语音相同的质量。因此,为了验证幽灵呼叫攻击的可行性,设计了一个人体研究实验来测试人耳是否可以区分自然和注入的人类语音音频。
首先,使用 iPhone X 记录来自十个不同说话者的十个自然人类语音样本。然后发起 GhostTalk 攻击,将这些音频样本注入到同一部智能手机中,得到 10 个对应注入的具有相同语音内容的人类语音样本。然后对所有良性和注入的语音样本进行归一化,以消除幅度或长度差异。
总共有 20 名志愿者(12 名男性和 8 名女性)参与了研究。作为基线,首先要求志愿者听两组语音样本作为训练示例。在每一组中,一个样本是自然人类语音,另一个是从没有电容器的电路中注入的人类语音样本。由于注入的样本存在可听噪声和高频失真,因此所有听众都能正确识别注入的样本。还向志愿者口头解释注入的样本可能包含额外的噪声,并且与自然音频样本相比可能会出现频率失真。
接下来,对于每个问题集,有一个自然人类语音样本和一个来自 GhostTalk 注入的注入样本(样本 A 和 B)。听完一组后,志愿者需要选择样本是否可以区分。然后,志愿者将选择可能注射的样本。最后收集了 200 个答案,下表总结了人类研究结果,其中 150 个答案将两个样本描述为“indistinguishable”,其余 50 个答案则相反。在 50 个答案中,只有 30 个成功确定了注入的样本。
除了样本识别研究,还对志愿者进行了调查。首先,如果志愿者随机猜出答案,则要求他们标记他们的答案,如果没有,则要求他们解释他们的选择。在 50 个“distinguishable”的答案中,有 32 个是通过随机猜测得出的。此外,超过 70% 的提供确定性答案的志愿者声称,在注入的样本中存在细微的可听噪声,这很可能是由攻击电路引入的。上表显示了随机猜测和确定性答案的准确性。事实上,尽管响应者有信心,但确定性答案的准确性与随机猜测非常相似。同时,20 名志愿者中有 17 名表示他们将无法在真实电话中识别注入的声音。
5)活体检测鲁棒性: 为了防御重放攻击和听不见的语音命令注入,语音助手可以应用活体检测模型来识别恶意注入的语音命令。为了评估 GhostTalk 对活体检测模型的攻击鲁棒性,将 TIMIT 数据集中的 100 个人类语音样本注入 iPhone X,并将注入的录音输入到三个活体检测模型。第一个模型是 ASVSpoof,它是 ASVSpoof 2017 挑战赛的基线活体检测模型。 ASVSpoof 主要考虑语音中的恒定 Q 倒谱系数 (CQCC) 特征,并利用高斯混合模型 (GMM) 来分离自然和重放的人类语音。第二个模型 STC是 ASVSpoof 2017 挑战赛中的最佳模型,它结合了轻卷积神经网络 (LCNN) 来检测重放攻击。第三个模型 Void是最先进的活体检测系统,它使用频谱图延迟模式、峰值模式和线性预测倒谱系数 (LPCC) 特征来检测重放样本和听不见的语音命令。
将上述模型研究中报告的结果用于重放和听不见的语音攻击,并评估 GhostTalk 针对活体检测模型的鲁棒性。评价结果列于上表。对于使用扬声器的重放攻击,只有少数样本可以绕过活体检测系统。此外,Void 可以准确识别来自听不见的语音命令注入的所有音频样本。至于 GhostTalk 注入攻击,当注入 48 kHz 采样频率的音频样本时,所有样本都可以绕过 ASVSpoof 和 STC 模型,这是可以理解的,因为 GhostTalk 注入是从电源线而不是扬声器发生的。值得注意的是,只有 40% 的注入样本可以成功欺骗 Void 系统,这可能是由于 Void 模型捕获的注入样本的低频模式所致。作为回应,将注入音频的采样率从 48 kHz 降低到 16 kHz,这有效地扭曲了注入音频的低频模式。因此,81% 的注入样品可以通过 Void 模型。另一方面,下采样过程也会扭曲或丢弃一些高频分量,这将 STC 模型的错误率降低到 63.0%。总之,通过调整注入的音频采样频率,GhostTalk 注入攻击可以成功绕过不同的活体检测模型。
1) 实验设置: 评估了对表 IV 中列出的智能手机的 GhostTalk-SC 攻击。受害智能手机由 5V/1A 直流电源充电,充电线为标准 Lightning 或 USB-C 线。 ESP-32 板用于测量充电电流波动,采样频率为 8 kHz。
2) 数据收集: 使用自由口语数字数据集 (FSDD) 训练 CNN 分类器,该数据集由从“zero”到“nine”的 3,000 个话语组成。还收集了来自 15 位说话者(8 位男性和 7 位女性,每个人说 10 位数字两次)的 300 条话语,并提取泄漏的语音音频作为测试数据集。然后,通过识别 2 kHz 下的频谱图模式对去噪语音样本进行分类。
3)数字分类性能: 下表列出了不同智能手机的平均泄漏音频信噪比和口语数字分类准确度。由于固件和系统差异,不同手机型号的平均 SNR 值差异很大。
结果表明,GhostTalk-SC 在 9 个受害者智能手机中的 8 个上实现了令人满意的分类性能。对于泄露音频信号较强的智能手机,如荣耀10、iPhone 5s、iPhone X,GhostTalk-SC可以达到92%以上的分类准确率,明显高于随机猜测(10%)。对于音频泄漏较弱的智能手机,例如 Pixel 4XL,准确度会下降。一个特殊情况是 GhostTalk-SC 无法对来自 Pocophone 的大部分语音数字进行分类,因为大多数泄漏的音频信号都被环境噪声淹没了。此异常可能归因于扬声器功率较弱。另一种可能的解释是 Pocophone 的操作系统 (OS) 或固件以较高的功耗运行,从而在充电电流中引入了过多的噪声。
上图显示了来自荣耀 10 智能手机的数字分类混淆矩阵(包含案例计数)。从混淆矩阵中,注意到在“two”和“three”之间存在错误的预测样本,并且“eight”经常被错误分类为“six”或“seven”,因为这些话语在低频段具有相似的模式。由于泄漏音频信号的低信噪比和频带限制,提取的数字话语与原始话语相比具有较低的可区分性,从而影响分类精度。
4) 不同音量设置下的 GhostTalk-SC 性能: 正如前文所说明的,充电电流中泄漏的音频信号来自电源侧信道。当用户调低音量时,扬声器功耗降低,进而导致泄漏音频信号的信噪比下降。上图显示了华为荣耀 10 在不同音量设置下的原始话语和泄漏的音频频谱。当音频以最大音量播放时,大部分频谱图模式在去噪后可以很好地恢复。如果音量降低到 75%,去噪后部分图案会丢失或失真。在 50% 的音量水平下,只有最强的频率分量保留在频谱图中,大部分模式消失了。
为了评估不同音量设置下的数字分类性能,在 iPhone X、荣耀 10 和 Note 10 等三款受害智能手机上播放测试语音数字音频。每款智能手机都有 16 个音量级别。从音量 100%(第 16 级)开始,调整音量后重复实验。 不同音量设置下的数字分类精度如下图所示。对于所有三个受害者手机,当音量降低时,分类精度会下降。当音量为 75%(12 级)时,分类性能略有下降,因为大多数话语仍然可以区分。然而,当音量设置为 50%(8 级)时,分类准确率下降得更厉害,即只有 35% 的口语数字可以被正确分类。在较低的音量设置中,分类结果接近随机猜测的结果。
1) GhostTalk注入鲁棒性: 现有的语音攻击大多容易受到其他声学干扰,例如环境噪声、人类对话和嘈杂的音乐。在极端情况下,强烈的背景噪音会干扰麦克风并阻止语音命令注入和音频窃听。
为了验证 GhostTalk 在嘈杂环境中的攻击性能,使用扬声器播放因果人类对话作为背景噪声,并将 GhostTalk 的鲁棒性与重放攻击和录音窃听攻击进行比较。对于重放攻击,将攻击者(iPhone 8)放置在距离受害者 iPhone X 30cm 处,并以最大音量重放语音命令。对于 GhostTalk 攻击,使用前文相同实验设置。安静环境中的平均噪音水平为 25 dB,在不同的背景噪音水平下重复所有实验。上图显示了重放和 GhostTalk 注入攻击的鲁棒性比较。当噪音水平低于 30 dB 时,重放攻击和 GhostTalk 均达到 100% ASR。然而,当噪声电平增加到 45 dB 以上时,重放攻击的 ASR 显着下降。在噪声级高于 55 dB 的环境中,重放攻击无法成功。相比之下,GhostTalk 利用电信号而不是声音信号来注入语音命令。因此,外部噪声不会影响接收到的音频信号。在所有嘈杂的环境中,GhostTalk 注入攻击总能达到 100% 的 ASR,这证明了 GhostTalk 注入攻击的鲁棒性。
2)GhostTalk窃听鲁棒性: 此外,评估了GhostTalk窃听攻击在iPhone X上的鲁棒性。与前文中的设置类似,使用iPhone 8作为录音设备,并将音频识别与GhostTalk窃听攻击进行比较。
上图说明了录音窃听和 GhostTalk 窃听攻击的识别精度比较。不出所料,对于正常的录音窃听,当环境噪声变得更强时,识别率会降低。具体来说,当背景噪声水平高于 50 dB 时,Google Speech-to-Text API 几乎无法识别语音内容。相反,对于通过 GhostTalk 窃听恢复的音频,它们的感知能力保持在一个恒定的水平。由于外部噪声对电信号没有影响,因此 GhostTalk 窃听在嘈杂的环境中仍然可以恢复清晰的语音音频。
3) GhostTalk-SC窃听鲁棒性: 为了评估 GhostTalk-SC 通过标准充电线窃听的鲁棒性,在不同噪声级别的环境中重复前文的实验。在 iPhone X、荣耀 10 和 Note 10 等 3 款智能手机上测试了鲁棒性。所有手机都以最大音量播放测试语音音频。
上图给出了 GhostTalk-SC 窃听攻击的鲁棒性评估结果。注意到即使噪声变得越来越强,数字分类精度仍然保持不变。精度上的微小差异主要是由于电流测量中的噪声造成的。结果证明,GhostTalk-SC 窃听攻击在嘈杂环境中具有鲁棒性。这意味着与现有的窃听攻击相比,GhostTalk-SC 可以实现更广泛的攻击场景。
窃听能力: 在实验中评估了 GhostTalk-SC 的数字识别性能,在这里讨论它在词语识别方面的潜力。下图显示了两个不同语速的男性志愿者“hello”和“okey”的频谱。请注意,不同志愿者发音的同一单词的去噪光谱呈现出相似的模式。因此,使用 GhostTask-SC 执行单词识别可能是可行的。但是,CNN 模型需要大量数据集来进行模型训练。由于缺乏包含单个单词语音样本的大型数据集,无法验证词语窃听性能。
[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!