SafeEar是什么?
SafeEar是由浙江大學(xué)和清華大學(xué)聯(lián)合推出的一個用于音頻深偽檢測和保護內(nèi)容隱私的框架。它能將語音解耦為語義和聲學(xué)信息,僅用聲學(xué)信息檢測深偽,防止語義內(nèi)容泄露,同時抵御內(nèi)容恢復(fù)攻擊,保護用戶隱私,適用于對隱私保護要求高的用戶和相關(guān)機構(gòu)。
SafeEar 在多個公開基準(zhǔn)數(shù)據(jù)集(如 ASVspoof 2019 和 ASVspoof 2021)上進行了測試,結(jié)果顯示其在偽造音頻檢測中的等錯誤率(EER)低至 2.02%。這一性能驗證顯示了 SafeEar 在實際應(yīng)用中的有效性和可靠性。

SafeEar的主要功能
- 隱私保護的深度偽造檢測:SafeEar 通過語義和聲學(xué)信息的分離,只依賴聲學(xué)信息進行深度偽造檢測,從而保護音頻內(nèi)容的隱私。
- 多語言支持:SafeEar 能夠處理多種語言的音頻數(shù)據(jù),包括英語、中文、德語、法語和意大利語,并提供多語言的音頻偽造檢測能力。
- 高效深度偽造檢測:SafeEar 在多個基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異,能檢測出各種類型的深度偽造音頻,等錯誤率(EER)低至 2.02%。
- CVoiceFake 數(shù)據(jù)集:SafeEar 使用了一個多語言音頻深度偽造數(shù)據(jù)集 CVoiceFake,包括來自多個生成技術(shù)的偽造音頻樣本,如 Parallel WaveGAN、Multi-band MelGAN 等,幫助研究者更好地進行深偽音頻檢測的研究。
SafeEar的技術(shù)原理
- 語義-聲學(xué)信息分離:SafeEar 利用神經(jīng)音頻編解碼器模型,將音頻中的語義信息(如語言內(nèi)容)與聲學(xué)信息(如音色、語調(diào)和節(jié)奏)分離。這樣處理可以確保在檢測過程中不泄露音頻的具體內(nèi)容,從而保護用戶隱私。
- 聲學(xué)信息分析:該系統(tǒng)只分析音頻的聲學(xué)特征,識別深度偽造音頻時可能出現(xiàn)的異常或不一致現(xiàn)象。通過關(guān)注音調(diào)、音色和節(jié)奏等,SafeEar 能夠有效區(qū)分真實與偽造音頻。
- 多語言支持:SafeEar 能處理多種語言(如英語、中文、德語、法語、意大利語)的音頻數(shù)據(jù)。采用去語義化處理,確保在分析過程中不暴露具體的語義內(nèi)容,使得各語言的偽造音頻檢測能力得到保障。
- 抗內(nèi)容恢復(fù)技術(shù):為了防范各種音頻深度偽造方法,SafeEar 結(jié)合了基于現(xiàn)實場景的編解碼器增強和抗內(nèi)容恢復(fù)技術(shù),從而確保即便在對抗性攻擊下,依然能夠有效識別真實音頻與偽造音頻的區(qū)別。
如何使用SafeEar?
SafeEar開放了論文、代碼和數(shù)據(jù)集,相關(guān)資源如下:
- SafeEar項目地址:https://safeearweb.github.io/Project/
- 論文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf
- GitHub代碼及部署安裝教程:https://github.com/LetterLiGo/SafeEar
- 數(shù)據(jù)集:https://zenodo.org/records/11124319
