Literature Reading

begin-2024年10月10日 记录部分

一、黑盒水印 音频识别模型

论文贡献:

  • 为了实现说话人识别模型的版权保护,提出了一种基于Mel谱图的黑盒水印框架。它将水印信息嵌入到Mel谱图中,而不是直接嵌入到原始语音信号中。该方法有效地提高了水印信息的鲁棒性和安全性;
  • 设计了基于区块链访问控制的主动防御框架。本框架以版权所有者为中心,欲分享模型需获得版权所有者许可。通过限制未授权用户对模型的使用,实现对说话人识别模型的主动保护;
  • 实验结果证明了该水印框架的有效性

使用区块链技术:

  • 第一步:模型所有者用自己的公钥对信息进行加密,并存储在区块链上
  • 第二步:用户通过智能合约验证后,区块链通知模型所有者,然后使用授权用户的公钥对资源信息进行重新加密
  • 第三步:授权用户使用其私钥解密并使用资源

神经网络后门:

  • 神经网络后门是一种模型攻击技术,它在模型的数据集X上增加扰动,使模型输出一个特定的标签T。输入X的组合B = (Xδ, T)加了扰动,特定的输出标签T称为后门

Mel谱图:

  • Mel谱图是一种能更好地描述音频信号特征的时频域分析方法。Mel谱图由于其非线性的频率轴和对数尺度,在数字水印领域具有广阔的应用前景。
  • Mel尺度定义为将频率f转换为2595 × ln(1 + f /700),其中f是频率,700是人耳可以感知的最低频率。
  • 在Mel谱图中,低频部分比高频部分更密集,这更符合人类对音调的感知,因为人耳对低频部分更敏感。
  • 通过在Mel谱图中嵌入水印信息,可以避开人耳的听觉系统,产生人耳无法识别的触发样本,同时还可以抵抗一些信道噪声和失真。

水印镶嵌算法

  • 常用的水印算法包括变换域算法和空域算法。
  • 空域算法直接修改原始图像的像素值来嵌入水印。最小有效位(Least Significant Bit, LSB)算法是一种典型的空间域算法,算法简单,但透明度较低。
  • 变换域算法通过将像素系数变换到频域并修改频域系数来嵌入水印,具有更强的鲁棒性和透明性。由于创建的触发样本与原始样本相似,同时仍可被声纹识别模型区分。
  • 因此本文将这两种算法结合起来。首先将Mel谱图的像素值变换到离散余弦变换域,然后使用LSB算法进行嵌入

提出的方案

image-20240504141456359

该方案由水印网络和区块链网络两部分组成

  • 水印网络包括三个阶段:水印生成;水印嵌入;水印验证

    • 水印生成包括提取原始音频信号的Mel谱图,嵌入所有者的身份信息,并将其转换为语音信号,作为后续水印嵌入和验证的触发样本。
    • 水印嵌入是通过同时训练一组原始音频样本和一组触发样本来实现的。在训练过程中,原始音频样本输出其原始标签,而触发样本输出预定义标签。训练完成后,对主机模型进行标记,得到带水印的模型。
    • 在水印验证过程中,使用一组新的触发样本作为输入,查询可疑模型。如果输出属于所有者定义的标签类,则验证其所有权
  • 在区块链网络中

    • 模型所有者将加密的模型地址和密码存储在区块链上,并设计专属的智能合约来限制模型的使用权。
    • 当用户需要使用该模型时,可以通过区块链验证其身份信息获得使用权限。
    • 授权信息也记录在区块链上,以实现可追溯性

区块链网络:

  • 本文提出了一个基于区块链技术的模型主动保护框架,

    • 首先,模型所有者对训练好的声纹识别模型进行加密,并将其存储在云中。模型的地址(URL)和使用密码(密钥)被加密并存储在区块链上,以及分配给受保护模型的唯一索引号。
    • 其次,这个框架提供了专为模型所有者设计的独占访问控制权限。当用户需要使用模型时,他们向区块链发送请求,包括他们想要访问的模型的索引号和他们的身份信息。在收到用户的请求后,区块链节点调用预定义的智能合约来验证用户的身份信息是否匹配。

    • 如果验证成功,区块链将通知模型所有者,然后模型所有者使用用户的公钥(pk)重新加密模型密码,并将其返回到区块链。

    • 授权用户可以使用他们的私钥(sk)对其进行解密,并使用带有返回的URL和解密密钥的型号。同时,此授权信息将被记录在区块链上。
    • 用户每次使用模型时,都会更新授权信息,记录使用情况。如果发现有人非法窃取或未经授权使用模型,可以通过记录在区块链上的授权信息对其进行追踪和追究责任。

水印生成:

  • 模型所有者在一个干净的数据集Dtrain = {(Xs, Ys)}n s=1中,从n个类别中随机选择m个音频样本,并将关键信息key嵌入到每个选定音频样本的Mel谱图中。
  • 然后将Mel谱图还原为音频信号,构造触发集Dtrigger = {(Xi, Y)}m i,其中Xi为带水印的音频信号,Y为包含预定义标签的音频信号。
  • 假设M是原始语音信号得到的Mel谱图,它可以看作是一个简单的二维矩阵。将Key嵌入到该矩阵中,其中Key为大小为m × n的二值图像。
  • 将Key降维后得到长度为m的二值序列,记为w,将w作为水印进行嵌入。

水印镶嵌:

  • 水印嵌入的目的是得到一个带有水印的模型。

  • 为了避免模糊的决策边界和错误分类,本文为触发器分配了额外的标签,通过改变分类层的输出类,将n类问题变为n + 1类问题。由于添加的标签只与触发样品相关联,因此假阳性率低。在训练过程中使用一个新的数据集D = Dtrain∪Dtrigger。

  • 具体来说,在训练阶段,将原始音频样本和触发音频样本一起放入模型中进行训练。每个原始音频样本对应于原始标签,所有触发音频样本对应于添加的标签。说话人识别模型会自动学习这种映射关系,最终得到标记的模型。

image-20240504141519179

水印验证:

  • 如果模型被盗,考虑到模型所有者可能怀疑远程部署的模型侵犯了他们的版权,有必要确认远程神经网络模型的所有权。
  • 在这个过程中,所有者首先生成一个新的触发集,然后向可疑模型发送远程查询,获得预测结果。在预先定义的标签上评估结果预测的准确性。

实验内容

保真度和性能:

保真度的目标是保证水印的嵌入不影响原模型的性能。

不可感知度:

不可感知性的目标是确保为水印嵌入创建的触发样本在视觉和听觉方面都是不可见的。因此,在水印嵌入过程中对音频样本所做的任何改变都不应该被观察者的视觉和听觉系统所注意到。理想情况下,原始音频信号和带有水印的音频信号之间的差异应该被说话人识别模型识别出来,而攻击者无法察觉。

有效性:

有效性的目标是成功验证水印模型。

为了实现这一目标,使用两组触发集来查询模型。

一组是训练好的触发集D,目的是验证该触发集能否被水印模型成功识别。

另一组为新生成的触发集D0,其中选取一部分测试样本生成未参与训练过程的新触发集。

目的是验证水印模型是否记住了模型所有者的版权信息。

鲁棒性:
  • 微调
    • 通常,从头开始训练一个模型需要很长时间。微调只需要在预训练模型的基础上更新后几层的参数,与从头开始训练相比,可以节省大量的时间,甚至提高性能。
    • 通常,在模型的训练过程中,也会对预训练模型的参数进行更新,使模型的性能更好。对于没有足够训练集的对手来说,微调可能是去除所有者水印的最好方法
  • 剪枝
    • 通常使用剪枝来探索模型权值中的冗余
    • 它旨在删除或修剪冗余和不重要的权重,以减小模型的大小,加快模型的训练和推理速度,同时不显著降低模型的性能。
    • 攻击者可能希望在保持模型原有性能的同时,通过剪枝去除模型中嵌入的所有者水印。
混淆攻击:

在本文中,安全性是指所提出的水印方案应该是难以被他人复制或伪造的。

本文主要考虑对歧义攻击的抵抗。规避模糊攻击的目的是通过在水印模型中嵌入假水印来保证攻击者不能破坏所有者的水印,从而声称所有权。

本文假设攻击者知道如何生成触发集,并且可以在被盗模型中嵌入他们的假水印来声明所有权,从而在出现版权问题时产生歧义。

为了解决这一问题,本文提出采用相同的水印生成方法,将其他版权信息作为水印嵌入Mel谱图的特定频段,然后对嵌入的水印模型进行微调

总结展望

目前的声纹识别模型容易受到攻击,并面临模型被盗的风险。

因此,我们的研究旨在提出一种黑盒声纹识别模型保护框架,以提高模型的版权保护性能,并限制未经授权的访问。

通过这些研究成果,我们将能够为声纹识别技术的发展提供更有效的保护解决方案,从而推动声纹识别技术的应用和进步。

然而,本研究也有一定的局限性。

  • 首先,本研究使用的声纹识别数据集可能规模较小,缺乏代表性,限制了研究结果的推广。未来的研究可以考虑使用更大、更多样化的数据集来验证所提议的保护框架的性能。

  • 其次,攻击模型的覆盖范围有限。本研究主要关注声纹识别模型的保护性能,但需要进一步的研究和验证来评估框架对不同类型攻击的鲁棒性,例如对抗性攻击或模型提取攻击。

二、可逆鲁棒水印

  • 现有问题:1)能够抵抗常规攻击的方案往往不能抵抗几何攻击;2)能够抵抗几何攻击的方案往往对常规攻击不够鲁棒,稳定性差。

  • 分数阶正交矩(FoOM)

  • Zernike矩和伪Zernike矩(ZM/PZM):径向正交矩,ZM/PZM具有良好的图像构建能力,对旋转、缩放等几何攻击具有不变性。

  • 由于引入分数阶,FoZM/FoPZM在不变图像识别中具有更好的鲁棒性,FoZM/FoPZM的不变性:FoZM/FoPZM的幅值不受图像旋转、缩放和加性噪声的影响:1)振幅:利用振幅的旋转不变性将水印嵌入到振幅中,从而实现对水印方案旋转攻击的鲁棒性。2)缩放:矩的计算保持不变。3)随着FoZM/FoPZM阶数的增加,重构图像变得越来越清晰。从表1可以看出,低阶FoZM/FoPZM特征描述了图像的整体轮廓信息,高阶FoZM/FoPZM特征描述了图像的详细信息。当图像受到噪声干扰时,含有加性噪声的像素的灰度值会发生快速变化。换句话说,加性噪声影响图像的高频分量,对图像的低频分量影响较小。图像的高频分量代表图像的详细信息,加性噪声对图像的详细信息影响较大,对图像的轮廓影响较小。因此,加性噪声对低阶FoZM/FoPZM特征的影响也较小,低阶FoZM/FoPZM特征具有加性噪声不变性。

  • 创新点:

    • 提出了一种去噪方法对水印进行预处理,提高了水印对几何攻击和常规攻击的鲁棒性,减少了提取辅助信息的数量,使提取辅助信息的过程更加稳定。
    • 提出了一种基于分数阶正交矩(FoOM)和MLW的RRW算法。提出的RRW方案分为水印编码和解码两个阶段。水印编码阶段首先利用低阶FoZM/FoPZM嵌入鲁棒水印,然后利用预测误差展开(PEE)方法嵌入辅助信息。水印解码阶段首先验证水印图像的完整性,然后提取水印信息验证版权,完成水印图像的恢复
  • 流程:首先识别水印图像与载体图像之间的差异来源,用较少的信息表示差异,然后将该信息作为辅助信息嵌入到封面图像中。其次,将水印嵌入到低阶FoZM/FoPZM分量中;最后,在提取水印之前,对水印图像进行去噪处理

  • 贡献:

    • 为了提高基于mlw的RRW的稳定性(可逆性的保证),利用鲁棒水印图像与被水印图像之间的误差源作为辅助信息,在无损恢复主图像的同时获得更小更稳定(辅助信息大小不变)的辅助信息。
    • 为提高隐蔽性,在ZM/PZM基础上对FoZM/FoPZM进行了优化。增强了矩量的数值稳定性,从而提高了矩量的计算精度,从而提高了水印图像的不可感知性。
    • 为了提高对常规攻击的鲁棒性,对水印提取图像进行去噪处理。提高了对噪声攻击特别是椒盐噪声的鲁棒性,并且在其他攻击下对水印提取的影响较小。
  • 实验测试:对高斯噪声和椒盐噪声攻击等噪声攻击具有较强的鲁棒性,对旋转和缩放攻击等几何攻击具有较好的抵抗能力。

  • 冗余直方图移位RHS:在嵌入位置周围产生额外的容错空间,以增加直方图移动的距离。直方图旋转和广义直方图平移是该方案的常用技术示例

  • 多层水印MLW:第一步通过鲁棒技术将水印信息嵌入到图像中,第二步采用可逆水印,对恢复封面图像所需的信息进行可逆嵌入。它提供了更大的灵活性

  • 正交矩能够以最少的信息冗余表示图像,并且具有高水平的噪声鲁棒性。正交矩可以归类为在笛卡尔坐标系或极坐标中定义的矩。在极坐标系中定义的正交矩也称为径向正交矩

  • 径向正交矩的核函数是由特定类型的径向正交多项式和角傅里叶复分量因子构成的。径向正交矩的一个显著优点是它们能够实现旋转不变性。

  • 根据核函数是在连续域上正交还是在离散域上正交,在笛卡尔坐标系中定义的正交矩可以进一步分为连续正交矩和离散正交矩两种类型。

  • 鲁棒水印方案、零水印方案和鲁棒可逆水印方案

  • 分数阶多项式比其对应的整数阶多项式具有更好的表示函数的能力

  • 实验:

    • 1)分析了所提出的水印方案产生补偿信息的原因,提出了一种新的补偿信息计算方法;
    • 2)分析了FoZM/FoPZM在RRW中的优势,比较了ZM/PZM与FoZM/FoPZM在RRW中的鲁棒性;
    • 3)分析了水印图像在噪声攻击下的特征,提出了一种新的去噪方法来提升水印方案对噪声攻击的鲁棒性。
    • 4)实验验证了所提出的水印方案在抵抗几何攻击和常规攻击方面的优越性。
  • 傅里叶展开定理

  • 方案设计:

image-20240226204745352

image-20240226205945805

本文提出的RRW方案分为两个阶段:水印编码和解码阶段。

水印编码阶段包括鲁棒水印嵌入和辅助信息嵌入。

  • 在鲁棒水印嵌入部分,该方案首先计算封面图像的ZM/PZM特征,然后选择具有几何不变性的低阶矩嵌入水印W,最后完成鲁棒水印嵌入,生成具有鲁棒水印的图像
  • 在辅助信息嵌入部分,将鲁棒水印嵌入步骤引起的图像畸变记为D,将图像的哈希值记为H。首先,将H与D结合,形成总辅助信息。最后,将辅助信息可逆嵌入到图中,得到最终的水印图像

水印解码阶段包括完整性验证、鲁棒水印提取和图像恢复。

  • 在水印提取和图像恢复中,在水印提取之前,通过完整性验证来判断水印图像是否被篡改。如果是,则在水印提取阶段提取水印。否则,恢复图像,并在图像恢复和水印提取阶段提取水印。

水印嵌入步骤:

  • 1)计算FoZM / FoPZM:先将原方程进行离散化,这里有一个预处理简化
  • 2)计算重建图像:计算重建图像的最大像素值
  • 3)选择稳定的FoZM/FoPZM:去除m=4j的矩阵,正交矩的稳定性受重复阶数和重复度的影响
  • 4)嵌入鲁棒的水印信息:选择低阶矩嵌入水印,使用了量化的水印方法
  • 5)计算重建图像:对嵌入水印中的FoZM/FoPZM分量进行重构,得到图像
  • 6)规范化图像:为了正确提取水印信息,需要进行归一化
  • 7)生成鲁棒水印图像:在空间域中,将归一化后的图与载体图像合并,生成鲁棒水印图像
  • 8)生成辅助信息:嵌入鲁棒水印会在图像中产生扭曲,这些扭曲被记录下来以恢复图像。D和H合并生成最终的辅助信息
  • 9)嵌入可逆辅助信息:利用PEE方法将所有辅助信息可逆嵌入到图像的内切线圆外,最终得到水印图像

image-20240226211247916

解码过程

完整性验证:利用哈希值

  • 提取辅助信息:D与H使用相应的PEE算法提取,得到没有辅助信息的图片
  • 生成哈希值:利用算法计算没有辅助信息的图片的哈希值H’
  • 比较H与H’:如果不一样,则图像在传输过程中受到攻击,在这种情况下,我们可以直接从传输的图像中提取水印。如果一样,可以认为在传输过程中没有失真,可以无损恢复载体图像,并且可以提取水印。

提取受到攻击的图片水印:虽然被攻击的载体图像无法恢复,但低阶FoZM/FoPZM分量对几何攻击和类加性噪声攻击具有鲁棒性。因此,仍然可以有效地检测到嵌入的鲁棒水印

  • 图像去噪:由于中值滤波器对辣椒噪声有很好的去噪效果,我们设计了一种新的中值滤波去噪器。对被攻击的水印图像进行去噪预处理
  • 计算FoZM/FoPZM:计算得到被攻击图像的FoZM/FoPZM
  • 选用稳定的FoZM/FoPZM
  • 提取水印,得到水印w

提取水印并恢复未受攻击的图像:在图像未受攻击时,本方案不仅可以提取水印信息,而且可以将水印后的图像完全还原为载体图像,没有任何失真。水印提取过程与被攻击水印提取过程相同,图像恢复的具体过程如下。

  • 恢复Apq:D记录嵌入在鲁棒水印中的失真数据,D是需要恢复为包含集合的可计算数据的二进制位流,D被转换为浮点型数据。
  • 基于恢复集,重建规范后的图片
  • 恢复载体图片

实验性能

  • 辅助信息的计算:

原有方案存在问题:(1)辅助信息随着量化步长的增加而增加,导致舍入误差的增加。(2)对于不同的图像,该方案生成的辅助信息大小不同,存在辅助信息量过大而无法嵌入图像的可能性

本文提出了一种新的辅助信息计算方法。鲁棒水印的嵌入在封面图像中产生误差或失真,将误差源作为辅助信息,大大减小了辅助信息的大小(需要保存恢复集),最后结合D和H生成最终的辅助信息。

为了便于嵌入,辅助信息被转换成比特流并分成两部分。第一部分数据类型为单精度浮点数,第二部分数据类型为32位元流。

本文提出的计算方法有两个优点:1)有效地减小了辅助信息的大小;2)辅助信息的大小不随图像和量化步长∆的变化而变化,具有良好的稳定性。

此外,该方法适用于所有使用正交矩的基于mlw的鲁棒可逆水印系统,并且辅助信息的数量仅取决于嵌入水印的大小,而不取决于正交矩的选择。

  • ZM/PZM与FoZM/FoPZM性能比较

RRW-ZM和RRW-FoZM方案对几何攻击(旋转攻击和缩放攻击)的鲁棒性是相同的

FoZM/FoPZM不可见性优于ZM/PZM

综上所述,RRW-FoZM和RRW-FoPZM的不可感知性高于RRW-ZM和RRWPZM,且稳健性几乎相同。在不可感知性相同的情况下,RRW-FoZM和RRW-FoPZM方案的鲁棒性高于RRW-ZM和RRW-PZM方案,因为前者具有更大的嵌入强度。此外,由于提取的图像特征具有较高的稳定性,FoZM和FoPZM在不变图像识别中具有较高的鲁棒性。

  • 水印图像去噪

我们提出了一种自适应去噪器。去噪器首先识别水印图像是否受到噪声的攻击,然后确定噪声的类型,最后根据噪声的类型执行相应的去噪策略。具体步骤如下:

1)计算噪声点比R:极值法找到图像的噪声点,然后去噪器计算噪声点占据的所有像素点的权值R

2)中值滤波去噪:对噪声点进行中值滤波去噪,得到图像

3)计算方差

4)识别受噪声影响的图像:R>0.001有噪音,反之没有或少量

5)识别噪声类型:在确定图像包含噪声后,用T-T1=1000,来判断图像受到高斯噪声和椒盐噪声的影响。大于是椒盐噪声,反之是高斯噪声

当去噪器判断水印图像未受到噪声攻击或噪声攻击较小时,直接输出图像㼿,不对水印图像进行任何处理㼿。

当去噪器判断水印图像受到椒盐噪声攻击时,采用极值判断法确定噪声点,对噪声点进行中值滤波后生成图像1,最终输出图像1。

当去噪器判断水印图像受到较大高斯噪声攻击时,对图像㼿进行中值滤波,生成图像2,最终输出2。

我们发现图像的方差越大,该图像的正交矩对高斯噪声的鲁棒性越差。FoZM/FoPZM本身对较小的高斯噪声具有较好的鲁棒性,仅在高斯噪声足够大时才需要去噪;即当㼿/10 > 400时,去噪器需要对图像进行中值滤波去噪。

高斯噪声的识别精度极低,随着高斯噪声方差的增大,识别精度也随之提高。对于高斯噪声,首先,去噪器本身不需要追求高的识别精度。低阶FoZM/FoPZM对高斯噪声具有较好的鲁棒性,精度过高会导致去噪后水印的鲁棒性降低。其次,对于方差较小的高斯噪声,中值滤波去噪过程对图像本身的破坏大于对噪声的破坏,这也导致水印的鲁棒性较低。

即使去噪器错误地将低密度胡椒噪声识别为高斯噪声,应用中值滤波对整个图像的去噪对水印的鲁棒性影响也很小,因为对具有低密度胡椒噪声的噪声点使用中值滤波对图像的破坏性要小于对整个图像使用中值滤波,这也解释了为什么图9(b)中胡椒噪声密度为0.1时的鲁棒性略差。对于高密度的椒盐噪声,去噪器需要追求较高的识别精度,然后采用聚焦去噪策略来提高水印的鲁棒性。

有噪的该方案不能抵抗椒盐噪声攻击,中值滤波器对于去除椒盐噪声特别有用,因此中值滤波器对水印噪声的去除效果并不好。

实验结果

  • 抗几何攻击的鲁棒性

值得注意的是,没有去噪的方案几乎不受椒盐噪声攻击的影响,误码率接近50%。在对水印图像进行去噪处理后,该去噪方案对误码率为0%的椒盐噪声具有较好的鲁棒性。

  • 对常规攻击的稳健性

本文提出的水印方案对几何失真、JPEG压缩、JPEG2000压缩、噪声处理和过滤波攻击具有较好的稳健性,能够较好地恢复封面图像

解决问题

(1)一种新的辅助信息提取方法。不仅减少了辅助信息的大小,而且提高了基于正交矩的基于mlw的RRW方案的稳定性。

(2)当不可感知性不可区分时,带fom的RRW具有更好的鲁棒性。

(3)提出了一种新的基于中值滤波的去噪方法,提高了RRW对常规攻击的鲁棒性。

一方面,我们的目标是进一步减少辅助信息,提高水印方案的容量。另一方面,我们将应用深度神经网络模型作为图像去噪的工具,进一步提高水印方案的鲁棒性。

  • 应用深度神经网络模型作为图像去噪的工具