- 联系我们
唐山华鑫私家侦探社
电 话 :l53-6950-8649
传 真 :0315-8238l53
地 址 :唐山西外环马驹桥过街人行天桥北行200米
电 话 :l53-6950-8649
传 真 :0315-8238l53
地 址 :唐山西外环马驹桥过街人行天桥北行200米
基于内容的敏感图像取证分析研究
【摘 要】基于内容的计算机取证技术是近年来兴起的一个新的研究领域。本文在充分分析敏感图像特征的基础上,从计算机取证中敏感图像分析技术的现状出发,提出了基于计算机视觉与模式识别的敏感图像查找方法。该方法将人体肤色模型、人脸模型以及感兴趣区域检测等多项图像特征识别技术相结合,实现针对敏感图像的取证搜索。我们利用统计阈值法评价了各个特征分类图像的能力强弱,并实现了一个敏感图像分类器。实现结果表明,该方法能够达到90.02%以上的准确率,具有较高的实用性和应用价值。
【关键词】计算机取证;敏感图像;肤色检测;人脸检测 文章编号:1673-0380(2013)012 -0455-03 近年来,随着互联网的普及,因特网用户的持续快速地增加,宽带网络的普及使许多计算机上都存放了成千上万的图像,而这些图像可能进行过缩放、旋转、降低质量等多种图像变换,因此寻找敏感图像信息的工作量十分巨大。基于内容的计算机敏感图像取证分析变得越来越重要。 计算机敏感图像取证分析的关键任务之一是在目标机器上寻找敏感图像,而基于内容的图像检索技术(CBIR)是正确识别敏感图像的基础。2004年,Yi-xin Chen等 [1]提出了将基于内容的图像检索方法用于计算机取证调查,以达到让计算机自动识别和获取案件中的感兴趣图像的目的。但传统的基于图像内容的识别技术往往采取类似图像检索的方式,识别中所用的特征来自图像的低层语义,识别率不高。肤色检测是基于内容的敏感图像识别的关键技术之一。目前,人们在研究领域较常用的肤色检测算法有:贝叶斯分类器模型[2];种子像素邻域扩展模型[3];色度空间模型[4]。实验证明,色度空间模型肤色算法具有很好的强健性,检测效果也较其他两种方法好[5][6][7]。但是现有的肤色算法容易将图像中的非肤色区域检测为肤色,如眼睛区域,以及受光照影响严重。 针对以上问题,我们将人体肤色模型、人脸模型以及感兴趣区域检测等多项图像特征识别技术相结合。首先在已有的色度空间模型的基础上采用了一种新的检测肤色像素的方法——基于亮度的色度空间模型肤色算法,采用YUV和YIQ以及KL变换相结合的方法。实验证明,该算法能取得很好地效果,提高了正检率。 由于依靠肤色检测,还不能解决一些正常类图像的误检问题,如人脸面积占整个图像大小比例比较大的肖像类图像。为了有效降低这类正常类图像的误检率,我们对设计的基于AdaBoost的决策树分类器加入了特定的人脸机制。对上述两种技术已经可以将大多数的敏感图像检测到,但大量的混淆在所难免,例如具有近似肤色的物体。为了尽量降低误检率,在不牺牲查全率的前提下,我们增加了感兴趣区域检测(如乳房区域)来检测敏感图像。实验结果表明,使用简单的概率阈值判断规则,可以大量减少对敏感图像的误检,实现敏感图像的高准确率。 本文接下来的安排如下:第1节是系统设计;第2节是人脸检测;第3节是感兴趣区域检测;第4节是肤色检测;第5节是构造基于AdaBoost方法[8][9]的决策树分类器;第6节是实验结果与分析;最后是结束语。 一、系统设计 基于内容的敏感图像取证分析系统可以分为两个部分:一是标准图像特征库的创建,一是图像的内容分析。我们整个系统设计最主要的部分是图像内容分析,其分析流程分为如下6个模块:图像预处理,人脸检测,肤色检测,特征提取和决策分类器,局部形态SIFT检测模块,如下图所示。 图1 图像内容分析流程 图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图像分割、匹配和识别的可靠性。预处理过程一般有数字化、几何变换、归一化、平滑、复原和增强等步骤。针对肖像类这一类特殊图像,它们的预处理还包括人脸扶正,人脸图像的增强等工作,以增加人脸检测机制的精度。同时通过图像预处理可以有效降低图像中人体肤色区域的高光及阴影部分对后续肤色检测的影响,以提高肤色检测精度。 为了有效降低正常类图像的误检测率和提高敏感类图像的正检率,针对我们所设计的分类器,我们加入两个特定机制--人脸检测机制和感兴趣区域检测机制。肤色检测主要利用肤色的统计信息来获得肤色掩码,用于计算分类特征。特征提取结合肤色掩码和原图像提取出用于分类的特征向量,这些特征主要包括颜色特征和形状特征。 二、人脸检测 (一)人脸检测机制 在本分类器中,一个很重要的决策依据就是图像中肤色面积的比例大小,而在一些类似大头贴式的肖像类正常图像中人脸将占据很大的比例,加入人脸检测后可以将检测到的人脸从肤色掩码中去掉,这样可以大大降低正常类图像的误检测率,通过调整分类阈值,同时可使敏感图像的正检率基本不受影响。 (二)基于AdaBoost的人脸检测 本系统采用Rainer Lienhart[8][9]提出的AdaBoost和Cascade相结合的方法来进行人脸检测。我们使用由自己训练的特征进行人脸检测,主要函数来自Intel公司开发的OPENCV库。该检测器检测窗口大小为20×20像素,对正面人脸的检测效果最佳,同时对于角度偏斜不是太大的人脸也能检测到。 基于Harr-like特征的Adaboost算法,其关键步骤如下: 第一步为被称为积分图像(Integral Image)的图像描述方式,如图3所示。 矩形D的像素和可由4个点的积分图像值来计算。其中,点1处的积分图像值即为矩形A中所有像素之和,点2处为AB之和,点3处为AC之和,点4处为ABCD之和,则矩形D区域内的像素和可由4+1-(2+3)来计算。 图2 Integral Image图像描述方式 第二步利用Adaboost算法从大量的实际数据中抽取少量的反应图像本质的属性特征。该分类器具体学习算法如下: 给定样本图像,…, 其中, 分别对初始化权值,其中m和l分别为反例的个数和正例的个数。 对t=1,…,: 1. 归一化权重,使成为一个概率分布; 2. 对每个特征j,训练一个使用单个特征的分类器hj,计算对于的误差: ; 3. 选择具有最小误差的分类器; 4. 更新权重: 若样本被正确分类,则,反之。 得到最终的强分类器: 其中 第三步将强分类器级联在一起,构成更复杂的瀑布型分类器。 我们训练对象集使用的是一套 MIT 的人脸训练样本库,共有样本 10,000个,其中人脸样本7,000个,非人脸样本3,000个。其中人脸图像的示例参见图 ,非人脸图像的示例参见下图。这个样本库中的人脸样本都是20×20像素,正面正向人脸,有同一个人的多种光照条件下的样本。非人脸样本尺寸和人脸样本相同,是从图像中随机自动截取的。这个样本库的将侧面人脸、非正向人脸、有遮挡的人脸都归入了非人脸样本。因此,依此样本库训练的强分类器只对正面正向人脸敏感。我们采用标准的7:3的比例,在改进的检测器上进行实验,结果检测率达到92%以上,比OPENCV自带的检测器的检测效果要好。 图3 部分MIT训练样本 上行为人脸样本,下行为非人脸样本 (三)加入人脸检测后对分类器性能的影响 在我们的正面人脸图像库上,运用AdaBoost人脸检测算法检测人脸有三种结果:一种能检测到人脸且检测到的人脸位置与实际位置相符;另一种误将非人脸位置标记为人脸;第三种则根本检测不到人脸。结果如表1所示,第一种的情况占绝大多数(正检率为91.88%),但在统计对分类器的性能影响时也应考虑检测错误下的情况。 表 1 加入人脸检测检测前后分类器性能比较 从检测结果可以看出: (1)在正常类正面图像库上,人脸所占百分比较高(统计平均为12%),去掉人脸区域后使得肤色区域所占百分比明显降低,从而提高了分类正确率(提高近21%),很好地验证了我们的改进思路; (2)在敏感类正面图像库上,人脸所占平均百分比较低(统计平均为4.8%),去掉这些区域后对整体肤色比例影响不大,动态调整阈值后,可使得加入人脸检测后分类性能基本保持不变。 综上所述可以得到这样一个结论:加入人脸检测机制后,能有效地提高分类器的分类准确率(在我们的实验库上,分类准确率提高近10%),可以将这一机制应用到我们的敏感图像分类器中。 三、感兴趣区域检测 (一)感兴趣区域检测机制 在本分类器中,一个很重要的决策依据就是图像中肤色面积的比例大小,而在一些只存在部分敏感区域的敏感图像中肤色区域占据很小的比例,加入感兴趣区域检测后可以将图像中是否存在感兴趣区域作为判断依据,这样可以大大降低敏感类图像的误检测率,通过调整分类阈值,同时可使正常图像的正检率基本不受影响。 (二)基于AdaBoost的感兴趣区域检测 本系统采用Rainer Lienhart[8][9]提出的AdaBoost和Cascade相结合的方法来进行感兴趣区域检测。我们使用由自己训练的特征进行感兴趣区域(如:乳房区域)检测,主要函数来自Intel公司开发的OPENCV库。该检测器检测窗口大小为40×40像素,对正面感兴趣区域的检测效果最佳,同时对于角度偏斜不是太大的感兴趣区域也能检测到。 我们训练对象集使用的是一套自己采集的感兴趣区域训练样本库,共有样本 7,500个,其中感兴趣区域样本5,000个,非感兴趣区域样本2,500个。这个样本库中的感兴趣区域样本都是20×20像素,正面和侧面的样本都有,有同一个区域的多种光照条件下的样本。非感兴趣区域样本尺寸和感兴趣区域样本相同,是从图像中随机自动截取的。检测率达到90%以上。 表 2 加入感兴趣区域检测检测前后分类器性能比较 从检测结果可以看出: (1)在正常类正面图像库上,因为没有感兴趣区域,加入感兴趣区域检测后分类性能无影响;很好地验证了我们的改进思路; (2)在敏感类正面图像库上,感兴趣区域所占平均百分比较低,所以无法用传统的肤色比例分类,而我们采用新的感兴趣区域检测分类,得到很好地效果。 综上所述可以得到这样一个结论:加入感兴趣区域检测机制后,能有效地提高分类器的分类准确率(在我们的实验库上,分类准确率提高5%),可以将这一机制应用到我们的敏感图像分类器中。 四、肤色检测模型 基于内容的敏感图像检索可以看作是一个图像理解与识别问题。由于图像背景复杂、光照条件不一、人体表现姿态多样等,因此很难用一个简单的模型把所有的特征表示出来。根据视觉对图像的分析机理和色情图像本身的特点一有裸露肌肤,因此准确快速地检测出图像中的肤色区域是进一步对图像进行其他处理的基础。 取检测精度和速度较好的基于亮度的色度空间模型作为我们的肤色检测算法。色度空间模型中我们选取YUV和YIQ颜色空间以及KL变换相结合的方法。色度空间模型利用肤色在YUV和YIQ颜色空间以及KL变换上的分布特征来进行肤色检测。YUV颜色空间中,色调由相位角θ表示:θ=arctan(|V|/|U|)。对大量包含人体域的彩色图像统计后发现,在YUV空间的UV平面上,人体肤色色调介于红、黄之间,θ的变化范围基本上在[96,154]之间。 图 4 YUV空间肤色色调分布 以相位角θ为特征进行图像分割可以滤掉与肤色在色调上有较大区别的背景,但仅采用此特征难以把肤色与棕色头发或灰色背景分开,因此可以在YIQ空间上利用彩色的饱和度信息来增强分割效果。人体肤色包含了较多的黄色分量,而I分量代表了从桔黄到蓝绿的色调,I值越小,包含的黄色越多,蓝绿色越小,基本涵盖了人体肤色的颜色范围。通过统计可确定人体肤色的I值范围为[18,92]。 图 5 YIQ空间肤色I值分布 在众多的肤色定位方法中,所面对的一个关键问题就是寻找到一个合适的色系坐标系,使得这个坐标系的变化集中在某二维上,由此设定阈值以确定肤色,使得在此阈值范围内的非肤色越少越好。而KL变换真是具有这中集中变化的作用。KL变换是通过建立KL肤色坐标系来进行肤色判断的。令X=[R,G,B]为原始的三基色,经式(1)变换后,三原色变为Y=[K1,K2,K3]。通过统计可确定人体肤色的阈值大致为:K1∈(110.2,376.3);K2∈(-61.3,32.9);K3∈(-18.8,19.5)。 (1) 多次实验统计表明,对于亮度小于80的非肤色像素点会误判为肤色点,比如眼睛区域等。同时大部分肤色点的亮度小于260通过。把彩色图像的像素P由RGB空间变换到YUV和YIQ空间以及通过KL变换,如果满足条件:Y∈[80,260]和θ∈[96,154]和I∈[18,92]并且K1∈(110.2,376.3);K2∈(-61.3,32.9);K3∈(-18.8,19.5),则认为该像素是属于肤色。 五、构造基于AdaBoost方法的决策树分类器 敏感图像区别于非敏感图像最明显的特征就是肌肤裸露较多,即图像中肤色区域的比例较大。并且肤色区域较为集中,裸露的肌肤区域比较连贯,体现在特征向量中即肤色矩形区域的比例较大,连通域的数目较少,且最大连通域所占图像肤色区域比例较大。由历史经验和各分量在训练库样本上的分布可知,虽然各特征分量都能体现出敏感图像和正常图像的差别,但它们分类的强弱程度存在差异。因此,采用基于AdaBoost方法的决策树分类器,可实现图像的分类。 我们初次分类所采用的主要特征如下: 1)人脸区域占整个肤色区域的百分比(a); 2)肤色占整个图像的百分比(b); 3) 最大肤色连通区域占肤色区域的百分比(c); 4)最大肤色连通区域占图像的百分比(d)。 图 6 具有两个决策水平的决策树分类器 该分类器设计简单快速,还可以针对不同特征组合实现“分隔解决”。其中,F(L1)={敏感,F(L2)},F(L2)={敏感,正常},为输入图像对应的特征向量。在L1和L2的两个决策水平上我们所使用不同的特征组合作为决策依据。 在我们的系统中,我们将特征a和b组合作为L1的决策特征。对于分类特征阈值的确定,我们借鉴了确定COR(skin color occupation rate)的方法,同时通过实验数据的测试,最后确定特征a的阈值为0.175,特征b阈值为0.20。其他特征阈值类似。 六、实验结果与分析 为确定权值、阈值和验证算法的有效性,这里定义了4个参数 首先通过先验知识和各特征分量在训练集上的分布情况估计各特征分量的权值,然后通过大量实验最终确定权值和阈值。各种分类算法的性能比较结果如表3所示。 表 3 分类性能比较结果(如下表) 方法 1:基于亮度自适应色度空间模型肤色算法 色度空间模型采用YUV和YIQ结合 方法 2:基于人脸检测和统计直方图-贝叶斯模型的 敏感图像检测算法 方法 3:本文所使用的算法 通过前面的系统分析,可以得到系统的识别准确率,敏感图像的识别率达到90.02%。识别率和速度尽管已经达到了很高的要求,但是发现还存在如下一些问题: (1)所利用的人脸检测不是很准确,特别是对于人脸区 域不处于图像正常位置,影响了正检率; (2)当人物穿着与肤色相近的衣服,识别也存在一定的困难。 (3)虽然获得了较高的速度和精度,但是因为过于追求精度,对取证速度没有做过多优化,因此速度上还不是十分满意。 因此,还需要继续研究其他的方法,可以考虑采用基于Rough理论的知识发现的方法来克服这些困难;或者可以考虑通过机器学习的方法来增加识别的准确度。 七、结束语 在本文中,我们根据计算机取证对图像检索的需求,提出了利用已知敏感图像特征库在被取证计算机上查找敏感图像的思路。我们通过在现有肤色检测的算法上加入了人脸检测机制和感兴趣区域检测机制,设计相应的图像特征匹配算法,实验数据检测结果证明了算法的精确度和速度均能满足计算机取证的需求,而且精确度和速度也比目前使用的算法好。对于更有效的分类特征的提取和最佳分类器的设计还有待做进一步的改进,这是我们下一步的研究目标。 参考文献: [1 ] Yi-xin Chen, Vassil Roussev, Golden G. Richard Ⅲ, Yun Gao. Content-Based Image Retrieval for Digital Forensics. IFIP2004. 2004 [2] WEN Z,WEN G.Image guarder:an intelligent detector for adult images[C].Asian Conference on Computer Vision.ACCV 2004,Jeju Island,Korea,Jan.27~30,2004 :198-203. [3] WU X H.SHEN X J.Comparison and research on three kinds of algorithm of pixel-based skin color detection[J].Application Research of Computers,2003,9:430-432. |