加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 安全 > 正文

基于文档图架构的恶意PDF文档检测方法

发布时间:2022-01-05 10:56:53 所属栏目:安全 来源:互联网
导读:目前基于机器学习的恶意PDF文档检测方法依赖于专家经验来遴选特征,无法全面反映文档属性。而且在面对对抗样本时,检测器性能下降明显。针对上述问题,提出了一种基于文档图结构和卷积神经网络的恶意PDF文档检测方法。该方法解析文档结构,根据文档中各对象之
目前基于机器学习的恶意PDF文档检测方法依赖于专家经验来遴选特征,无法全面反映文档属性。而且在面对对抗样本时,检测器性能下降明显。针对上述问题,提出了一种基于文档图结构和卷积神经网络的恶意PDF文档检测方法。该方法解析文档结构,根据文档中各对象之间的引用关系构建出有向图。然后,通过TF-IDF算法计算各节点对分类的贡献度来进行图结构精简。最后,计算精简后图的邻接矩阵和度矩阵,并得到图的拉普拉斯矩阵,以此作为特征送入CNN分类模型进行训练。同时还加入了对抗样本,对模型进行对抗训练。实验评估表明,在给定训练和测试样本比例9:1条件下,不断调整神经网络结构和参数,该方法的准确率达到了99.71%,性能优于KNN和SVM分类模型。在针对对抗样本的检测上,与知名在线检测网站VirusTotal上的67款杀毒引擎相比,该方法取得了更高的检测性能。

PDF(Portable Document Format)文档的使用非常广泛。随着版本的更新换代,PDF文档包含的功能也变得多种多样,但其中一些鲜为人知的功能(如文件嵌入、JavaScript代码执行、动态表单等)越来越多地被不法分子利用,来实施恶意网络攻击行为[1]。APT(Advanced Persistent Threat)攻击[2]常常构造巧妙伪装的恶意PDF文档,通过钓鱼邮件攻击等手段诱骗受害者下载,从而侵入或破坏计算机系统。相比传统的恶意可执行程序,恶意文档具有更强的迷惑性。
 
基于机器学习的检测方法被研究人员广为使用,主要可以分为静态检测、动态检测和动静结合检测方法[3]。而现有的恶意文档特征选择方法大多依赖于专家的知识驱动,在恶意文档的手动分析期间进行观察来选择特征集(如调用类对象的数量、文档页数或版本号等),或是通过数学统计分析将特征细化(如某类对象在所有对象中的占比)。由于特征可选取的范围很大,如果仅仅根据经验选取了一部分作为特征集,就会丧失文档的部分信息,无法全面地表达文档特性。由于PDF文档格式的复杂性,其逻辑结构包含了大量的文档语义。文献[4]认为通过对结构属性的综合分析能够解释恶意和良性PDF文档之间的显著结构差异。因此本文设计通过综合分析文档的逻辑结构,以文档的结构图为特征进行检测,而不是独立的结构路径。即使攻击者知道哪些对象是成功检测的关键,并可能针对性地修改某一特定路径,但这样就会破坏文档的整体结构,因此逃避检测的成本很高。

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!