基于文档图架构的恶意PDF文档检测方法

发布时间：2022-01-05 10:56:53 所属栏目：安全来源：互联网

导读：目前基于机器学习的恶意PDF文档检测方法依赖于专家经验来遴选特征，无法全面反映文档属性。而且在面对对抗样本时，检测器性能下降明显。针对上述问题，提出了一种基于文档图结构和卷积神经网络的恶意PDF文档检测方法。该方法解析文档结构，根据文档中各对象之

目前基于机器学习的恶意PDF文档检测方法依赖于专家经验来遴选特征，无法全面反映文档属性。而且在面对对抗样本时，检测器性能下降明显。针对上述问题，提出了一种基于文档图结构和卷积神经网络的恶意PDF文档检测方法。该方法解析文档结构，根据文档中各对象之间的引用关系构建出有向图。然后，通过TF-IDF算法计算各节点对分类的贡献度来进行图结构精简。最后，计算精简后图的邻接矩阵和度矩阵，并得到图的拉普拉斯矩阵，以此作为特征送入CNN分类模型进行训练。同时还加入了对抗样本，对模型进行对抗训练。实验评估表明，在给定训练和测试样本比例9:1条件下，不断调整神经网络结构和参数，该方法的准确率达到了99.71%，性能优于KNN和SVM分类模型。在针对对抗样本的检测上，与知名在线检测网站VirusTotal上的67款杀毒引擎相比，该方法取得了更高的检测性能。

PDF(Portable Document Format)文档的使用非常广泛。随着版本的更新换代，PDF文档包含的功能也变得多种多样，但其中一些鲜为人知的功能(如文件嵌入、JavaScript代码执行、动态表单等)越来越多地被不法分子利用，来实施恶意网络攻击行为[1]。APT(Advanced Persistent Threat)攻击[2]常常构造巧妙伪装的恶意PDF文档，通过钓鱼邮件攻击等手段诱骗受害者下载，从而侵入或破坏计算机系统。相比传统的恶意可执行程序，恶意文档具有更强的迷惑性。

基于机器学习的检测方法被研究人员广为使用，主要可以分为静态检测、动态检测和动静结合检测方法[3]。而现有的恶意文档特征选择方法大多依赖于专家的知识驱动，在恶意文档的手动分析期间进行观察来选择特征集(如调用类对象的数量、文档页数或版本号等)，或是通过数学统计分析将特征细化(如某类对象在所有对象中的占比)。由于特征可选取的范围很大，如果仅仅根据经验选取了一部分作为特征集，就会丧失文档的部分信息，无法全面地表达文档特性。由于PDF文档格式的复杂性，其逻辑结构包含了大量的文档语义。文献[4]认为通过对结构属性的综合分析能够解释恶意和良性PDF文档之间的显著结构差异。因此本文设计通过综合分析文档的逻辑结构，以文档的结构图为特征进行检测，而不是独立的结构路径。即使攻击者知道哪些对象是成功检测的关键，并可能针对性地修改某一特定路径，但这样就会破坏文档的整体结构，因此逃避检测的成本很高。

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

DNS曝高危漏洞关系数	优秀网络安全工程师的
物联网还不够安全但能	微软在 Linux 中发觉了