Web安全之机器学习 - 入门第一章

2020-7-23 宋宋宋

如果你对Web安全-机器学习入门感兴趣,那可以继续往下看此文了。我是根据《Web安全之机器学习入门》此书做总结,提炼干货。


为什么要机器学习?

    传统正则,规则匹配已经落后,且不断存在绕过方法,需要让机器使用一些算法,识别出攻击样本的特征向量,更纯粹的解决问题。


机器学习的概念:

    1.有监督学习(训练样本全部标记)

    2.无监督学习(无标记训练,例如聚类)

    3.准确率与召回率

           准确率:准确获取/全部总数 召回率:准确获取/准确总数


数据集:

    就是样本数据


效果验证:

    K折交叉验证:分割k份,保留一个,训练其他,交叉重复K次,提高准确率。


K邻近算法:

    我的理解是:近朱者赤近墨者黑。你离我近,我就认为你是大佬的概率大,离我远,这个概率就小。

    检测异常操作:

        收集样本,特征化(向量化),训练模型,效果验证。

        检出率:异常操作:93% Rootkit:90% Webshell:95% (平均)


决策树算法:

    就像一个二叉树。表达了对象属性与对象值的映射关系。

    随机森林算法:

        理解为茂盛的决策树。


朴素贝叶斯算法:

    也叫NB算法,基于简单假定,目标与属性相互独立。

    NB包括以下算法:高斯朴素贝叶斯,多项式朴素贝叶斯,伯努利朴素贝叶斯

    异常检测同K邻近算法。

    检出率:异常操作:92% Webshell:96% DGA域名:93% 识别验证码:55%  (平均)(可见其在非黑即白的问题上处理较好)


逻辑回归算法:

    就是回归分析,算预测算法,简单理解,就是以史为鉴,猜测未来发生的事。

    检出率:JAVA溢出攻击:93% 识别验证码:80% (平均)(不太适合用于安全领域)


支持向量机算法:

    可以理解为,一刀切西瓜,平面切,立着切,分开的部分认为不同,即非黑即白。


未完待续。。。

标签: 机器学习

发表评论:

密码站 2013 - 2020 | 辽ICP备17016418号-1