Spring aware接口的作用是什么
255
2022-10-08
从免费的WEB应用防火墙hihttps谈机器学习之生成对抗规则
一、 样本采集和图形图像的人工智能一样,机器学习无论是有监督还是无监督,第一步都是先采集样本。web安全有先天性的样本采集优势,成本几乎为0,方法是:通过反向代理的模式采集完整的HTTP协议数据,可以参考hi,样本要求如下:1、足够的随机化,在不同的IP地址之间随机采集。2、足够多的样本,保证99.99%的正确率,至少需要采集数万份的样本。3、足够的时间,至少在不同的时间段采集3-7天的样本。4、尽量是正常流量下采集,减少样本没有被**污染的可能性。5、完整的数据,样本包括全部的HTTP 请求头和body。
基于机器学习的web应用防火墙hii/hi/hi/hi/hi/hi1=1’……
当采集到的样本数量,达到一定数量(如1万),hi滤噪在正常的情况下,拿到的样本绝大多数是大量重复性存在的,但是也不排除样本存在**,也就是说,个别样本可能已经被污染了,hi的OWASP规则很牛,先跑一遍过滤。
经过滤噪处理后,我们把样本就分为正常和异常样本,正常的如下:
GET /hi/hi/hi/hi/hi1=1’……
整个过程,无监督进行,可以用到的数学算法有K均值(K-Mean)、主成分分析PCA、切比雪夫不等式、高斯混合模型GMM、稀疏矩阵……具体的算法源码可以参考降维滤噪后最重要的一步就是降维,这是机器学习的核心。降维就是通过特定的数学算法,把复杂的东西,用特征表达向量,变为机器可以理解的东东,降维方法分为线性降维(PCA 、ICA LDA、LFA、LPP等)和非线性降维KPCA 、KICA、KDA、ISOMAP、LLE、LE、LPP、LTSA、MVU等)。怎么让机器理解/hi1=1’这就是一条***呢?在web安全领域和图形图像完全不同,主要就是涉及自然语言处理,尤其是文本的识别,主要有下面几种模型:1、词袋模型文本的降维本质上涉及到了文本的表达形式。在传统的词袋模型当中,对于每一个词采用one-hot稀疏编码的形式,假设目标语料中共有N个唯一确认的词,那么需要一个长度N的词典,词典的每一个位置表达了文本中出现的某一个词。在某一种特征表达下,比如词频、binary、tf-idf等,可以将任意词,或者文本表达在一个N维的向量空间里。凭借该向量空间的表达,可以使用机器学习算法,进行后续任务处理。这种方式被称为n-gram语法,指文本中连续出现的n个语词。当n分别为1、2、3时,又分别称为一元语法(unigram)、二元语法(bigram)与三元语法(trigram)。
2、维度选择方法常用的有卡方、互信息这种统计检验的方法;还有借助机器学习模型降维的方法。比如,使用随机森林,或者逻辑回归等模型,筛选出那些在分类任务中具有较大特征重要性,或者系数绝对值较大的TOP特征作为降维后的特征集合。
3、主题模型主题模型同时具备了降维和语义表达的效果,比如LSI、LDA、PLSA、HDP等统计主题模型,这些模型寻求文本在低维空间(不同主题上)的表达,在降低维度的同时,尽可能保留原有文本的语义信息。
4、神经网络如卷积神经CNN、循环神经RNN等。
五、生成对抗规则最后hi,精确给这个/hi/hi 参数缺失GET /hi id参数不对GET /hi 未知….....最后总结如下:1、整个过程完全是无监督的机器学习,有些特殊的参数,也可以由网络安全专家人为干预半监督,从而从99.9%到100%准确率的进化。2、传统的waf规则很难对付未知漏洞和未知。让机器像人一样学习,具有一定智能自动对抗APT或许是唯一有效途径,但***技术本身就是人类最顶尖智力的较量,WEB安全仍然任重而道远。3、幸好hihttps这类免费的应用防火墙在机器学习、自主对抗中开了很好一个头,未来WEB安全很可能是特征工程+机器学习共同完成,必然是AI的天下。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~