从免费的WEB应用防火墙hihttps谈机器学习之样本采集

网友投稿 414 2022-10-08


从免费的WEB应用防火墙hihttps谈机器学习之样本采集

hi究竟什么是web?网络安全专家通常认为:web恶意很多是有其特殊的URL特征,如恶意扫描 GET /hi../…/../etc/passwdSQL注入 GET /hior 1='1XSS GET /hi/hi/hi/hi+ PHP-FPM的服务器 URL发送 %0a 时,可以执行任意远程命令,从而控制整个服务器。也就是说:GET /hi机器学习重新定义网络安全和图形图像的机器学习相比,web安全采集样本的成本是最低的,因为只要把软件在服务器上运行即可采集,甚至读取web日志文件,就可以拿到大量的样本,而成本几乎是0。但**样本太稀缺了,根本无法拿完并且日新月异,从这个角度也可以说无监督或者半监督学习,才是未来web安全的发展方向。下面举例:

如果从web服务器上hior 1='1hi/hihi/hihi/hi样本采集原则1、足够的随机化,在不同的IP地址之间随机采集。2、足够多的样本,保证99.99%的正确率,至少需要采集数万份的样本。3、足够的时间,至少在不同的时间段采集3-7天的样本。4、尽量是正常流量,样本没有被**污染。5、完整的数据,样本包括全部的HTTP 请求头和body。

所以从web日志里面来读取样本数据是有限的,最好用WAF实际部署方式来采集。对于SSL加密的样本采集通常用反向代理方式采集,可以参考hihttps源码https://github.com/qq4108863四、总结1、现在的网络都基于逻辑漏洞进行APT,传统的waf规则很难对付未知漏洞和未知。2、让机器像人一样学习,具有一定智能自动对抗APT或许是唯一有效途径。但***技术本身就是人类最顶尖智力的较量,WEB安全仍然任重而道远,3、幸好hihttps这类免费的应用防火墙在机器学习、自主对抗中开了很好一个头,未来web安全很可能是特征工程+机器学习共同完成,笔者将在下一篇文章中介绍怎么从样本中提取特征,自动生成对抗规则,未来WEB安全必然是AI的天下。


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:java数据结构基础:顺序队列和循环队列
下一篇:人人都应该懂点密码学(人人可懂的密码学)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~