freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

Python敏感地址扫描和爬取工具
2018-03-21 18:38:53

0×01 说明:

为了方便信息安全测评工作,及时收集敏感地址(初衷是爬取api地址),所以写了这么个小工具。两个简单的功能(目录扫描和url地址爬取)。

0×02 使用参数:

python spider.py -u url -s api -o output.txt  -t thread_number #通过爬虫
python spider.py -u url -s dir -f dict.txt -o output.txt #通过目录扫描

0×03 部分函数说明:

防止因末尾斜线、锚点而重复爬取(http://www.example.comhttp://www.example.comhttp://www.example.com/index.html#xxoo

1.png

爬取规则:

第一个无法爬取页面注释中的地址(<!--http://example.com/index.html-->),第二个无法爬取相对路径和php?id=等类型的地址,古结合两种规则,并排除图片视频类的地址,最后再去重

2.png

补全相对地址、防止越界(可爬取子域名,其他地址除外),并验证地址是否能正常访问

3.png

地址池

4.png

爬取功能,虽然使用了多线程,但还是比较慢,输出结果是爬取完毕的地址

5.png

目录扫描和输出到文件

6.png

0×04 代码地址:

https://github.com/silience/spider

0×05 参考链接:

#http://blog.csdn.net/foryouslgme/article/details/52242653

# python
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者