我做了一个URL/Domain检索服务,托管在aws的lambda服务上

网站预览

网站数据来源

网站数据来自于 http://commoncrawl.org/,commomcrawl(以下简称cc)是一家非盈利的机构,该机构爬取了数十亿的网站的页面,并由amazon AWS提供赞助,目前这几十亿的网站数据都托管在AWS s3上。

为什么要做这个网站

在我大学的时候,我就一直在想,搞安全不能紧盯着国内的这一亩三分地,要放眼全球。
在我看来,全球的数据一共分两类,一个是IP,一个就是域名。目前有大量的机构对全球的IP进行的仔仔细细反反复复的研究,从1号端口一直到65525端口进行不间断的扫描。国外出名一点的有censys shodan,国内对应的有知道创宇和白帽汇的fofa。更多的是各个企业未公开的对全球信息资产的测绘。然而对全球网站(domain/URL)级别的研究却很少出现在大众视野中。
收集数据是一个很艰难的事情,我从大学二年级的时候便开始想靠自己去收集数据,后来发现情况并不乐观。首先是缺乏硬件上的支持,后来在有了足够的硬件支持之后发现自身的知识储备并不足够我来完成这样全球空间内的安全研究(这不仅需要一些分布式计算的知识,更需要有一个明确的研究目标)。
现在有了cc提供的全球URL及其网站数据,我想我能依靠这些数据做一些和安全相关的探索和研究。

网站功能

网站一共分两个功能,分别是子域名查找和URL检索。

域名查找

子域名查找一直是(国内)安全行业从业者的一大爱好,各式各样的子域名爆破工具层出不穷。并总结出了方方面面的收集子域名的方式。
url.fht.im的域名以能公开访问到且权重较高的域名为主。所以相比爆破得来的结果或者PDNS的结果我的网站中的子域名会少很多。但是我坚信从搜索引擎的角度收集网站信息是十分必要且不可替代的

URL查找

URL 查找的定位是明确网站中有哪些URL是让搜索引擎感兴趣的。从安全的角度上来看,单纯拿到网站的URL可能并没有太大用处,做SEO的同学可能会更关注这个事情。
但是如果进一步通过URL获得URL中的页面内容(数据由cc托管在公有的s3 bulk中),再对这些页面进行一些安全方面的分析,就可以对外提供站点风险识别服务了。

网站目前状况

网站一开始放在了我的Vultr服务器上,考虑到网站稳定性,现迁移到了AWS上,并使用lambda服务运行。

最后

url.fht.im 是民科吗?
好像是的,但是没关系 ;-D

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.