summaryrefslogtreecommitdiff
path: root/README.md
blob: 099d57b9919b55b4833a29ce0e3e6e21bef4f79a (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
# SDProjects



## 项目简介

山东省网站ipv6测量项目,在单v6环境下对网站进行深度采集,记录网站性能指标。

## 环境依赖

Python 3.6以上
```
pip install requests
pip install urllib.parse
pip install bs4
pip install multiprocessing
pip install selenium
pip install tqdm

```
此外,还需要手动安装与Chrome浏览器版本适配的webdriver

## 目录结构

/master

    getWebInfo.py
    homepageAve.py
    /result 存储运行结果
    /data 需自行创建

## getWebInfo.py介绍


-- 输入:目标网站首页网址 或者 以txt格式存储的网站列表

-- 输出:保存在result目录下,命名为“目标网站域名.json”的网站信息文件。 例如“fgw.shandong.gov.cn.json”。

-- 网站信息内容:json格式,记录网站首页网址、首页响应码、二三级链接中的子域名和所有域名、子页面的响应码、响应时间和网页源码。

-- 备注:可直接抓取单个指定网站,也可多进程同时抓取多个网站。具体在153行程序入口处选择。若要处理多个网站,需创建./data目录并在其中保存网站列表文件。

## homepageAve.py介绍

--输入:以txt格式存储的网站列表(同上)

--功能选择:在程序入口处可选择对应的功能:deal_urls(批量获得网站首页的响应响应码)、deal_websites(获取网站首页10次访问的成功次数与平均时延)、page_time(单页面单次访问渲染所需时间)

--输出:

    deal_urls --> urls_status.csv (网站,响应状态码)
    deal_websites --> websitesTimeInfo.csv (网站,访问成功次数,平均访问时延)