README.md


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55

# SDProjects


## 项目简介

山东省网站ipv6测量项目，在单v6环境下对网站进行深度采集，记录网站性能指标。

## 环境依赖

Python 3.6以上
```
pip install requests
pip install urllib.parse
pip install bs4
pip install multiprocessing
pip install selenium
pip install tqdm

```
此外，还需要手动安装与Chrome浏览器版本适配的webdriver

## 目录结构

/master

    getWebInfo.py
    homepageAve.py
    /result 存储运行结果
    /data 需自行创建

## getWebInfo.py介绍


-- 输入：目标网站首页网址 或者 以txt格式存储的网站列表

-- 输出：保存在result目录下，命名为“目标网站域名.json”的网站信息文件。 例如“fgw.shandong.gov.cn.json”。

-- 网站信息内容：json格式，记录网站首页网址、首页响应码、二三级链接中的子域名和所有域名、子页面的响应码、响应时间和网页源码。

-- 备注：可直接抓取单个指定网站，也可多进程同时抓取多个网站。具体在153行程序入口处选择。若要处理多个网站，需创建./data目录并在其中保存网站列表文件。

## homepageAve.py介绍

--输入：以txt格式存储的网站列表（同上）

--功能选择：在程序入口处可选择对应的功能：deal_urls（批量获得网站首页的响应响应码）、deal_websites（获取网站首页10次访问的成功次数与平均时延）、page_time（单页面单次访问渲染所需时间）

--输出：

    deal_urls --> urls_status.csv （网站，响应状态码）
    deal_websites --> websitesTimeInfo.csv （网站，访问成功次数，平均访问时延）