# SDProjects ## 项目简介 山东省网站ipv6测量项目,在单v6环境下对网站进行深度采集,记录网站性能指标。 ## 环境依赖 Python 3.6以上 ``` pip install requests pip install urllib.parse pip install bs4 pip install multiprocessing pip install selenium pip install tqdm ``` 此外,还需要手动安装与Chrome浏览器版本适配的webdriver ## 目录结构 /master getWebInfo.py homepageAve.py /result 存储运行结果 /data 需自行创建 ## getWebInfo.py介绍 -- 输入:目标网站首页网址 或者 以txt格式存储的网站列表 -- 输出:保存在result目录下,命名为“目标网站域名.json”的网站信息文件。 例如“fgw.shandong.gov.cn.json”。 -- 网站信息内容:json格式,记录网站首页网址、首页响应码、二三级链接中的子域名和所有域名、子页面的响应码、响应时间和网页源码。 -- 备注:可直接抓取单个指定网站,也可多进程同时抓取多个网站。具体在153行程序入口处选择。若要处理多个网站,需创建./data目录并在其中保存网站列表文件。 ## homepageAve.py介绍 --输入:以txt格式存储的网站列表(同上) --功能选择:在程序入口处可选择对应的功能:deal_urls(批量获得网站首页的响应响应码)、deal_websites(获取网站首页10次访问的成功次数与平均时延)、page_time(单页面单次访问渲染所需时间) --输出: deal_urls --> urls_status.csv (网站,响应状态码) deal_websites --> websitesTimeInfo.csv (网站,访问成功次数,平均访问时延)