python怎么解析本地html文件,python解析本地html方法

Python爬虫每次运行时都会访问一次主机,为了避免增加主机访问负荷,一般都是在本地解析。Python解析本地html文件方法如下:
 

1.将html文件本地保存

2.在Python中打开html文件,可使用BeautifulSoup方法直接打开

3.获取本地文件资料

 
a.先爬取主页的列表资料,其中同义内容使用“@”符号连接,首先在for循环内给定一个值获取标签内的链接link=x.get('href'),接着使用sub方法指定删除link。代码如下:
link=x.get('href')
change2=re.sub(link,'',s)

 
在for循环中指定多余内容删除
b.通过def draw_base_list(doc)函数向二级详情函数传递Link参数爬取详细信息,为避免频繁访问主机,我们同样将详情页的源代码保存至本地并解析
c.将爬取下来的数据存入csv文件中