只是爬虫简单的日期和天气情况, 但是出现乱码情况,一直困扰我,没有得到解决。
#-*- coding:utf-8 -*-
import requests
from lxml import html
r = requests.get("http://www.weather.com.cn/weather/101070601.shtml")
rawdata = html.fromstring(r.text)
in_row = rawdata.xpath('//div[@id="7d"]/ul/li/h1/text() | //div[@id="7d"]/ul/li/p[1]/text()')
for i in in_row:
intro = i.encode('utf-8')
print(intro)
输出结果是这样的:
b'15\xc3\xa6\xc2\x97\xc2\xa5\xc3\xaf\xc2\xbc\xc2\x88\xc3\xa4\xc2\xbb\xc2\x8a\xc3\xa5\xc2\xa4\xc2\xa9\xc3\xaf\xc2\xbc\xc2\x89'
b'\xc3\xa6\xc2\x99\xc2\xb4'
后面还有很多 我就不复制了。
--------------------分割线------------------------------
对了 我直接 print(r.text) 输出的中文那些都是乱码情况 。
#-*- coding:utf-8 -*-
import requests
from lxml import html
r = requests.get("http://www.weather.com.cn/weather/101070601.shtml")
rawdata = html.fromstring(r.text)
in_row = rawdata.xpath('//div[@id="7d"]/ul/li/h1/text() | //div[@id="7d"]/ul/li/p[1]/text()')
for i in in_row:
intro = i.encode('utf-8')
print(intro)
输出结果是这样的:
b'15\xc3\xa6\xc2\x97\xc2\xa5\xc3\xaf\xc2\xbc\xc2\x88\xc3\xa4\xc2\xbb\xc2\x8a\xc3\xa5\xc2\xa4\xc2\xa9\xc3\xaf\xc2\xbc\xc2\x89'
b'\xc3\xa6\xc2\x99\xc2\xb4'
后面还有很多 我就不复制了。
--------------------分割线------------------------------
对了 我直接 print(r.text) 输出的中文那些都是乱码情况 。