python中文编码问题

在ubuntu下使用python,目标是用beautifulsoup抓取百度贴吧的一个链接，获取它的title然后打印出来。现在的问题是百度的编码是gbk,我用如下代码:
c = urllib2.urlopen('http://tieba.baidu.com/p/2163299007')
soup = BeautifulSoup(c.read)
title = soup('title')[0].string
str = title.decode('gbk').encode('utf-8')
print str
结果输出的还是乱码，大家有什么想法么。。

title

str

soup

6 replies • 1970-01-01 08:00:00 +08:00

liubo

Mar 24, 2013

c = urllib2.urlopen('http://tieba.baidu.com/p/2163299007').read()
soup = BeautifulSoup(c,fromEncoding="gbk")
title = soup('title')[0].string
print title

polythene

Mar 24, 2013

soup('title')[0].get_text()是一unicode串，然后可以encode为各种编码

nkliwenjian

Mar 24, 2013

我只是来吐槽一下的。抛开1楼的fromEncoding不谈，只谈编程思路。
c = urllib2.urlopen('http://tieba.baidu.com/p/2163299007')
c是最原始的输入，如果需要编码解码的话应该是在原始输入这里来进行，跑那么后进行干嘛？
完全可以先c.read().decode('gbk').encode('utf-8')，再放到BeautifulSoup里面去处理

shlzs123

Jun 20, 2013

您好，我是饿了么的招聘顾问，请问您投递的简历邮箱地址是多少？我会特别关注一下。

Elwin

Jun 20, 2013

@shlzs123 [email protected]，我大概是前天发的邮件吧:-)~

Elwin

Jun 22, 2013

@shlzs123 有收到简历么 T T。。。