python
模块安装 python -m pip install chardet
基本语法
字符串连接(如果是整型就会做加法) +
函数
字符串处理
'abc'.upper() # 就字母转成大写isinstance(x,str) #判断是否为字符串type(str) #获取变量类型
HTML实体转换
抓网页数据经常遇到例如>或者 这种HTML转义符,抓到字符串里很是烦人。比方说一个从网页中抓到的字符串html = '<abc>'用Python可以这样处理:import HTMLParserhtml_parser = HTMLParser.HTMLParser()txt = html_parser.unescape(html) #这样就得到了txt = ''如果还想转回去,可以这样:import cgihtml = cgi.escape(txt) # 这样又回到了 html = '<abc>'
把字符转成url编码
urllib.quote("这是中文")
字符编码处理
import sys #引用sys模块进来,并不是进行sys的第一次加载reload(sys) #重新加载syssys.setdefaultencoding('utf8') #调用setdefaultencoding函数print sys.getdefaultencoding() #获取系统默认编码
通过模块方式来获取字符编码
import chardetchardet.detect(str)
编码的判断
isinstance(s, unicode) #用来判断是否为unicode
通过函数转换编码
chardet.detect(article[0]).get('encoding','utf-8')
数学函数-模块
range(1,100) #生成之间数 注意: range(1, 100, 2) 可以生成list [1, 3, 5, 7, 9,...]
math模块
math.sqrt #开方
列表函数-list
L.append(x * x) #向列表里增加元素
词典函数-dict