Kingdict – ECommerce Observer

To Make Speaking Easier across world

Python WEB 客户端编程

HTTP基于请求和回应(requests &responses )-客户端制造请求服务器返回回应。urlib2用代表了你正在请求的HTTP request的Request对象反映了这些。调用urlopen函数对请求的url返回一个respons对象。这个respons是一个像file的对象,这意味着你能用.read()函数操作这个respon对象:
req = urllib2.Request(’http://www.voidspace.org.uk’)
response = urllib2.urlopen(req)
the_page = response.read()
url = ‘http://www.someserver.com/cgi-bin/register.cgi’
user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’
values = {’name’ : ‘Michael Foord’,
‘location’ : ‘Northampton’,
‘language’ : ‘Python’ }
headers = { ‘User-Agent’ : user_agent }
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
the_page = response.read()
当一个错误( HTTPError)被抛出的时候,服务器返回一个HTTP错误代码和一个错误页。你可以使用返回的HTTP错误示例。这意味着它不但具有code属性,而且同时具有read,geturl,和info,methods属性。>>> req = urllib2.Request(’http://www.python.org/fish.html’)>>> try:>>> urllib2.urlopen(req)>>> except URLError, e:>>> print [...]

Python处理中文知识

Python will default to ASCII as standard encoding if no other encoding hints are given.
# coding=
# -*- coding: -*-
中文 coding:cp936
文件中指定的编码要和实际相符合,否则的话python会报错
Python’s tokenizer/compiler combo will need to be updated to
work as follows:
1. read the file
2. [...]

加速工作的Python知识点

import types
if type(a)==types.IntType:
print “Int type”
if isinstance(data, int):
…             print ‘int’
…     elif isinstance(data, str):
…             print ’str’
python build-in functions
getattr(object, name[, default])
hasattr(object, name)
===========================
捕获所有异常
try
a=b
b=c
except Exception,ex:
print Exception,’:’,ex
except:
all unknown exception
else:
nothing happened
try:

finally:

数组操作
x代表数组中的元素,i代表位置
a) append(x) 把元素x添加到数组的尾部
b) insert(i,x) 把元素x 插入到位置i
c) remove(x) 删除第一个元素x
d) pop(i) 删除第i个元素,并返回这个元素。若调用pop()则删除最后一个元素
e) index(x) [...]

常用正则表达式-Python

http://www.96yx.com/tool/ASC2.htm ascii 码表查询
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
代码/语法 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
[aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!)。
[0-9]代表的含意与\d就是完全一致的:一位数字;同理[a-z0-9A-Z_]也完全等同于\w
\ba\w*\b匹配以字母a开头的单词——先是某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w*),最后是单词结束处(\b)。
\d+匹配1个或更多连续的数字。这里的+是和*类似的元字符,不同的是*匹配重复任意次(可能是0次),而+则匹配重复1次或更多次。
\b\w{6}\b 匹配刚好6个字符的单词。
反义
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义:
表3.常用的反义代码 代码/语法 说明
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
例子:\S+匹配不包含空白符的字符串。
]+>匹配用尖括号括起来的以a开头的字符串。
常用的处理选项 名称 说明
IgnoreCase(忽略大小写) 匹配时不区分大小写。
Multiline(多行模式) 更改^和$的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式) 更改.的含义,使它与每一个字符匹配(包括换行符\n)。
IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。
尚未详细讨论的语法 代码/语法 说明
\a 报警字符(打印它的效果是电脑嘀一声)
\b 通常是单词分界位置,但如果在字符类里使用代表退格
\t 制表符,Tab
\r 回车
\v 竖向制表符
\f 换页符
\n 换行符
\e Escape
\0nn ASCII代码中八进制代码为nn的字符
\xnn ASCII代码中十六进制代码为nn的字符
\unnnn Unicode代码中十六进制代码为nnnn的字符
\cN ASCII控制字符。比如\cC代表Ctrl+C
\A 字符串开头(类似^,但不受处理多行选项的影响)
\Z 字符串结尾或行尾(不受处理多行选项的影响)
\z 字符串结尾(类似$,但不受处理多行选项的影响)
\G 当前搜索的开头
\p{name} Unicode中命名为name的字符类,例如\p{IsGreek}
(?>exp) 贪婪子表达式
(?-exp) 平衡组
(?im-nsx:exp) [...]