1. Python底层网络模块
1.1 socket 简介
计算机网络编程都离不开一个基本的组件:套接字(Socket)。
套接字接口以IP地址及通信端口组成套接字地址。远程的套接字地址和本地的套接字地址完成连接后,再加上使用的协议,这个五元组(Five-element Truple,来源IP、目的IP、来源端口、目的端口和协议)作为套接字对就可以彼此之间交换数据了。
套接字本质上是操作系统提供的一种进程间的通信机制,使主机间或者一台计算机上的进程间可以通信。在Python中,大多数网络模块都隐藏了socket模块的基本细节,用户在调用网络库的时候可以不直接和套接字交换。但是Python官方库还是提供了socket模块来允许用户操作许多底层的套接字接口。
1.2 socket模块
套接字格式:socket(family, type, protocal)。使用给定的套接字族、套接字类型、协议编号(默认为0)来创建套接字。
family 指定应用程序使用的通信协议的协议族,对于TCP/IP协议族,该参数为AF_INET,以下为该参数的一些常用选项;
Family参数 描述 socket.AF_UNIX 只能够用于单一的Unix系统进程间通信 socket.AF_INET 服务器之间网络通信 socket.AF_INET6 IPv6 socket.AF_UNSPEC 适合任何协议族的地址,可能是IPv4也可能是IPv6 type 是要创建套接字的类型,以下为该参数的一些常用选项;
Type参数 描述 socket.SOCK_STREAM 流式socket , 当使用TCP时选择此参数 socket.SOCK_DGRAM 数据包式socket ,当使用UDP时选择此参数 socket.SOCK_RAW 原始套接字,普通的套接字无法处理ICMP、IGMP等网络报文,而SOCK_RAW可以;其次,SOCK_RAW也可以处理特殊的IPv4报文;此外,利用原始套接字,可以通过IP_HDRINCL套接字选项由用户构造IP头。 protocol 指明所要接收的协议类型,通常为0或者不填。
Type参数 描述 socket.IPPROTO_RAW 相当于protocol=255,此时socket只能用来发送IP包,而不能接收任何的数据。发送的数据需要自己填充IP包头,并且自己计算校验和 socket.IPPROTO_IP 相当于protocol=0,此时用于接收任何的IP数据包。其中的校验和和协议分析由程序自己完成。
使用例子:
创建TCP Socket:
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
创建UDP Socket:
s=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)
1.3 socket对象方法
服务器端套接字
函数 | 描述 |
---|---|
服务器端套接字 | |
s.bind() | 绑定地址(host,port)到套接字, 在AF_INET下,以元组(host,port)的形式表示地址。 |
s.listen() | 开始TCP监听。backlog指定在拒绝连接之前,操作系统可以挂起的最大连接数量。该值至少为1,大部分应用程序设为5就可以了。 |
s.accept() | 被动接受TCP客户端连接,(阻塞式)等待连接的到来 |
客户端套接字
函数 | 描述 |
---|---|
s.connect() | 主动初始化TCP服务器连接,。一般address的格式为元组(hostname,port),如果连接出错,返回socket.error错误。 |
s.connect_ex() | connect()函数的扩展版本,出错时返回出错码,而不是抛出异常 |
公共用途的套接字函数
函数 | 描述 |
---|---|
s.recv() | 接收TCP数据,数据以字符串形式返回,bufsize指定要接收的最大数据量。flag提供有关消息的其他信息,通常可以忽略。 |
s.send() | 发送TCP数据,将string中的数据发送到连接的套接字。返回值是要发送的字节数量,该数量可能小于string的字节大小。 |
s.sendall() | 完整发送TCP数据,完整发送TCP数据。将string中的数据发送到连接的套接字,但在返回之前会尝试发送所有数据。成功返回None,失败则抛出异常。 |
s.recvfrom() | 接收UDP数据,与recv()类似,但返回值是(data,address)。其中data是包含接收数据的字符串,address是发送数据的套接字地址。 |
s.sendto() | 发送UDP数据,将数据发送到套接字,address是形式为(ipaddr,port)的元组,指定远程地址。返回值是发送的字节数。 |
s.close() | 关闭套接字 |
s.getpeername() | 返回连接套接字的远程地址。返回值通常是元组(ipaddr,port)。 |
s.getsockname() | 返回套接字自己的地址。通常是一个元组(ipaddr,port) |
s.setsockopt(level,optname,value) | 设置给定套接字选项的值。 |
s.getsockopt(level,optname[.buflen]) | 返回套接字选项的值。 |
s.settimeout(timeout) | 设置套接字操作的超时期,timeout是一个浮点数,单位是秒。值为None表示没有超时期。一般,超时期应该在刚创建套接字时设置,因为它们可能用于连接的操作(如connect()) |
s.gettimeout() | 返回当前超时期的值,单位是秒,如果没有设置超时期,则返回None。 |
s.fileno() | 返回套接字的文件描述符。 |
s.setblocking(flag) | 如果flag为0,则将套接字设为非阻塞模式,否则将套接字设为阻塞模式(默认值)。非阻塞模式下,如果调用recv()没有发现任何数据,或send()调用无法立即发送数据,那么将引起socket.error异常。 |
s.makefile() | 创建一个与该套接字相关连的文件 |
2. TCP编程
2.1 客户端
客户端连接
import socket
# 指定使用IPv4和TCP
socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# connect 连接百度
socket.connect(('wwww.baidu.com', 80))
# send 发送数据
socket.send(b'GET / HTTP/1.1\r\nHOST: www.baidu.com\r\nConnection: close\r\n\r\n')
# 使用recv方法接收数据
buffer = []
while True:
content = socket.recv(1024)
if content:
buffer.append(content)
else:
break
web_content = b"".join(buffer)
print(web_content)
# 将请求结果保存到文件中
# 分割http协议头,保存的html文件不包含http协议头
http_header, http_content = web_content.split(b"\r\n", 1)
with open("baidu.html", "wb") as f:
f.write(http_content)
2.2 服务端
服务端监听
import socket
# 创建socket对象,使用IPv4和tcp
socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 绑定要监听的ip和端口
# 0.0.0.0 监听本机所有ip地址
socket.bind(("0.0.0.0", 2018))
# 开始监听,5表示支持同时连入5个客户端
socket.listen(5)
2.3 Demo
服务端
import socket
import threading
def echo_server(client: socket.socket, address: tuple):
print("欢迎来自{}:{}的客户端".format(address[0], address[1]))
client.send("Welcome from {}:{}\r\n".format(address[0], address[1]).encode('utf-8'))
while True:
content = client.recv(1024)
if content == b"exit":
break
elif content:
print(content.decode("utf-8"))
else:
break
print("客户端退出了")
client.close()
socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
socket.bind(("0.0.0.0", 2018))
socket.listen(5)
print("Server start! Listening 0.0.0.0:2018")
while True:
client, address = socket.accept()
t = threading.Thread(target=echo_server, args=(client, address))
t.start()
客户端
import socket
client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
client.connect(("127.0.0.1", 2018))
client.send("I'm a Client!".encode("utf-8"))
server_content = client.recv(1024)
print(server_content.decode("utf-8"))
client.send(b"exit")
client.close()
3. UDP编程
不可靠的的协议,无需创建连接,速度快
3.1 服务端
import socket
socket = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
socket.bind(("0.0.0.0", 2019))
while True:
data, address = socket.recvfrom(1024)
print("收到来自{}:{}的信息".format(address[0], address[1]))
print(data.decode("utf-8"))
3.2 客户端
import socket
socket = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
server = ("127.0.0.1", 2019)
socket.sendto("Python从入门到放弃".encode("utf-8"), server)
socket.close()
4. urllib模块
urllib模块是Python标准库中提供的一个用于处理Http请求的模块,它的功能十分强大,不仅包含HTTP网络通信的功能,还拥有很多和HTTP协议相关的数据处理函数。通过urllib模块可以很方便的实现一个HTTP客户端。
这里以GET和POST为例,说明urllib模块的功能
4.1 GET请求
from urllib import request
# 抓取百度
def fetch_baidu():
http_client = request.urlopen("http://www.baidu.com")
content = http_client.read()
print("HTTP Status: {}, {}".format(http_client.status, http_client.reason))
for k, v in http_client.getheaders():
print("{} : {}".format(k, v))
# 也可以使用 request.urlopen("http://www.baidu.com") as f 的表达式省略close
http_client.close()
# 收到的数据解码
return content.decode("utf-8")
def save_page(content):
with open("baidu.html", "w", encoding="utf-8") as f:
f.write(content)
def main():
content = fetch_baidu()
save_page(content)
if __name__ == '__main__':
main()
4.2 POST请求
import json
import pprint
from urllib import request, parse
def fetch_page():
username = "01kuaixue"
password = "01kuaixue"
# 参数需要进行url转码
post_data = parse.urlencode([("username", username), ("password", password)])
# 构造Request对象
http_request = request.Request("http://httpbin.org/post")
http_request.add_header("Refer", "01kuaixue")
# data参数必须是bytes对象
http_request.data = post_data.encode("utf-8")
with request.urlopen(http_request) as http_response:
content = http_response.read()
result = json.loads(content.decode("utf-8"))
pprint.pprint(result)
if __name__ == '__main__':
fetch_page()
5. requests模块
5.1 requests模块介绍
虽然Python提供了和HTTP相关urllib模块,但是由于HTTP协议本身十分负责,而且Web技术日新月异,更新快捷,所以要更新一个标准库已经不是一件十分容易的事。这时候我们就可以使用requests模块。
requests是一个第三方模块,在在使用之前需要进行安装,不需要用户手动为URL添加查询字串,也不需要对POST数据进行表单编码。Keep-Alive和HTTP连接池的功能是100%自动化的。
requests能完全满足目前Web的需求,功能特性如下:
- Keep-Alive&连接池。
- 国际化域名和URL。
- 带持久Cookie的会话。
- 浏览器式的SSL认证。
- 自动内容解码。
- 基本/摘要式的身份认证。
- 优雅的key/value Cookie。
- 自动解压。
- Unicode响应体。
- HITP(S)代理支持。
- 文件分块上传。
- 流下载。
- 连接超时。
- 分块请求。
- 支持.netrc。
requests安装:
conda install requests
pip3 install requests
5.2 requests模块简单使用
使用requests发送网络请求比较简单,一开始要导入requests模块,然后尝试获取某个网页,如GET、POST、PUT、DELETE、HEAD和OPTION等。
import requests
r = requests.get("http://httpbin.org/get")
print(r.text)
# POST参数只需要传递字典即可,不需要手动执行urlencode
r = requests.post('http://httpbin.org/post', data={'key': 'value'})
print(r.text)
r = requests.put('http://httpbin.org/put', data={'key': 'value'})
print(r.text)
r = requests.delete("http://httpbin.org/delete")
print(r.text)
r = requests.head("http://httpbin.org/delete")
print(r.text)
r = requests.options("http://httpbin.org/delete")
print(r.text)