【Python】-12.Python网络编程


1. Python底层网络模块

1.1 socket 简介

计算机网络编程都离不开一个基本的组件:套接字(Socket)。

套接字接口以IP地址及通信端口组成套接字地址。远程的套接字地址和本地的套接字地址完成连接后,再加上使用的协议,这个五元组(Five-element Truple,来源IP、目的IP、来源端口、目的端口和协议)作为套接字对就可以彼此之间交换数据了。

套接字本质上是操作系统提供的一种进程间的通信机制,使主机间或者一台计算机上的进程间可以通信。在Python中,大多数网络模块都隐藏了socket模块的基本细节,用户在调用网络库的时候可以不直接和套接字交换。但是Python官方库还是提供了socket模块来允许用户操作许多底层的套接字接口。

1.2 socket模块

套接字格式:socket(family, type, protocal)。使用给定的套接字族、套接字类型、协议编号(默认为0)来创建套接字。

  • family 指定应用程序使用的通信协议的协议族,对于TCP/IP协议族,该参数为AF_INET,以下为该参数的一些常用选项;

    Family参数 描述
    socket.AF_UNIX 只能够用于单一的Unix系统进程间通信
    socket.AF_INET 服务器之间网络通信
    socket.AF_INET6 IPv6
    socket.AF_UNSPEC 适合任何协议族的地址,可能是IPv4也可能是IPv6
  • type 是要创建套接字的类型,以下为该参数的一些常用选项;

    Type参数 描述
    socket.SOCK_STREAM 流式socket , 当使用TCP时选择此参数
    socket.SOCK_DGRAM 数据包式socket ,当使用UDP时选择此参数
    socket.SOCK_RAW 原始套接字,普通的套接字无法处理ICMP、IGMP等网络报文,而SOCK_RAW可以;其次,SOCK_RAW也可以处理特殊的IPv4报文;此外,利用原始套接字,可以通过IP_HDRINCL套接字选项由用户构造IP头。
  • protocol 指明所要接收的协议类型,通常为0或者不填。

    Type参数 描述
    socket.IPPROTO_RAW 相当于protocol=255,此时socket只能用来发送IP包,而不能接收任何的数据。发送的数据需要自己填充IP包头,并且自己计算校验和
    socket.IPPROTO_IP 相当于protocol=0,此时用于接收任何的IP数据包。其中的校验和和协议分析由程序自己完成。

使用例子:

  • 创建TCP Socket:

    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
  • 创建UDP Socket:

    s=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)

1.3 socket对象方法

服务器端套接字

函数 描述
服务器端套接字
s.bind() 绑定地址(host,port)到套接字, 在AF_INET下,以元组(host,port)的形式表示地址。
s.listen() 开始TCP监听。backlog指定在拒绝连接之前,操作系统可以挂起的最大连接数量。该值至少为1,大部分应用程序设为5就可以了。
s.accept() 被动接受TCP客户端连接,(阻塞式)等待连接的到来

客户端套接字

函数 描述
s.connect() 主动初始化TCP服务器连接,。一般address的格式为元组(hostname,port),如果连接出错,返回socket.error错误。
s.connect_ex() connect()函数的扩展版本,出错时返回出错码,而不是抛出异常

公共用途的套接字函数

函数 描述
s.recv() 接收TCP数据,数据以字符串形式返回,bufsize指定要接收的最大数据量。flag提供有关消息的其他信息,通常可以忽略。
s.send() 发送TCP数据,将string中的数据发送到连接的套接字。返回值是要发送的字节数量,该数量可能小于string的字节大小。
s.sendall() 完整发送TCP数据,完整发送TCP数据。将string中的数据发送到连接的套接字,但在返回之前会尝试发送所有数据。成功返回None,失败则抛出异常。
s.recvfrom() 接收UDP数据,与recv()类似,但返回值是(data,address)。其中data是包含接收数据的字符串,address是发送数据的套接字地址。
s.sendto() 发送UDP数据,将数据发送到套接字,address是形式为(ipaddr,port)的元组,指定远程地址。返回值是发送的字节数。
s.close() 关闭套接字
s.getpeername() 返回连接套接字的远程地址。返回值通常是元组(ipaddr,port)。
s.getsockname() 返回套接字自己的地址。通常是一个元组(ipaddr,port)
s.setsockopt(level,optname,value) 设置给定套接字选项的值。
s.getsockopt(level,optname[.buflen]) 返回套接字选项的值。
s.settimeout(timeout) 设置套接字操作的超时期,timeout是一个浮点数,单位是秒。值为None表示没有超时期。一般,超时期应该在刚创建套接字时设置,因为它们可能用于连接的操作(如connect())
s.gettimeout() 返回当前超时期的值,单位是秒,如果没有设置超时期,则返回None。
s.fileno() 返回套接字的文件描述符。
s.setblocking(flag) 如果flag为0,则将套接字设为非阻塞模式,否则将套接字设为阻塞模式(默认值)。非阻塞模式下,如果调用recv()没有发现任何数据,或send()调用无法立即发送数据,那么将引起socket.error异常。
s.makefile() 创建一个与该套接字相关连的文件

2. TCP编程

2.1 客户端

客户端连接

import socket

# 指定使用IPv4和TCP
socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

# connect 连接百度
socket.connect(('wwww.baidu.com', 80))
# send 发送数据
socket.send(b'GET / HTTP/1.1\r\nHOST: www.baidu.com\r\nConnection: close\r\n\r\n')

# 使用recv方法接收数据
buffer = []
while True:
    content = socket.recv(1024)
    if content:
        buffer.append(content)
    else:
        break
web_content = b"".join(buffer)
print(web_content)

# 将请求结果保存到文件中
# 分割http协议头,保存的html文件不包含http协议头
http_header, http_content = web_content.split(b"\r\n", 1)
with open("baidu.html", "wb") as f:
    f.write(http_content)

2.2 服务端

服务端监听

import socket

# 创建socket对象,使用IPv4和tcp
socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

# 绑定要监听的ip和端口
# 0.0.0.0 监听本机所有ip地址
socket.bind(("0.0.0.0", 2018))

# 开始监听,5表示支持同时连入5个客户端
socket.listen(5)

2.3 Demo

服务端

import socket
import threading


def echo_server(client: socket.socket, address: tuple):
    print("欢迎来自{}:{}的客户端".format(address[0], address[1]))
    client.send("Welcome from {}:{}\r\n".format(address[0], address[1]).encode('utf-8'))
    while True:
        content = client.recv(1024)
        if content == b"exit":
            break
        elif content:
            print(content.decode("utf-8"))
        else:
            break
    print("客户端退出了")
    client.close()


socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
socket.bind(("0.0.0.0", 2018))
socket.listen(5)
print("Server start! Listening 0.0.0.0:2018")
while True:
    client, address = socket.accept()
    t = threading.Thread(target=echo_server, args=(client, address))
    t.start()

客户端

import socket

client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
client.connect(("127.0.0.1", 2018))
client.send("I'm a Client!".encode("utf-8"))

server_content = client.recv(1024)
print(server_content.decode("utf-8"))

client.send(b"exit")
client.close()

3. UDP编程

不可靠的的协议,无需创建连接,速度快

3.1 服务端

import socket

socket = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
socket.bind(("0.0.0.0", 2019))
while True:
    data, address = socket.recvfrom(1024)
    print("收到来自{}:{}的信息".format(address[0], address[1]))
    print(data.decode("utf-8"))

3.2 客户端

import socket

socket = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
server = ("127.0.0.1", 2019)
socket.sendto("Python从入门到放弃".encode("utf-8"), server)
socket.close()

4. urllib模块

urllib模块是Python标准库中提供的一个用于处理Http请求的模块,它的功能十分强大,不仅包含HTTP网络通信的功能,还拥有很多和HTTP协议相关的数据处理函数。通过urllib模块可以很方便的实现一个HTTP客户端。

这里以GET和POST为例,说明urllib模块的功能

4.1 GET请求

from urllib import request


# 抓取百度
def fetch_baidu():
    http_client = request.urlopen("http://www.baidu.com")
    content = http_client.read()
    print("HTTP Status: {}, {}".format(http_client.status, http_client.reason))
    for k, v in http_client.getheaders():
        print("{} : {}".format(k, v))

    # 也可以使用 request.urlopen("http://www.baidu.com") as f 的表达式省略close
    http_client.close()

    # 收到的数据解码
    return content.decode("utf-8")


def save_page(content):
    with open("baidu.html", "w", encoding="utf-8") as f:
        f.write(content)


def main():
    content = fetch_baidu()
    save_page(content)


if __name__ == '__main__':
    main()

4.2 POST请求

import json
import pprint
from urllib import request, parse


def fetch_page():
    username = "01kuaixue"
    password = "01kuaixue"

    # 参数需要进行url转码
    post_data = parse.urlencode([("username", username), ("password", password)])

    # 构造Request对象
    http_request = request.Request("http://httpbin.org/post")

    http_request.add_header("Refer", "01kuaixue")
    # data参数必须是bytes对象
    http_request.data = post_data.encode("utf-8")

    with request.urlopen(http_request) as http_response:
        content = http_response.read()
        result = json.loads(content.decode("utf-8"))
        pprint.pprint(result)


if __name__ == '__main__':
    fetch_page()

5. requests模块

5.1 requests模块介绍

虽然Python提供了和HTTP相关urllib模块,但是由于HTTP协议本身十分负责,而且Web技术日新月异,更新快捷,所以要更新一个标准库已经不是一件十分容易的事。这时候我们就可以使用requests模块。

requests是一个第三方模块,在在使用之前需要进行安装,不需要用户手动为URL添加查询字串,也不需要对POST数据进行表单编码。Keep-Alive和HTTP连接池的功能是100%自动化的。

requests能完全满足目前Web的需求,功能特性如下:

  • Keep-Alive&连接池。
  • 国际化域名和URL。
  • 带持久Cookie的会话。
  • 浏览器式的SSL认证。
  • 自动内容解码。
  • 基本/摘要式的身份认证。
  • 优雅的key/value Cookie。
  • 自动解压。
  • Unicode响应体。
  • HITP(S)代理支持。
  • 文件分块上传。
  • 流下载。
  • 连接超时。
  • 分块请求。
  • 支持.netrc。

requests安装:

conda install requests
pip3 install requests

5.2 requests模块简单使用

使用requests发送网络请求比较简单,一开始要导入requests模块,然后尝试获取某个网页,如GET、POST、PUT、DELETE、HEAD和OPTION等。

import requests

r = requests.get("http://httpbin.org/get")
print(r.text)

# POST参数只需要传递字典即可,不需要手动执行urlencode
r = requests.post('http://httpbin.org/post', data={'key': 'value'})
print(r.text)

r = requests.put('http://httpbin.org/put', data={'key': 'value'})
print(r.text)

r = requests.delete("http://httpbin.org/delete")
print(r.text)

r = requests.head("http://httpbin.org/delete")
print(r.text)

r = requests.options("http://httpbin.org/delete")
print(r.text)

文章作者: Soulballad
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Soulballad !
评论
 上一篇
Hello World Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hex
2020-10-27 Soulballad
下一篇 
【Python】-11.Python正则表达式 【Python】-11.Python正则表达式
1. 正则表达式语法1.1 普通字符普通字符是正则表达式中最基本的结构之一,要理解正则表达式自然也要从普通字符开始。 普通字符包括没有显示指定为元字符的所有可打印和不可打印字符,包括所有大写字母和小写字母、所有数字、所有标点符号和一些其他符
2020-09-18
  目录