什么是进程?
简单来说:**进程是计算机中最小的资源分配单位**,在操作系统中的唯一标识符为:pid
进程的概念
第一,进程(Process)是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)。文本区域存储处理器执行的代码;数据区域存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储着活动过程调用的指令和本地变量。
第二,进程是一个“执行中的程序”。程序是一个没有生命的实体,只有处理器赋予程序生命时(操作系统执行之),它才能成为一个活动的实体,我们称其为进程。
进程是操作系统中最基本、重要的概念。是多道程序系统出现后,为了刻画系统内部出现的动态情况,描述系统内部各道程序的活动规律引进的一个概念,所有多道程序设计操作系统都建立在进程的基础上。
操作系统引入进程概念的原因
从理论角度看,是对正在运行的程序过程的抽象;
从实现角度看,是一种数据结构,目的在于清晰地刻画动态系统的内在规律,有效管理和调度进入计算机系统主存储器运行的程序。
进程的特征
动态性:进程的实质是程序在多道程序系统中的一次执行过程,进程是动态产生,动态消亡的。
并发性:任何进程都可以同其他进程一起并发执行
独立性:进程是一个能独立运行的基本单位,同时也是系统分配资源和调度的独立单位;
异步性:由于进程间的相互制约,使进程具有执行的间断性,即进程按各自独立的、不可预知的速度向前推进
结构特征:进程由程序、数据和进程控制块三部分组成。
多个不同的进程可以包含相同的程序:一个程序在不同的数据集里就构成不同的进程,能得到不同的结果;但是执行过程中,程序不能发生改变。
进程与程序中的区别
程序是指令和数据的有序集合,其本身没有任何运行的含义,是一个静态的概念。
而进程是程序在处理机上的一次执行过程,它是一个动态的概念。
程序可以作为一种软件资料长期存在,而进程是有一定生命期的。
程序是永久的,进程是暂时的。
注意:同一个程序执行两次,就会在操作系统中出现两个进程,所以我们可以同时运行一个软件,分别做不同的事情也不会混乱。
进程的调度:
为什么会有进程调度呢?因为进程并不是真正意义上的同时执行,而是交替执行,只不过我们感受不到这个交替过程,所以看似同时执行。这个调度也不是随即进行的,而是需要遵循一定的法则,由此就有了进程的调度算法。现计算机使用的是多级反馈队列法。
原文参考Eva_J
先来先服务调度算法
先来先服务(FCFS)调度算法是一种最简单的调度算法,该算法既可用于作业调度,也可用于进程调度。
FCFS算法比较有利于长作业(进程),而不利于短作业(进程)。
由此可知,本算法适合于CPU繁忙型作业,而不利于I/O繁忙型的作业(进程)。
短作业优先调度算法
短作业(进程)优先调度算法(SJ/PF)是指对短作业或短进程优先调度的算法,该算法既可用于作业调度,也可用于进程调度。
但其对长作业不利;不能保证紧迫性作业(进程)被及时处理;作业的长短只是被估算出来的。
时间片轮转法
时间片轮转(Round Robin,RR)法的基本思路是让每个进程在就绪队列中的等待时间与享受服务的时间成比例。在时间片轮转法中,需要将CPU的处理时间分成固定大小的时间片,例如,几十毫秒至几百毫秒。如果一个进程在被调度选中之后用完了系统规定的时间片,但又未完成要求的任务,则它自行释放自己所占有的CPU而排到就绪队列的末尾,等待下一次调度。同时,进程调度程序又去调度当前就绪队列中的第一个进程。
显然,轮转法只能用来调度分配一些可以抢占的资源。这些可以抢占的资源可以随时被剥夺,而且可以将它们再分配给别的进程。CPU是可抢占资源的一种。但打印机等资源是不可抢占的。由于作业调度是对除了CPU之外的所有系统硬件资源的分配,其中包含有不可抢占资源,所以作业调度不使用轮转法。
在轮转法中,时间片长度的选取非常重要。首先,时间片长度的选择会直接影响到系统的开销和响应时间。如果时间片长度过短,则调度程序抢占处理机的次数增多。这将使进程上下文切换次数也大大增加,从而加重系统开销。反过来,如果时间片长度选择过长,例如,一个时间片能保证就绪队列中所需执行时间最长的进程能执行完毕,则轮转法变成了先来先服务法。时间片长度的选择是根据系统对响应时间的要求和就绪队列中所允许最大的进程数来确定的。
在轮转法中,加入到就绪队列的进程有3种情况:
一种是分给它的时间片用完,但进程还未完成,回到就绪队列的末尾等待下次调度去继续执行。
另一种情况是分给该进程的时间片并未用完,只是因为请求I/O或由于进程的互斥与同步关系而被阻塞。当阻塞解除之后再回到就绪队列。
第三种情况就是新创建进程进入就绪队列。
如果对这些进程区别对待,给予不同的优先级和时间片从直观上看,可以进一步改善系统服务质量和效率。例如,我们可把就绪队列按照进程到达就绪队列的类型和进程被阻塞时的阻塞原因分成不同的就绪队列,每个队列按FCFS原则排列,各队列之间的进程享有不同的优先级,但同一队列内优先级相同。这样,当一个进程在执行完它的时间片之后,或从睡眠中被唤醒以及被创建之后,将进入不同的就绪队列。
多级反馈队列
前面介绍的各种用作进程调度的算法都有一定的局限性。如短进程优先的调度算法,仅照顾了短进程而忽略了长进程,而且如果并未指明进程的长度,则短进程优先和基于进程长度的抢占式调度算法都将无法使用。
而多级反馈队列调度算法则不必事先知道各种进程所需的执行时间,而且还可以满足各种类型进程的需要,因而它是目前被公认的一种较好的进程调度算法。在采用多级反馈队列调度算法的系统中,调度算法的实施过程如下所述。
(1) 应设置多个就绪队列,并为各个队列赋予不同的优先级。第一个队列的优先级最高,第二个队列次之,其余各队列的优先权逐个降低。该算法赋予各个队列中进程执行时间片的大小也各不相同,在优先权愈高的队列中,为每个进程所规定的执行时间片就愈小。例如,第二个队列的时间片要比第一个队列的时间片长一倍,……,第i+1个队列的时间片要比第i个队列的时间片长一倍。
(2) 当一个新进程进入内存后,首先将它放入第一队列的末尾,按FCFS原则排队等待调度。当轮到该进程执行时,如它能在该时间片内完成,便可准备撤离系统;如果它在一个时间片结束时尚未完成,调度程序便将该进程转入第二队列的末尾,再同样地按FCFS原则等待调度执行;如果它在第二队列中运行一个时间片后仍未完成,再依次将它放入第三队列,……,如此下去,当一个长作业(进程)从第一队列依次降到第n队列后,在第n 队列便采取按时间片轮转的方式运行。
(3) 仅当第一队列空闲时,调度程序才调度第二队列中的进程运行;仅当第1~(i-1)队列均空时,才会调度第i队列中的进程运行。如果处理机正在第i队列中为某进程服务时,又有新进程进入优先权较高的队列(第1~(i-1)中的任何一个队列),则此时新进程将抢占正在运行进程的处理机,即由调度程序把正在运行的进程放回到第i队列的末尾,把处理机分配给新到的高优先权进程。
进程的并行与并发
并行 : 并行是指多者同时执行,比如汽车行驶,汽车可以在多车道同时并排行驶;(资源够用,比如三个线程,四核的CPU )(多个程序 多个cpu 一个cpu上运行一个程序)
并发 : 并发是指资源有限的情况下,两者交替轮流使用资源,比如一段路(单核CPU资源)同时只能过一辆车,A走一段后,让给B,B用完继续给A ,交替使用,目的是提高效率。(并发是指多个程序 公用一个cpu轮流使用)
区别:
并行是从微观上,也就是在一个精确的时间片刻,有不同的程序在执行,这就要求必须有多个处理器。
并发是从宏观上,在一个时间段上可以看出是同时执行的,比如一个服务器同时处理多个session。
同步异步阻塞非阻塞
状态介绍:
在了解其他概念之前,我们首先要了解进程的几个状态。在程序运行的过程中,由于被操作系统的调度算法控制,程序会进入几个状态:就绪,运行和阻塞。
(1)就绪(Ready)状态
当进程已分配到除CPU以外的所有必要的资源,只要获得处理机便可立即执行,这时的进程状态称为就绪状态。
(2)执行/运行(Running)状态当进程已获得处理机,其程序正在处理机上执行,此时的进程状态称为执行状态。
(3)阻塞(Blocked)状态正在执行的进程,由于等待某个事件发生而无法执行时,便放弃处理机而处于阻塞状态。引起进程阻塞的事件可有多种,例如,等待I/O完成、申请缓冲区不能满足、等待信件(信号)等。
同步和异步
所谓同步就是一个任务的完成需要依赖另外一个任务时,只有等待被依赖的任务完成后,依赖的任务才能算完成,这是一种可靠的任务序列。要么成功都成功,失败都失败,两个任务的状态可以保持一致。
所谓异步是不需要等待被依赖的任务完成,只是通知被依赖的任务要完成什么工作,依赖的任务也立即执行,只要自己完成了整个任务就算完成了。至于被依赖的任务最终是否真正完成,依赖它的任务无法确定,所以它是不可靠的任务序列。
简单来讲:同步–>调用一个方法要等这个方法结束、异步–>调用一个方法不等这个方法结束,也不管关心这个方法做了什么
阻塞与非阻塞
阻塞和非阻塞这两个概念与程序(线程)等待消息通知(无所谓同步或者异步)时的状态有关。也就是说阻塞与非阻塞主要是程序(线程)等待消息通知时的状态角度来说的
简单来讲:阻塞是cpu不工作、非阻塞是cpu工作
同步/异步与阻塞/非阻塞
同步阻塞形式
效率最低。拿上面的例子来说,就是你专心排队,什么别的事都不做。
异步阻塞形式
如果在银行等待办理业务的人采用的是异步的方式去等待消息被触发(通知),也就是领了一张小纸条,假如在这段时间里他不能离开银行做其它的事情,那么很显然,这个人被阻塞在了这个等待的操作上面;
异步操作是可以被阻塞住的,只不过它不是在处理消息时阻塞,而是在等待消息通知时被阻塞。
同步非阻塞形式
实际上是效率低下的。
想象一下你一边打着电话一边还需要抬头看到底队伍排到你了没有,如果把打电话和观察排队的位置看成是程序的两个操作的话,这个程序需要在这两种不同的行为之间来回的切换,效率可想而知是低下的。
异步非阻塞形式
效率更高,
因为打电话是你(等待者)的事情,而通知你则是柜台(消息触发机制)的事情,程序没有在两种不同的操作中来回切换。
比如说,这个人突然发觉自己烟瘾犯了,需要出去抽根烟,于是他告诉大堂经理说,排到我这个号码的时候麻烦到外面通知我一下,那么他就没有被阻塞在这个等待的操作上面,自然这个就是异步+非阻塞的方式了。
进程的创建与结束
multiprocessing.process类是一个创建进程的模块,借助这个模块,就可以完成进程的创建。
进程与线程
# 进程
# 创建进程 时间开销大
# 销毁进程 时间开销大
# 进程之间切换 时间开销大
# 如果两个程序 分别要做两件事儿
# 起两个进程
# 如果是一个程序 要分别做两件事儿
# 视频软件
# 下载A电影
# 下载B电影
# 播放C电影
# 可以启动三个进程来完成上面的三件事情,但是开销大
# 线程
# 是进程中的一部分,每一个进程中至少有一个线程
# 进程是计算机中最小的资源分配单位(进程是负责圈资源)
# 线程是计算机中能被CPU调度的最小单位 (线程是负责执行具体代码的)
# 开销
# 线程的创建,也需要一些开销(一个存储局部变量的结构,记录状态)
# 创建、销毁、切换开销远远小于进程
# 进程 :数据隔离 开销大 同时执行几段代码
# 线程 :数据共享 开销小 同时执行几段代码
进程的特点:数据隔离、开销大
先看一下简单进程创建方法:
# 1. 导入相关模块
# from multiprocessing import Process
# 2. 定义函数
# 函数名(参数1,参数2,):
# 语句
# 3. 创建进程并开启
# if __name__ == '__main__': # windows系统需要写此代码,是为了在进程中不执行里面的代码
# p = Process(target=函数名,args=(参数1,参数2,)) # 创建进程
# p.start() # 开启进程
# 进程开启后,父进程会等待子进程执行结束后才会关闭
简单进程示例:
import time
from multiprocessing import Process
def func():
print('Hello,我是子进程,进程号为:%s'%os.getpid())
print('start',os.getpid())
time.sleep(3)
print('end',os.getpid())
if __name__ == '__main__':
p = Process(target=func)
p.start()
print('Hello,我是主进程,进程号为:%s'%os.getpid())
接下来才是真正的开始!!!
process模块介绍
参数介绍
Process([group [, target [, name [, args [, kwargs]]]]]),由该类实例化得到的对象,表示一个子进程中的任务(尚未启动)
强调:
1. 需要使用关键字的方式来指定参数
2. args指定的为传给target函数的位置参数,是一个元组形式,必须有逗号
参数介绍:
1 group参数未使用,值始终为None
2 target表示调用对象,即子进程要执行的任务
3 args表示调用对象的位置参数元组,args=(1,2,'egon',)
4 kwargs表示调用对象的字典,kwargs={'name':'egon','age':18}
5 name为子进程的名称
方法介绍
1 p.start():启动进程,并调用该子进程中的p.run()
2 p.run():进程启动时运行的方法,正是它去调用target指定的函数,我们自定义类的类中一定要实现该方法
3 p.terminate():强制终止进程p,不会进行任何清理操作,如果p创建了子进程,该子进程就成了僵尸进程,使用该方法需要特别小心这种情况。如果p还保存了一个锁那么也将不会被释放,进而导致死锁
4 p.is_alive():如果p仍然运行,返回True
5 p.join([timeout]):主线程等待p终止(强调:是主线程处于等的状态,而p是处于运行的状态)。timeout是可选的超时时间,需要强调的是,p.join只能join住start开启的进程,而不能join住run开启的进程
属性介绍
1 p.daemon:默认值为False,如果设为True,代表p为后台运行的守护进程,当p的父进程终止时,p也随之终止,并且设定为True后,p不能创建自己的新进程,必须在p.start()之前设置
2 p.name:进程的名称
3 p.pid:进程的pid
4 p.exitcode:进程在运行时为None、如果为–N,表示被信号N结束(了解即可)
5 p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性,这类连接只有在具有相同的身份验证键时才能成功(了解即可)
在windows中使用process模块的注意事项
在Windows操作系统中由于没有fork(linux操作系统中创建进程的机制),在创建子进程的时候会自动 import 启动它的这个文件,而在 import 的时候又执行了整个文件。因此如果将process()直接写在文件中就会无限递归创建子进程报错。所以必须把创建子进程的部分使用if __name__ ==‘__main__’ 判断保护起来,import 的时候,就不会递归运行了。
使用process模块创建进程
在一个python进程中开启子进程,start方法和并发效果。
查看子进程和父进程的进程号
import os
from multiprocessing import Process
def f(x):
print('子进程id :',os.getpid(),'父进程id :',os.getppid())
return x*x
if __name__ == '__main__':
print('主进程id :', os.getpid())
p_lst = []
for i in range(5):
p = Process(target=f, args=(i,))
p.start()
进阶,多个进程同时运行(注意,子进程的执行顺序不是根据启动顺序决定的)。(因为代码简单,多运行几次看区别)
多进程同时运行
def func(i):
print('运行进程 %s'%i)
time.sleep(random.random())
if __name__ == '__main__':
for i in range(5):
p = Process(target=func,args=(i,))
p.start()
print('结束')
经过上面例子你应该可以看到子进程还没有结束就打印出来了,但我们某些时候需要把所有子进程运行完毕再打印结束怎么办呢?
使用 p.join
使程序变为同步阻塞形式,等待所有子进程结束后才往后运行。
多进程同时运行之join方法
def func(i):
print('运行进程 %s'%i)
time.sleep(random.random())
if __name__ == '__main__':
list_p = []
for i in range(5):
p = Process(target=func,args=(i,))
p.start()
# p.join() 如果你在这里写了join,就是在等子进程执行完毕才进行下次循环,这样的话还不如不开进程直接运行呢
list_p.append(p)
[p.join() for p in list_p]
print('结束')
除了上面这些开启进程的方法,还有一种以继承Process类的形式开启进程的方式
通过继承process类开启进程
import os
from multiprocessing import Process
class MyProcess(Process):
def __init__(self,name):
super().__init__()
self.name=name
def run(self):
print(os.getpid())
print('%s 正在和女主播聊天' %self.name)
if __name__ == '__main__':
p1=MyProcess('男1')
p2=MyProcess('男2')
p3=MyProcess('男3')
p1.start() #start会自动调用run
p2.start()
# p2.run()
p3.start()
p1.join()
p2.join()
p3.join()
print('主线程')
进程之间的数据隔离问题:
进程之间数据隔离问题
from multiprocessing import Process
def work():
global n
n=0
print('子进程内: ',n)
if __name__ == '__main__':
n = 100
p=Process(target=work)
p.start()
print('主进程内: ',n)
守护进程
守护进程会随着主进程的代码结束而结束。
主进程创建守护进程
其一:守护进程会在主进程代码执行结束后就终止
其二:守护进程内无法再开启子进程,否则抛出异常:AssertionError: daemonic processes are not allowed to have children
注意:进程之间是互相独立的,主进程代码运行结束,守护进程随即终止
守护进程的启动
import time
from multiprocessing import Process
class Myprocess(Process):
def __init__(self,name):
super().__init__()
self.name = name # 重写init方法定义属性,最好在继承super类后再定义属性
def run(self):
while True:
print('姓名:%s'%self.name)
time.sleep(0.5)
if __name__ == '__main__':
p = Myprocess('wuye')
p.daemon = True #一定要在p.start()前设置,设置p为守护进程,禁止p创建子进程,并且父进程代码执行结束,p即终止运行
p.start()
time.sleep(2)
print('主进程结束')
主进程代码执行结束守护进程立即结束
import time
from multiprocessing import Process
class Myprocess(Process):
def __init__(self,name):
super().__init__()
self.name = name
def run(self):
while True:
print('姓名:%s'%self.name)
time.sleep(0.5)
if __name__ == '__main__':
p1 = Myprocess('wuye')
p2 = Myprocess('gulang')
p1.daemon = True # 设置为守护进程
p1.start()
p2.start()
time.sleep(2)
print('主函数')
总结
# multiprocessing 进程
# p = Process(target=函数名,args=(参数1,))
# 1.如何创建一个进程对象
# 对象和进程之间的关系
# 进程对象和进程并没有直接的关系
# 只是存储了一些和进程相关的内容
# 此时此刻,操作系统还没有接到创建进程的指令
# 2.如何开启一个进程
# 通过p.start()开启了一个进程--这个方法相当于给了操作系统一条指令
# start方法 的 非阻塞和异步的特点
# 在执行开启进程这个方法的时候
# 我们既不等待这个进程开启,也不等待操作系统给我们的响应
# 这里只是负责通知操作系统去开启一个进程
# 开启了一个子进程之后,主进程的代码和子进程的代码完全异步
# 3.父进程和子进程之间的关系
# 父进程会等待子进程结束之后才结束
# 为了回收子进程的资源
# 4.不同操作系统中进程开启的方式
# windows 通过(模块导入)再一次执行父进程文件中的代码来获取父进程中的数据
# 所以只要是不希望被子进程执行的代码,就写在if __name__ == '__main__'下
# 因为在进行导入的时候父进程文件中的__name__ != '__main__'
# linux/ios
# 正常的写就可以,没有if __name__ == '__main__'这件事情了
# 5.如何确认一个子进程执行完毕
# join方法
# 开启了多个子进程,等待所有子进程结束
补充:进程间的通信
进程之间的通信 —— IPC(inter process communication)
使用multiprocessing.Queue类来进行通信,队列,先进先出
# Queue基于 (天生就是数据安全的)
# 有文件家族的socket pickle lock 方法
# pipe 管道(不安全的) = 文件家族的 socket pickle 方法,没有lock方法
# 队列 = 管道 + 锁
# from multiprocessing import Pipe
# pip = Pipe()
# pip.send()
# pip.recv()
# from multiprocessing import Queue,Process
# # 先进先出
# def func(exp,q):
# ret = eval(exp)
# q.put({ret,2,3})
# q.put(ret*2)
# q.put(ret*4)
#
# if __name__ == '__main__':
# q = Queue()
# Process(target=func,args=('1+2+3',q)).start()
# print(q.get())
# print(q.get())
# print(q.get())
例子
#!/usr/bin/evn python
# -*- coding:utf-8 -*-
import queue
from multiprocessing import Queue
q = Queue(5) #限定队列中的个数
q.put(1)
q.put(2)
q.put(3)
q.put(4)
q.put(5) # 当队列为满的时候再向队列中放数据 队列会阻塞
print('5555555')
try:
q.put_nowait(6) # 当队列为满的时候再向队列中放数据 会报错并且会丢失数据
except queue.Full: # 报错类型需要另外导入queue
pass
print('6666666')
print(q.get())
print(q.get())
print(q.get()) # 在队列为空的时候会发生阻塞
print(q.get()) # 在队列为空的时候会发生阻塞
print(q.get()) # 在队列为空的时候会发生阻塞
try:
print(q.get_nowait()) # 在队列为空的时候 直接报错
except queue.Empty:pass