Python yield详解

有很多教程都是把Python生成器和迭代器放在一块讲的,昨天简单的总结了一下Python的迭代器,今天看代码的时候又用到了生成器,也不是很清楚。再加上之前每次遇到yield关键字都要重新查阅资料,因此这里总结一下生成器以及yield关键字。

生成器

通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。

所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator。

要创建一个generator,有很多种方法。第一种方法很简单,只要把一个列表生成式的[]改成(),就创建了一个generator:

1
2
3
4
5
6
>>> L = [x * x for x in range(10)]
>>> L
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
>>> g = (x * x for x in range(10))
>>> g
<generator object <genexpr> at 0x1022ef630>

创建Lg的区别仅在于最外层的[]()L是一个list,而g是一个generator。

我们可以直接打印出list的每一个元素,但我们怎么打印出generator的每一个元素呢?

如果要一个一个打印出来,可以通过next()函数获得generator的下一个返回值:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
>>> next(g)
0
>>> next(g)
1
>>> next(g)
4
>>> next(g)
9
>>> next(g)
16
>>> next(g)
25
>>> next(g)
36
>>> next(g)
49
>>> next(g)
64
>>> next(g)
81
>>> next(g)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration

我们讲过,generator保存的是算法,每次调用next(g),就计算出g的下一个元素的值,直到计算到最后一个元素,没有更多的元素时,抛出StopIteration的错误。

当然,上面这种不断调用next(g)实在是太变态了,正确的方法是使用for循环,因为generator也是可迭代对象:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
>>> g = (x * x for x in range(10))
>>> for n in g:
... print(n)
...
0
1
4
9
16
25
36
49
64
81

所以,我们创建了一个generator后,基本上永远不会调用next(),而是通过for循环来迭代它,并且不需要关心StopIteration的错误。

要创建一个生成器,第二种方法是使用yield关键字,这个在下面介绍。

yield

以下内容大多数来自于python中yield的用法详解——最简单,最清晰的解释,自己做了简单的说明以及补充,方便自己理解。

首先,如果你还没有对yield有个初步分认识,那么你先把yield看做“return”,这个是直观的,它首先是个return,普通的return是什么意思,就是在程序中返回某个值,返回之后程序就不再往下运行了看做return之后再把它看做一个是生成器(generator)的一部分(带yield的函数才是真正的迭代器)。好了,如果你对这些不明白的话,那先把yield看做return,然后直接看下面的程序,你就会明白yield的全部意思了:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
def foo():
print("starting...")
for x in range(4):
res = yield x ** 2
print("res:",res)

g = foo()
print(type(g))
print(next(g))
print("*"*20)
print(next(g))

print("*"*20)
for x in g:
print(x)

就这么简单的几行代码就让你明白什么是yield,代码的输出这个:

1
2
3
4
5
6
<class 'generator'>
starting...
0
********************
res: None
1

我直接解释代码运行顺序,相当于代码单步调试:

  1. 程序开始执行以后,因为foo函数中有yield关键字,所以使用foo()的时候foo函数并不会真的执行,而是先返回一个生成器g(相当于一个对象),因此此时type(g)的结果为<class 'generator'>

  2. 直到调用next方法,foo函数正式开始执行,先执行foo函数中的print方法,然后进入while循环

  3. 程序遇到yield关键字,然后把yield想想成return,return了0**2之后,程序停止,并没有执行赋值给res操作,此时next(g)语句执行完成,所以输出的前两行(第一个是while上面的print的结果,第二个是return出的结果)是执行print(next(g))的结果

  4. 程序执行print("*"*20),输出20个*

  5. 又开始执行下面的print(next(g)),这个时候和上面那个差不多,不过不同的是,这个时候是从刚才那个next程序停止的地方开始执行的,也就是要执行res的赋值操作,这时候要注意,这个时候赋值操作的右边是没有值的(因为刚才那个是return出去了,并没有给赋值操作的左边传参数),所以这个时候res赋值是None,所以接着下面的输出就是res:None

  6. 程序会继续在while里执行,又一次碰到yield,这个时候return出1**2,然后程序停止,print函数输出的1就是这次return出的1。

到这里你可能就明白yield和return的关系和区别了,带yield的函数是一个生成器,而不是一个函数了,这个生成器有一个函数就是next函数,next就相当于“下一步”生成哪个数,这一次的next开始的地方是接着上一次的next停止的地方执行的,所以调用next的时候,生成器并不会从foo函数的开始执行,只是接着上一步停止的地方开始,然后遇到yield后,return出要生成的数,此步就结束。

生成器与迭代器关系

之前我们介绍过如何判断一个对象是否为可迭代对象(Iterable)和迭代器对象(Iterator)。下面我们就对第一种方法得到的生成器对象进行判断:

1
2
3
4
5
6
7
from collections import Iterable
isinstance((x for x in range(10)), Iterable)
Out[1]: True

from collections import Iterator
isinstance((x for x in range(10)), Iterator)
Out[2]: True

所以,从中可以看到,生成器是一个不仅是一个可迭代对象,更是一个迭代器对象(迭代器对象一定是可迭代对象)。

参考

python中yield的用法详解——最简单,最清晰的解释
生成器
Python 中的黑暗角落(一):理解 yield 关键字

------ 本文结束------
坚持原创技术分享,您的支持将鼓励我继续创作!

欢迎关注我的其它发布渠道