Python yield详解

有很多教程都是把Python生成器和迭代器放在一块讲的，昨天简单的总结了一下Python的迭代器，今天看代码的时候又用到了生成器，也不是很清楚。再加上之前每次遇到yield关键字都要重新查阅资料，因此这里总结一下生成器以及yield关键字。

生成器

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。

所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种一边循环一边计算的机制，称为生成器：generator。

要创建一个generator，有很多种方法。第一种方法很简单，只要把一个列表生成式的[]改成()，就创建了一个generator：

>>> L = [x * x for x in range(10)]
>>> L
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
>>> g = (x * x for x in range(10))
>>> g
<generator object <genexpr> at 0x1022ef630>

创建L和g的区别仅在于最外层的[]和()，L是一个list，而g是一个generator。

我们可以直接打印出list的每一个元素，但我们怎么打印出generator的每一个元素呢？

如果要一个一个打印出来，可以通过next()函数获得generator的下一个返回值：

>>> next(g)
0
>>> next(g)
1
>>> next(g)
4
>>> next(g)
9
>>> next(g)
16
>>> next(g)
25
>>> next(g)
36
>>> next(g)
49
>>> next(g)
64
>>> next(g)
81
>>> next(g)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration

我们讲过，generator保存的是算法，每次调用next(g)，就计算出g的下一个元素的值，直到计算到最后一个元素，没有更多的元素时，抛出StopIteration的错误。

当然，上面这种不断调用next(g)实在是太变态了，正确的方法是使用for循环，因为generator也是可迭代对象：

>>> g = (x * x for x in range(10))
>>> for n in g:
...     print(n)
... 
0
1
4
9
16
25
36
49
64
81

所以，我们创建了一个generator后，基本上永远不会调用next()，而是通过for循环来迭代它，并且不需要关心StopIteration的错误。

要创建一个生成器，第二种方法是使用yield关键字，这个在下面介绍。

yield

以下内容大多数来自于python中yield的用法详解——最简单，最清晰的解释，自己做了简单的说明以及补充，方便自己理解。

首先，如果你还没有对yield有个初步分认识，那么你先把yield看做“return”，这个是直观的，它首先是个return，普通的return是什么意思，就是在程序中返回某个值，返回之后程序就不再往下运行了。看做return之后再把它看做一个是生成器（generator）的一部分（带yield的函数才是真正的迭代器）。好了，如果你对这些不明白的话，那先把yield看做return，然后直接看下面的程序，你就会明白yield的全部意思了：

def foo():
    print("starting...")
    for x in range(4):
        res = yield x ** 2
        print("res:",res)
        
g = foo()
print(type(g))
print(next(g))
print("*"*20)
print(next(g))

print("*"*20)
for x in g:
    print(x)

就这么简单的几行代码就让你明白什么是yield，代码的输出这个：

<class 'generator'>
starting...
0
********************
res: None
1

我直接解释代码运行顺序，相当于代码单步调试：

程序开始执行以后，因为foo函数中有yield关键字，所以使用foo()的时候foo函数并不会真的执行，而是先返回一个生成器g（相当于一个对象），因此此时type(g)的结果为<class 'generator'>。
直到调用next方法，foo函数正式开始执行，先执行foo函数中的print方法，然后进入while循环
程序遇到yield关键字，然后把yield想想成return，return了0**2之后，程序停止，并没有执行赋值给res操作，此时next(g)语句执行完成，所以输出的前两行（第一个是while上面的print的结果,第二个是return出的结果）是执行print(next(g))的结果
程序执行print("*"*20)，输出20个*
又开始执行下面的print(next(g)),这个时候和上面那个差不多，不过不同的是，这个时候是从刚才那个next程序停止的地方开始执行的，也就是要执行res的赋值操作，这时候要注意，这个时候赋值操作的右边是没有值的（因为刚才那个是return出去了，并没有给赋值操作的左边传参数），所以这个时候res赋值是None，所以接着下面的输出就是res:None
程序会继续在while里执行，又一次碰到yield，这个时候return出1**2，然后程序停止，print函数输出的1就是这次return出的1。

到这里你可能就明白yield和return的关系和区别了，带yield的函数是一个生成器，而不是一个函数了，这个生成器有一个函数就是next函数，next就相当于“下一步”生成哪个数，这一次的next开始的地方是接着上一次的next停止的地方执行的，所以调用next的时候，生成器并不会从foo函数的开始执行，只是接着上一步停止的地方开始，然后遇到yield后，return出要生成的数，此步就结束。

生成器与迭代器关系

之前我们介绍过如何判断一个对象是否为可迭代对象（Iterable）和迭代器对象（Iterator）。下面我们就对第一种方法得到的生成器对象进行判断：

from collections import Iterable
isinstance((x for x in range(10)), Iterable)
Out[1]: True

from collections import Iterator
isinstance((x for x in range(10)), Iterator)
Out[2]: True

所以，从中可以看到，生成器是一个不仅是一个可迭代对象，更是一个迭代器对象（迭代器对象一定是可迭代对象）。

参考

python中yield的用法详解——最简单，最清晰的解释
 生成器
 Python 中的黑暗角落（一）：理解 yield 关键字