机器学习：给我卫星图像，就知道哪里比较穷| 果壳科技有意思

阿布evo
前沿
数学

1633字
需用时 03:15

机器学习：给我卫星图像，就知道哪里比较穷

阿布evo

没有人喜欢贫穷。

每个国家的政府都立志消除本国的贫困状况，联合国可持续发展目标的第一条就是“在全世界消除一切形式的贫困”。但想要消灭它，就得先认识它——政策制定者和人道援助组织都需要了解，究竟是哪里的人更贫穷。

细致的、全国范围的调查无疑能帮上忙。但是在一些非洲国家，进行调查本身都太过昂贵而难以负担。从2000年到2010年，59个非洲国家中，对扶贫政策制定有帮助的调查进行了还不足两次的国家就有39个，有些甚至根本没有。以安哥拉为例，它最近的两次人口普查相隔了44年，人口从560万增长至2430万……

严重的数据不足导致人们开始呼吁进行“数据革命”，然而若想在所有这样的国家频繁开展调查，可能需要耗费数千亿美元才能收集到足够的数据量。除了成本上的原因，某些国家也不愿意进行这些调查，因为他们觉得把自己的平庸表现记录下来并不好。

面对这些困难，人们也开始另辟蹊径，寻找新的数据来源。比较流行的一种做法，是使用夜间的灯光卫星图来进行估计——显而易见，较为发达的地区灯光也更加明亮，也有研究证实了这种相关性。但是对于那些居住在低于国际贫困线的地区而言，这一方法显得有些无力。因为这些极端贫穷的地区夜间光照水平极低，而且没有多少差异可言。另一种想法是使用移动电话的数据，但如何获得运营商的信任来获得数据也成了一大难题。

仅仅凭借夜间的照明情况来推断经济状况的方法，用在贫困地区的分析上会影响效果。图片来源：sustain.stanford.edu

斯坦福大学的尼尔·吉恩（Neal Jean）等人今日在《科学》杂志上发表一篇论文^[1]，详细描述了如何利用机器学习来为人们与贫穷的斗争出力。他们训练卷积神经网络（Convolutional Neural Network ）通过白天高清卫星图像预测特定地区的社会经济状况，使用5个非洲国家最近的经济统计结果进行验证后，他们发现这种算法可以仅利用可得的公共数据估算出地区贫富情况。

从卫星图像中学习洞察贫富信息

卷积神经网络是一种优秀的深度学习结构，经常被用于大型图像识别和自然语言处理等领域。不过，要对卷积神经网络进行有效的训练，通常需要大量的、带有标记的训练数据。但在吉恩的研究中，这样的数据恰恰是稀缺的——即便是详尽的入户调查数据，也只涵盖几百个地点的信息，完全不够用。而高清的卫星图像虽然丰富但这些图片并没有很好地进行结构化处理，大规模提取有效信息相当困难。面对这一挑战，研究团队决定采取多步骤“迁移学习”（transfer learning）的方式来训练自己的模型。

吉恩和同事首先使用图像识别数据库ImageNet对他们的卷积神经网络模型进行训练，用大量经过分类的图像让模型学会最基本的特征识别（比如边缘、转角）。然后，研究者用上了谷歌静态地图API提供的日间卫星图像——白天的卫星图像更清晰，细节（比如铺设的道路和金属的屋顶）也更多。他们让这一模型程序通过分析白天的图像，预测当地的夜间光照情况。在这个过程中，模型学会了将分辨率较高的图像特征，总结为分辨率较低的图像特征。研究者指出，在低支出地区，夜间光照没有太多区别性，但研究显示，有些只能在白天卫星图上看到的东西，比如说屋顶的材料、和城镇的距离与消费能力有着非常直接的关系。配合以夜间光照的训练结果，他们就更有能力完整捕捉地区整体的经济生活状况。

研究者开发的模型学会分辨卫星图像中的某些可能与夜间光照程度有关的特征。图片来源：sustain.stanford.edu

在这个基础上，他们结合之前已有的实际调查数据和卷积神经网络模型提取出来的图像特征，训练他们的模型估算出集群层次（大致相当于城镇中的区或是乡村的村）的开支和资产水平。

花销不高，还能做得更好

随后，研究者使用了尼日利亚，坦桑尼亚，乌干达，马拉维和卢旺达这五个国家的数据检验了模型的“实战水平”——他们对每个国家都进行了100个验证实验，对比他们的模型与仅使用夜间光照作推断的模型谁比较准确有效。结果，他们的模型表现得明显更加优越，尤其是在估测极端贫穷地区（收入水平远低于国际贫困线的集群）的消费水平方面，这一模型甚至在99.5%的对比试验中表现优于用夜间光照推断的模型。而在估算资产时，这一模型展现出了更大的优势。

机器学习被用于预测尼日利亚，坦桑尼亚，乌干达，马拉维和卢旺达五个国家各地区的支出情况。图片来源：Neal Jean et al.

研究者认为，这项工作充分展现了机器学习工具的潜力。在这个例子中，只要有正确的设置和精度足够高的卫星图片，经过得当训练的卷积神经网络能够从有限的资源中窥得有效信息。凭借成本和通用性方面的优势，这些结果能够在帮助国际社会分析和对抗贫穷的工作中派上大用场。

（编辑：Calo）

参考文献：

Neal Jean et al. Combining satellite imagery and machine learning to predict poverty. Science : Vol. 353, Issue 6301, pp. 790-794 DOI: 10.1126/science.aaf7894

文章题图：sustain.stanford.edu

The End

发布于2016-08-19，本文版权属于果壳网（guokr.com），禁止转载。如有需要，请联系果壳。

举报这篇文章

阿布evo

设计湿修行中