数字环保|深度学习帮助空气质量预报更准确

26.04.2016  11:18

      在围棋人机大战中,AlphaGo凭什么以4:1战胜九段棋手李世石?  

  答案是AlphaGo通过深度学习,以一种偶然的方式必然地赢得了人机大战。  

  ◆本报记者徐丽莉

  癌症、气候变迁、能源、基因组学、宏观经济学、金融系统、物理学等,太多我们想掌握的系统知识正变得极其复杂。如此巨大的信息量让最聪明的人穷极一生也无法完全掌握。那么,我们如何才能从如此庞大的数据量中筛选出正确的见解呢?而一种通用人工智能思维的方式则是自动将非结构化信息转换为可使用知识的过程。我们所研究的东西可能是针对任何问题的元解决方法。 

  ——人工智能公司DeepMind  联合创始人德米斯·哈萨比斯 

  深度学习究竟是“何方神圣”?  

  “人机大战”使深度学习这一2006年就提出的概念迅速席卷各大网络平台。

  深度学习是机器学习的一种。机器学习是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来进行预测。深度学习就是构建具有很多隐层的机器学习模型,而隐层模型的关键在于,可以建立像人脑一样分析学习的深度神经网络。

  IBM中国研究院能源与环境资深总监尹文君解释说,比如,把一张小女孩牵着狗的图片输入计算机中,以前机器学习没有人和狗谁重要谁不重要的概念,图片就是像素的矩阵,但这些描述的意义并不大。机器经过深度学习后,可以像人一样思考,分析图像中的物体、明暗变化、界限等,自动提取图片有效信息,从而描述出小女孩牵着狗的近景照片这样有特征的信息。

  深度学习为何在大数据时代备受青睐?  

  十年前的概念缘何在近几年迅速蹿红,尹文君解释说,深度学习的“火爆”与大数据发展密不可分。

  深度学习首先需要海量数据作为支撑。上世纪80年代到90年代 ,由于没有太多的数字信息可用,计算机要花费很长的时间确定有哪些信息。如今随着大数据时代的到来,深度学习的优势凸显。深度学习需要依靠大量的数据进行训练,以提高预测的准确性。

  而大数据时代也迫切需要深度学习。海量数据的涌入,人处理信息已经心有余而力不足,深度学习则有其他算法无法比拟的优势,能挖掘大数据背后更多隐含的意义和信息。

  以往,算法处理的都是结构化的数据,很难识别空间、视频、图像等多维度的、非结构化的数据,而深度学习则在图像、在语音识别、自然语言理解、机器人、自动驾驶等领域有持续突破性进展,也推动了“大数据+深度模型”时代的来临。

  据尹文君介绍,深度学习在图像识别领域,性能比以往算法提高了20%~30%,识别率在某些领域已经超过了人类。

  深度学习能解决哪些环保问题?  

  在生态环境大数据建设步伐日益加快的今天,深度学习究竟能帮上什么忙?哈萨比斯在建造AlphaGo的时候,就已经计划它能够应用于解决现实世界的问题,比如建立气候模型或者进行疾病分析。

  尹文君所在的能源与环境开发团队就正在探索使用深度学习的方法进行空气质量的预测和污染源追溯。从深度学习擅长处理的数据来看,深度学习首先会在卫星遥感数据上有所运用,可以通过数据识别和判断污染源和污染的分布状况,并同时结合地面监测数据,得到一张精确的全国污染分布状况图,并实现动态更新,实时服务于环境管理。

  针对目前火爆的空气质量预测预警市场,深度学习也“表现突出”。目前空气质量预警预报多采用传统的数值模型方式,仅靠有限站点的空气质量监测数据、污染源数据和气象数据进行预测,但由于点位的覆盖不够全,加之没有考虑周边环境的影响,空气质量预测预警准确性大打折扣。深度学习擅长多维度数据的处理,如果一个分析对象可以作为一个场,深度学习可以对地面观测场、气象场的各类气象要素及模型参数分别进行学习,对未来的空气质量进行精细化预测,可以大大提升预测准确率。

  “IBM的认知计算建模技术通过将物理、化学、统计、专家系统等多模型与深度学习进行融合,空气质量预测预警准确率提高20%。”正在从事空气质量预报预警研究的IBM中国研究院研发经理吕新杰表示。

  目前,深度学习基本可以模拟不同减排手段产生的减排效果,未来,深度学习还可以根据减排要求,提出减排措施,比如总量减排要总体降低10%,某地应该采取何种减排措施。但尹文君表示,后者需要更完善的基础和更强大的运算资源。

  谷歌工程师曾表示,人工智能的下一个里程碑就是自然语言理解,包括更好地理解书写文字以及搜索查询的功能。这也为环保部门使用社交数据提供了新的工具和手段。据了解,IBM目前已经在尝试利用深度学习分析互联网及社交媒体数据,进行污染源的交叉验证,以实现污染源的动态精准识别。

  对深度学习来说,不仅要有大量的数据积累做基础,还要有均匀、稳定、连贯的数据来支撑。

  尹文君表示,目前环保部门虽然已经集成了一些数据,污染源数据、气象数据、超级站的数据都比较丰富,但数据质量和共享机制有待提高。深度学习要更好地应用到生态环境大数据建设中来,实现精准的预测,就需要环保部门保障数据积累、做好数据共享,让深度学习在环保领域一展身手。

  ■相关阅读  

  深度学习发展史

  2006年,加拿大多伦多大学教授、机器学习领域泰斗——Geoffrey Hinton和他的学生在顶尖学术刊物《科学》上发表了一篇具有里程碑意义的文章,重新审视深度学习方法,将深度学习的性能提上一个新台阶。

  2009年,辛顿小组获得了意外的成功,他们的深度学习神经网络在语音识别应用中取得巨大突破,转换精度突破世界纪录,错误率比以前减少了25%。有评论说,辛顿小组的研究让语音识别领域缩短了至少10年的时间,他们的突破也吸引了各大公司的注意,苹果公司把研究成果应用到了Siri语音识别系统上。从此,深度学习便一发不可收拾。

  2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。

  2011年,谷歌X实验室的研究人员从YouTube视频中抽取了1000万张静态图片,把它“”给谷歌大脑,在这些图片中寻找重复出现的模式。谷歌大脑就是一个采用了深度学习技术的大型神经网络模型,由1000台电脑组成。三天后,谷歌大脑在没有人类帮助的情况下,从这些图片中发现了猫。这件事在人工智能界引起很大的轰动,被认为是深度学习复兴的里程碑。

  2012年,深度学习技术在图像识别领域取得惊人的成果,在ImageNet评测上将错误率从26%降低到15%。同年,制药公司将深度神经网络应用于药物活性预测取得世界范围内的最好结果,2013年4月,麻省理工学院《技术评论》杂志将深度学习列为2013年十大突破性技术之首。

  如今,神经网络研究如日中天,由于擅长处理语音、视觉以及其他复杂的人机交互,可以识别患有自闭症风险的基因,可以为图片和视频自动添加标题,可以用于制造无人驾驶汽车和机器人。神经网络已经被谷歌、Facebook、微软、百度等技术先驱欣然采纳。

  但深度学习也不是万能的。人工智能包括3个方面,第一是感知,就是知道周围环境怎么样,知道与对方交互时对方在说什么,表达什么意思。第二是认知,也就是说在感知的基础上进行理解。比如机器已经能识别人类的语言,但是听不懂其中的意思。第三是决策,就是根据理解所作出的行动。

  目前,感知和决策智能已经取得巨大进步,甚至在某些方面已经超过人类,但是在认知方面还有很多差距,机器依然听不懂人的意思。

(责任编辑: 省环保厅)