地理大数据
针对地理大数据的内在本质以及地理大数据挖掘对于地理学研究的意义,本文解释了地理大数据的含义,并在大数据“5V”特征的基础上提出了粒度、广度、密度、偏度和精度等“5度”的特征,揭示了地理大数据的本质特点。在此基础上,从地理大数据的表达方式、地理大数据挖掘的目标、地理模式的叠加与尺度性、地理大数据挖掘与地理学的关系等4个方面阐述了地理大数据挖掘的本质与作用,并从挖掘目标的角度对地理大数据挖掘方法进行分类。未来地理大数据挖掘的研究将面临地理大数据的聚合、挖掘结果的有效性评价以及发现有价值的知识而非常识等几方面的挑战。
基于大数据进行城市服务设施空间格局分析已成为一种新的研究热点,而餐饮业是城市服务业的典型代表,因此通过开源大数据对城市餐饮业的空间布局进行研究具有重要的意义。本文以北京地区作为研究区,采用网络爬虫技术获取大众点评上153 895家餐饮店数据,引入基于密度的CFSFDP聚类算法从空间分布密集度和人均消费等级方面对餐饮业背后蕴含的地理聚集特征进行分析。研究发现:① 北京地区餐饮店总体呈现多中心的空间分布特征,其集聚程度以主城区为核心向外逐级递减,并明显表现出围绕重要商圈、旅游景点和住宅区进行布局以及沿交通轴线扩展的趋势;② 不同人均消费水平的餐饮店呈现等级体系特征,即高档餐馆少而集聚,中低档餐馆多而散的分布特点;③ 餐馆分布密集程度和定价表现出接近市场和消费者的特征。同时,本文综合空间集聚特征和消费水平2项指标对影响餐饮店集群空间分布格局的因素进行了分析,以期为政府规划部门进行城市商业空间布局研究提供借鉴。
网络文本中所包含的相关信息目前已成为公共安全事件紧急救援与影响评估的重要信息源。现有的方法虽然可定向地提取文本信息中事件的各类要素信息,但由于缺乏面向事件的整体建模与解析框架,难以从网络文本中获取系统的事件要素的结构化信息,即所提取的事件要素信息要么不够完整,要么与目标事件不匹配,由此产生的遗漏与谬误难以支撑针对公共安全事件信息的系统分析。为解决该问题,本文提出了面向公共安全事件的网络文本大数据结构化理论框架,首先,建立了公共安全事件的语义框架,并以地震事件为例构建了相应的结构化表结构;其次,应用训练语料的关联标注解决了事件要素与事件无法匹配的难点;最后,通过使用可融合关联信息的文本解析算法,系统提取了事件类型、事件名称、事件时间、事件位置及其他属性,基本实现了网络文本中不同事件信息的结构化。本文以云南邵通鲁甸地震为例,展示了地震事件的网络文本信息的结构化过程与结果,为分析地震所受的关注程度以及救援状况提供了重要参考。在上述研究的基础上,开发了面向公共安全事件的网络文本信息挖掘系统,展示了地震事件文本的结构化解析以及由此实施的事件关注度分析。
社会经济的高速发展直接驱动了中国过去几十年的持续快速城市化进程。城市化是一个典型的复杂地理现象,伴随着高密度人口聚集、土地利用改变、基础设施建设和生态环境变化等系列人和自然交互过程的发生。深入理解城市发展的时空演化规律对研究、规划、管理和相关政策制定在内的诸多领域都有十分重要的意义。近些年来,由于快速发展的夜光遥感大数据具有空间清晰的与城市化有关的社会经济活动强度的感知信息,其为探索城市和城市化问题提供了新的研究途径。虽然有许多成果对利用夜光遥感数据进行城市化的研究进行了探讨,但大部分集中在城市化面积、人口规模和其他社会经济变量的定量相关和数值统计分析上,仍然缺乏对中国过去几十年来的城市化时空特征的综合多角度分析和理解。本研究利用1992-2013年的夜光遥感时间序列大数据,从夜光照亮面积、亮度变化时间转折点、不同亮度区的空间结构转换和亮度信号的空间扩散速度4个方面进行了定量化的信息提取与分析。研究结果从夜光辐射遥感大数据的视角综合揭示了中国在过去研究期间包括城市空间扩展、城市化发展的时间分布、城市空间结构演化和城市化活动空间扩散速度在内的定量时空特征。本研究的结果可以为深入理解中国城市化的时空模式与演化特征提供新的参考。
针对目前城市人口分布研究现状,在传统的空间句法模型基础上,将LBS大数据技术有机引入到城市人口分布研究中,从而构建了理论分布和实际分布有机结合的城市人口分布研究新思路。合肥市中心城区的案例研究显示:空间句法模型与LBS大数据分析所得到的人口集聚区域在空间上并不完全一致;根据空间句法模型和LBS大数据分析结果的综合对比,合肥市中心城区被划分为高密度、中密度和低密度3类人口分区,同时提出了不同密度分区的人口分布发展建议。研究表明,LBS大数据的适时、动态特点能弥补传统数据的不足,其与空间句法模型有机结合将能为城市人口分布研究提供更加精确高效的工具与方法。
随着互联网、物联网和云计算的高速发展,与时间、空间相关的数据呈现出“爆炸式”增长的趋势,时空大数据时代已经来临。时空大数据除具备大数据典型的“4V”特性外,还具备丰富的语义特征和时空动态关联特性,已经成为地理学者分析自然地理环境、感知人类社会活动规律的重要资源。然而在具体研究应用中,传统数据处理和分析方法已无法满足时空大数据高效存取、实时处理、智能挖掘的性能需求。因此,时空大数据与高性能计算/云计算融合是必然的发展趋势。在此背景下,本文首先从大数据的起源出发,回顾了大数据概念的发展历程,以及时空大数据的特有特征;然后分析了时空大数据研究应用产生的性能需求,总结了底层平台软硬件的发展现状;进而重点从时空大数据的存储管理、时空分析和领域挖掘3个角度对并行化现状进行了总结,阐述了其中存在的问题;最后指出了时空大数据研究发展趋势。
了解城市人群移动行为和空间结构对城市规划、交通管理、应急响应等具有重要的意义。近年来,随着信息技术(ICT)的快速发展,采集大规模、长时间序列的人群移动定位大数据变得容易,为人群移动行为研究带来了新的机遇和挑战。本文首先介绍了目前用于城市人群移动行为和空间结构研究的主要数据源及其特征,并分别从人群移动行为、城市空间结构2个方面对近3年国内外相关研究进行归纳总结。目前的研究主要从移动定位大数据中挖掘人群移动模式,理解人群移动时空规律,进一步透视城市的空间结构特征;而对城市空间结构与人群移动行为影响的研究较少。未来可通过融合多源时空数据,综合研究人群移动行为与城市空间结构之间的相互作用,发展大规模群体移动行为时空分析理论和模型,进一步深入理解人群移动行为与城市空间结构的耦合关系。
大数据之风自2010年席卷全球,已在科学、工程和社会等领域产生深远影响。本文首先从地理大数据、第四范式以及非线性复杂地理系统3组基本概念出发,剖析上述3组概念之间的科学联系与相互支撑作用,提出大数据和第四范式为地理复杂性研究提供新机遇。其后,探讨如何利用大数据和复杂性科学的理论方法开展地理复杂性研究。基于地理大数据,可以通过统计物理学的系列指标描述现实地理世界的复杂非线性特征,同时,还可利用深度学习、复杂网络、多智能体等方法,实现复杂非线性地理系统的推演和模拟。上述方法对认知地理现象和过程的复杂性,对复杂地理系统的分析、模拟、反演与预测有重要作用。最后,提出地理大数据和复杂性科学相互支撑可能成为21世纪地理学的主流科学方法。
基于多源大数据,构建了整合城市活动-移动系统、城市人口系统、城市运行系统、城市环境系统4个系统的城市体征诊断指数体系。该指数体系分解为底力、动力、压力、活力4个维度,具有4个层次和12个时空间尺度。底力指数表征土地、人口等空间单元基本属性,用以把握区域总体特征;动力指数通过企业发展状况、环境质量等反映了空间单元的发展状态;压力指数用以监测城市系统运行状况,起到风险评判与预警的作用;活力指数以活动和流的时空特征进行活动动态展现,反映空间单元的真实活力。最后以2016年4月6日为例,计算和展示了上海各街道的综合和各维度体征诊断指数,说明了体征诊断指数的可应用性和指数计算结果的稳健性。城市体征诊断指数可以辅助于城市网格化管理、压力预警等治理需求。
信息技术与电商平台的发展,产生了各种各样的大数据。在城市服务业中,商家在电商平台上注册自己带有坐标的信息,构成了空间服务业的空间大数据源。首先建立限定距离阈值的空间关联规则数据模型,介绍该模型产生频繁项集和关联规则的方法与步骤。最后利用Python爬取糯米网南宁站的商家信息,用Apriori算法做出了10~1 000 m 6种距离阈值的空间关联规则和服务业空间频繁项集。
以北京旧城中轴文化遗产为例,利用2012、2015年的相关微博、报刊新闻、学术文献数据,通过提取关键词,抽取词频、tf-idf权重、互信息、后验概率等特征,从群体、时间、空间多个维度分析文化遗产的认知。在人群维度上,通过具有特征性人群的传媒信息,发现不同人群对文化遗产的认识存在异同:对于中轴文化遗产核心单元故宫、天安门、天坛的认知相对一致,而对于钟楼鼓楼、太庙、地安门的认识,官方偏向于行政管理,学者偏向于历史价值,大众则偏向于生活化。在时间维度上,提取文化遗产关注程度和认知变化。如相对于2015年,大众对故宫、天安门的关注程度相对提高,对太庙的历史价值认识更为丰富。大众相对于官方和学者对文化遗产的认知更容易发生变化,且对热点事件敏感。在空间维度上,挖掘文化遗产单元之间的认知转移和关联模式,一方面,空间上相连的天安门—正阳门—正阳门大街具有较高的双向认知;另一方面,中轴文化遗产中,故宫、天安门、天坛的后验概率较高,表现出跨空间的认知汇聚模式。基于大数据的认知分析方法,是问卷调查、文献调研、访谈分析等传统方法的重要补充方式,能够降低数据收集者的主观影响,增加分析维度和效率,有助于发现隐含的知识和模式。本文结论可为文化遗产价值挖掘、保护提供决策支持。
基于情绪分类取向,通过界定三个旅游文本情感分析的过滤参数:旅游专属词库、语义逻辑规则和情感乘数,构建基于网络大数据的旅游目的地情感评价模型。基于该模型,抓取了120731条游客评论对8个旅游目的地进行评价,并以联合国世界旅游组织旅游可持续发展监测数据作为标准数据进行校验。研究证实三个过滤参数具有一定的科学性,能够较为准确地捕捉到游客对目的地评价的总体情感意象;经过单年度和多年度校验,六类规则的准确度依次为:C2>C1>C3>B>评分法>A,即规则C2下的评价结果与监测结果最为吻合。结论证实了旅游大数据的可用性,为后续的理论推进和实践应用提供了科学依据。
信息技术的快速发展引起了城市研究领域的“大数据”热潮,并带来了传统城市研究方法的变革。但是,其自身存在的诸多缺陷使得学者不得不重新考虑传统小数据的应用角色。但是,传统小数据并没有失去其应用价值,相反,以城市与居民行为活动关系研究为主体的信息时代的城市研究必要充分结合大数据与小数据,并探讨适宜的方法论与方法框架,从而应对日益复杂的城市问题和居民需求。提出“物质空间与活动空间结合”、“相关关系与因果关系结合”、“宏观分析与微观挖掘结合”的3个方法论,并在此基础上构建了“大样本空间发展评价+空间差异与联系发现+小样本影响因素探究”、“小样本模型构建+影响因素发现+大样本验证及挖掘”、“微观活动分析+活动空间界定+影响因素探究”3种方法框架,且分析了这些框架的具体应用,以期为未来的城市研究提供思路和方法借鉴。
针对城市道路拥堵问题的日益加剧的问题,智能化城市交通管理平台是缓解拥堵问题的有效方法,利用交通流大数据预测结果进行交通诱导,能够指导用户调整出行方案,有效缓解交通压力。研究了交通流大数据的分布式增量聚合方法,对海量交通流数据进行清洗统计,为交通流预测提供数据基础,基于交通流在路网中上下游路段的相关性分析,利用路口转弯率多阶分配将该相关性量化,构建基于路网相关性的空间权重矩阵,完成对于STARIMA模型的改进。通过应用试验证明,该方法能更准确的进行交通流预测,为交通诱导信息发布提供依据。
利用大数据可视化手段研究中国省际间生猪流通问题,用GIS将整合后的多源数据进行数据可视化,研究中国19个省(市)的区域间生猪流通现状。参照《国家新型城镇化规划(2014~2020年)》和前人研究成果,将区域间生猪流通现状与中国城市群可视化结果结合进行分析,归纳各城市群生猪流通现况,获得基于城市群发展的生猪空间流通模式,从空间角度分析中国整体生猪空间流通格局存在问题。结果显示,中国总体生猪流向有明显的“西猪东运,北猪南运”趋势,京津冀城市群、长江三角洲城市群和珠江三角洲城市群是中国最主要3个吸纳外埠生猪供应地区,是中国整体生猪流通系统中最重要的组成部分。
随着城市化与工业化程度不断加深,产业空间结构不断重组,导致土地供需矛盾日益突出,国土资源无序开发日益严重,因而优化国土资源空间格局,成为生态文明建设的首要任务。同时,科学合理配置土地资源对土地规划提出了更高要求,传统土地规划方法有待改革。在基于尊重自然、顺应自然的开发理念下,总结土地自然过程基础对土地规划的影响,实现“山水路林田生命共同体”的协调规划发展。其次,“大数据”时代的来临,云计算、空间数据整合、云分析等技术对土地规划方法提供新的技术支撑;最后,针对土地规划数据特殊性、移动用户终端的广泛性,提出应创建土地规划云服务平台,使土地规划实现数据集成管理和更新,从而提高土地规划质量。
随着港口信息化建设的推进,积累了大量来源多样、结构各异的海事大数据,为了解港口城市的生产力和区域经济发展水平提供了新的契机。本文综合介绍了作者近期关于如何利用海事大数据进行港口感知计算的工作,给出了一个基于海事大数据的港口感知计算框架,利用船舶GPS轨迹、船舶属性、港口地理信息和港口设施参数等多源异构海事大数据,估算出一系列反映港口生产力的指标,从而对港口进行综合评价和比较。首先,利用船舶轨迹和港口地理信息数据,自动检测船舶在港口码头中的靠泊装卸事件;然后,利用船舶属性和港口设施数据,自动估计出每次靠泊装卸事件的货物吞吐量;最后,对各个港口码头的靠泊船数和货物吞吐量进行统计,从而计算出一系列港口生产力指标,包括到港船数、货物吞吐量、码头作业效率和泊位利用率等。在2011年的海事大数据上的实验结果表明,本框架能准确地估算出上述港口生产力指标。同时,以香港为例对上述港口的生产力指标进行分析,探讨基于海事大数据的港口感知计算框架在提高港口生产效率、优化海运航线中的积极作用。
大数据逐渐成为各领域学者开展研究的重要途径,目前在人文-经济地理学界逐渐得到重视,并进行了初步应用,相关研究依据尺度不同可以分为居民出行和消费、城市空间结构、区域社会经济联系等。但目前大数据在人文-经济学的应用研究还属起步阶段,少有研究基于大数据对区域多层级空间结构进行系统甄别分析。本文在采集互联网大数据的基础上,结合统计数据、交通路网等传统数据评价城市综合实力、城际联系强度,并基于此构建区域空间结构计算机算法分析区域多层级空间结构。京津冀案例应用揭示了京津冀多层级体系结构,确定了各城市辐射范围、城际相互作用关系。本文初步探索使用互联网大数据甄别区域空间结构,希望能为人文-经济地理领域开展大数据应用研究提供参考。
大数据时代,地理时空数据的迅猛增长给应用理念、技术框架和服务形式带来挑战。本文在阐述地理时空大数据概念的基础上,首先分析了地理时空大数据计算面临的挑战,从数据协同、技术协同、服务协同和生产协同4个层次阐述了地理时空大数据协同计算方法;然后,根据平台化服务的需求设计了地理时空大数据协同计算框架,从遥感数据综合预处理、地理时空数据的组织与管理、地理时空大数据高效计算、地理时空大数据可视化4个方面论述了地理时空大数据协同计算实现的关键技术;最后,以遥感大数据综合处理系统作为案例说明了地理时空大数据协同计算与服务的实现方法,并对地理时空大数据的应用模式进行了展望。
数据可视化是遥感应用的重要服务出口。针对静态的预生成瓦片地图难以满足数据查看、地图配置、空间分析等专业应用问题,本文提出了一套面向遥感大数据的实时渲染与交互可视化的解决方案。在渲染节点构建影像的渲染瓦片结构,以提高数据的读取速度;在可视化服务上,提出“数据-计算”相一致的负载均衡策略,优化地图的渲染效率;在可视化服务方面,设计交互的地图服务接口。与传统技术的对比分析表明,该解决方案不但实现了遥感大数据的实时渲染与交互可视化,并且达到了与预生成瓦片地图服务相当的服务性能。基于这一解决方案,研发了遥感大数据的动态可视化原型,并在影像数据实时查看、可视化计算、可视化分析等方面开展了示范应用。
随着遥感数据获取能力的日益增强,一方面导致遥感数据的多元化和海量化,使“存不起”的问题日益突出,另一方面由于缺少有效和高效的存储管理方法,难以及时发现终端应用所需的数据,使结果“存而无用”。本文围绕巨量、高吞吐、空间结构化的遥感影像数据及其基础土地信息产品的存储与管理问题,提出采用大数据架构的遥感资源存储管理方法,并基于MongoDB数据库实现了原型系统;通过使用PB量级数据进行试验,证明了该方法满足大数据时代对遥感矢栅数据的存储管理需求。
互联网时代的“大数据”热潮迅猛波及到经济社会的各个领域,地理学是大数据研究与应用的天然试验场。聚焦地理学与大数据的碰撞,回顾大数据在地理学研究中的应用探索,重点讨论大数据给地理学研究与发展带来的机遇与挑战。讨论认为:大数据已经对地理学研究产生了一定的影响。其中,人文地理学领域的反应最为热烈,基于大数据的研究案例纷纷呈现;地理信息科学在互联网大数据时代将会更加迅猛发展,自然地理学领域正在寻找和等待爆发点。目前,大数据还不能改变地理学的核心命题与基本范式,在坚持地理学核心思想的同时,应该对地理学领域有关大数据理论的探讨与应用尝试持有一种开放包容的态度。
伴随着移动通信技术的快速发展以及定位应用程序的普及,带有地理空间信息的数据成为“大数据”中的重要部分,为人文地理学研究的发展提供了新的机遇,也契合了人文地理学“计量转向”与“社会转向”的发展规律,以及人文地理学人本主义的发展趋势。但同时,人文地理学者也面临着数据决定论、数据分析方法准备不足以及数据自身缺陷所带来的危机与挑战。在“大数据”热潮下,无论是定量研究还是定性研究,“大数据”还是“小数据”的研究,都应当给予同样的重视,数据规模与数据的采集、分析和阐述并无很大的关联。并且,还需要警惕由于数据垄断可能带来研究的“数字鸿沟”,并呼吁人文地理学研究在研究方法与内容等方面与其他学科进行更多的跨学科合作。
通过全面系统地分析大数据特点和应用升级、大数据引发的新一轮产业革命、阐述大数据在国家基础数据库、电子政务业务、新型城镇化建设、物流公共信息服务、互联网金融、电子商务与企业信息化管理、世纪之村服务平台等行业的应用内容,指出当前中国大数据使用面临的问题与挑战,提出解决的方案和途径。
大数据技术的诞生不仅快速推动着社会的进步,而且也将科学研究不断引向新的高度。以人类社会经济活动为主要研究对象的人文—经济地理学与当前大数据建设和发展趋势具有高度一致性,大数据的发展对丰富和完善人文—经济地理学势必起到积极的推动作用,同时也对人文—经济地理学的学科思维和研究方法提出了新的挑战。梳理和分析了目前大数据在人文—经济地理学主要研究领域,包括城市内部空间研究、交通与消费行为、社会空间与社会网络研究中的最近进展,以及大数据对参与式研究和决策平台的作用。着重剖析了大数据对人文—经济地理学数据获取,研究思维与范式,研究内容、研究时空尺度与研究目标等方面的促进作用与存在问题,特别是由于大数据自身发展的不完善,在数据收集特别是数据属性方面还存在很大的局限,缺乏理论基础将会使得大数据与实际应用受到很大限制,同时,数据本身也不能替代研究者思维和决策过程。因此,人文—经济地理学者应该科学对待大数据所带来的机遇,弥补和丰富以往发展中的短板,即完善学科数据建设、建立大数据应用较为完善的研究方法体系,促进跨域数据整合和跨域研究,以及推进研究对象和研究目的的转变。
出租车客源的时空分布不均衡,不仅影响着出租车司机的收入,更重要的是极大地影响着出租车作为城市公共交通重要补充作用效益的发挥和提升。由于拒载、空载等因素的影响,传统研究出租车驾驶行为的评价方法,已无法准确表达出租车运营效率。本文以出租车GPS数据为研究对象,通过加入出租车空载状态的影响来优化出租车效率评估模型,首次提出了出租车优质客源的概念,对出租车优质客源进行定义与量化,建立优质客源的时空分析方法,并从出租车行驶轨迹中提取优质客源信息与优质客源的时空分布规律,为改善出租车司机的收益及提高出租车运营效率提供科学依据。