【原创】大数据分析中基于ＭａｐＲｅｄｕｃｅ的空间权重创建方法研究

摘要：大数据空间分析是ＣｙｂｅｒＧＩＳ的重要方面。如何利用现有的网络基础设施（如大规模计算集群）对大数据进行并行分布式空间分析仍然是一大难题。提出一种基于ＭａｐＲｅｄｕｃｅ的空间权重创建方法。该方法依托Ｈａｄｏｏｐ框架组织计算资源，基于ＭａｐＲｅｄｕｃｅ模式从大规模空间数据集中高效创建出空间权重：大空间数据首先被分为多个数据块，然后将映射器分布给计算集群中的不同节点，以便在数据中寻找出空间对象的相邻对象，最后由约简器从不同节点处收集相关结果并生成权重文件。利用Ａｍａｚｏｎ公司弹性ＭａｐＲｅｄｕｃｅ的Ｈａｄｏｏｐ框架，从人工空间数据中创建基于邻近概念的权重矩阵进行仿真，实验结果表明，本方法的性能优于传统方法，解决了大数据的空间权重创建问题。

关键词：大数据空间分析；ＭａｐＲｅｄｕｃｅ；空间权重；附近邻居；可扩展性

引言
大空间数据的出现产生了一些新颖而又颇具挑战性的科学问题［１，２］，如空间数据的多尺度表达、基于服务质量保证的空间数据互操作等。为此，人们提出了ＣｙｂｅｒＧＩＳ［３］框架，通过提供一种空间中间件来利用当前网络基础设施（ＣＩ）所具有的强大计算资源（如高性能云计算［４，５］）来解决这些问题。该框架将空间数据操作、地理可视化、空间模式检测、空间过程建模和空间分析等分布式地理处理组件，无缝地集成为一种可以高效利用ＣＩ基础设施计算能力的空间中间件。在这些分布式空间处理组件中，可以解决大空间数据问题的并行空间分析方案是网络ＧＩＳ系统的重要组件［６］。空间分析过程包括数据预处理、可视化、勘查、模型规格、估计和验证［７］。传统的空间分析数据结构和算法以桌面计算机架构为基础，且只限于桌面计算机架构。鉴于内存空间和计算能力有限，无法用于大空间数据的空间分析中［８，９］。因此，有必要设计和开发一种可展的网络ＧＩＳ系统平台，为高效的空间分析提供支持。

本文重点研究大数据空间分析时的空间权重生成问题。空间权重代表了空间对象的地理相关性，因此是空间分析的重要方面。空间权重矩阵广泛应用于空间自相关和空间回归等多种空间分析算法中［１０，１１］。空间权重生成问题主要是指从空间数据中提取出空间相邻信息（邻近权重）和空间距离（距离权重）等空间结构。然而，传统的空间权重生成算法［１２，１３］基于本地硬件（如ＣＰＵ、内存和硬盘），性能受限，无法用于处理超大规模空间数据集。因此，本文提出一种基于ＭａｐＲｅｄｕｃｅ的空间权重创建算法，利用大空间数据创建邻近空间权重。与传统的权重创建算法不同，该方法运行于ＭａｐＲｅｄｕｃｅ模式下：映射器分布于计算集群中，可并行搜索附近邻居，然后约简器收集结果，进而生成权重矩阵。

1、基于MapReduces 的空间权重生成

1.1 空间权重

空间权重是空间分析（如空间自相关测试、空间回归）的重要方面，需要进行空间结构表示。空间特征的空间结构往往描述为一个ｎ行ｎ列空间权重矩阵Ｗ（ｎ表示几何特征量）。如果用ｆｅａｔｕｒｅｉ和ｆｅａｔｕｅｊ表示为相邻特征，则单元值ｗｉｊ≠０。对于近邻权重矩阵，ｗｉｊ的值要么为１（ｆｅａｔｕｒｅｉ和ｆｅａｔｕｅｊ相邻），要么为０（ｆｅａｔｕｒｅｉ和ｆｅａｔｕｅｊ不相邻）。本文重点研究近邻权重生成问题。将一个点定义为两个坐标构成的数组：ｐｏｉｎｔ＝（ｘ，ｙ），将一个多边形定义为Ｍ个点构成的集合：ｐｏｌｙｇｏｎ＝｛ｐｏｉｎｔ１，ｐｏｉｎｔ２，…，ｐｏｉｎｔＭ｝。对一个包含ｎ个多边形的空间数据集，ＤＳ＝｛ｐｏｌｙｇｏｎ１，ｐｏｌｙｇｏｎ２，…，ｐｏｌｙｇｏｎＮ｝，构建一个基于邻近概念的权重矩阵Ｗ，就是要对ＤＳ中的每个多边形ｐｏｌｙｇｏｎｉ，ｉ∈［１，Ｎ］寻找出所有的相邻多边形。有三种类型的邻近概念可确定权重矩阵中的数值分布：ａ）ｒｏｏｋ型邻近（相邻多边形必须共享一条边）；ｂ）ｂｉｓｈｏｐ型邻近（相邻多边形需要共享一个角）；ｃ）ｑｕｅｅｎ型邻近（相邻多边形要么共享一条边要么共享一个角）

传统的邻近权重矩阵生成算法（如ＧｅｏＤａ［１２］和ＰｙＳＡＬ［１３］）利用几何特征来确定两个多边形有没有共享边或共享顶点。如果通过比较所有多边形对的顶点或边缘来确定邻近关系，则这一过程的计算成本太大，时间复杂度为Ｏ（ｎ２）。如果对这些几何形状编制空间索引，则在搜索候选相邻多边形时的时间复杂度下降为Ｏ（ｌｏｇＮ）。然而，此时需要额外比较候选和目标几何形状间的原始点或边，以便确定两个几何形状是否相邻。此外，这些算法需要计算机能够将所有几何形状载入内存。因此，无法从超大规模空间数据集中生成邻近权重。

为此，本文提出一种基于Ｈａｄｏｏｐ的ＭａｐＲｅｄｕｃｅ算法（见算法１），可从超大规模空间数据集中创建邻近权重。该算法基于如下策略：根据多边形包含的顶点和边来对多边形的情况进行汇总。如果两个多边形中出现同一个点／边，则这两个多边形应该是ｑｕｅｅｎ型邻近多边形。为了清晰描述本文算法，本文结合ｑｕｅｅｎ邻近权重的创建来描述ＭａｐＲｅｄｕｃｅ算法。该算法依照相同的汇总思路经过简单更改后即可用于ｒｏｏｋ或ｂｉｓｈｏｐ邻近权重的创建。为了利用多个计算机节点实现ｍａｐ任务的并行化，Ｈａｄｏｏｐ将会把数据平均分为多个数据块，每个数据块由一个计算机节点处理。在每个节点上，映射器为每个顶点创建一个字典，并将相关多边形添加到数据集中。Ｈａｄｏｏｐ系统将会着眼于约简阶段的计算任务，对所有计算机节点创建的字典进行混洗排序。约简器将会根据键（顶点）对这些字典进行融合。所有字典中具有相同键值的邻近多边形组成的集合或数值，经过融合后生成邻近权重文件。下一节将对算法１的映射和约简过程进行具体介绍。

1 Mapreduces过程

1.2.1 映射

映射的主要目的是利用顶点创建一个｛ｋｅｙｖａｌｕｅ｝字典对象作为键，同时创建包含该顶点的一组多边形作为值。该算法首先从Ｈａｄｏｏｐ系统的标准输入中读取数据。逐行处理数据。每行表示多边形的几何信息，且以逗号分隔：ｐｏｌｙｉｄ，ｐｏｉｎｔ１，ｐｏｉｎｔ２，…，ｐｏｉｎｔＮ。这些信息将被解析并存储于ｐｏｌｙ＿ｐｏｌｙｇｏｎ＿
ｄｉｃｔ字典中。当映射器处理完数据后，将会对ｐｏｌｙ＿ｐｏｌｙｇｏｎ＿ｄｉｃｔ字典中的所有值进行迭代，为约简器准备（ｋｅｙｖａｌｕｅ）数据。因为ｐｏｌｙ＿ｐｏｌｙｇｏｎ＿ｄｉｃｔ中的值表示共享相同键（顶点）的多边形，因此认为它们相邻。然后，映射器将键—值对｛ｐｏｌｙｇｏｎ：ｎｅｉｇｈｂｏｒ＿ｐｏｌｙｇｏｎ｝写为约简器的相邻信息。

１.２.２约简
Ｈａｄｏｏｐ系统将会监测和采集所有映射器的输出。一旦映射任务的进度达到系统配置或用户指定阈值，则Ｈａｄｏｏｐ系统将会启动约简任务。约简任务分为混洗、排序和约简三步。在混洗步骤，Ｈａｄｏｏｐ系统对映射输出进行混洗并将映射输出转移到约简器作为输入。在下一个排序步骤中，将会根据｛ｐｏｌｙｉｄ：ｎｅｉｇｈｂｏｒ＿ｐｏｌｙ＿ｄ｝字典中多边形主ＩＤ（键）对映射输出进行排序。混洗和排序步骤同时进行，以保证每个约简器的输入均被正确排序。在约简步骤中，运行算法２中定义的算法以并行生成每个约简器的权重文件内容。

１.２.３生成邻近权重文件
因为每个约简器只将其输入写入本地磁盘，所以需要一个专门的融合步骤将所有单个结果进行融合，以生成一个有效的权重文件。本文采用Ｈａｄｏｏｐ平台提供的分布式拷贝工具
（ＤｉｓｔＣｐ），来完成ＭａｐＲｅｄｕｃｅ模式下的融合任务。为了加快融合任务的速度，对约简器做适当配置，将其输出压缩为ＧＮＵｚｉｐ格式，于是数据服务器和计算节点间的数据传输速度加快，且压缩后的文件可直接串联。
算法２邻近权重生成时的约简算法

１ｃｕｒｒｅｎｔ＿ｍａｓｔｅｒ＿ｐｏｌｙ←Ｎｏｎｅ
２ｃｕｒｒｅｎｔ＿ｎｅｉｇｈｂｏｒ＿ｓｅｔ←ｓｅｔ（）

／系统输入：｛ｐｏｌｙｉｄ：ｎｅｉｇｈｂｏｒ＿ｐｏｌｙ＿ｉｄ｝／
４ｆｏｒｌｉｎｅ∈ｓｙｓ．ｓｔｄｉｎｄｏ
５ｎｅｉｇｈｂｏｒｓ←ｌｉｎｅ．ｓｐｌｉｔ（）
６ｔｅｍｐ＿ｍａｓｔｅｒ＿ｐｏｌｙ←ｎｅｉｇｈｂｏｒｓ［０］
７ｔｅｍｐ＿ｎｅｉｇｈｂｏｒ＿ｐｏｌｙ←Ｎｏｎｅ
８ｉｆｎｅｉｇｈｂｏｒ．ｌｅｎｇｔｈ＞０ｔｈｅｎ
９ｔｅｍｐ＿ｎｅｉｇｈｂｏｒ＿ｐｏｌｙ＝ｎｅｉｇｈｂｏｒｓ［０］
１０ｅｎｄ
１１ｉｆｃｕｒｒｅｎｔ＿ｍａｓｔｅｒ＿ｐｏｌｙ≡ｔｅｍｐ＿ｍａｓｔｅｒ＿ｐｏｌｙｔｈｅｎ
１２ｉｆｔｅｍｐ＿ｎｅｉｇｈｂｏｒ＿ｐｏｌｙ≠Ｎｏｎｅｔｈｅｎ
１３ｃｕｒｒｅｎｔ＿ｎｅｉｇｈｂｏｒ＿ｓｅｔ
．ａｄｄ（ｔｅｍｐ＿ｎｅｉｇｈｂｏｒ＿ｐｏｌｙ）
１４ｅｎｄ
１５ｅｌｓｅ
１６ｉｆｃｕｒｒｅｎｔ＿ｍａｓｔｅｒ＿ｐｏｌｙ≡Ｎｏｎｅｔｈｅｎ
１７ｉｆｎｅｉｇｈｂｏｒ＿ｐｏｌｙ≠Ｎｏｎｅｔｈｅｎ
１８Ｃｕｒｒｅｎｔ＿ｎｅｉｇｈｂｏｒ＿ｓｅｔ←ｓｅｔ（）
１９ｅｌｓｅ
２０ｃｕｒｒｅｎｔ＿ｎｅｉｇｈｂｏｒ＿ｓｅｔ←ｓｅｔ（［ｎｅｉｇｈｂｏｒ＿ｐｏｌｙ］）
２１ｅｎｄ
２２ｅｌｓｅ
２３ＷｒｉｔｅＷｅｉｇｈｔｓＦｉｌｅｃｕｒｒｅｎｔ＿ｍａｓｔｅｒ＿ｐｏｌｙ，ｃｕｒｒｅｎｔ＿ｎｅｉｇｈｂｏｒ＿ｓｅｔ
２４ｅｎｄ
２５ｅｎｄ
２６ｅｎｄ
／在需要情况下处理最后一行／

／将ＧＡＬ结果写入输出权重文件中／
２８ｎｕｍ＿ｎｅｉｇｈｂｏｒｓ←ｃｕｒｒｅｎｔ＿ｎｅｉｇｈｂｏｒ＿ｓｅｔ．ｌｅｎｇｔｈ（）
２９ｐｒｉｎｔｃｕｒｒｅｎｔ＿ｍａｓｔｅｒ＿ｐｏｌｙ，ｎｕｍ＿ｎｅｉｇｈｂｏｒｓ
３０ｐｒｉｎｔｃｕｒｒｅｎｔ＿ｎｅｉｇｈｂｏｒ＿ｓｅｔ．ｉｔｅｍｓ（）
３１ｅｎｄ

2、仿真实验

2.1样本数据集

本文实验使用的底图为美国芝加哥市的地块数据。该地块数据包含５９２５２１个多边形。为了模拟大规模数据集，利用该底图创建人工大数据：人工多次复制该底图，然后并排放到
一起，生成一个大型人工底图。例如，图１即为４倍于原始数据且含有２３７００８４个多边形的数据图。本文实验中创建的最大规模数据为３２倍于原始数据、含有１８９６０６７２个多边形的数据。整个数据集包括原始数据的１、２、４、８、１６和３２倍数据。

2.2 测试系统
本文选择Ａｍａｚｏｎ弹性ＭａｐＲｅｄｕｃｅ（ＥＭＲ）服务（ｈｔｔｐ：／／ａｗｓ．ａｍａｚｏｎ．ｃｏｍ／）来创建一个Ｈａｄｏｏｐ测试系统。ＡｍａｚｏｎＥＭＲ服务提供了一种易于使用的可定制Ｈａｄｏｏｐ系统。采用Ａｍａｚｏｎ提供的Ｈａｄｏｏｐ缺省配置。选择运行于ＡｍａｚｏｎＥＭＲ上、节点数量为１～１８个节点的“Ｃ３ＥｘｔｒａＬａｒｇｅ（Ｃ３．ｘｌａｒｇｅ）”类型计算机实例集群。除了计算机集群外，Ｈａｄｏｏｐ系统运行时还通过一个主节点来监测所有计算机实例并与所有计算机实例进行通信。Ｃ３．ｘｌａｒｇｅ节点的配置包括７．５ＧＢ内存，１４核（４核×３．５个单元）ＣＰＵ，８０ＧＢ（２×４０ＧＢＳＳＤ），６４位操作系统和５００Ｍｂｐｓ中等网速。除了Ｈａｄｏｏｐ测试系统外，还在一台单机上测试了相同的ＭａｐＲｅｄｕｃｅ算法，单机配置如下：２．９３ＧＨｚ８核ＣＰＵ，１６ＧＢ内存，１００ＧＢ硬盘，６４位操作系统。

结果
为了测试本文ＭａｐＲｅｄｕｃｅ性能，利用ｐｙｔｈｏｎ语言来实现一个桌面版本及通过Ｈａｄｏｏｐ的流式管道功能运行另外一种Ｈａｄｏｏｐ版本。第一个实验是在一台测试单机上运行ＭａｐＲｅｄｕｃｅ算法。该算法从不同数据规模中生成邻近权重的运行时间，如图２所示。可以看到，随着数据规模的增长，本文算法的运行时间也在增加。该算法的复杂度为Ｏ（Ｎ），在处理１６倍的数据集（９，４８０，３３８个多边形）时达到最大计算能力。

第二个实验是在ＡｍａｚｏｎＥＭＲＨａｄｏｏｐ系统上运行ＭａｐＲｅｄｕｃｅ算法。首先，对包含一个主节点和６个Ｃ３．ｘｌａｒｇｅ节点的Ｈａｄｏｏｐ系统进行配置，分别测试１、２、４、８、１６和３２倍数据时的算法性能。该算法从不同数据规模中生成邻近权重的运行时间，如图２所示。因为Ｈａｄｏｏｐ需要花费额外时间传递程序及与运行节点通信，所以如果数据集为原始数据的４倍以下（大约２百万个多边形），则运行时间慢于桌面计算机上运行相同程序所需时间。然而，数据集越大，该算法在Ｈａｄｏｏｐ系统上的
性能越高。例如，对于８倍数据，算法在Ｈａｄｏｏｐ上的完成时间为１６７ｓ，其运行时间远快于桌面计算机（４８２．６７ｓ）。此外，运行时间呈线性增长，表明本文算法随着数据规模的增长具有良好的可扩展性。

在后续测试中，本文创建带有６、１２、１４、１８个计算机节点的不同Ｈａｄｏｏｐ系统，以便利用３２倍数据创建邻近权重。运行时间如图３所示。利用Ｈａｄｏｏｐ中的１８个计算机节点，可在１６３ｓ内生成３２倍数据的邻近权重，这是本文在所有测试中获得的最优性能。在图３中，当计算机节点数量增多时，运行时间没有线性下降。这一现象是合理的，因为当计算节点数量增多时，需要额外时间在Ｈａｄｏｏｐ系统内进行通信。

为了进一步体现本文方法的优越性，比较本文方法与传统的邻近权重矩阵生成算法ＧｅｏＤａ［１２］和ＰｙＳＡＬ［１３］从不同数据规模中生成邻近权重的运行时间，实验结果如图４所示。可以看到，随着数据规模的增加，不同方法的运行时间都在显著增加。但总的来说，本文方法的性能更优，从１～３２倍数据，本文方法的运行时间相比于ＧｅｏＤ和ＰｙＳＡＬ平均降低了约１４１５％和１７．６４％。仔细分析其原因可知，这主要是因为ＧｅｏＤ和ＰｙＳＡＬ需要计算几何特征间的距离，这种基于距离的计算方法容易受
到数据规模和数据分布的影响，另外ＧｅｏＤ和ＰｙＳＡＬ主要基于本地硬件，随着数据规模的增加，它们的性能严重受限，因此运行时间较长。而本文方法基于邻近概念来创建空间权重，充分利用了空间对象的地理相关性，通过ＭａｐＲｅｄｕｃｅ模式避免了不必要的搜索操作，因此节省了时间。

3、结束语

本文对大数据空间分析时的空间权重

从表５中可以看出，相比基于流行度的方法，两个ＵＩＴＭ都取得了较好的结果，充分说明了建模用户兴趣对微博实体链接的重要性。同时，还可以看出，ＵＩＴＭ＿Ｔ相比ＵＩＴＭ＿Ｎ在准确率上也有所提高，证明了考虑用户兴趣传播可以促进实体的链接。然而，对于ＮＩＬ问题，ＵＩＴＭ并没有取得明显提高。ＮＩＬ问题可以看成是分类问题，ＵＩＴＭ等图模型并不适合这样的问题。因此，ＵＩＴＭ较好地利用了用户兴趣来提升微博数据的语义，在实体链接准确率，尤其是对可链接名称的实体链接，有了较大提高。

结束语
本文提出了一种基于用户兴趣的微博实体链接方法，解决微博内容较短、歧义较大的问题。该方法首先利用条件独立主题模型训练实体与上下文词汇的语义关联，然后提出了用户兴
趣主题模型ＵＩＴＭ，并在真实数据集上进行了实验和分析，取得了８７．６％的准确率，实验结果表明ＵＩＴＭ通过对用户兴趣的建模丰富了微博的语义，得到了更高的实体链接准确率。然而，由于现有数据集的限制和数据集标注的困难，本文并没有在更大的数据集上进行测试，因此，在未来的研究工作中将进一步对该方法进行测试和改进，使该方法更加实用化。

参考文献：
［１］ＳｈｅｎＷｅｉ，ＷａｎｇＪｉａｎｙｏｎｇ，ＨａｎＪｉａｗｅｉ．Ｅｎｔｉｔｙｌｉｎｋｉｎｇｗｉｔｈａｋｎｏｗｌｅｄｇｅｂａｓｅ：ｉｓｓｕｅｓ，ｔｅｃｈｎｉｑｕｅｓ，ａｎｄｓｏｌｕｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２０１４，２７（２）：４４３４６０．
［２］邢富坤．基于维基百科的领域实体发现研究［Ｊ］．计算机应用研究，２０１５，３２（２）：３４７３５０，３６７．
［３］姚宇峰．一种新的重名消解算法在保险领域中的应用研究［Ｊ］．计生成问题进行研究，提出一种ＭａｐＲｅｄｕｃｅ算法。该算法利用ＡｍａｚｏｎＥＣ２云计算平台等高性能计算资源，可为大空间数据（约１．９亿个多边形）生成权重文件，解决了大空间数据的邻近权重生成问题。仿真实验结果表明，本文算法的性能优于传统的以桌面计算机架构为基础的方法。

参考文献：
［１］吴烨，陈荦，熊伟，等．面向高效检索的多源地理空间数据关联模型［Ｊ］．计算机学报，２０１４，３７（９）：１９９９２０１０．
［２］ＧｏｏｄｃｈｉｌｄＭＦ．Ｗｈｏｓｅｈａｎｄｏｎｔｈｅｔｉｌｌｅｒ？ＲｅｖｉｓｉｔｉｎｇｓｐａｔｉａｌｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓａｎｄＧＩＳ［Ｍ］／／ＰｅｒｓｐｅｃｔｉｖｅｓｏｎＳｐａｔｉａｌＤａｔａＡｎａｌｙｓｉｓ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１０：４９５９．
［３］ＷａｎｇＳｈａｏｗｅｎ．ＡＣｙｂｅｒＧＩＳｆｒａｍｅｗｏｒｋｆｏｒｔｈｅｓｙｎｔｈｅｓｉｓｏｆｃｙｂｅｒｉｎｆｒａｓｔｒｕｃｔｕｒｅ，ＧＩＳ，ａｎｄｓｐａｔｉａｌａｎａｌｙｓｉｓ［Ｊ］．ＡｎｎａｌｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｏｆＡｍｅｒｉｃａｎＧｅｏｇｒａｐｈｅｒｓ，２０１０，１００（３）：５３５５５７．
［４］刘荣华，魏加华，翁燕章，等．ＨｙｄｒｏＭＰ：基于云计算的水动力学建模及计算服务平台［Ｊ］．清华大学学报：自然科学版，２０１４，５４（５）：５７５５８３．
［５］ＹｕＬｉａｎ，ＴｓａｉＷＴ，ＷｅｉＸｉｎ，ｅｔａｌ．Ｍｏｄｅｌｉｎｇａｎｄａｎａｌｙｓｉｓｏｆｍｏｂｉｌｅｃｌｏｕｄｃｏｍｐｕｔｉｎｇｂａｓｅｄｏｎｂｉｇｒａｐｈｔｈｅｏｒｙ［Ｃ］／／Ｐｒｏｃｏｆｔｈｅ２ｎｄＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｏｂｉｌｅＣｌｏｕｄＣｏｍｐｕｔｉｎｇ，Ｓｅｒｖｉｃｅｓ，ａｎｄＥｎｇｉｎｅｅｒｉｎｇ．２０１４：６７７６．

［６］ＷａｎｇＳｈａｏｗｅｎ，ＡｎｓｅｌｉｎＬ，ＢｈａｄｕｒｉＢ，ｅｔａｌ．ＣｙｂｅｒＧＩＳｓｏｆｔｗａｒｅ：ａｓｙｎ
ｔｈｅｔｉｃｒｅｖｉｅｗａｎｄｉｎｔｅｇｒａｔｉｏｎｒｏａｄｍａｐ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆ
ＧｅｏｇｒａｐｈｉｃａｌＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，２０１３，２７（１１）：２１２２２１４５．
［７］ＡｎｓｅｌｉｎＬ，ＲｅｙＳＪ．ＳｐａｔｉａｌｅｃｏｎｏｍｅｔｒｉｃｓｉｎａｎａｇｅｏｆＣｙｂｅｒＧＩＳｃｉｅｎｃｅ
［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＧｅｏｇｒａｐｈｉｃａｌＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，
２０１２，２６（１２）：２２１１２２２６．
［８］关丽，吕雪锋．面向空间数据组织的地理空间剖分框架性质分析
［Ｊ］．北京大学学报：自然科学版，２０１２，４８（１）：１２３１３２．
［９］ＣｒａｍｐｔｏｎＪＷ，ＧｒａｈａｍＭ，ＰｏｏｒｔｈｕｉｓＡ，ｅｔａｌ．Ｂｅｙｏｎｄｔｈｅｇｅｏｔａｇ：ｓｉｔｕ
ａｔｉｎｇ‘ｂｉｇｄａｔａ’ａｎｄｌｅｖｅｒａｇｉｎｇｔｈｅｐｏｔｅｎｔｉａｌｏｆｔｈｅｇｅｏｗｅｂ［Ｊ］．Ｃａｒ
ｔｏｇｒａｐｈｙａｎｄＧｅｏｇｒａｐｈｉｃＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，２０１３，４０（２）：
１３０１３９．
［１０］ＷａｇｎｅｒＨＨ，ＦｏｒｔｉｎＭＪ．Ａｃｏｎｃｅｐｔｕａｌｆｒａｍｅｗｏｒｋｆｏｒｔｈｅｓｐａｔｉａｌａｎａｌｙｓｉｓｏｆｌａｎｄｓｃａｐｅｇｅｎｅｔｉｃｄａｔａ［Ｊ］．ＣｏｎｓｅｒｖａｔｉｏｎＧｅｎｅｔｉｃｓ，２０１３，１４（２）：２５３２６１．
［１１］陈江平，黄炳坚．数据空间自相关性对关联规则的挖掘与实验分析［Ｊ］．地球信息科学学报，２０１１，１３（１）：１０９１１７．
［１２］ＡｎｓｅｌｉｎＬ，ＳｙａｂｒｉＩ，ＫｈｏＹ．ＧｅｏＤａ：ａｎｉｎｔｒｏｄｕｃｔｉｏｎｔｏｓｐａｔｉａｌｄａｔａａｎａｌｙｓｉｓ［Ｒ］／／ＨａｎｄｂｏｏｋｏｆＡｐｐｌｉｅｄＳｐａｔｉａｌＡｎａｌｙｓｉｓ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１０：７３８９［１３］ＲｅｙＳＪ，ＡｎｓｅｌｉｎＬ．ＰｙＳＡＬ：ａｐｙｔｈｏｎｌｉｂｒａｒｙｏｆｓｐａｔｉａｌａｎａｌｙｔｉｃａｌｍｅｔｈｏｄｓ［Ｒ］／／ＨａｎｄｂｏｏｋｏｆＡｐｐｌｉｅｄＳｐａｔｉａｌＡｎａｌｙｓｉｓ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１０：１７５１９３．

【原创】大数据分析中基于ＭａｐＲｅｄｕｃｅ的空间权重创建方法研究

《计算机应用研究》杂志社 | 2016-08-05 17:20

TA的文档

温馨提示

友情链接

联系我们

壹学者机构版

壹学者客户端

壹学者微信号

【原创】 大数据分析中基于ＭａｐＲｅｄｕｃｅ的 空间权重创建方法研究

《计算机应用研究》杂志社 | 2016-08-05 17:20

TA的文档

温馨提示

友情链接

联系我们

壹学者机构版

壹学者客户端

壹学者微信号

【原创】大数据分析中基于ＭａｐＲｅｄｕｃｅ的空间权重创建方法研究