什么是空间数据?
首先,来聊一聊什么是“spatial data”。简单来说,与地理空间信息相关的数据称为空间数据。更具体的,根据Cressie (1993)所述,空间数据可以分为地质数据(geostatistical data),晶格数据(lattice data),和点模式 (point patterns)。其中地质数据包括海拔等数据;晶格数据是指从城市等地区收集的社会经济数据和像素级的卫星遥感图像数据;点模式数据是来自空间点过程的实现值,该空间点过程是与随机发生的事件的位置相关的空间过程,事件数据,如犯罪,对应于这种类型。
空间数据类型从另一个角度又可以分为横截面数据类型(即在同一时间维度考察空间数据)和面板数据类型(考虑空间和时间两个维度)。后续也会对不同数据类型的空间计量模型进行讨论。
空间数据的特征:空间自相关性和空间异质性
根据Anselin(1988),空间数据的特征包括空间自相关(有时也称为空间依赖性,spatial autocorrelation,spatial dependence, spatial correlation)和空间异质性(spatial heterogeneity)。
一方面,根据Tobler(1970)的地理学第一定律,一切事物都与其他事物相关,但近处的事物比远处的事物更相关,空间自相关通常分为正的空间自相关和负的空间自相关。如下图所示,正的空间自相关表示相邻数据表现出相同的趋势,而负的空间自相关则相反。用数学公式来说明,即不同个体(时间)的数据的相关性不为0:
其中yi和yj表示个体i和j的变量y的值。
举几个空间自相关性的例子。房地产测量员使用的一种方法是交易比较,通过比较周围的土地交易价格来评估该土地的价格。因此,在评估值中存在发生空间自相关的可能性。而森林或农作物的空间分布,如果因竞争必要的养分而未进行适当的间伐,则可能出现负的空间自相关性。
在这里,空间自相关性与时间序列中的相关性容易混淆。时间序列的依赖关系是基于这样一种思想建模的,即先前现象和当前现象之间的因果链遵循进展方向,并且当前时间点的现象对该时间点之前的现象没有影响。相反,空间自相关的特征是在多个方向上同时发生并伴有反馈(Anselin,2009)。
另一方面,空间异质性是指特征、事件或关系在区域内的不均匀分布。换句话说,在区域内,个体间的空间依赖关系可能不同。空间异质性的例子有很多,比如从淡水到咸水;从岩石到土壤;从旱地到湿地;从强光到弱光;从深潭到浅滩;从急流到静水等。
关于空间自相关性和空间异质性,分别有不同的建模方式,在之后的文章中将依次展开说明,并提供相关的R语言和Stata代码。
参考文献
Cressie, N.A.C., 1993. Statistics for Spatial Data, Revised Edition. Wiley, New York
Anselin, L., 1988. Spatial Econometrics: Methods and Models. Kluwer Academic Publishers,Dordrecht.
Tobler, W., 1970. A computer movie simulating urban growth in the Detroit region.Economic Geography 46 (2), 234e240.
Anselin, L., 2009. Spatial regression. In: Fotheringham, S., Rogerson, P. (Eds.), The SAGE Handbook of Spatial Analysis. Sage Publications Inc, Los Angeles, pp. 255e276.