李盛达

(南京审计大学信息工程学院,江苏 南京211815)

1 概述

中国的房地产业已经成为国民经济的支柱产业,房地产市场的调整将影响整个金融市场的变化,因此稳定房价是国家近年来提出的目标。[1-2]线性回归是数理统计中的一种统计分析方法,需要给出训练数据的分类标识,是机器学习系统的典型构成。有着建模速度快、可根据系数给出每个变量的解释、对异常值敏感三个优点。多元线性回归分析是指包括两个及以上自变量且因变量和自变量满足线性关系。传统的房价预测模型仅仅考虑了当前房价与周围城市房价,没有考虑市场环境及国家宏观因素,如失业率、贷款利率及国民消费指数,而这些因素均会影响房价的走势,消费指数更是一项影响经济发展的重要指标,预测时加以考虑,能更好的得出结果[3]。

2 变量提取与考量

2.1 基于时间与房价指数的提取

首先考虑时间和房价指数作为最基本的变量。房价指数是指房屋销售价格指数,反映一定时期内房屋销售价格变动程度和趋势的相对数,通过百分数的表示来反映房价在不同时期的涨跌幅度,包括商品房、公有房屋和私有房屋的销售价格变动情况,可以很好反应当地的整体水平与价格空间,部分数据如表1 第2 列所示。

2.2 基于失业指数的提取

考虑失业指数作为一个重要变量,是指不同时期的失业人数比率,可以用来衡量失业人数变动的程度,用百分数表示并作为一项指标。 实验中将其划分为六种不同状态(total_umemployed 完全没有工作的;more-than-15-weeks 超过15 周的;not_in 没有找工作的;multi_jobs 多份工作的;leavers 自动离职的;losers 被解雇的),部分数据如表1 第7-12 列所示。

2.3 基于房贷利率的提取

考虑美国联邦政府贷款买房的利率,贷款利率的高低直接决定着利润在借款企业和银行之间的分配比例,进而影响着借贷双方的经济利益,是一项相当重要的属性。贷款利率因贷款种类和期限的不同而有所差异,同时也与借贷资金的稀缺程度相联系。部分数据如表1 第13 列所示。

2.4 基于工业生产总值GDP 的提取

考虑工业生产总值,其与国家整体发展相关,且房地产行业与工业密不可分。考虑其中四个因素(total_expenditures 消费;labor_force_pr 人力资源;producer_price_index 生产者价格指数;gross_domestic_product 国民生产总值),截取部分数据如表1 第14-17 列所示。

3 数据处理及模型构建

3.1 数据处理

建模时,强调找到数据之间的相关性并经行验证。同时,使用数据要避免数据孤岛情况的发生,需要对数据进行关联性操作,而相关分析的目的在于检验两个随机变量的共变趋势。对于回归分析而言,其中的因变量必须为随机变量,而自变量则可以是普通变量,但也可以是随机变量,并不会对实验结果产生根本性的影响。

表1 数据获取及关联性分析

3.2 模型构建

3.2.1 首先对数据集进行关联合并,以多个表的共同列——日期作为连接依据;部分代码如下所示。

df=housing_price_index.merge (shiller,on='date')

.merge(unemployment,on='date')

.merge(federal_funds_rate,on='date')

.merge(gross_domestic_product,on='date')

3.2.3 评价指标:Ordinary Linear Square 普通线性方差

通过summary()函数,观察这个模型的情况,具体方式如图1 所示,所得出的结果中,R-squared=0.952,说明相关性比较大,即模型所选取的自变量可以有效的影响y 的值。

图1 summary()函数分析

4 模型实现(使用Python 语言)

实验图像如图2 所示。

图2 实验结果图

5 实验分析

通过对数据的拟合及对变量的分析,实验预测房价指数结果为174.883133,与实际值178.652 的误差为3.769967,误差率约为2%,属于小概率范围,进一步证明了此模型可以很好的预测曼哈顿市房价,具有很强的操作性与准确率,实验较为成功,提出的多变量回归模型是值得推荐并广泛使用的,可以达到很好的预测效果。