2. 南京国图信息产业有限公司, 南京 210036
2. Nanjing Guotu Information Industry Co. Ltd., Nanjing 210036, China
近年来, 随着人口增长、城市化进程的加速和经济发展的推进, 住宅需求的预测成为城市规划和房地产市场发展的重要问题. 通过对住宅需求趋势的研究和分析, 可以预测未来房地产市场的供求关系, 从而使政府能够制定合理的住房政策、使房地产开发商能够确定合适的房屋建设计划、使个人投资者对投资房地产市场做出更明智的决策. 因此, 住宅需求预测对于促进经济发展、提高城市管理水平和改善人民生活质量具有重要意义.
需求预测主要分为两个方面: 需求影响因素指标的选取和预测方法的选择. 在影响因素指标选取方面, 主要方法有主成分分析法[1]、灰色关联分析法[2]、邻域粗糙集法[3]等. 将因素指标通过特征提取之后输入构建好的算法预测模型获得住宅需求预测. 而在预测方法选择方面, 主要采用方法有两种: (1)以计量统计学为基础的传统预测方法, 主要有多元线性回归分析模型[4]、灰色系统模型[5]、岭回归模型[6]、时间序列分析模型[7]与马尔可夫链模型[8]; (2)以机器学习和神经网络为基础的智能预测方法, 主要有随机森林模型[9]、SVM 模型[10]、BP神经网络模型[11]、RBF神经网络模型[12]、LSSVR模型[13]等.
常见需求因素指标提取方法存在特征提取不充分的问题, 而目前所使用的需求预测方法中存在不适用于非线性特征的情况、学习收敛速度慢等问题. 针对此类问题, 本文在原始邻域粗糙集(NRS)的基础上进行改进, 并与极限学习机(ELM)相结合来预测住宅需求. 首先会根据条件属性的邻域半径与标准差建立新的邻域关系矩阵, 并将Pearson相关系数引入到邻域粗糙集来构建住宅预测指标体系; 然后将改进的邻域粗糙集(MNRS)与极限学习机(ELM)相结合, 建立基于MNRS-ELM的住宅需求预测模型; 最后将MNRS-ELM与NRS-ELM以及ELM进行对比分析, 实验结果表明, MNRS-ELM能够获得更高的预测精度.
2 最小冗余属性的邻域粗糙集算法 2.1 邻域粗糙集定义1. 给定的
$ \delta ({x_i}) = \{ x|x \in U, \Delta (x, {x_i}) \leqslant \delta \} $ | (1) |
其中,
定义2. 设条件属性为影响因素指标集合
$ {\bar N_B}(X) = \{ {x_i}\mid{\delta _B}({x_i}) \cap x \ne \varnothing , {x_i} \in U\} $ | (2) |
$ \underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{N}{}_B(X) = \{ {x_i}\mid{\delta _B}({x_i}) \cap x, {x_i} \in U\} $ | (3) |
其中, 决策系统的正域
定义3. 在邻域决策系统中, 存在指标
$ {\textit{Sig}}(a, B, D) = {\gamma _B}(D) - {\gamma _{B {\textit{-}} (a)}}(D) $ | (4) |
其中,
$ {k_D} = {\gamma _B}(D) = \frac{{|Po{s_B}(D)|}}{{|U|}} $ | (5) |
原始的邻域粗糙集通常是在各自实验和专家判断经验的基础上, 设置相同的邻域值给所有的因素指标. 但在住宅需求因素指标的提取中, 由于各因素指标的数据之间存在较大差异, 邻域值设置不佳常常会导致因素指标约简效果较差[15]. 因此本文根据不同因素指标的邻域半径和标准差为不同因素指标设置不同的邻域值, 提出一种改进的邻域关系矩阵构建方法.
在住宅需求邻域决策系统中, 邻域半径计算公式[16]为:
$ \delta ({a_i}) = {\textit{Std}}{a_i}/\lambda $ | (6) |
其中,
定义4. 住宅需求邻域决策系统
$ M({N_{{a_i}}}) = {\left( {{r_{p, q}}} \right)_{n \times n}} $ | (7) |
其中,
一般计算属性重要度, 只考虑单个条件属性对决策属性的影响, 并未将条件属性之间的影响考虑其中. 若两个条件属性之间的关联性非常强烈, 会导致最终输出的约简集数据冗余[17], 所以本文引入Pearson相关系数进一步剔除冗余属性, 用来消除因素指标之间关联性的影响.
定义5. 住宅需求邻域决策系统
$ {\rho _{ij}} = \frac{{\left| {\displaystyle\sum\limits_{k = 1}^{|U|} {\left[ {({x_k} - \bar x)({y_k} - \bar y)} \right]} } \right|}}{{\sqrt {\displaystyle\sum\limits_{k = 1}^{|U|} {{{({x_k} - \bar x)}^2}} \displaystyle\sum\limits_{k = 1}^{|U|} ( {y_k} - \bar y{)^2}} }} $ | (8) |
其中,
基于Pearson相关系数的属性约简, 首先需计算全部因素指标的重要度, 在约简集中加入重要度最大的因素指标. 接下来要进行因素指标间的阈值判断. 若
一般来说, 如果Pearson相关系数超过0.8, 表示因素指标之间的关联性非常强烈; 如果Pearson相关系数在0.6–0.8之间, 表示因素指标之间存在较大的关联性; 如果Pearson相关系数在0.4–0.6之间, 表示因素指标之间的关联性一般; 如果Pearson相关系数低于0.4, 表示因素指标之间的关联性较弱[17]. 所以本文设置相关系数阈值为
MNRS算法步骤的基本逻辑顺序为: 首先根据指标的标准差和邻域半径构建邻域关系矩阵, 然后根据指标重要度进行排序筛选, 最后比较指标间的皮尔森相关系数约简输出约简集. 具体步骤如算法1所示.
算法1. MNRS算法
输入: 邻域决策系统
输出: 决策系统属性约简集
step 1. 初始化
step 2.
step 3.
step 4. 计算得到属性重要度最大的属性
step 5. 直到
step 6. 输出决策系统约简集
ELM是一种新型的单隐层前馈神经网络[18,19]. ELM网络结构如图1所示.
在本文中, 从第2节约简的指标体系中选取前13年的数据构建训练样本
$ {o_i} = \sum\limits_{j = 1}^{\tilde N} {{\beta _j}} g({\omega _j} \cdot {t_i} + {b_j}),\;\;i = 1, 2, \cdots, 13 $ | (9) |
其中,
对于包含
$ \sum\limits_{j = 1}^{\tilde N} {||{o_j}} - {y_j}|| = 0 $ | (10) |
那么存在合适的
$ {y_i} = \sum\limits_{j = 1}^{\tilde N} {{\beta _j}g({\omega _j}{t_i}} + {b_j}),\;\;i = 1, 2, \cdots, 13 $ | (11) |
式(11)可以简写为:
$ H\beta = Y $ | (12) |
其中,
$ \hat \beta = {H^ + }Y $ | (13) |
其中,
本文结合南京市住宅市场现状与2005–2021年统计年鉴数据进行住宅需求预测, 具体的流程图如图2.
4 住宅需求预测实验分析 4.1 构建住宅预测指标体系
本文在南京市住宅市场的基础上, 结合房地产景气指标体系及中房指数指标体系, 选取了社会发展因素、家庭状况因素、住宅市场发展因素3个维度共17个影响因素为初选指标具体如表1所示. 住宅需求量以住宅销售面积来表示, 本文数据主要来源于南京市统计年鉴.
考虑到各因素指标之间存在量纲差异, 会导致训练时间过长、泛化能力较弱、出现较大误差. 所以在用MNRS构建指标体系之前, 先将数据归一化, 使数值控制在[0, 1]的范围内.
将17个住宅需求影响因素初选指标分别经过NRS和MNRS筛选, 分别得到的约简后属性个数如表2所示.
根据MNRS算法步骤计算出因素指标重要度, 按照重要度进行相关系数的判定, 将相关系数大于0.6的指标剔除, 小于0.6的指标加入约简集. 由图3和表2可知, MNRS算法约简后的个数与原始属性个数相比, 有了明显的减少. 故将约简后的因素指标
构建住宅预测指标体系即为ELM算法的输入变量降维. ELM的输入变量从原始的17个初选指标减少到指标体系中的7个指标, 最大程度地降低了算法复杂度与算法模型的运行时间.
4.2 ELM参数设置本文建立3层ELM神经网络, 内含输入层、隐含层和输出层, 利用Matlab进行ELM模型的搭建与训练. 分别将所有初选指标、NRS约简的指标和MNRS约简的指标体系作为ELM模型的输入变量, 设置不同的输入节点个数, 然后将住宅需求作为输出变量, 设置输出节点个数为1.
在ELM算法模型中, 输入层与隐含层的权重以及隐含层节点的偏差为随机设置[20], 所以主要需要设置的参数为激活函数以及隐含层节点个数. 激活函数是运行在人工神经网络神经元上的函数, 其主要作用是向输出端映射神经元的输入值, 本文将激活函数设置为Sigmoid函数.
在ELM模型中, 当隐含层节点数目过少时, 网络无法拟合数据, 从而造成欠拟合状态; 当隐含层节点数目过多时, 不仅会增加训练时间, 还会降低学习效率和容错率, 进而影响模型的泛化能力. 所以本文将隐含层节点数目从10增加到50, 由图4可知, 当隐含层节点数目为30时, 模型对训练样本的误差最小, 故本文ELM模型的隐含层节点个数设置为30.
4.3 MNRS-ELM模型预测分析
将约简后构成的住宅预测指标体系输入ELM预测算法模型, 选取2005–2017年的数据作为训练样本, 2018–2021年的数据作为测试样本. 分别将全部因素指标、经邻域粗糙集约简后的指标因素以及经改进邻域粗糙集约简后构建的住宅预测指标体系作为算法模型的输入, 住宅需求作为算法模型的输出, 结果如图4.
由图5可知, 经MNRS约简后构建住宅预测指标体系的ELM模型预测值与真实值最为接近, 经NRS约简后因素指标的ELM模型预测值与真实值偏差中等, 全部因素指标的ELM模型预测值与真实值偏差较大, 表明MNRS-ELM的预测效果明显优于ELM的预测效果.
同时本文还选择平均绝对百分比误差(MAPE) 和拟合优度(R2)作为评价住宅需求预测算法可靠性的主要评价指标, 并由此来对比分析算法模型的预测精度, 具体如表3所示.
由表3可知, MNRS-ELM的平均绝对百分比误差比ELM降低了3.1%, 且拟合优度提高了6%, 另外运行效率也有所提升, 因此可以表明MNRS-ELM模型不仅有效降低了运算复杂度, 而且能够获得更高的预测精度.
5 结论本文结合南京市住宅市场现状与2005–2021年统计年鉴数据, 将MNRS-ELM预测算法模型用于南京市住宅需求预测分析, 并将预测结果与ELM模型以及NRS-ELM模型进行对比, 得出以下结论.
(1)从社会发展因素、家庭状况因素、住宅市场发展因素3个维度选取17个住宅预测影响因素初选指标, 提出一种基于最小冗余属性的改进邻域粗糙集算法来约简影响因素指标, 经MNRS约简后最终输出的7个因素指标构建了住宅预测指标体系.
(2)在住宅需求测试样本预测中, 将经MNRS约简获得的住宅预测指标体系输入ELM算法模型, 误差最小且预测值与真实值拟合效果最好, 验证了MNRS-ELM预测模型的可行性.
[1] |
Kravchik M, Shabtai A. Efficient cyber attack detection in industrial control systems using lightweight neural networks and PCA. IEEE Transactions on Dependable and Secure Computing, 2022, 19(4): 2179-2197. DOI:10.1109/TDSC.2021.3050101 |
[2] |
Liu EC, Li J, Zheng AN, et al. Research on the prediction model of the used car price in view of the PSO-GRA-BP neural network. Sustainability, 2022, 14(15): 8993. DOI:10.3390/SU14158993 |
[3] |
Pan YZ, Xu WH, Ran QW. An incremental approach to feature selection using the weighted dominance-based neighborhood rough sets. International Journal of Machine Learning and Cybernetics, 2023, 14(4): 1217-1233. DOI:10.1007/S13042-022-01695-4 |
[4] |
过娇雪. 哈尔滨市住房需求量预测研究 [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2013.
|
[5] |
Xiong X, Guo H, Hu X. The housing demand analysis and prediction of the real estate based on the AWGM (1, N) model. Grey Systems: Theory and Application, 2021, 11(2): 222-240. DOI:10.1108/gs-09-2019-0035 |
[6] |
纪甜甜. 房地产需求预测模型——以邯郸市住房需求为例 [硕士学位论文]. 邯郸: 河北工程大学, 2017.
|
[7] |
顾昕雨. 基于ARIMA-SVR组合模型的卫星遥测数据预测研究 [硕士学位论文]. 北京: 中国科学院大学(中国科学院国家空间科学中心), 2021.
|
[8] |
郑卓, 曹辉, 高鹤元, 等. 基于加权马尔可夫链修正的ARIMA预测模型的研究. 计算机应用与软件, 2020, 37(12): 63-67. |
[9] |
张倩. 基于随机森林回归模型的住房租金预测模型的研究[硕士学位论文]. 长春: 东北师范大学, 2019.
|
[10] |
Wang XJ, Zeng GT, Zhang KX, et al. Urban real estate market early warning based on support vector machine: A case study of Beijing. International Journal of Computational Intelligence Systems, 2020, 13(1): 153-166. DOI:10.2991/ijcis.d.200129.001 |
[11] |
滕渊. 青岛市房地产市场预测模型研究 [硕士学位论文]. 青岛: 中国海洋大学, 2013.
|
[12] |
王亚龙. 徐州市区城市建设用地需求预测研究 [硕士学位论文]. 徐州: 中国矿业大学, 2016.
|
[13] |
Wang LD, Rong X, Chen ZY, et al. A real estate early warning system based on an improved PSO-LSSVR model—A Beijing case study. Buildings, 2022, 12(6): 706. DOI:10.3390/BUILDINGS12060706 |
[14] |
胡清华, 于达仁, 谢宗霞. 基于邻域粒化和粗糙逼近的数值属性约简. 软件学报, 2008, 19(3): 640-649. |
[15] |
毛清华, 马宏伟, 张旭辉. 改进邻域粗糙集的输送带缺陷特征约简算法. 仪器仪表学报, 2014, 35(7): 1676-1680. |
[16] |
安若铭, 索明亮. 邻域粗糙集在属性约简及权重计算中的应用. 计算机工程与应用, 2016, 52(7): 160-165. |
[17] |
林芷欣, 刘遵仁, 纪俊. 基于k近邻属性重要度和相关系数的属性约简. 计算机工程与设计, 2020, 41(9): 2488-2494. |
[18] |
Huang GB, Zhu QY, Siew CK. Extreme learning machine: Theory and applications. Neurocomputing, 2006, 70(1-3): 489-501. DOI:10.1016/j.neucom.2005.12.126 |
[19] |
Huang GB, Zhou HM, Ding XJ, et al. Extreme learning machine for regression and multiclass classification. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2012, 42(2): 513-529. DOI:10.1109/TSMCB.2011.2168604 |
[20] |
骆公志, 侯若娴, 陈圣瑜. 基于邻域粗糙集的极限学习机恶意DoH流量预警. 南京邮电大学学报(自然科学版), 2022, 42(6): 79-85. |