计算机系统应用  2021, Vol. 30 Issue (1): 282-287   PDF    
COVID-19疫情环境下用电行为分析
关旭1,2, 王紫瑞2,3, 冀雯馨4, 郭一民1     
1. 辽宁瀚石机械制造有限公司, 阜新 123000;
2. 辽宁省露天矿山装备专业技术创新中心, 阜新 123000;
3. 辽宁工程技术大学 研究生院, 葫芦岛 125105;
4. 常熟理工学院 电子信息工程学院, 苏州 215500
摘要:针对COVID-19这一特殊时期, 利用大数据技术, 处理原始不同数据结构的电力数据. 将用户用电行为的数据分成内部数据和外部数据, 其次是确定用电行为分析, 通过对传统的K-means聚类算法改进, 提高K-means效率. 最后利用改进算法聚类出的类别构建用电行为模型, 实现用户用电行为分析. 最终实现达到帮助国家电网公司达到电力智能分配的目的, 并且给出了大致的政策倾向. 提升国家各部门监管能力, 助力国家应急管理.
关键词: K-means    曲线匹配    疫情防控期间    用电行为    聚类算法    
Analysis of Electricity Consumption Behavior under COVID-19
GUAN Xu1,2, WANG Zi-Rui2,3, JI Wen-Xin4, GUO Yi-Min1     
1. Liaoning Hans Machinery Manufacturing Co. Ltd., Fuxin 123000, China;
2. Open-Pit Mine Equipment Professional and Technical Innovation Center in Liaoning Province, Fuxin 123000, China;
3. Graduate School, Liaoning Technical University, Huludao 125105, China;
4. School of Electronic and Information Engineering, Changshu Institute of Technology, Suzhou 215500, China
Abstract: Aiming at special situation under COVID-19 epidemic environment, big data technology is used to process the power data of different data structures at the very beginning. Firstly, the data of users’ electrical behavior is divided into internal data and external data. Secondly, the behavior of electricity consumption is analyzed by improving K-means clustering algorithm, which can improve the efficiency of the traditional K-means algorithm. Finally, the improved K-means algorithm clustering is used to build the power consumption behavior model, so as to realize the results of the users’ power consumption behavior analysis model. This study helps the state grid corporation of China to achieve the purpose of intelligent distribution of electricity, and gives the general policy tendency, which improves the regulatory capacity of all government departments to help manage national emergencies.
Key words: K-means     curve matching     COVID-19 epidemic environment     electricity consumption behavior     clustering algorithm    

随着我国经济的快速发展, 以及国家开始重视对环境的保护, 节能减排和可持续发展的要求逐渐变高[1]. 从2015年开始, 国家电网公司陆续发布了《国家电网公司大数据应用指导意见》等, 在服务政府、电网生产、经营管理和优质服务等领域进行大数据分析深入研究和应用[2,3]. 在国外, 由于用电行为分析的研究起步的较早, 在2011年, 美国的顶级期刊《科学》上开辟了一个名为《Dealing with data》的专刊. 此专刊的主题是围绕在大数据问题而展开, 用以表明大数据在现实的生产生活中有着重要的意义和指导[3]. 而电力行业是现代工业的基础, 电力的生产和数据有着天然的联系, 在近些年这种联系表现得尤为突出. 如在文献[4]中, 提出了一种基于海量数据的用户用电行为分析方法. 在文献[5]中, 提出了一种用电行为分析的聚类优化策略, 在研究了用电行为特征优化选择策略的基础上分析早期, 采用特征优化选择策略提取负荷曲线的最优特征集, 对用户用电数据进行聚类, 提出了聚类数的优化策略. 在文献[6]中, 提出了一种基于需求响应的基本用电分接头确定方法. 首先介绍了分时电价和分层电价的联合定价. 利用基本消费和舒适消费的不同价格弹性, 建立了可计算的需求响应模型, 分析了联合定价引起的需求和支出变化. 然后以最大化需求减少为目标, 建立一个优化模型来确定基本消费的层次. 在文献[7]中, 针对连续(PCA)K-均值聚类问题, 探讨了稳定性优化在标准特征选择过程中的作用. 提出一种是基于稀疏PCA方法, 选择以贪婪的方式最大化稳定性的特征.

应对非常之疫, 需举非常之力. 电力企业既要保障人民群众和疫情防控机构的安全可靠用电, 同时还要防止疫情在直接承担保供一线的电力人员中蔓延. 尤其是处于疫情核心区的电力企业, 其防控任务异常艰巨. 本次主要选取居民用户、超商用户、工业用户, 虽然这并不是电网体系下包含的全部用户, 只是单独列举几类, 但这些是在疫情时期非常具有代表性的用户. 主要利用大数据技术对不同的用户进行用电行为分析, 构建不同的用户体系的用电行为分析模型. 针对特殊时期, 特殊的“战役”, 分析不同用户的用电行为, 核心目标是为国家电网进行合理的电力分配提供数据支撑和技术支撑.

1 数据预处理

选取在某项流行病蔓延的2020年1月15日至3月31日期间, 国家电网辽宁省某电力公司的内部数据, 得到了每天每个测量点的功率曲线数据图, 其中覆盖了基本数据测试点有6746个, 其中包含了用电人数有120万户. 结合电力系统当中的实际问题和实际业务, 用电行业(用电类别)和用电客户的实际核准不进行考虑, 对于已经长时间没有活动的用户也不考虑. 数据预处理主要进行以下5个步骤:

1) 测量基站处理

对在上文提到的电力数据进行初步的数据挖掘, 发现有部分电力数据虽然是在2020年1月15日之后开始记录数据, 但是对于这些测量点需要进行是否是新旧测量点进行判断, 在1月15日之后开始进行记录, 这部分数据的参考价值是比较大. 在1月15日之前有数据的定义为旧测量基站, 则是旧的测量基站这部分数据的参考价值略低于前者.

2) 全为负电力数据处理

全部为负的电力数据需要进行数据处理, 通过咨询电力系统工程师, 这种数据大概率是智能电表的正负两极互相接反, 可以把这些数据上的负号去掉, 并不影响数据的使用和试验结果, 以及模型的构建.

3) 部分为负电力数据处理

对于部分是负的电力数据需要特别的数据处理, 因为这部分数据和全部负电力数据的情况是不一样的. 首先要计算这类数据当中每一类的电力负荷, 然后计算部分负电力数据的最小值, 还要计算正电力负荷的最大值, 则可以看出整体上最大值的绝对值应该是大于最小值的绝对值, 在这部分数据计算中使用更为精确的最小值分布.

最终确定数据处理方案是将所有小于−0.05的电力数据当中的负号去掉, 然后对在−0.05~0区间的电力数据利用前后一周的同一个测量基站做平均值替换.

4) 缺失值电力数据处理

对于缺失值的电力数据则需要对同一个测量点, 前一周和后一周的数据, 计算某一时刻的电力负荷平均值, 若前后一周的数据还是缺失的情况, 还需要继续延长一周, 即两周的电力负荷的平均值. 如果两周数据还是缺失的情况, 需要丢掉该点数据, 因为再次延长日期的话, 这个点的数据价值是非常小的在7~15天的周期里可以说明该测量点的价值, 时间无限制延长是没有价值的.

5) 异常值的数据处理

异常值的处理需要分为3个步骤, 分别是纵向判断、横向判断, 在满足前两个判断条件下, 需要进行利用纵向数据进行替换[8-10].

纵向判断是同一测量基站, 在不同时间点获取的负荷值进行比较. 纵向判断条件如下: 设y(i,t)表示基站i, 在当前日期t时刻负荷功率, n表示在这个基站的检测序列, 在n个序列所有时刻均值是 $\overline{\mu }(1,2,{\cdots },n)$ , 标准差是 ${\sigma }_{i}(1,2,{\cdots },n)$ .

$ \left|{y}(i,t)-\overline{\mu }(1,2,{ \cdots},n)\right|>3\times {\sigma }_{i}(1,2,{ \cdots},n) $ (1)

横向判断是不同测量基站, 在同一时间点获取的负荷值进行比较. 横向判断条件如下: 设y(i,t)表示基站i, 在当前日期t时刻负荷功率, m表示t时刻m个基站的检测序列,t时刻m个基站的检测序列的平均值是 $\overline{{v}}(1,2,{\cdots },{m})$ , 标准差是 $ {\sigma }_{{j}}(1,2,{\cdots \cdots},{m})$ .

$ \left|{y}(i,t)-\overline{{v}}(1,2,{\cdots},m)\right|>3\times {\sigma }_{{j}}(1,2,{\cdots \cdots},m) $ (2)

如果y(i,t)同时满足横向判断和纵向判断两个条件, 就可以认为该基站测量数据异常, 需要进行数值替换, 替换方法为:

$ \tilde y (i,t) = \min \{ \overline {{v_j}} + 3{\sigma _j},\overline {{\mu _i}} + 3{\sigma _i}\} $ (3)
2 用户用电行为的分类评价

用电行为实际上是对用户的用电行为分类进行评价, 对现有的分类进行匹配, 以实现用电行为分类结果的最优解, 实现用电行为的最优化、电力损失最小化.

按照不同的分类规则, 将电力用户聚类类别分成居民用户、超商用户、其他用户类比如表1所示; 将电力用户聚类类别分成居民用户、超商用户、工业用户、其他用户类比如表2所示; 将电力用户聚类类别分成居民用户、超商用户、工业用户、办公用户、娱乐场所用户、其他用户类比如表3所示.

表 1 电力数据聚类占比结果(聚类数3个)(%) Table 1 Power Data Clustering Results (3 clusters)

表 2 电力数据聚类占比结果(聚类数4个)(%) Table 2 Power Data Clustering Results (4clusters)

表 3 电力数据聚类占比结果(聚类数6个)(%) Table 3 Power Data Clustering Results (6 clusters)

通过对于表格中的数据进行对比, 可以发现, 聚类个数为4个. 即表2电力数据聚类结果分析可以发现, 在疫情防控期间不同时间段负荷占比权重较大, 各个类别之间的特点是比较明显的. 因此, 对居民用户、超商用户、工业用户、其他用户进行比较较为科学完备. 但其他用户中涵盖类型较多、用户特征不明显, 故本文选取居民用户、超商用户、工业用户进行分析.

3 工业用电特性分析

工业用电是当前最消耗电力的行业, 其中高电力消耗的产业有钢铁产业、化工行业、汽车产业、纺织产业、造纸业、副食品加工等行业, 在这些产业当中, 既有重工业耗电还有轻工业耗电, 涉及到的行业种类是非常多的, 而且由于每个产业都有自身的产业结构, 导致每个产业都有各自的用电特性, 并且这些产业之间的用电特性差别巨大.

本文选取的辽宁某地区, 其工业覆盖电机制造、制药、电子信息、成衣制造等行业. 根据辽宁省人民政府办公厅通知, 疫情防控必需(医疗器械、药品、防护品生产和销售等行业)不得停工停产. 其中一部分企业处于停产状态, 但一些制造业紧急转型防护和消毒用品, 对用电负荷产生一定的影响. 由于涉及企业比较多, 因此必须通过K-means聚类算法对不同的工业项目电力曲线进行聚类分析, 从而精准地确定不同产业的用电规律, 然后有针对地提供电力服务, 其中包括可靠供电、信息通知、地址服务、设备租赁、供电渠道等服务. 图1是辽宁某地区疫情防控期间工业电力曲线图.

图 1 工业电力曲线图 Fig. 1 Typical industrial power curve

在本文当中得到的内部数据, 需要在内部数据当中利用大数据技术挖掘并分析出用户的用电行为. 但是从数据当中包含了多个特征, 既有一些挖掘价值比较大的电力数据, 也还有些挖掘数据比较小的电力数据. 因此, 从得到的电力数据当中挖掘和选择出价值比较大的特征是研究用户用电行为的前提. 因此本文用式(1)~式(4)来处理数据特征[11-13].

最高值耗电率 ${\varPsi _{{H}}}$ :

$ {\varPsi _{{H}}} = {S_{{H}}}/S $ (4)

其中, SH为耗电高峰用量, S是耗电总量.

最低值耗电率 ${\Psi _{{L}}}$ :

$ {\Psi _L} = {S_L}/S $ (5)

其中, SL为耗电低峰用量, S是耗电总量.

正常耗电率 ${\Psi _{{F}}}$ :

$ {\Psi _F} = {S_F}/S $ (6)

其中, SF是在正常时的耗电用量, S是耗电总量. 每日耗电量峰值时刻Tmax:

${P_{d.{T_{\max }}}} = {P_{{T_{\max }}}}$ (7)

其中, ${P_{{{d}}.{T_{{{\max}}}}}}$ 是一天当中的最大的运行负荷量[14-19].

在内部数据当中, 提取到用户特征之后, 不同的特征值之间可能会有不同的值域. 值域相差如果比较大的话, 对整体矩阵的影响较大, 这种影响会减弱数值比较小的特征值的作用, 所以需要对特征值进行规范化的处理. 首先, 选取5个特征值, 将每个用户设为一个向量矩阵 $X = [{x_1},{x_2},\cdots ,{x_n}]$ , 然后需要对所有的元素进行统一化处理

$ {y_{i}} = [{x_{i}} - \min ({x_{i}})]/[\max ({x_{i}}) - \min ({x_{i}})] $ (8)

把每个特征值规范化到区间[0, 1]内, 进一步得到标准化的特征矩阵Y=[y1, y2, …, yn]. 其中yi∈[0, 1], i=0, 1, 2, …, n.

4 改进的K-means在用电行为分析中的应用

基于改进的K-means算法的执行步骤如算法1.

算法1. 基于改进K-means算法用户行为分析算法.

输入: 包含n个数据对象的数据集S、聚类簇K的数目、邻域的半径、最小的数据样本数量Mins.

输出: 满足判断条件, 且函数收敛的K个收敛结果.

Step 1. 计算数据集S中数据对象之间的欧式距离.

Step 2. 计算每个数据值域所包含的样本数据数, 如果等于最小样本数Mins, 需要将这个对象放到高密度的集合当中. 如果密度小于Mins的数据就应该从数据集合当中删除.

Step 3. 把高密度的数据区域集合中的最大数据当作第一个数据聚类中心, 把这个聚类中心加入到聚类中心集合, 然后把第一个数据聚类中心从高密度区域中删除.

Step 4. 计算聚类中心和集合当中的剩余的所有样本的欧式距离, 找出权值最大的样本点, 然后在把最新的样本点加入到聚类中心集合当中, 然后在删除原来的聚类中心.

Step 5. 对Step 4反复迭代, 直到找到K个聚类中心, 加入到最新的聚类中心集合当中.

Step 6. 组后利用得到的K个聚类中心, 输出结果.

在本试验中主要是利用改进后的K-means算法对辽宁某地区流行病疫情爆发期负荷曲线进行聚类分析, 利用改进后的K-means算法将内部的电力数据主要分成了3类. 每个分类的曲线特征在形态上的特征都具有各自的特征, 他们三者之间的峰值时也有着比较大的差异, 第1类的曲线特征和峰值明显与第2类特征和第3类特征和峰值曲线不同. 定义第1类用户为居民用户, 第2类用户为超商业用户, 第3类用户为工业用户.

根据第1类的用户基本负荷曲线情况可以看出, 曲线表现出近似于抛物线的态势走向. 这类用户的用电高峰可以推断出是在晚上的19点–21点左右开始, 用电的低值大概是在凌晨2点–6点左右, 用电最低值大概是在凌晨3点左右, 因为这个时间的居民用户都在休息, 能耗基本是低耗能的照明和不普及的大功率取暖设备. 而在早上7点开始出现用电高峰, 整体趋势呈现较明显上扬趋势, 此时是使用高耗能较多的热水器、电磁炉等设备的时刻. 然后上午11点开始到下午14点左右, 用户的用电量开始趋于平缓, 从下午17点开始用电量开始增多, 用电曲线呈现明显的上扬趋势, 而在晚上21点左右达到最高峰, 此时居民用户基本都在家庭中活动, 热水器、空调、电视、电脑等均在使用中. 23点开始用电量开始下滑, 居民开始停止使用耗电设备, 进入休息状态.

根据第2类的用户基本负荷曲线情况可以看出, 用电曲线页表现出一高一平一低的态势走向. 对于第1种用户来说, 第2类用户的负荷量是比较高的. 这类用户的用电高峰可以推断出是在早上8点30分左右开始, 用电的低值大概是在晚上22点到第二天早上8点左右, 其中用电最低值大概是在凌晨0点到早晨7点. 而在早上8点开始出现用电高峰, 整体趋势呈现明显上扬趋势, 然后上午8点开始到晚上22点左右, 用户的用电量开始趋于平缓, 期间都可以算作此用户用电的最高峰, 而且此时的峰值明显超过第1类的用户. 从曲线分析上可以看出第2类用户的峰值消耗电量明显高于第1类用户, 其用电负荷在高峰时比第1类高, 低峰时也比第1类高的情况. 第2类用户在此特征下具备比较大的用电行为调控.

根据第3类的用户基本负荷曲线情况可以看出, 曲线上扬态势走向, 而且用电量也是非常高的, 即使是在部分工业停工的条件下仍高于第1类和第2类用户的用电负荷. 曲线呈现出一高一低的态势. 这类用户的用电高峰可以推断出是在上午8点到晚20点左右, 用电的低值大概是在晚20点到第二天早8点左右, 整个时间段都为用电最低值. 其中在中午11点到下午13点, 会有短暂的负荷下降, 那是由于这个时间是午休, 设备及工厂处于待机状态. 下午13点以后开始出现用电高峰, 整体趋势呈现明显上扬趋势, 整个峰值状态可以持续到晚上20点左右, 用户负荷高峰状态平稳. 晚上20点以后, 工人下班, 厂区彻底处于待机状态, 整个用户设备和用电损耗都为最低. 这种低谷状态可以持续到第二天的工作开始时间. 这种用电趋势在工业用户领域, 尤其是在疫情防控期间, 为了赶工期、多生产还是具有非常显著特征的, 如图2.

图 2 内部数据聚类曲线图 Fig. 2 Internal data clustering curve

一般情况下正常的居民用电的高峰负荷向低峰转移的能力非常小和手段也是非常少的. 可以通过提高夜晚的负荷能力来平衡高峰始端的负荷. 居民用户可以通过口号宣传节能用电等方式, 让其自主的响应降低峰值的手段和措施, 可以通过缩短娱乐时间和缩短使用电器, 包括电脑和电视等的时间, 来降低高峰, 让全民都参与到节约用电, 注重生活小处, 例如随手关灯、出门关灯等习惯. 鼓励居民参与调峰管理, 提高居民的节约能源的意识. 超商业用户的用电峰谷明确, 在疫情条件下有些许波动, 都在负荷范围之内. 工业用户在疫情中呈现明显的缩减, 部分用户并没有启动高耗能设备, 但其负荷趋势仍然明显, 可以通过分时电价, 并根据疫情期间生产品和生产能力给予电价优惠政策来调节用电行为. 电价政策调控表见表4.

表 4 电价政策调控表 Table 4 electricity price regulation

5 结论

通过分析不同用户体系的用电行为, 不同的用户体系, 但这并不是电网体系下包含的全部用户, 只是单独列举几类有代表的用户. 在用电行为分析的中, 其实质是对电力数据的分析和处理过程, 在分析和处理的过程中, 主要包含: 用电行为的分类、对用电行为分类进行分类诊断、根据用电日期, 进行不同用户的用电行为优化和用电行为的相似度匹配技术. 利用大数据技术对不同的用户进行用电行为分析, 构建不同的用户体系的用电行为分析模型. 并且对与电价的倾斜政策, 给出了详细的数据支撑, 并给出了具体措施建议.

参考文献
[1]
何永秀, 王冰, 熊威, 等. 基于模糊综合评价的居民智能用电行为分析与互动机制设计. 电网技术, 2012, 36(10): 247-252.
[2]
赵凯, 陈丽娟, 吴玉鹏, 等. 2004年全国电力可靠性统计分析. 中国电力, 2005, 38(5): 1-8. DOI:10.3969/j.issn.1004-9649.2005.05.001
[3]
肖乃慎, 李博, 孔德诗. 大数据背景下的电网客户用电行为分析系统设计. 电子设计工程, 2016, 24(17): 61-63, 69. DOI:10.3969/j.issn.1674-6236.2016.17.019
[4]
Lu J, Zhu YP, Peng WH, et al. Feature selection strategy for electricity consumption behavior analysis in smart grid. Automation of Electric Power Systems, 2017, 41(5): 58-63, 83.
[5]
Gong GJ, Chen ZM, Lu J, et al. Clustering optimization strategy for electricity consumption behavior analysis in smart grid. Automation of Electric Power Systems, 2018, 42(2): 58-63.
[6]
Li Y, Luo Q, Song YQ, et al. Study on the tier tap determining of basic residential electricity consumption based on demand response. 2012 Asia-Pacific Power and Energy Engineering Conference. Shanghai, China. 2012. 1687–1692.
[7]
Mavroeidis D, Marchiori E. A novel stability based feature selection framework for k-means clustering. Proceedings of the 2011 European Conference on Machine Learning and Knowledge Discovery in Databases. Athens, Greece. 2011. 421–436.
[8]
De Assunção MD, Orgerie AC, Lefevre L. An analysis of power consumption logs from a monitored grid site. Proceedings of the 2010 IEEE/ACM International Conference on Green Computing and Communications & International Conference on Cyber, Physical and Social Computing. Hangzhou, China. 2011. 61–68.
[9]
Abreu JM, Pereira FC, Ferrao P. Using pattern recognition to identify habitual behavior in residential electricity consumption. Energy and Buildings, 2012, 49: 479-487. DOI:10.1016/j.enbuild.2012.02.044
[10]
王炳鑫, 侯岩, 方红旺, 等. 面向削峰填谷的电力客户用电行为分析. 2016电力行业信息化年会论文集. 天津, 中国. 2016. 103–107.
[11]
王炳鑫, 侯岩, 方红旺, 等. 面向“削峰填谷”的电力客户用电行为分析. 电信科学, 2017, 33(5): 164-170.
[12]
刘茵, 王立涛, 张晓飞, 等. 基于MATLAB仿真的用户用电行为分析及互动模式识别. 2016电力行业信息化年会论文集. 天津, 中国. 2016. 118–120.
[13]
张小龙. 大数据环境下用户用电行为分析的研究[硕士学位论文]. 北京: 华北电力大学(北京), 2017.
[14]
凌德祥, 黄拓, 关晓林, 等. 基于大数据的电力客户行为分析体系研究及实践. 电力大数据, 2018, 21(10): 13-17.
[15]
李志海, 张春平, 王子壬, 等. 结合PCA的K-means算法在专变用户用电行为分析中的应用. 电力信息与通信技术, 2018, 16(12): 62-67.
[16]
张灿. 基于用电行为分析的异常用电检测[硕士学位论文]. 武汉: 华中科技大学, 2018.
[17]
蒋菱, 王旭东, 于建成, 等. 基于分布式计算的海量用电数据分析技术研究. 计算机技术与发展, 2016, 26(12): 176-181.
[18]
胡殿刚, 李韶瑜, 楼俏, 等. ELM算法在用户用电行为分析中的应用. 计算机系统应用, 2016, 25(8): 155-161. DOI:10.15888/j.cnki.csa.005305
[19]
郁启麟. K-means算法初始聚类中心选择的优化. 计算机系统应用, 2017, 26(5): 170-174. DOI:10.15888/j.cnki.csa.005733