计算机系统应用  2018, Vol. 27 Issue (11): 27-34 PDF

1. 复旦大学 软件学院, 上海 200433;
2. 复旦大学 上海市数据科学重点实验室, 上海 200433

Quality Data Analysis of Tyre Industry Based on Optimized ADTree Algorithm
XU Xiao-Bin1, LI Min-Bo1,2
1. Software School, Fudan University, Shanghai 200433, China;
2. Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 200433, China
Foundation item: National Natural Science Foundation of China (61671157); Shanghai Technology Innovation Action Plan (18511107800)
Abstract: Industrial enterprises have accumulated a large amount of production data. Massive industrial data contain valuable information. By analyzing and mining these industrial data, enterprises can enhance the ability of digital management and quality data analysis. This paper analyzes the demand and data characteristics of big data in tyre industry. First, the multi-source and heterogeneous data in every link of tyre production is integrated. After analyzing the data pre-processing process, we build the analysis data set of structured manufacturing and quality inspection. According to the low performance of the traditional ADTree algorithm, this study uses bottom induction method to make full use of the known data and reduce the amount of calculation. The experiment shows that the improved algorithm is more suitable for a large amount of data. After sorting out the results of ADTree, the important factors that affect the quality of the tires can be found.
Key words: industrial big data     quality analysis     ADTree     data mining     decision tree

1 引言

2 相关研究

3 轮胎质量分析需求与数据集成 3.1 轮胎质量分析需求

(1)轮胎产品生产全过程的质量追溯;

(2)轮胎生产过程的质量合格率统计分析;

(3)轮胎质量异常的影响因素分析.

(1)由于工业数据体量庞大, 使用传统SPSS、WEKA等分析工具效率较低, 一次处理数据量有限, 本文主要使用HDFS+ Hive+Spark作为工业大数据质量分析的技术支撑平台.

3.2 轮胎质量数据集成

 图 1 质量数据分析流程

 $z = 2\left( {\sqrt {{W_ + }\left( c \right){W_ - }\left( c \right)} + \sqrt {{W_ + }\left( {\neg c} \right){W_ - }\left( {\neg c} \right)} } \right) + W\left( {\neg p} \right)$ (1)

 ${Z_{\rm{pure}}} = 2\left( {\sqrt {{W_ + }} + \sqrt {{W_ - }} } \right) + W\left( {\neg p} \right)$ (2)

Zpure的计算不需要经过分裂测试, 只要累加F(p)的正负权重和即可. zZpure经过拉普拉斯修正后, Zpure会成为z的下限. 如果根据F(p)计算出来的Zpure已经大于等于当前迭代的最小z值, 那么当前F(p)的所有分裂测试评估值z都会大于等于当前迭代的最小z值, 所以这个节点不需要寻找更好的分裂测试, 可以直接跳过. 这种优化能提高传统ADTree算法的性能, 但效果有限. 杨碧姗等提出了BICA算法, 通过以空间换时间的策略, 降低了计算评估值z的复杂程度, 极大地提升了算法的性能. 本文在BICA算法的基础上做了进一步优化, 并修正了原算法中出现的零权重值问题, 提出了ADTree改进算法.

BICA算法定义了新的数据结构AVW-set(以下简称为set), set由ADTree算法需要处理的样本集生成. 表1是一个简单的样本集, 共有三条记录, 其中类别和权重是两个样本标识, 类别为1代表不合格, 类别为–1代表合格, 而权重一般初始都设为1. 除去样本的标识, 每个样本有两个属性, 分别是操作人员和内温最小值. 样本的每个属性对应一个set, 如本例中就有两个set, 分别是操作人员的set和内温最小值的set. 每个set有三个属性, 分别是属性名、正标记权重和与负标记权重和. 如果set记录的属性attr是连续型的,取所有属性值v, 记录F(p)中满足属性attr≤v的正标记权重和与负标记权重和; 如果attr是离散型的, 只记录F(p)中满足属性attr=v的正标记权重和与负标记权重和.

BICA算法中的set在离散型属性的正标记权重和或负标记权重和为0时, 会赋一个自定义的较小值, 这是错误的. Pfahringer在其论文[9]的第3节提到了权重和为0不会影响ADTree算法的结果, 从解释性来说, 主机手20080001操作了两个产品, 都是合格的, 如果正标记权重和不设为0, 那么这个主机手的合格率就不是100%了, 这明显也不合理. 正确的做法是保留0这个值.

BICA算法的分裂测试评估改为自底向上的归纳来进行, 可以省去部分内节点的group计算. 每个预测节点都有对应的group, 这涉及到group的合并问题.只要预测节点是ADTree的非叶子节点, 则取它的第一个决策子节点, 将其两个后代节点的group合并成本节点的group. 由于每个group包含多个set, 所以合并时根据同属性的set进行合并.

x, y没有全部指向set起始记录时:

1) P[p].W+=X[x].W++Y[y].W+

2) P[p].W-=X[x].W+Y[y].W

3) IF X[x].value<Y[y].value

y=y–1;

4) Else if X[x].value>Y[y].value

x=x–1;

5) Else

x=x–1, y=y–1;

1) 访问一个预测节点p

2) 如果p是叶子

a) 根据F(p)计算group

b) 计算p的正负权重和、Zpure, 如果正负权重和不全为正数, 直接返回

3) 否则(即p是内节点)

a) 取p的第一个决策子节点d, dp的决策子节点中的最佳分裂

b) 取d的两个预测子节点qr, 计算它们的group, 然后分别作为输入, 递归调用本算法,这样就起到了后序遍历的作用

c) 将qr的group合并为p的group, 计算p的正负权重和、Zpure

4) 如果当前pZpure小于当前最小的z, 因为Zpurez的下限, 那么可能存在z比当前最小的z还小, 所以对于group里的所有set的所有值v

a) 计算分裂测试cz

b) 如果z比最小的z还小, 那么最小的z设为这个值, 并且将分裂测试c设为最佳测试, p设为最佳分裂节点

5) 对于p除了第一个决策子节点d的其余子节点d (如果存在的话)

a) 取d的两个子节点qr, 计算它们的group,然后分别作为输入, 递归调用本算法

5 质量分析结果与算法性能实验 5.1 质量分析结果

1) 成型主机手20070488负责的产品中, 合格17 952件, 不合格1260件, 不合格率高达约6.6%. 这名主机手经手了约6.2%的产品, 却产生了约52%的不合格品, 可见其操作水平非常之低.

2) 其余主机手生产的轮胎, 在平均内压<1.776时,合格29 053件, 不合格413件, 不合格率约1.4%; 平均内压在[1.776, 1.817]时, 合格238 090件, 不合格731件,不合格率仅为约0.3%; 当平均内压>1.817时, 合格21 376件, 不合格仅5件, 不合格率几乎忽略不计. 由此可见, 轮胎硫化过程的硫化机平均内压对于最后的质检合格与否起到了重要影响.

3、硫化批次是20161206时, 合格864件, 不合格401件, 不合格率高达31.7%. 其中, 经手成型主机手20070488的951件产品更是有382件不合格, 不合格率约为40.1%; 剩余314件产品有20件不合格, 不合格率约为6.4%, 也远高于平均不合格率. 因此, 该批次的生产出现了明显的问题.

1) 操作人员的水平好坏会影响轮胎质量, 个别操作人员经手的轮胎不合格率会非常高, 企业应该及时采取人员改进措施.

2) 轮胎生产过程中的平均内压对轮胎质量有明显影响, 一般来说, 如果平均内压偏低, 那么轮胎的整体不合格率会有提升. 因此, 企业需要提高生产技术, 确保硫化过程的平均内压在合理范围内.

3) 由于少量生产设备存在问题, 导致该设备生产的轮胎品种不合格率偏高. 企业应该及时维修设备或考虑购置新设备, 以此保证产品质量.

5.2 算法性能实验

6 总结

 [1] 杨海成. 企业信息化建设与工业化进程融合的认识与思考. 中国机电工业, 2008(7): 80. [2] 李敏波, 王海鹏, 陈松奎, 等. 工业大数据分析技术与轮胎销售数据预测. 计算机工程与应用, 2017, 53(11): 100-109. DOI:10.3778/j.issn.1002-8331.1609-0154 [3] 宁宣凤, 吴涵. 浅析大数据时代下数据对竞争的影响. 汕头大学学报(人文社会科学版), 2017, 33(5): 90-98. DOI:10.3969/j.issn.1001-4225.2017.05.018 [4] Yan JH, Meng Y, Lu L, et al. Industrial big data in an industry 4.0 environment: Challenges, schemes, and applications for predictive maintenance. IEEE Access, 2017, 5: 23484–23491. [5] 张洁, 高亮, 秦威, 等. 大数据驱动的智能车间运行分析与决策方法体系. 计算机集成制造系统, 2016, 22(5): 1220-1229. [6] 杨枝雨. 基于大数据的印花质量影响因素分析方法研究 [硕士学位论文]. 上海: 东华大学, 2017. [7] 李继安, 冯晓荣, 贾世准, 等. 工业大数据与服务大数据及其检测要点对比研究. 电子产品可靠性与环境试验, 2017, 35(S1): 1-6. DOI:10.3969/j.issn.1672-5468.2017.S1.001 [8] Yang LP, Wang FZ, Wang T. Analysis of dishonorable behavior on railway online ticketing system based on k-means and FP-growth. Proceedings of 2017 IEEE International Conference on Information and Automation. Macau, China. 2017. 1173–1177. [9] Pfahringer B, Holmes G, Kirkby R. Optimizing the induction of alternating decision trees. Proceedings of the 5th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Hong Kong, China. 2001. 477–487. [10] 杨碧姗, 王腾蛟, 常雷, 等. 一种快速可扩展的ADTree构建算法. 计算机研究与发展, 2007, 44(S3): 335-340. [11] Watcharapasorn P, Kurubanjerdjit N. The surgical patient mortality rate prediction by machine learning algorithms. Proceedings of the 13th International Joint Conference on Computer Science and Software Engineering. Khon Kaen, Thailand. 2016. 1–5. [12] 俞燕. 工业企业生产成本核算中的内部控制措施. 中国经贸, 2014(8): 169-170. DOI:10.3969/j.issn.1009-9972.2014.08.108 [13] 浦哲, 边慧光. 成型过程对全钢载重子午线轮胎动平衡的影响. 轮胎工业, 2013, 33(6): 364-366. DOI:10.3969/j.issn.1006-8171.2013.06.012 [14] 陈吉荣, 乐嘉锦. 基于MapReduce的Hadoop大表导入编程模型. 计算机应用, 2013, 33(9): 2486-2489. [15] Taleb I, Dssouli R, Serhani MA. Big data pre-processing: A quality framework. Proceedings of 2015 IEEE International Congress on Big Data. New York, NY, USA. 2015. 191–198. [16] Thusoo A, Sarma JS, Jain N, et al. Hive: A warehousing solution over a map-reduce framework. Proceedings of the VLDB Endowment, 2009, 2(2): 1626-1629. DOI:10.14778/1687553 [17] Freund Y, Mason L. The alternating decision tree learning algorithm. Proceedings of the 16th International Conference on Machine Learning. San Francisco, CA, USA. 1999. 124–133. [18] 孟辛澄. 大数据时代企业市场营销策略探索. 商场现代化, 2018(2): 75-76.