中国是一个人口大国, 也是一个渔业大国, 近年来, 渔业从业人员与日俱增, 截止2020年年末, 我国的渔船总数为56.33万艘, 海洋捕捞的产值为2197.20亿元, 渔业捕捞为我国沿海经济的发展做出了重要的贡献[1]. 但是随着渔业经济的不断发展, 未报告、过度和非法捕捞问题日益严重[2]. 这些行为不断破坏海洋的可持续性. 据联合国粮食及农业组织估计, 世界17%的海洋物种被过度捕捞, 6%的海洋物种已灭绝[3]. 为了保护剩下的渔业资源, 实现渔业的可持续发展, 对渔船的作业进行监督管理变得越来越重要.
随着船舶自动识别系统(AIS)的广泛部署, 产生了大量的轨迹数据[4]. AIS轨迹数据中包含了大量的船舶运动信息, 如位置经纬度, 对地航速(SOG)和对地航向(COG) [5], 这些信息可以显示渔船完整的捕捞活动, 为渔业管理提供了有价值的信息[6]. 利用渔船的AIS轨迹数据监测渔船的作业方式比传统的现场监测具有难度小、成本低、风险低等优点. 所以国内外学者基于AIS轨迹数据提出了许多渔船作业类型识别算法进行渔船监测. 现有的识别方法大致可以分为两类: 一类是基于机器学习的方法[7-10], 另一类是基于深度学习的方法[11-14]. 传统的基于机器学习的算法需要手动提取特征, 学习的是浅层的特征. 随着深度学习的发展, 学者提出的基于深度学习的算法则能自动学习特征. 但是这两类算法使用的都是AIS轨迹中位置经纬度、速度、加速度和航向等运动特征, 忽略了轨迹的时域特征.
为了解决上述问题, 本文提出了一个基于滑动窗口和LSTM自动编码器的渔船作业类型识别算法. 该算法基于深度学习, 能从轨迹数据中自动学习运动特征和时域特征, 提高了识别的准确率. 本文的具体内容和贡献如下:
(1)针对每一条渔船的AIS轨迹数据采样时间不同、数据稀疏和数据量过大的问题, 我们采用滑动窗口提取轨迹的运动特征.
(2)提出利用LSTM自动编码器生成轨迹的深度表征向量, 重构轨迹特征, 提取轨迹的运动特征、时域特征和隐含特征.
(3)在LSTM自动编码器中嵌入Softmax分类器. 并构造一个新的损失函数, 利用新的损失函数反向传播优化网络. 最终实现拖网渔船与围网渔船的精确识别.
1 相关工作目前, 利用渔船AIS轨迹数据进行渔船作业监测的算法越来越多. 随着机器学习和深度学习的发展, 国内外相关学者围绕这两个方面提出了很多渔船作业类型识别算法.
基于机器学习的识别算法需要手动构建特征. 依据不同渔船之间进行捕捞时速度、航向角的变化趋势不同, Souza等人[7]以速度为主要的影响因素, 提出了一个识别拖网、围网、延绳钓3种渔船的算法. Huang等人[8]使用特征工程和XGBoost两个模块构建了一个识别模型, 用于识别7种类型的渔船. Gao等人[9]为了充分利用数据中包含的信息, 克服以往使用单一数据进行渔船作业类型识别的弊端, 将渔业监管机构的政策文件和数据与AIS数据进行融合并利用XGBoost进行识别, 提升了识别的准确率. Guan等人[10]从渔船AIS轨迹提取60个特征, 利用LightGBM (light gradient boosting machine)方法进行渔船作业分类.
基于深度学习的算法可以自动学习轨迹特征, Kroodsma等人[11]使用CNN将7000多条渔船数据划分为6种作业类型. 郑巧玲等人[12]以我国近海3种不同类型78艘渔船为研究对象, 基于航速和航向设计了对应的BP神经网络, 提出的模型能准确识别拖网和张网渔船. 汤先峰等人[13]将渔船AIS轨迹数据转化为图片, 利用自定义的CNN网络提取轨迹的空间特征进行渔船作业类型识别, 提出的算法在刺网和拖网渔船的数据集上进行了验证, 具有较高的准确率. Kim等人[14]用基于滑动窗口的数据切片方法来生成训练数据集. 使用CNN构建深度神经网络模型进行渔船作业类型识别.
2 相关概念AIS轨迹. 一条渔船AIS轨迹是由一组有序的空间点组成. 它可以表示为
渔船类型. 进行海洋捕捞的渔船按捕捞方式可以分为拖网、围网 刺网、延绳钓等. 我国的渔船作业方式以拖网和围网为主. 拖网渔船主要围捕底层和中下层水域的鱼类. 围网渔船主要围捕中层和中上层水域的鱼类. 拖网渔船捕捞时的轨迹一般是直线, 航向变化小, 由于要拖曳网具, 所以需要定速行驶较长时间, 速度一般为3–6 海里/小时. 围网渔船捕捞时的轨迹呈圆形, 航向时刻变化, 当收到某海域发现密集鱼群的信息时, 需要快速驶向中心渔场, 所以围网渔船的速度变化较大并且最高速度可以达到14 海里/小时. 图1显示了编号为27034 (拖网)、23457 (围网)渔船航迹图、速度和航向变化图.
3 本文算法
本节介绍了提出的算法. 如图2所示, 第①部分显示了原始的轨迹数据; 第②部分显示了特征提取方法, 在3.1节给出了具体介绍; 第③部分LSTM自动编码器用于重构原始轨迹, 学习轨迹的运动特征、时域特征和隐含特征, 并将这些特征向量输入Softmax分类器进行分类, 详细介绍在3.2节给出; 第④部分显示使用提出算法得到的分类数据.
3.1 特征提取方法
AIS系统进行数据采样时, 会存在数据丢失的情况且每一条渔船的AIS轨迹数据过于庞大、稀疏[15]. 限制轨迹大数据进行挖掘分析、应用的最重要因素也是海量的数据规模和数据采样精度[16]. 针对这一问题, 本文提出利用滑动窗口处理原始的AIS轨迹数据, 提取轨迹的运动特征. 轨迹特征提取的原理是利用设定的滑动窗口遍历整条渔船轨迹, 计算每个窗口中的轨迹点的统计信息并生成特征序列. 该方法在拓展每个窗口内轨迹点的特征、降低了数据的长度, 同时解决了数据稀疏的问题. 特征提取方法的具体步骤如下:
Step 1. 直接从数据库中获取的轨迹会存在速度、坐标、航向角的离群点. 因此采用经验阈值过滤这些异常点, 并通过经纬度重新计算航向角. 式(1)给出了计算过程. 其中
$ angle = \arctan \frac{{lo{n_i} - lo{n_{i - 1}}}}{{la{t_i} - la{t_{i - 1}}}} $ | (1) |
Step 2. 通过式(2)计算渔船行驶的加速度, 拓展轨迹序列的特征.
$ a = \frac{{{v_{{t_i}}} - {v_{{t_{i - 1}}}}}}{{{t_i} - {t_{i - 1}}}} $ | (2) |
Step 3. 初始化滑动窗口的宽度
Step 4. 利用滑动窗口遍历所有轨迹, 记录每一个窗口内轨迹点. 由于采样精度的不同以及数据的丢失, 有些窗口会没有轨迹点. 如图3所示, 显示了使用
Step 5. 计算每一个窗口内所有轨迹点的速度、加速度、经度、纬度、航向角的统计特征, 并挑选如下6个统计特征: mean, max, min, 75% quantile, 50% quantile, 25% quantile.
Step 6. 组合所有的特征, 并生成 (b, T,
3.2 分类模型
提取特征序列后, 本文使用基于LSTM自编码器和Softmax分类器的分类模型进行渔船作业类型识别. 分类模型如图4所示, 图4(a)在第3.2.1节进行了详细介绍. 在图4(b)在第3.2.2节进行了详细说明.
3.2.1 LSTM自动编码器
自动编码器是一种无监督学习方法, 能将不等长的序列转化为固定长度的序列, 能更好地用于特征降维、获取隐含特征. 相比于LSTM提取轨迹的运动特征和时域特征, 在本文中, 我们使用多层长短期记忆(LSTM)神经网络构建自动编码器重构轨迹的特征向量, 学习轨迹的运动特征、时域特征和隐含特征.
LSTM是对传统RNN的一个改进, 它是由是Hochreiter等人[17]在1997年提出, LSTM基本单元如图5所示, 主要由输入门、遗忘门和输出门控制长期状态
$ {f_t} = \sigma \left( {{W_f}\left[ {{h_{t - 1}}, {x_t}} \right] + {b_f}} \right) $ | (3) |
$ {i_t} = \sigma \left( {{W_i}\left[ {{h_{t - 1}}, {x_t}} \right] + {b_i}} \right) $ | (4) |
$ {C_t} = {f_t} * {C_{t - 1}} + {i_t} * {\tilde C_t} $ | (5) |
$ {O_t} = \sigma \left( {{W_o}\left[ {{h_{t - 1}}, {x_t}} \right] + {b_o}} \right) $ | (6) |
$ {h_t} = {O_t} * \tanh \left( {{C_t}} \right) $ | (7) |
本文构建的LSTM自动编码器由2层的LSTM编码器、2层LSTM解码器组成, 2层LSTM编码器重构轨迹特征, 输出为 (b, N), 其中, N为重构后轨迹特征的维度, 如图4(a). 同时, 本文选择了均方误差作为LSTM自动编码器的损失函数. 在式(8)给出了详细的计算过程. 其中
$ {J_1} = {\textit{MSE}} \left( {\hat y} \right) = {E} {\left( {\hat y - x} \right)^2} $ | (8) |
Softmax分类器将特征按照分类个数进行划分, 保证类别是可分的, 这一点对多分类任务非常合适. 因此通过LSTM自动编码器得到固定长度的轨迹向量(b, N)后, 本文采用Softmax分类器进行渔船作业类型识别, 分类器输出为0和1, 代表两种类型的渔船. 模型图如图4(b).
Softmax进行分类时采用的损失函数是交叉熵, 如式(9)所示.
$ {J_2} = \frac{1}{N}\sum\nolimits_{\text{i}} { - \left[ {{y_i} \cdot \log {p_i} + \left( {1 - {y_i}} \right) \cdot \log \left( {1 - {y_i}} \right)} \right]} $ | (9) |
为了能让网络学习最佳参数, 使分类效果达到最佳. 文中提出了一个全新的损失函数, 如式(10)所示. 网络进行训练时, 使用
$ J = {J_1} + {J_2} $ | (10) |
为了验证提出算法的有效性和可靠性, 在本节中, 我们在真实的数据集上评估了提出的算法. 第4.1节给出了实验数据来源, 第4.2节给出了实验结果及与其他深度学习算法的比较分析.
4.1 实验数据集和评估指标 A. 实验数据集使用的数据集是2020年数字中国创新大赛(智慧海洋建设)提供的数据集. 我们提取了其中包括围网渔船3002条和拖网渔船2632条一共5634条渔船AIS轨迹进行实验. 表1显示了渔船AIS轨迹数据的详细信息.
B. 评估指标本文采用式(11)计算分类的准确度. 其中
$ accuracy=\frac{{T}_{拖网}+{T}_{围网}}{{T}_{拖网}+{T}_{围网}+{F}_{拖网}+{F}_{围网}}\times 100{\text{%}} $ | (11) |
4.2 实验结果及分析 4.2.1 实验结果
在实验时滑动窗口的宽度
从图6和图7可以看出, 当迭代到100次的时候测试集的损失函数达到最低为0.2670, 准确率达到最高为95.82%.
4.2.2 对比分析为了进一步说明提出算法的有效性, 本文在相同的实验环境下使用滑动窗口生成的特征序列训练基于LSTM、CNN和BP神经网络的分类模型. 学习率设置为0.001, 训练次数设置为100次, 实验结果如表2所示.
从表2的结果可以看出, 将滑动窗口获取的特征向量作为输入, 使用LSTM、BP、CNN和本文提出的算法识别渔船作业类型, 均取得了90%以上的准确率, 证明利用滑动窗口预处理轨迹并提取轨迹特征是有效的. 同时本文算法在数据集上准确率达到最优证明提出的分类模型的可靠性. 与LSTM模型相比, LSTM自动编码器的准确率更优, 说明自动编码器在渔船识别中重构轨迹特征后能学习到隐含特征, 导致渔船识别模型准确率更高. 同时LSTM分类模型准确率高于BP神经网络和CNN分类模型说明学习轨迹的时域特征的重要性.
5 结论与展望拖网渔船捕捞海洋底层的鱼类, 会破坏海底的微生物从而损坏水质, 对海洋生态造成不可逆的影响. 目前我国存在少量渔船擅自改变作业方式、未登记作业方式甚至在禁渔线内作业. 因此本文提出了一种基于滑动窗口和LSTM自动编码器的渔船作业类型识别算法, 用于监测渔船的作业方式. 并且与其他模型进行了对比. 实验表明, 提出的算法能进一步学习轨迹的时域特征和潜在的高级特征, 准确率更高, 证明本文提出算法的可靠性, 可用于辅助围网和拖网渔船分类. 本文仅对两种渔船AIS轨迹进行了分类研究, 后续可以对更多的渔船AIS轨迹进行分类研究, 提高算法的实用性.
[1] |
农村农业部渔业渔政管理局. 2020年全国渔业经济统计公报. 中国水产, 2021(8): 11-12. |
[2] |
Omar JA, Abdirahman MA, Bambale SA. Impacts of Illegal, Unreported and Unregulated (IUU) fishing on developing countries: The case of Somalia. Asian Research Journal of Arts & Social Sciences, 2019, 9(4): 1-15. |
[3] |
Petrossian GA. Preventing illegal, unreported and unregulated (IUU) fishing: A situational approach. Biological Conservation, 2015, 189: 39-48. DOI:10.1016/j.biocon.2014.09.005 |
[4] |
Zhao Z, Ji KF, Xing XW, et al. Ship surveillance by integration of space-borne SAR and AIS-further research. Journal of Navigation, 2014, 67(2): 295-309. DOI:10.1017/S0373463313000702 |
[5] |
刘磊, 初秀民, 蒋仲廉, 等. 基于KNN的船舶轨迹分类算法. 大连海事大学学报, 2018, 44(3): 15-21. |
[6] |
Gerritsen H, Lordan C. Integrating vessel monitoring systems (VMS) data with daily catch data from logbooks to explore the spatial distribution of catch and effort at high resolution. ICES Journal of Marine Science, 2011, 68(1): 245-252. DOI:10.1093/icesjms/fsq137 |
[7] |
Souza EN, Boerder K, Matwin S, et al. Improving fishing pattern detection from satellite AIS using data mining and machine learning. PLoS One, 2016, 11(7): e0158248. DOI:10.1371/journal.pone.0158248 |
[8] |
Huang HG, Hong F, Liu J, et al. FVID: Fishing vessel type identification based on VMS trajectories. Journal of Ocean University of China, 2019, 18(2): 403-412. DOI:10.1007/s11802-019-3717-9 |
[9] |
Gao BT, Wang L, Zhai ZG. Identification algorithm of fishing vessel operation type based on feature fusion. IEEE International Conference on Artificial Intelligence and Information Systems. Dalian: IEEE, 2020. 230–234.
|
[10] |
Guan YN, Zhang J, Zhang X, et al. Identification of fishing vessel types and analysis of seasonal activities in the northern South China Sea based on AIS data: A case study of 2018. Remote Sensing, 2021, 13(10): 1952. DOI:10.3390/rs13101952 |
[11] |
Kroodsma DA, Mayorga J, Hochberg T, et al. Tracking the global footprint of fisheries. Science, 2018, 359(6378): 904-908. DOI:10.1126/science.aao5646 |
[12] |
郑巧玲, 樊伟, 张胜茂, 等. 基于神经网络和VMS的渔船捕捞类型辨别. 南方水产科学, 2016, 12(2): 81-87. DOI:10.3969/j.issn.2095-0780.2016.02.012 |
[13] |
汤先峰, 张胜茂, 樊伟, 等. 基于深度学习的刺网与拖网作业类型识别研究. 海洋渔业, 2020, 42(2): 233-244. DOI:10.3969/j.issn.1004-2490.2020.02.011 |
[14] |
Kim KL, Lee KM. Convolutional neural network-based gear type identification from automatic identification system trajectory data. Applied Sciences, 2020, 10(11): 4010. DOI:10.3390/app10114010 |
[15] |
郑振涛, 赵卓峰, 王桂玲, 等. 面向港口停留区域识别的船舶停留轨迹提取方法. 计算机应用, 2019, 39(1): 113-117. DOI:10.11772/j.issn.1001-9081.2018071625 |
[16] |
Belhassena A, Wang HZ. Trajectory big data processing based on frequent activity. Tsinghua Science and Technology, 2019, 24(3): 317-332. DOI:10.26599/TST.2018.9010087 |
[17] |
Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |
[18] |
Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014. 3104–3112.
|
[19] |
Dai AM, Le QV. Semi-supervised sequence learning. Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015. 3079–3087.
|