基于标准时序生成的科研热点预测及加速方法(2)
3)筛选首次热点出现序列。首次热点出现序列是指之前关键词ai不是热点词汇,而本周期变为热点词汇,基于此序列训练预测模型可以有效感知未来的热点关键词。设当前周期为t,若bi,t≥且bi,t-1<,则标记Bi为首次热点出现序列。
4)设 Bi,(t-s+1,t)为首次热点出现序列的一个截取样本,Bi,(t-s+1,t)={bi,x,x=t-s+1, …,t-1,t},s 为截取长度,所有的样本长度固定为s。
5)将该样本加入样本集,供时序聚类使用。
2.3 时序聚类模块
该模块通过对热点时序进行聚类[8]生成标准热点时序。通过聚类一组时序数据生成一个标准热点时序的示意见图4。模块的具体流程如下:
1)对样本库的时序数据样本聚类。
首先,基于动态时间规整算法(DTW)计算两个时序样本 Bi,(t-s+1,t)、Bj,(x-s+1,x)的距离,x、t表示起止时间可不同。公式如下:
式中:D(t1,t2)为两个时序分别在 t1周期与 t2周期的DTW 距离;Dist(t1,t2)=|bi,t1-bi,t2|。
其次,基于DBSCAN聚类算法对样本库的时序数据样本进行聚类,设生成的聚类为 Cβ|β=1,2,…,n。
2)生成标准热点时序,即基于一个时序聚类中所有时序数据样本计算出一个标准时序,作为该聚类的标准示例。 用 Bβ(t-s+1,t)表示标准热点时序,其计算公式如下为 Bi在 t周期的值,t=1,2,…,S。S为周期的数量。每个时序聚类对应生成一个标准热点时序,设Z为生成标准热点时序的集合,Z={Bβ|β=1,2,…,n}。
3)计算每个聚类中的时序样本与其标准热点时序最远DTW距离。Cβ的最远DTW距离设为mβ。
图4 标准热点时序生成
2.4 热点预测模块
该模块负责对各关键词的权重TF-IDF时序进行检测,找出热点关键词。方法如下:
1)过滤掉过低 bi,t的关键词 ai,以减少检测数量。设置过滤阈值 γ,若当前周期其中bi表示近s′个周期bi,x的平均值,则认为关键词ai有可能成为热点关键词,进行检测。反之,则不进行检测。
2)设 ai通过第 1)步过滤,则生成 ai检测序列Bi,Bi={bi,t,t=1,2,…,n}。
3)对于每个∈Z,计算 Bi与 Bβ的 DTW 距离 di,β。 若有 di,β≤mβ,则判定 ai为热点关键词。 设Cβ|arc(mindi,β),则 ai认为时序 Bi的未来趋势与 Cβ里的时序样本相似。
过低的γ会导致过多的检测样本,预测效率降低;而过高的γ会导致一些热点关键词被过滤掉,降低热点关键词查全率。在具体实施过程中,可设置
2.5 预测加速模块
本模块负责对热点预测任务进行加速。在热点预测模块,每个关键词都要与每个标准热点时序进行DTW距离计算,因此其时间复杂度为w·|Z|,其中w为模块4(热点预测模块)步骤1)过滤后关键词的数量,|Z|为Z标准热点时序的数量。此方法比较耗时,本模块基于时序特征前置比较的方式,加快预测时间。方法如下:
1)提取每个 Bβ|Bβ∈Z的时序特征。 这些时序特征包括均值、方差、最大值、最小值等,Bβ的时序特征用Vβ表示。
2)初步检测ai检测序列Bi与Bβ的距离。提取Bi的时序特征Vi,基于欧氏距离计算Vi与Vβ的距离,若此距离小于阈值v·,则再进行模块4的热点预测;若大于v·则放弃Bi与DTW距离计算。
3 性能验证
本节验证提出科研热点预测及加速方法的实验性能。提出的算法简称为PASSG(Prediction and Acceleration based on Standard Sequence Generation);无加速模块的算法简称为PSSG算法,即PSSG算法仅包含前4个模块。基准算法使用循环神经网络(RNN)作对比分析,性能指标使用查全率、查准率及预测时间实施评价。
图5 算法查全率和查准率对比分析
首先,验证PASSG和RNN算法对不同样本数量情况下的查全率和查准率,如图5所示。样本数据是指随机抽取热点关键词的样本数量。样本数量分别选定 500、1 500、2 500、3 500。 从图 5 看出,PASSG算法比RNN算法查全率平均提高25.75%,查准率平均提高28.25%,特别是在样本数量较大时。RNN方法将所有样本放入模型进行训练,然而时序具有多样性,其用一个样本拟合,效果不佳。
其次,设置样本数量为3 500,考察参数γ值对PASSG算法查全率与预测时间的影响,如图6所示。横轴为γ大于任意热点标准时序均值的百分比。从图中看出,查全率和预测时间都随着γ的增大递减。因此,算法需要根据实际需求,折中的设置γ值。当对耗时敏感时,应选择较高的γ,而对查全率要求较高时,应选择较低的γ。
文章来源:《水产科技情报》 网址: http://www.sckjqbzz.cn/qikandaodu/2021/0303/395.html
上一篇:浅析水环境对水产养殖的影响
下一篇:科技声像在短视频时代推进科技情报领域的发展