2025年 02期
基于FS-SIA的毁伤预测神经网络超参数优化方法
佘维;吕钟毓;邢召伟;王世豪;徐旺旺;田钊;针对毁伤预测中神经网络超参数设置及调试过程较为复杂的问题,提出一种基于特征选择结合群体智能(feature selection and swarm intelligence algorithm, FS-SIA)的超参数优化方法,用于在毁伤预测中对神经网络进行超参数的搜索和优化。首先,通过多种特征排序方法确定毁伤特征的重要性,选取公共的特征偏序子集用于模型训练。其次,针对具体的神经网络模型,分别采用多种群体智能算法进行超参数的搜索和优化。最后,得出特征集性能最优的超参数训练模型。实验结果表明,相较于未经特征排序而单纯采用群体智能算法的其他超参数优化模型,所提方法在毁伤预测中具有更快的收敛速度和更高的准确率。
基于二维离散傅里叶变换的恶意代码检测
刘亚姝;邱晓华;孙世淼;赵潇逸;严寒冰;恶意代码数量越来越庞大,恶意代码分类检测技术也面临着越来越大的挑战。针对这个问题,一种新的恶意代码分类检测框架MGFG(malware gray image Fourier transform gist)模型被提出,其将恶意代码可执行(portable executable, PE)文件转换为灰度图像,应用二维离散傅里叶变换对恶意代码的灰度图像进行处理,得到其频谱图。通过对频谱图频率的处理,达到恶意代码图像去噪的效果。最后,提取全局特征(gist)并实现恶意代码的检测与分类。实验结果表明,在多个数据集上,MGFG模型对于加壳的、采用了混淆技术的恶意代码分类问题都具有更好的鲁棒性和更高的分类准确率。
基于XLNet和多粒度对比学习的新闻主题文本分类方法
陈敏;王雷春;徐瑞;史含笑;徐渺;新闻主题文本内容简短却含义丰富,传统方法通常只考虑词粒度或句粒度向量中的一种进行研究,未能充分利用新闻主题文本不同粒度向量之间的关联信息。为深入挖掘文本的词向量和句向量间的依赖关系,提出一种基于XLNet和多粒度特征对比学习的新闻主题分类方法。首先,利用XLNet对新闻主题文本进行特征提取获得文本中词、句粒度的特征表示和潜在空间关系;然后,通过对比学习R-Drop策略生成不同粒度特征的正负样本对,以一定权重对文本的词向量-词向量、词向量-句向量和句向量-句向量进行特征相似度学习,使模型深入挖掘出字符属性和语句属性之间的关联信息,提升模型的表达能力。在THUCNews、Toutiao和SHNews数据集上进行实验,实验结果表明,与基准模型相比,所提方法在准确率和F1值上都有更好的表现,在三个数据集上的F1值分别达到了93.88%、90.08%、87.35%,验证了方法的有效性和合理性。
基于多尺度特征提取的层次多标签文本分类方法
武子轩;王烨;于洪;针对现有的特征提取方法忽略文本局部和全局联系的问题,提出了基于多尺度特征提取的层次多标签文本分类方法。首先,设计了多尺度特征提取模块,对不同尺度特征进行捕捉,更好地表示文本语义。其次,将层次特征嵌入文本表示中,得到具有标签特征的文本语义表示。最后,在标签层次结构的指导下对输入文本构建正负样本,进行对比学习,提高分类效果。在WOS、RCV1-V2、NYT和AAPD数据集上进行对比实验,结果表明,所提模型在评价指标上表现出色,超过了其他主流模型。此外,针对层次分类提出层次Micro-F1和层次Macro-F1指标,并对模型效果进行了评价。
基于预训练表示和宽度学习的虚假新闻早期检测
胡舜邦;王琳;刘伍颖;为了实现虚假新闻的早期检测,提出一种基于预训练表示和宽度学习的虚假新闻早期检测方法。首先,将新闻文本输入大规模预训练语言模型RoBERTa中,得到对应新闻文本的上下文语义表示。其次,将得到的新闻文本的上下文语义表示输入宽度学习的特征节点和增强节点中,利用宽度学习的特征节点和增强节点进一步提取新闻文本的线性和非线性特征并构造分类器,从而预测新闻的真实性。最后,在3个真实数据集上进行了对比实验,结果表明,所提方法可以在4 h内检测出虚假新闻,准确率超过80%,优于基线方法。
FFConvNeXt3D:提取中大规模目标特征的大卷积核网络
黄乾坤;黄蔚;凌兴宏;目前大卷积核模型在图像领域已经证明其有效性,但是在视频领域还没有优秀的3D大卷积核模型。此外,之前的工作中忽视了时空行为检测任务主体是人的特点,其中的骨干网络只针对通用目标提取特征。针对上述原因,提出了一种含有特征融合结构的3D大卷积核神经网络(FFConvNeXt3D)。首先,将成熟的ConvNeXt网络膨胀成用于视频领域的ConvNeXt3D网络,其中,预训练权重也进行处理用于膨胀后的网络。其次,研究了卷积核时间维度大小和位置对模型性能的影响。最后,提出了一个特征融合结构,着重提高骨干网络提取人物大小目标特征的能力。在UCF101-24数据集上进行了消融实验和对比实验,实验结果验证了特征融合结构的有效性,并且该模型性能优于其他方法。
一种基于知识蒸馏的边缘联邦学习算法
石玲;何常乐;常宝方;王亚丽;袁培燕;针对边缘计算环境中参与联邦学习的客户端数据资源的有限性,同时局限于使用硬标签知识训练模型的边缘联邦学习算法难以进一步提高模型精度的问题,提出了基于知识蒸馏的边缘联邦学习算法。利用知识蒸馏对软标签信息的提取能够有效提升模型性能的特点,将知识蒸馏技术引入联邦学习的模型训练中。在每一轮的联邦学习模型训练过程中,客户端将模型参数和样本逻辑值一起上传到边缘服务器,服务器端聚合生成全局模型和全局软标签,并一起发送给客户端进行下一轮的学习,使得客户端在进行本地训练时也能够得到全局软标签知识的指导。同时在模型训练中对利用软标签知识和硬标签知识的占比设计了动态调整机制,使得在联邦学习中能够较为合理地利用两者的知识指导模型训练,实验结果验证了提出的基于知识蒸馏的边缘联邦学习算法能够有效地提升模型的精度。
不协调广义多尺度序决策信息系统的知识获取
黄彪;韩邦合;针对不协调广义多尺度序决策信息系统中的最优尺度组合和IF-THEN知识获取问题,首先,提出了集值优势矩阵的概念,给出了其判断序决策信息系统是否协调的条件。然后,在不协调的广义多尺度序决策信息系统中,引入基于优势关系的广义决策概念,同时通过定义区间值优势关系的方法,构造了新的协调广义多尺度序决策信息系统,并设计了通过集值优势矩阵求最优尺度组合的算法,挖掘了隐藏在不协调广义多尺度序决策信息系统中的决策规则。最后,通过实验验证了所提广义决策最优尺度组合的有效性。
基于知识图谱增强的恶意代码分类方法
夏冰;何取东;刘文博;楚世豪;庞建民;针对应用程序接口(application programming interface, API)序列识别的恶意代码分类方法存在特征描述能力弱和调用关系缺失的问题,提出一种基于知识图谱增强的恶意代码分类方法。首先,基于函数调用图抽取恶意代码所含的API实体及其调用关系,在此基础上构建恶意代码API知识图谱。其次,使用Word2Vec技术计算携带上下文调用语义的API序列向量,借助TransE技术捕获API知识图谱中的API实体向量,将这两个向量的融合结果作为API特征。最后,将恶意代码所含的API表示为特征矩阵,输入TextCNN进行分类模型训练。在恶意代码家族分类任务中,与基线模型相比,所提方法的准确率有较大提升,达到93.8%,表明知识图谱可以有效增强恶意代码家族分类效果。同时,通过可解释性实验证实了所提方法具有应用价值。
基于区块链的民航旅客隐私信息保护方案
李文轩;曹卫东;目前的民航信息系统必须获取机票和旅客明文信息,才能进行出行验证,存在很高的旅客隐私信息泄露风险。针对此问题,提出一种基于区块链的民航旅客隐私信息保护方案。首先利用网络身份标识和数字证书技术实现区块链账户的实名制注册,确保信息的真实性;其次采用零知识证明和环签名叠加构造安全的信息认证协议,实现旅客隐私信息完全匿名验证,确保真实信息匿名可验证性;进一步对存储在区块链上的敏感信息利用K-匿名技术脱敏,加强信息的安全存储。实验结果和性能分析表明,该方案能够提供安全有效的民航旅客隐私信息保护,且必要的信息验证总耗时满足效率需求。