- 马长林;王涛;
将相关主题模型和多层知识表示方法相结合开展文本情感分析研究。首先,针对传统分割算法的不足和主题间相关关系,采用相关主题模型对文本进行主题特征分割,构造主题先验信息输入预训练语言模型;其次,基于主题先验信息和相关关系向量,采用预训练的语言模型嵌入进行文本词的动态表示,能有效解决一词多义的问题;最后,使用双向长短期记忆模型对文本句子进行表示,考虑每个词的前后信息来捕捉句子的位置信息,在句子表示向量的信息抽取中融入注意力机制,使用多头抽取考虑全局的方式,可以抽取更全面的文本信息。
2021年04期 v.53 30-35页 [查看摘要][在线阅读][下载 958K] [引用频次:3 ] |[网刊下载次数:126 ] |[下载次数:348 ] |[阅读次数:199 ] - 潘丽丽;陈蓉玉;雷前慧;邵伟志;黄诗祺;
立足于深度学习,提出面向细粒度图像的自适应三元组网络的鲁棒图像检索算法。首先,提出的视觉显著性检测方法被用来去除图像噪音,以便提取图像中目标主体辨识度更高的深度特征;然后,添加特征增强模块来提高深度特征的表征能力和鲁棒性;最后设计三元组网络,弥补传统分类模型特征判别能力不足的缺陷,获取更适用于细粒度图像检索的网络模型。经实验验证,采用视觉显著性检测、特征增强模块和自适应三元组损失函数方法构建的网络模型提取的深度特征不仅加快检索效率,同时也提高了检索精度。
2021年04期 v.53 36-43页 [查看摘要][在线阅读][下载 2594K] [引用频次:1 ] |[网刊下载次数:108 ] |[下载次数:280 ] |[阅读次数:125 ] - 李昕;李珊;龚文涛;陈晓莹;李华昱;
语音识别和语音合成是近年来的热门研究,相关研究主要是在字素音素匹配的基础上进行统计分析,探寻拼写与发音之间的内在规律,达成形音转换。语言自身的混沌性使字素音素匹配非常复杂,提出一种交互式可视化工具,通过从粗到细的动态分类方式完成字素音素增量匹配。在此基础上,通过全局关联性分析揭示英语发音的整体规律,并及时检验和处理匹配错误和特殊发音等异常情况。采用5个著名语料库中的35 182个单词进行实验,匹配过程快速精准,并且发现的规律具有高度的可解释性,为相关人员进行语言学习和语音研究提供了坚实的基础。
2021年04期 v.53 44-52页 [查看摘要][在线阅读][下载 2409K] [引用频次:1 ] |[网刊下载次数:110 ] |[下载次数:125 ] |[阅读次数:109 ] - 郑蕊蕊;辛守宇;周瑜;刘文鹏;党佳伟;贺建军;
由于训练数据获取困难,满文识别被视为典型的K-shot学习问题。但在实际应用场景中,满文识别需要面对的类别数量是极大的,传统的K-shot学习算法并不适用。构建了一种面向大类别识别问题的K-shot学习算法,基本策略是利用N元纠错输出编码(error correcting output coding, ECOC)技术将原本的大类别分类问题分解为一系列较小类别的分类问题再进行处理。算法包括编码和解码两个阶段:在编码阶段,利用N元ECOC编码矩阵将大类别支持集分解为一系列小类别的子支持集,并根据子支持集生成多个K-shot学习基分类器;解码阶段利用上述基分类器对测试样本分类再合并为一个预测编码,然后将预测编码对照编码矩阵纠错,进而确定最终分类类别。实验结果表明,在500类满文数据集上获得了87.8%的识别准确率。
2021年04期 v.53 53-60页 [查看摘要][在线阅读][下载 1214K] [引用频次:1 ] |[网刊下载次数:100 ] |[下载次数:157 ] |[阅读次数:282 ] - 原之安;彭甫镕;谷波;钱宇华;
专利中的科技实体是指专利文献中富含科技信息的词汇,抽取专利中的科技实体对科研工作者提高科研效率、企业布局专利体系都至关重要。提出一种基于半监督学习框架与命名实体识别模型相结合的科技实体抽取方法,半监督学习能够利用无标记数据的优势弥补标注数据稀缺的缺陷,利用大量的专利语料在通用领域的BERT模型基础上进行预训练,得到适用于专利领域的BERT模型BERT-Patent,有效提升模型对专利中科技实体的抽取性能。在专利数据集上的实验结果表明,提出的方法在准确率、召回率、F1值指标上分别提高了6.37%、2.99%、4.63%;在人民日报数据集上准确率、召回率、F1值分别提高了2.87%、1.24%、2.07%。
2021年04期 v.53 61-68页 [查看摘要][在线阅读][下载 1123K] [引用频次:5 ] |[网刊下载次数:71 ] |[下载次数:396 ] |[阅读次数:199 ] - 张中军;于来行;李润川;
现有的微博社交网络社区挖掘算法大多基于对微博内容的识别,不但涉及用户隐私,还忽略了用户转发行为的重要性,并且对于社区数量和社区中心的判断具有主观性,社区的重叠结构也不易发现。为解决上述问题,提出了一种基于链路结构和转发行为的微博社交网络重叠社区划分方法,综合考虑微博社交网络链路结构和用户转发行为,通过对用户之间转发行为的对比来提高社区划分的质量,实现了自动快速确定社区数量,并设计了中心节点选择算法,客观合理选定社区中心节点。实验证明所提方法能够发现高质量的微博社交网络重叠社区,在理论研究和实际应用方面都有十分重要的意义。
2021年04期 v.53 69-76页 [查看摘要][在线阅读][下载 1150K] [引用频次:4 ] |[网刊下载次数:105 ] |[下载次数:220 ] |[阅读次数:198 ] - 郭阳;李全龙;李骐;
在线教育的一个显著特征是兴趣驱动,通过对学习者的学习行为数据的分析与挖掘,建立学习者的个性化学习兴趣模型,并进一步基于学习者学习兴趣为其推荐合适的课程。首先,建立学习者多层兴趣模型,准确刻画学习者对知识主题、课程及知识领域的兴趣度;其次,构建学习者兴趣关系网,并基于兴趣关系网采用协同过滤方法为学习者进行课程推荐;最后,通过实验验证,证实了所提方法的有效性。
2021年04期 v.53 77-82页 [查看摘要][在线阅读][下载 1530K] [引用频次:9 ] |[网刊下载次数:111 ] |[下载次数:645 ] |[阅读次数:84 ] - 杜锦丰;王海荣;李明亮;梁焕;
为解决具有语义相关的文本、图像数据互检索问题,提出一种基于多层语义对齐的跨模态检索方法。采用跨模态多层网络来提取图像和文本特征,通过注意力机制计算特征向量间的关联度,对提取的特征进行实体和关系对齐。为增强语义约束,采用全局语义一致性策略从给定的文本数据提取语义标签,利用文本加权向量进行多标签预测,进一步为实体和关系对齐提供了全局语义约束。在Flickr30k和MSCOCO两个公开数据集上的实验结果验证了所提方法的有效性。
2021年04期 v.53 83-88页 [查看摘要][在线阅读][下载 1699K] [引用频次:1 ] |[网刊下载次数:125 ] |[下载次数:348 ] |[阅读次数:176 ] - 王宇辉;帖云;王峰;郭晶晶;
针对肿瘤的早期检测,提出基于希尔伯特曲线-卷积神经网络(H-CNN)的肿瘤类型预测模型。该模型首先使用变分自编码器对32种肿瘤类型病人的RNA表达量和DNA甲基化数据进行融合,然后通过使用希尔伯特曲线将融合数据可视化后送到CNN进行训练。基于以上过程,可以实施关于新样本的肿瘤类型预测。实验结果表明,基于融合数据的H-CNN模型在肿瘤分类问题上具有优秀的性能,并且对肿瘤病人的早期诊断和治疗具有重要的指导意义。
2021年04期 v.53 89-94页 [查看摘要][在线阅读][下载 3899K] [引用频次:2 ] |[网刊下载次数:155 ] |[下载次数:235 ] |[阅读次数:193 ] - 陈诗佳;王楚豫;谢磊;
对可穿戴智能设备与计算机作曲的融合进行研究,将智能手环的使用加入音乐生成环节,实现基于用户动作的自动编曲配乐功能;构建运动状态与设备感知信号之间的关联模型,使用智能手环感知用户的运动状态,并基于用户的运动状态实现相应的自动作曲。基于智能手环运动状态的音乐生成系统实现了由运动节奏转化为音乐节奏,并且使用编曲技巧增强了生成音乐的悦耳性。
2021年04期 v.53 95-101页 [查看摘要][在线阅读][下载 1398K] [引用频次:4 ] |[网刊下载次数:82 ] |[下载次数:353 ] |[阅读次数:136 ] - 张伟杰;於志勇;黄昉菀;朱伟平;
城市积水严重影响了城市居民的日常出行和灾害天气下城市的正常运作。及时发现城市各处是否发生积水显得尤为重要,但是以往监测城市积水的方式多是通过人为反馈、设备监测等方式来实现的,这种方式覆盖范围小、成本较高且容易出错。对深圳市部分区域进行网格划分,融合深圳市滑动雨量数据、深圳市公交线路轨迹数据、深圳市水务局积涝点水位数据,并提取相关特征,使用孤立森林算法、压缩感知算法对所有积水监测站点的积水状态进行推测,最后结合群智感知,选取公交车来参与感知任务,采集积水数据提高推测准确度。
2021年04期 v.53 102-108页 [查看摘要][在线阅读][下载 1031K] [引用频次:1 ] |[网刊下载次数:82 ] |[下载次数:81 ] |[阅读次数:84 ]