一种实体模式匹配算法An Entity Schema Matching Algorithm
吴思颖,吴扬扬
摘要(Abstract):
提出了一种异构数据源的实体模式匹配算法.算法从中英双语的环境出发,利用基于中文wordnet的中英文词义相似度算法和中文分词工具,从列名距离、数据类型、数据内容的词性成份等角度来建立同类实体不同模式之间的映射关系.该算法可用于分析数据空间中不同数据源实体之间的关联,以及其他研究领域中的中英文语义信息相关性分析和实体模式匹配.
关键词(KeyWords): 模式匹配;映射;相似度
基金项目(Foundation): 福建省科技计划重点项目,编号2008I0021;; 福建省自然科学基金资助项目,编号2009J01289
作者(Author): 吴思颖,吴扬扬
参考文献(References):
- [1]Erhard R,Philip A B.Asurvey of approaches to automatic schema matching[J].VLDBJournal,2001,10(4):334-350.
- [2]钱颖.发现数据库模式间的复杂语义匹配[J].小型微型计算机系统,2008,29(5):817-824.
- [3]姜芳艽,孟小峰,贾琳琳.Deep Web集成服务的不确定模式匹配[J].计算机学报,2008,31(8):1412-1421.
- [4]Shvaiko P,Euzenat J.Asurvey of schema-based matching approaches[J].Journal on Data Semantics IV,2005,3730:146-171.
- [5]Madhavan J,Bernstein P A,Rahm E.Generic schema matching with cupid[C]//Proc 27th Intl Conference on VeryLarge Databases(VLDB).Rome,2001:49-58.
- [6]Melnik S,Garcia M H,Rahm E.Si milarity flooding:a versatile graph matching algorithm[C]//Proceedings of the 18thInternational Conference on Data Engineering(ICDE).San Jose:C A,2002:117-128.
- [7]Doan A,Domingos P,Halevy P.Reconciling schemas of disparate data sources:a machine learning approach[C]//Pro-ceedings of the ACMSIGMOD Conference.California,2001:509-520.
- [8]Do H H,Rahm E.COMA-A systemfor flexible combination of schema matching approaches[C]//Proceedings of theVery Large Data Bases Conference(VLDB).Hong Kong,2001:610-621.
- [9]荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48.
- [10]吴思颖,吴扬扬.基于中文wordnet的中英文词义相似度计算[J],郑州大学学报:理学版,2010,42(2):66-69.
- [11]俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64.
- [12]俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范(续)[J].中文信息学报,2002,16(6):58-65.