文章摘要
数图专题,张智雄.非结构化文本中内容对象抽取的技术方法综述[J].数字图书馆论坛,2008,(9):1~12
非结构化文本中内容对象抽取的技术方法综述
An Overview of the Technologies and Methods for Extracting Content Objects from the Unstructured Text
投稿时间:2008-07-14  修订日期:2008-07-14
DOI:
中文关键词: 对象识别,术语抽取,主题发现,关系抽取,事实抽取,观点抽取
英文关键词: Object Identification, Terminology Extraction, Topic Discovery, Relation Extraction, Fact Extract, Opinion Extraction
基金项目:国家社会科学基金项目“从数字信息资源中实现知识抽取的理论和方法研究
作者单位E-mail
数图专题* 数字图书馆论坛 stzt.st@163.com 
张智雄 中国科学院国家科学图书馆  
摘要点击次数: 1389
全文下载次数: 800
中文摘要:
      近年来,知识抽取技术在非结构化文本的处理中起到很重要的作用。本文在对当前知识抽取的相关文献、系统和项目的分析研究的基础之上,提出了当前知识抽取研究中的主要抽取内容对象的分类,并对这些主要内容对象抽取的相关技术方法进行综述。主要总结了Web对象识别和集成、术语识别和抽取、主题发现和识别、概念层次关系的抽取、非概念层次关系的抽取、事实抽取、观点抽取和倾向识别等7种内容对象抽取的技术方法。并在此基础之上,对未来的知识抽取的发展趋势进行了分析。
英文摘要:
      In recent years, knowledge extraction plays a very important role while dealing with unstructured text. In this paper, based on the analysis of current relevant literature, systems and projects, we propose the classification of the current knowledge extraction objects and review the relevant technologies and methods. The major themes include web object identification and integration, terminology extraction, topic discovery, conceptual hierarchy relation extraction, non-conceptual hierarchy relation extraction, fact extraction and opinion extraction. This paper also analyzes trends of knowledge extraction in the future.
查看全文   查看/发表评论  下载PDF阅读器
关闭

分享按钮