胡志刚,田文灿,孙太安,侯海燕.科技论文中学术信息的提取方法综述[J].数字图书馆论坛,2017,(10):39~47 |
科技论文中学术信息的提取方法综述 |
A Method Review on Academic Information Extracting from Scientific Papers |
|
DOI: |
中文关键词: 学术信息;论文全文本;信息提取;机器学习 |
英文关键词: Academic Information;Ful Text;Information Extraction;Machine Learning |
基金项目:本研究得到国家自然科学基金项目"开放获取背景下的全文引文分析方法与应用研究"(编号:71503031)资助. |
作者 | 单位 | 胡志刚 | 大连理工大学 | 田文灿 | 大连理工大学 | 孙太安 | 大连理工大学 | 侯海燕 | 大连理工大学 |
|
摘要点击次数: 2175 |
全文下载次数: 1727 |
中文摘要: |
为更好地利用和挖掘学术论文文本,识别并提取学术论文中的学术信息已成为一种非常迫切的现实需求,在文本挖掘、信息检索、主题监测、信息计量学等领域都有广阔的应用前景.学术信息可以分为题录信息、章节信息、引文信息、引用信息和其他信息.本文综述了在PDF和HTML/XML两种不同格式的学术论文全文中,提取各类学术信息的主要方法,并指出这些方法主要面向的格式文本以及可用来提取的信息种类.最后,本文列出了提取学术信息的常用工具. |
英文摘要: |
In order to make better use of rich information in academic papers, it is a very urgent and realistic requirement to identify and extract academic information within. The academic information extracting has a broad application prospect in text mining, information retrieval, theme monitoring, information metrology and many other fields. There are five kinds of academic information, such as title information, section information, citation information, reference information and other information. This paper reviews the methods of academic information extracting from the ful text of academic papers. Different methods could be used to extract different kinds of academic information from different types of ful texts, PDF or HTML/XML. Final y, the paper also lists the current tools for extracting academic information. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|