文章摘要
丁振凡.基于Tika语义分析的文档内容检索服务研究[J].井冈山大学自然版,2013,(2):60-64
基于Tika语义分析的文档内容检索服务研究
RESEARCH OF DOCUMENT RETRIEVAL SERVICE BASED ON TIKA SEMANTIC ANALYSIS
  
DOI:
中文关键词: Spring MVC  Lucene  Tika  文档元数据  全文检索
英文关键词: spring MVC  lucene  tika  document metadata  full text retrieval
基金项目:
作者单位
丁振凡  
摘要点击次数: 2205
全文下载次数: 0
中文摘要:
      介绍了利用Lucene结合Tika实现站点内容的全文检索设计的编程过程。用Tika获取文档的元数据以及文档内容的文本提取。用Lucene实现文档的索引创建和检索服务,结合实例详细分析了Lucene API的具体使用特点。利用Spring MVC实现搜索服务的Web访问处理。可对网站的HTML、PDF、word、PPT、mht等各种类型的文档提供统一的内容检索服务。在该论文研究基础上可建立个性化的内容搜索服务系统。
英文摘要:
      The programming process of full text retrieval design exploiting Lucene and Tika is introduced. Tika is used for get Metadata and extract text from documents. The index creating and retrieval service is realized by Lucene, we analyze the specific characteristics of Lucene API. Web access processing of search service is implemented using Spring MVC. The service can provide uniform retrieval service for documents in forms of HTML, PDF, WORD, PPT, mht and so on in web sites. Personalized content retrieval service system can be created based on this paper.
查看全文   查看/发表评论  下载PDF阅读器
关闭