English  |  正體中文  |  简体中文  |  Items with full text/Total items : 26776/27372 (98%)
Visitors : 13818155      Online Users : 252
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
Scope Tips:
  • please add "double quotation mark" for query phrases to get precise results
  • please goto advance search for comprehansive author search
  • Adv. Search
    HomeLoginUploadHelpAboutAdminister Goto mobile version


    Please use this identifier to cite or link to this item: http://ir.lib.ksu.edu.tw/handle/987654321/16247


    Title: 文件點閱資訊系統
    Authors: 李幸哲
    王琮翔
    黃詩琴
    陳俊佑
    Contributors: 資訊管理系
    Keywords: 開放原始碼
    索引壓縮
    布林檢索
    詞彙
    注音
    檢索詞文件盒
    搜尋筆數
    顯示頁數
    搜尋費時
    點閱率排行
    資訊分類
    Date: 2012-04-05
    Issue Date: 2012-04-10 04:35:38 (UTC+8)
    Abstract: 隨著個人上網而累積之文件逐漸增多,本機檢索需求日益變大。受限於有限的本機儲存空間,如何提供快速,正確,省索引空間之本機檢索系統遂成研究課題。本文利用MG系統原有之索引壓縮及文件查詢能力,為其加上中文詞彙識別模組,方便使用者對中文文件製作詞彙索引及進行查詢。結果部份將呈現提供詞彙索引之中文化MG系統網頁檢索介面,並就相同中文文件集,測試MG在詞彙索引及單字索引下,索引量大小,編製索引時間,及布林檢索精確率上的表現。由於MG系統只提供斷字檢索,並不包含注音檢索,所以我們利用Mmseg系統提供的斷字檢索來修改至MG系統內,進而完成注音檢索系統。
    由於上屆專題只完成至注音檢索,因此我們將新增多項功能至搜尋系統,使系統功能完整呈現。我們將新增檢索詞文字盒,只要鍵入關鍵字就能搜尋到我們所需的資訊;我們將建立兩個資料表,分別是TF資料表和IDF資料表。tf 欄位值是表示詞在文件中出現的次數。它將所有文件儲存於資料庫,利用斷詞模組掃描每篇文件,擷取斷詞存入資料庫,若有重複的斷詞也會於資料庫內累加儲存。idf欄位值是指單一文件在總文件出現的次數,數值越小表示這篇文件越重要。它是統計每個詞在資料欄位中出現的總文件數,但不儲存重複出現的詞。向量權重weight藉由tf * idf值求出再正規化,我們依照weight值做排行,讓使用者找到相關文件。利用該篇文章中詞的前三名weight值,搜尋出該篇文章的相關文件,再將這些文件抓取前五名製成延伸閱讀。利用該篇文章中詞的前三名weight值,搜尋出該篇文章的相關文件,再依照文件點閱率製成熱門文件。
    Appears in Collections:[資訊管理系所] 學生專題

    Files in This Item:

    File Description SizeFormat
    專題製作.pdf2013KbAdobe PDF1View/Open


    All items in KSUIR are protected by copyright, with all rights reserved.


    本網站之所有圖文內容授權為崑山科技大學圖書資訊館所有,請勿任意轉載或擷取使用。
    ©Kun Shan University Library and Information Center
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - Feedback