
蘇州網(wǎng)頁設(shè)計4.信息采集概述
蘇州網(wǎng)頁設(shè)計4.信息采集概述
Web是一個巨大的資源寶庫,目前頁面數(shù)目已超過400億,每小時還以驚人的速度增長,里面有你需要的大量有價值的信息,例如潛在客戶的列表與聯(lián)系信息,競爭產(chǎn)品的價格列表
,實時金融新聞,供求信息,論文摘要等等。 可是由于關(guān)鍵信息都是以半結(jié)構(gòu)化或自由文本形式存在于大量的HTML網(wǎng)頁中,很難直接加以利用。
SiteServer CMS 信息采集功能的主要目標(biāo)就是解決網(wǎng)絡(luò)信息的采集問題,系統(tǒng)通過一些定制的采集邏輯,自動從指定網(wǎng)站或數(shù)據(jù)庫中獲取內(nèi)容并保存到網(wǎng)站中。
一、主要功能
SiteServer CMS 提供強大的信息采集功能模塊,用戶只需要告訴系統(tǒng)目標(biāo)網(wǎng)頁并簡單地設(shè)置頁面規(guī)則,很快就可以直接得到所需要的數(shù)據(jù)了。
除了典型的Web頁面信息采集外,系統(tǒng)還提供數(shù)據(jù)庫信息采集與單文件頁采集功能:
Web頁面信息采集用于自動從指定網(wǎng)站中獲取內(nèi)容;
數(shù)據(jù)庫信息采集用于自動從指定數(shù)據(jù)庫中獲取內(nèi)容;
單文件頁采集用于將指定網(wǎng)頁采集到本地的對應(yīng)文件中。
二、系統(tǒng)特點
結(jié)果數(shù)據(jù)高度準(zhǔn)確
對目標(biāo)網(wǎng)站進行信息自動抓取,支持HTML頁面內(nèi)各種數(shù)據(jù)的采集,如文本信息、圖片、附件、日期等
用戶對每類信息自定義來源與分類
可以下載圖片與各類文件
支持定時任務(wù),可以與SiteServer CMS 定時模塊相配合,定期抽取目標(biāo)網(wǎng)站
支持記錄唯一索引,避免相同信息重復(fù)入庫
支持智能替換功能,可以將內(nèi)容中嵌入的所有的無關(guān)部分如廣告去除
支持下一頁自動瀏覽功能
支持?jǐn)?shù)據(jù)的多種后期處理方式
數(shù)據(jù)直接進入數(shù)據(jù)庫而不是文件中,因此與利用這些數(shù)據(jù)的網(wǎng)站程序或者桌面程序之間沒有任何耦合
支持?jǐn)?shù)據(jù)庫表結(jié)構(gòu)完全自定義,充分利用現(xiàn)有數(shù)據(jù)庫結(jié)構(gòu)
支持多個欄目的信息采集可用同一配置一對多處理
保證信息的完整性與準(zhǔn)確性,絕不會出現(xiàn)亂碼
三、運用行業(yè)
通過信息采集功能,用戶將在信息來源,資源整合方面節(jié)約大量的人力與資金。
廣泛應(yīng)用于門戶網(wǎng)站,新聞媒體,科研單位、企業(yè)網(wǎng)站等領(lǐng)域。-技術(shù)支持:蘇州網(wǎng)絡(luò)公司