資訊動態(tài)
Latest News
Web挖掘的目標是從Web的超鏈接結構、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。雖然Web挖掘使用了許多數(shù)據(jù)挖掘技術,但它并不僅僅是傳統(tǒng)數(shù)據(jù)挖掘的一個簡單應用。在過去20年中,許多新的挖掘任務和算法被相繼發(fā)明。依據(jù)在挖掘過程中使用的數(shù)據(jù)類別,Web挖掘任務可以被劃分為三種主要類型:Web結構挖掘、Web內(nèi)容挖掘和Web使用挖掘。
·Web結構挖掘:Web結構挖掘從表征Web結構的超鏈接(簡稱鏈接)中尋找有用的知識。例如:從這些鏈接中,我們可以找出哪些是重要的網(wǎng)頁,這是一項搜索引擎采用的重要技術。我們也可以發(fā)掘具有共同興趣的用戶社區(qū)。這些任務在傳統(tǒng)的數(shù)據(jù)挖掘中并不存在,因為在關系型表格中并沒有鏈接結構。
·Web內(nèi)容挖掘:Web內(nèi)容挖掘從網(wǎng)頁內(nèi)容中抽取有用的信息和知識。例如:根據(jù)網(wǎng)頁的主題,我們可以進行自動的聚類和分類。雖然這些任務與傳統(tǒng)數(shù)據(jù)挖掘的任務相似,但是我們依然可以為了各種不同的目的從網(wǎng)頁中根據(jù)模式抽取有用的信息,例如商品描述、論壇回帖等。而這些信息可以被用作進一步分析來挖掘用戶態(tài)度。這些任務也不是傳統(tǒng)的數(shù)據(jù)挖掘任務。
·Web使用挖掘:Web使用挖掘從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。這項任務也使用了許多數(shù)據(jù)挖掘的算法。其中一項重要的議題是點擊流數(shù)據(jù)的預處理,以便生成可以用來挖掘的合適數(shù)據(jù)。
網(wǎng)站建設是與WEB數(shù)據(jù)挖掘比較相關的一門技術,因為大部分的搜索引擎工程師在思考如何設計搜索引擎的時候,同時也會注重或者很大一部分是要解決搜索結果排序公正的問題,這也是網(wǎng)站建設過程中值得思考的問題。
聯(lián)系我們
高端創(chuàng)意建站品牌專家
|
|
|
|
|
|