Data Mining 简明教程
Data Mining - Mining World Wide Web
万维网包含大量的信息,为数据挖掘提供了丰富的来源。
Challenges in Web Mining
根据以下观察,网络对资源和知识发现提出了巨大挑战 −
-
The web is too huge −网络的规模非常庞大并且增长迅速。这表明网络对于数据仓库和数据挖掘来说太大。
-
Complexity of Web pages −网页没有统一的结构。与传统文本文档相比,它们非常复杂。网络的数字图书馆中有大量文档。这些图书馆没有按照任何特定排序顺序排列。
-
Web is dynamic information source −网络上的信息更新速度很快。诸如新闻、股票市场、天气、体育、购物等数据会定期更新。
-
Diversity of user communities −网络上的用户群正在迅速扩大。这些用户有着不同的背景、兴趣和使用目的。有超过 1 亿个工作站在连接互联网,并且仍在迅速增长中。
-
Relevancy of Information −据认为,特定的人通常只对网络的一小部分感兴趣,而网络的其余部分包含与用户不相关的信息,并且可能会淹没所需的结果。