Data Mining 简明教程

Data Mining - Mining World Wide Web

万维网包含大量的信息,为数据挖掘提供了丰富的来源。

Challenges in Web Mining

根据以下观察,网络对资源和知识发现提出了巨大挑战 −

  1. The web is too huge −网络的规模非常庞大并且增长迅速。这表明网络对于数据仓库和数据挖掘来说太大。

  2. Complexity of Web pages −网页没有统一的结构。与传统文本文档相比,它们非常复杂。网络的数字图书馆中有大量文档。这些图书馆没有按照任何特定排序顺序排列。

  3. Web is dynamic information source −网络上的信息更新速度很快。诸如新闻、股票市场、天气、体育、购物等数据会定期更新。

  4. Diversity of user communities −网络上的用户群正在迅速扩大。这些用户有着不同的背景、兴趣和使用目的。有超过 1 亿个工作站在连接互联网,并且仍在迅速增长中。

  5. Relevancy of Information −据认为,特定的人通常只对网络的一小部分感兴趣,而网络的其余部分包含与用户不相关的信息,并且可能会淹没所需的结果。

Mining Web page layout structure

网页的基本结构基于文档对象模型 (DOM)。DOM 结构是指树状结构,其中页面中的 HTML 标记对应于 DOM 树中的节点。我们可以使用 HTML 中的预定义标记对网页进行分割。HTML 语法很灵活,因此网页不会遵循 W3C 规范。不遵循 W3C 规范可能会导致 DOM 树结构出错。

DOM 结构最初是为了在浏览器中展示而引入的,而不是为了描述网页的语义结构。DOM 结构无法正确识别网页不同部分之间的语义关系。

Vision-based page segmentation (VIPS)

  1. VIPS 的目的是根据网页的可视化效果提取其语义结构。

  2. 这种语义结构对应于树状结构。在这种树中,每个节点对应于一个块。

  3. 为每个节点指派一个值。此值称为相干度。此值被指派来指示基于视知觉内容的块中的相干内容。

  4. VIPS 算法首先从 HTML DOM 树中提取所有合适的块。然后在这些块之间找到分隔符。

  5. 分隔符指网页中与没有块垂直或水平交叉的线条。

  6. 网页语义在这些块的基础上构建。

下图显示了 VIPS 算法的过程 −

dm vips