Internet Technologies 简明教程

Search Engines

Introduction

Search Engine 指的是一个巨大的互联网资源数据库,例如网页、新闻组、程序、图像等。它有助于在万维网上定位信息。

用户可以通过按关键字或词组的形式传递查询来搜索任何信息。然后它会在其数据库中搜索相关信息并返回给用户。

internet search engine

Search Engine Components

搜索引擎通常具有三个基本组件,如下所列:

Web crawler

它也称为 spiderbots. 。这是一个遍历网络以收集信息的软件组件。

Database

网络上的所有信息都存储在数据库中。它包含海量的网络资源。

Search Interfaces

该组件是用户和数据库之间的接口。它使用户能够通过数据库进行搜索。

Search Engine Working

网络爬虫、数据库和搜索界面是搜索引擎的主要组件,实际上它们使搜索引擎能够工作。搜索引擎使用布尔表达式 AND、OR、NOT 来限制和拓宽搜索结果。以下是搜索引擎执行的步骤:

  1. 搜索引擎在预定义数据库中查找关键字,而不是直接到网络中查找关键字。

  2. 然后,它使用软件搜索数据库中的信息。该软件组件称为网络爬虫。

  3. 一旦网络爬虫找到页面,搜索引擎便会显示相关的网页作为结果。这些检索到的网页通常包括页面的标题、文本部分的大小、前几个句子等。

  4. 用户可以单击任何搜索结果以将其打开。

Architecture

搜索引擎架构包含以下三个基本层:

  1. Content collection and refinement.

  2. Search core

  3. User and application interfaces

internet search engine architecture

Search Engine Processing

Indexing Process

索引过程包括以下三个任务:

  1. Text acquisition

  2. Text transformation

  3. Index creation

识别并存储要索引的文档。

将文档转换为索引项或特征。

获取由文本转换创建的索引项,并创建数据结构来支持快速搜索。

Query Process

查询过程包括以下三个任务:

  1. User interaction

  2. Ranking

  3. Evaluation

支持创建和优化用户查询并显示结果。

使用查询和索引创建文档的有序列表。

监测和衡量有效性和效率。它是在线完成的。

Examples

以下是一些现今可用的搜索引擎:

Search Engine

Description

Google

它最初名为 BackRub. 是全球最受欢迎的搜索引擎。

Bing

它由 Microsoft. 于2009年推出,是最新款的网络搜索引擎,也可以提供雅虎的搜索结果。

Ask

它于1996年推出,最初称为 Ask Jeeves. 它包括匹配、词典和会话问题支持。

AltaVista

它由 Digital Equipment Corporation 于1995年推出。自2003年以来,它的技术支持由雅虎提供。

AOL.Search

它由谷歌提供技术支持。

LYCOS

根据Media Matrix,它是互联网前5大入口网站和第13大在线资产。

Alexa

它是亚马逊的子公司,用于提供网站流量信息。