Apache Solr 简明教程

Apache Solr - Search Engine Basics

搜索引擎是指一个包含大量互联网资源的巨大数据库,如网页、新闻组、程序、图像等。它有助于在万维网上查找信息。

用户可以通过以关键字或短语的形式向搜索引擎传递查询来搜索信息。然后,搜索引擎会在其数据库中搜索并向用户返回相关的链接。

google search

Search Engine Components

一般来说,搜索引擎有以下三个基本组件:

  1. Web Crawler − 网络爬虫也称为 spidersbots 。它是一个遍历 Web 以收集信息的软件组件。

  2. Database − Web 上的所有信息都存储在数据库中。它们包含大量网络资源。

  3. Search Interfaces − 此组件是用户和数据库之间的接口。它帮助用户通过数据库进行搜索。

How do Search Engines Work?

任何搜索应用程序都需要执行以下部分或全部操作。

Step

Title

Description

1

Acquire Raw Content

任何搜索应用程序的第一步是收集要进行搜索的目标内容。

2

Build the document

下一步是从搜索应用程序可以轻松理解和解释的原始内容中构建文档。

3

Analyze the document

在开始索引之前,需要分析文档。

4

Indexing the document

一旦建立和分析了文档,下一步就是对它们进行索引,以便可以根据某些键来检索此文档,而不是查看文档的全部内容。索引类似于我们在书的末尾所拥有的索引,其中常见的单词与它们的页码一起显示,以便可以快速地追踪这些单词,而不是搜索整本书。

5

User Interface for Search

一旦索引数据库准备就绪,应用程序就可以执行搜索操作。为了帮助用户进行搜索,应用程序必须提供一个用户界面,用户可以在其中输入文本并启动搜索进程。

6

Build Query

一旦用户做出搜索文本的请求,应用程序应使用该文本准备一个查询对象,然后可以使用它来查询索引数据库以获得相关详细信息。

7

Search Query

使用查询对象,检查索引数据库以获取相关详细信息和内容文档。

8

Render Results

一旦接收到所需结果,应用程序应决定如何使用其用户界面向用户显示结果。

请看以下说明图。它显示了搜索引擎运作方式的总体情况。

search engine

除了这些基本操作外,搜索应用程序还可提供管理用户界面,以帮助管理员根据用户配置文件控制搜索级别。搜索结果分析是任何搜索应用程序的另一个重要且高级的方面。