Nội dung bài viết
Giới thiệu
Search Engine đề cập đến một cơ sở dữ liệu khổng lồ về các tài nguyên internet như trang web, nhóm tin, chương trình, hình ảnh, v.v. Nó giúp định vị thông tin trên World Wide Web.
Người dùng có thể tìm kiếm bất kỳ thông tin nào bằng cách chuyển truy vấn dưới dạng từ khóa hoặc cụm từ. Sau đó, nó tìm kiếm thông tin liên quan trong cơ sở dữ liệu của nó và trả lại cho người dùng.
Thành phần Search Engine
Nói chung, có ba thành phần cơ bản của một Search Engine như được liệt kê dưới đây:
- Web Crawler: Trình thu thập dữ liệu web
- Database: Cơ sở dữ liệu
- Search Interfaces: Giao diện tìm kiếm
Web crawler
Nó còn được gọi là spider hoặc bot. Nó là một thành phần phần mềm đi qua trang web để thu thập thông tin.
Database
Tất cả các thông tin trên web được lưu trữ trong cơ sở dữ liệu. Nó bao gồm các tài nguyên web khổng lồ.
Search Interfaces
Thành phần này là một giao diện giữa người dùng và cơ sở dữ liệu. Nó giúp người dùng tìm kiếm thông qua cơ sở dữ liệu.
Search Engine đang hoạt động
Web crawler, Database và Search interface là thành phần chính của Search Engine thực sự làm cho Search Engine hoạt động. Các công cụ tìm kiếm sử dụng biểu thức Boolean AND, OR, NOT để hạn chế và mở rộng kết quả tìm kiếm. Sau đây là các bước được thực hiện bởi Search Engine:
Search Engine tìm kiếm từ khóa trong chỉ mục cho cơ sở dữ liệu được xác định trước thay vì truy cập trực tiếp vào trang web để tìm kiếm từ khóa.
Sau đó, nó sử dụng phần mềm để tìm kiếm thông tin trong cơ sở dữ liệu. Thành phần phần mềm này được gọi là web crawler.
Khi web crawler tìm thấy các trang, công cụ tìm kiếm sẽ hiển thị các trang web có liên quan. Các trang web được truy xuất này thường bao gồm tiêu đề của trang, kích thước của phần văn bản, một số câu đầu tiên, v.v.
Các tiêu chí tìm kiếm này có thể thay đổi từ Search Engine này sang Search Engine khác. Thông tin truy xuất được xếp hạng theo các yếu tố khác nhau như tần suất của từ khóa, mức độ liên quan của thông tin, liên kết, v.v. (frequency, relevancy, links…)
Người dùng có thể nhấp vào bất kỳ kết quả tìm kiếm nào để mở nó.
Kiến trúc – Architecture
Kiến trúc Search Engine bao gồm ba lớp cơ bản được liệt kê dưới đây:
- Content collection and refinement: Nội dung sưu tầm và sàng lọc
- Database connector
- Web Crawler
- SharePoint connector
- File Server connector.
- Search core: Lõi tìm kiếm
- Search Engine
- Search Analytics backend
- Security Module
- User and application interfaces: Giao diện người dùng và ứng dụng
- Web services
- SOAP
- RSS
- OpenSearch
- Search Application
- Query
- Complention
- Search Analytics frontend.
- Web services
Xử lý công cụ tìm kiếm
Quy trình lập chỉ mục
Quá trình lập chỉ mục bao gồm ba nhiệm vụ sau:
- Thu thập văn bản
- Chuyển đổi văn bản
- Tạo chỉ mục
Thu thập văn bản
Nó xác định và lưu trữ các tài liệu để lập chỉ mục.
Chuyển đổi văn bản
Nó biến tài liệu thành các thuật ngữ hoặc tính năng chỉ mục.
Tạo chỉ mục
Nó sử dụng các thuật ngữ chỉ mục được tạo bằng cách chuyển đổi văn bản và tạo cấu trúc dữ liệu để hỗ trợ tìm kiếm nhanh.
Quy trình truy vấn
Quá trình truy vấn bao gồm ba nhiệm vụ sau:
- Tương tác người dùng
- Xếp hạng
- Sự đánh giá
Tương tác người dùng
Nó hỗ trợ tạo và sàng lọc truy vấn của người dùng và hiển thị kết quả.
Xếp hạng
Nó sử dụng truy vấn và chỉ mục để tạo danh sách tài liệu được xếp hạng.
Sự đánh giá
Nó giám sát và đo lường hiệu lực và hiệu quả. Nó được thực hiện ngoại tuyến.
Ví dụ
Sau đây là một số công cụ tìm kiếm có sẵn ngày hôm nay:
Search Engine | Description |
---|---|
Ban đầu nó được gọi là BackRub. Nó là công cụ tìm kiếm phổ biến nhất trên toàn cầu. | |
Bing | Nó được ra mắt vào năm 2009 bởi Microsoft. Đây là công cụ tìm kiếm dựa trên web mới nhất cũng cung cấp các kết quả của Yahoo. |
Ask | Nó được ra mắt vào năm 1996 và ban đầu được gọi là Ask Jeeves. Nó bao gồm hỗ trợ cho câu hỏi đối sánh, từ điển và hội thoại. |
AltaVista | Nó được ra mắt bởi Digital Equipment Corporation vào năm 1995. Kể từ năm 2003, nó được hỗ trợ bởi công nghệ của Yahoo. |
AOL.Search | Nó được cung cấp bởi Google. |
LYCOS | Nằm trong top 5 cổng thông tin internet và là tài sản trực tuyến lớn thứ 13 theo Media Matrix. |
Alexa | Nó là công ty con của Amazon và được sử dụng để cung cấp thông tin lưu lượng truy cập trang web. |