Google về Trực quan hóa Dữ liệu

Google có thể xử lý trực quan hóa dữ liệu như thế nào?

Hôm qua, tôi đã viết về cách Google có thể trình bày các dữ kiện trích xuất từ ​​các trang trong dòng thời gian hoặc bản đồ, theo một đơn xin cấp bằng sáng chế được nộp vào tuần trước.

Đây không phải là phần sở hữu trí tuệ duy nhất do Văn phòng Nhãn hiệu và Bằng sáng chế Hoa Kỳ cung cấp cho Google về việc trích xuất và hình dung các sự kiện. Một cái khác thậm chí có thể thú vị hơn mô tả khả năng người dùng trích xuất các dữ kiện được tìm thấy trong một truy vấn của cơ sở dữ liệu dữ kiện và chọn trình bày các dữ kiện đó theo một số cách.

Chỉ định các đối tượng dữ liệu để phân tích
Được phát minh bởi Andrew W. Hogue, David J. Vespe, Alexander Kehlenbeck, Michael Gordon, Jeffrey C. Reynar và David B. Alpert
Đơn xin cấp bằng sáng chế của Hoa Kỳ 20070179965
Xuất bản ngày 2 tháng 8 năm 2007
Lưu: 27/01/2006

Trích đoạn từ bằng sáng chế trên:

Một kho dữ liệu lưu trữ các đối tượng. Mỗi đối tượng bao gồm một tập hợp các dữ kiện, trong đó một dữ kiện bao gồm một thuộc tính và một giá trị. Một mô-đun truy cập đối tượng nhận các đối tượng từ kho dữ liệu. Các đối tượng có thể là kết quả của nhiều truy vấn khác nhau được thực thi dựa trên kho dữ liệu. Mô-đun tạo giao diện người dùng (UI) cung cấp giao diện người dùng cho phép người dùng cuối chỉ định các đối tượng từ nhiều truy vấn khác nhau để phân tích tiếp theo bằng cách lưu trữ các đối tượng trong một bộ sưu tập ảo.

Các thành phần của kho thông tin thực tế

Đơn xin cấp bằng sáng chế đi sâu vào chi tiết về cách thức hoạt động của hệ thống này. Dưới đây là một số trong số đó về các khía cạnh cơ học của một kho dữ liệu.

Các thành phần được sử dụng để quản lý dữ kiện trong kho lưu trữ dữ kiện bao gồm nhà nhập khẩu, người kiểm tra, công cụ xây dựng, công cụ dịch vụ và kho lưu trữ thông tin thực tế. Tất cả đều có thể được triển khai dưới dạng mô-đun phần mềm (hoặc chương trình).

Người nhập – xử lý tài liệu nhận được từ các trang web bằng cách đọc nội dung dữ liệu của các trang đó và trích xuất dữ liệu từ chúng. Các nhà nhập khẩu cũng xác định chủ đề hoặc các đối tượng liên quan đến các dữ kiện và trích xuất các dữ kiện đó thành các mục dữ liệu riêng lẻ để lưu trữ trong kho dữ liệu. Có thể có nhiều loại trình nhập khác nhau cho các loại tài liệu khác nhau, tùy thuộc vào định dạng hoặc loại tài liệu.

Janitors – thông tin về quy trình được trích xuất bởi nhà nhập khẩu, trong các lĩnh vực như làm sạch dữ liệu, hợp nhất đối tượng và quy chiếu dữ liệu. Có thể có một số người kiểm tra thực hiện các loại hoạt động quản lý dữ liệu khác nhau về thực tế, chẳng hạn như:

  • Tìm các dữ kiện trùng lặp (nghĩa là, các dữ kiện chuyển tải cùng một thông tin thực tế), để hợp nhất chúng
  • Bình thường hóa các dữ kiện thành các định dạng tiêu chuẩn
  • Xóa thông tin không mong muốn khỏi kho lưu trữ (ví dụ: nội dung khiêu dâm)
  • Các nhân viên vệ sinh khác thực hiện các chức năng quản lý dữ liệu như dịch, nén, sửa lỗi chính tả hoặc ngữ pháp

Ví dụ về chuẩn hóa

Một trang có thể có “ngày sinh” của Britney Spears là “12/2/1981” trong khi một trang khác ghi “ngày sinh” của cô ấy là “Dec. 2, 1981. ” Một người gác cổng có thể viết lại cả “ngày sinh” và “ngày sinh” thành “ngày sinh”. Một người gác cổng khác có thể nhận thấy rằng “12/2/1981” và “Dec. 2, 1981 ”là cùng ngày, và có thể chọn hình thức ưa thích, loại bỏ dữ kiện khác và kết hợp danh sách nguồn cho hai dữ kiện. Nhìn vào các trang nguồn để biết dữ kiện, một số có thể trùng khớp chính xác, trong khi những trang khác có thể trình bày thông tin dưới các hình thức khác nhau.

Build engine – xây dựng và quản lý kho lưu trữ.

Công cụ dịch vụ – một giao diện được sử dụng để truy vấn kho lưu trữ. Nó xử lý các truy vấn, cho điểm các đối tượng phù hợp và trả về cho người gọi.

Kho lưu trữ – lưu trữ các dữ kiện được trích xuất từ ​​một số trang. Một trang mà từ đó một sự kiện cụ thể có thể được trích xuất được coi là một tài liệu nguồn (hoặc “nguồn”) của sự việc cụ thể đó. Trong kho lưu trữ, mỗi dữ kiện có thể được liên kết với chính xác một đối tượng, với một ID đối tượng xác định duy nhất đối tượng của liên kết. Bằng cách này, bất kỳ số lượng dữ kiện nào cũng có thể được liên kết với một đối tượng riêng lẻ, bằng cách đưa ID đối tượng cho đối tượng đó vào dữ kiện.

Trực quan hóa dữ liệu

Tôi sẽ để những bức ảnh kể câu chuyện trên bức tranh này. Một tập hợp các dữ kiện có thể được thu thập sau khi tìm kiếm hoặc kết hợp các tìm kiếm và được sử dụng để tập hợp một bảng dữ liệu, như bảng dữ kiện sau đây về tính chất nguyên tử.

google data

Đưa ra một số cách để trình bày thông tin về các dữ kiện thu thập được, phần sau cho thấy hình ảnh dữ liệu về khối lượng nguyên tử của các nguyên tố đó:

google data

Tôi có thể thấy điều này sẽ thú vị như thế nào khi sử dụng theo nhiều cách khác nhau, từ thu thập và hiển thị số liệu thống kê về bóng chày đến thông tin truy cập trang web, từ việc xem xét sự tăng và giảm của giá cổ phiếu đến xây dựng các mốc thời gian và bản đồ lịch sử.