Hướng dẫn tạo dự án phân tích dữ liệu Covid-19 đầu tiên trên Google Cloud Platform

BigQuery (BQ) của Google Cloud Platform (GCP) là một ứng dụng mới trong số những ứng dụng về khoa học dữ liệu đang được sử dụng rất rộng rãi vì sự hữu ích và tính tiện lợi của chúng.

Đây là nơi lưu trữ đám mây với cả gói miễn phí và gói trả phí (nhưng có giá khá hợp lý). Bạn có thể quản lý toàn bộ các truy vấn SQL và phân tích, trực quan hoá dữ liệu ngay trên nền tảng này.

 

 

GCP được xem là một cách tiếp cận tinh gọn đối với phương pháp phân tích và sử dụng phần mềm dữ liệu, nơi tập trung nhiều nguồn dữ liệu mở và DevOps (open-source-and DevOps-centric) với rất nhiều tiện ích.

  • Tích hợp tuyệt vời với các dịch vụ khác của Google (Google Ads, Data Studio, GA (Universal). GA4, FireBase)
  • Input/Output xuất nhập dễ dàng
  • Phân tích và lưu trữ dữ liệu mạnh mẽ
  • Thân thiện với quy trình ETL
  • Lựa chọn giới hạn về ngôn ngữ lập trình (chỉ cho phép SQL truyền thống và SQL kế thừa), Python và các ngôn ngữ lập trình khác mà người dùng phải sử dụng Google colaboratory.

Các bước dưới đây sẽ hướng dẫn cách điều hướng BQ và cách sử dụng nó cho dự án dữ liệu đầu tiên của chúng ta liên quan đến Covid-19.

 

Ba cách để Điều hướng và Thiết lập BigQuery:

Quickstarts| Big Query | Google Cloud

A. Bắt đầu nhanh bằng Cloud Console

Trang này hướng dẫn bạn cách sử dụng Google Cloud Console để truy vấn các bảng trong tập dữ liệu công khai và tải dữ liệu mẫu vào bảng BigQuery.

B. Khởi động nhanh bằng công cụ dòng lệnh BigQuery:

Bạn có thể chạy công cụ dòng lệnh BQ trong một interactive shell/trình bao tương tác nơi bạn không cần phải đặt tiền tố các lệnh bằng BQ. Để bắt đầu chế độ tương tác, hãy nhập BQ shell. Sau khi khởi chạy trình shell, lời nhắc thay đổi ID của dự án mặc định của bạn. Để thoát khỏi chế độ tương tác, hãy nhập “Thoát”.

C. Khởi động nhanh: Sử dụng client libraries

Để bắt đầu với API BigQuery bằng ngôn ngữ lập trình yêu thích của bạn.

 

Chia dự án thành các thành phần khác nhau – Xác định mục tiêu của từng quy trình trong dự án đầu tiên này

A. Vấn đề kinh doanh / Sáng kiến

  • Tạo backlog/tồn đọng các vấn đề kinh doanh, sáng kiến… và ưu tiên cho 1-2 tuần sắp tới (bảng Kanban)
  • Xác định thông tin chi tiết về các sáng kiến được ưu tiên (số liệu, khung thời gian, phương pháp…)

B. Khám phá tập dữ liệu, dữ liệu kiểm tra chất lượng / kiểm tra tính minh bạch

  • Xác định các bảng & trường có liên quan trong BQ và cách kết nối chúng
  • QA & kiểm tra tính minh bạch chính thống đối với các báo cáo hiện có

C. Mô hình dữ liệu, Xây dựng truy vấn, Phân tích

  • Xây dựng truy vấn để tóm tắt dữ liệu
  • Phân tích, khám phá / tìm hiểu sâu
  • Xuất thành tài liệu có thể chia sẻ khi cần thiết
  • Trực quan hóa / Xây dựng bảng điều khiển

D. Trực quan hoá, hiểu sâu sắc và tóm tắt dữ liệu

  • Trực quan hóa dữ liệu trong excel, powerpoint, sheet
  • Xây dựng trang tổng quan trong Data Studio cho nhu cầu kinh doanh định kỳ (giám sát KPI)

 

Nhận quyền truy cập vào Tập dữ liệu mở cho mọi người

  • Trong Cloud Console, điều hướng đến Menu > BigQuery.
  • Nhấp vào + ADD DATA > Khám phá tập dữ liệu công khai từ ngăn bên trái.
  • Tìm kiếm covid19_open_data và sau đó chọn COVID-19 Open Data.

 

Sử dụng Bộ lọc để định vị bảng covid19_open_data trong tập dữ liệu covid19_open_data.

Hoặc đi xuống tập dữ liệu của bigquery-public-data để tìm table covid19_open_data bên dưới bigquery-public-data dataset.

 

 

Tập dữ liệu liên quan đến Covid-19 khác trên Google cloud platform.

 

Xem video hướng dẫn:

 

Thăm dò để hiểu dữ liệu từ đó và giới hạn của dữ liệu trong phạm vi thời gian và quốc gia.

Sao chép mã sau vào trình chỉnh sửa Truy vấn và sau đó nhấp vào Run:

SELECT distinct country_name, max(date), min(date)
FROM bigquery-public-data.covid19_open_data.covid19_open_data

group by 1

Truy vấn dữ liệu có liên quan và hợp lệ cho dự án của chúng tôi: GitHub – ementorhub/DataScience: Data Science Project Event.

 

Một số nguồn dữ liệu phổ biến hữu ích đối với các nhà khoa học dữ liệu:

Kaggle là một nền tảng riêng của Google dành cho cộng đồng trực tuyến gồm các nhà khoa học dữ liệu và những người thực hành công nghệ máy học.

Google Cloud Platform Github với thông tin chi tiết về bộ dữ liệu của Covid-19 mà chúng tôi sử dụng trong hội thảo.

eMentorHub GitHub lưu trữ nhiều loại dự án khoa học dữ liệu sử dụng các phân tích, dự đoán, dự báo ML và dự án AI nâng cao khác nhau. Nhiều dự án mar-tech sắp ra mắt.

Kevin’s GitHub dành cho mô hình Dự đoán liên quan đến Dữ liệu di động Covid-19.

 

Hoà Dư

Bài viết liên quan

Data Science Second Project: Analysing Covid-19 data using Data Studio dashboard

Data Science Second Project: Analysing Covid-19 data using Data Studio dashboard

[WEBINAR] Phân tích tình hình đại dịch Covid-19 bằng Google Data Studio...
Hướng dẫn tạo dự án phân tích dữ liệu Covid-19 đầu tiên trên Google Cloud Platform

Hướng dẫn tạo dự án phân tích dữ liệu Covid-19 đầu tiên trên Google Cloud Platform

BigQuery (BQ) của Google Cloud Platform (GCP) là một ứng dụng mới...
Dùng BigQuery để truy xuất dữ liệu mở COVID-19 và tạo báo cáo trên DataStudio

Dùng BigQuery để truy xuất dữ liệu mở COVID-19 và tạo báo cáo trên DataStudio

Trong bài viết này, đội ngũ của eMentorHub sẽ hỗ trợ ban...

“Suy nghĩ tích cực lúc sáng sớm sẽ đổi thay cả một ngày”

Đạt Lai Lạt Ma