Data mart được hiểu là một phiên bản thu gọn của một kho dữ liệu và nó được thiết kế để sử dụng một đơn vị, một bộ phận hoặc một nhóm người sử dụng cụ thể trong một tổ chức. Trong bài viết này chúng ta sẽ tìm hiểu rõ hơn về khái niệm data mart, vai trò và quy trình xây dựng nó.
Data Mart là tên gọi của một tập hợp con của kho tổng thông tin hướng đến một mục đích cụ thể hoặc chủ đề dữ liệu chính có thể được dùng đề cung cấp, phân phối cho nhu cầu kinh doanh.
Một Data mart sẽ được tạo ra khi tổng kho dữ liệu của doanh nghiệp (EDW) không đáp ứng được việc cung cấp dữ liệu đúng theo nhu cầu mà khách hàng mong muốn hoặc nhu cầu logic dưới dạng phù hợp với chi phí và không gian của chợ dữ liệu.
Khái niệm và tổng quan về data mart
Các loại data mart sẽ bao gồm có:
Độc lập: Đây là dạng data mart hoạt động mà không cần lấy thêm các thông tin từ Data warehouse. Data mart độc lập được sử dụng cho những mục đích cụ thể và được lưu trữ ở cả bên trong và ngoài kho dữ liệu.
Phụ thuộc: Loại data mart này sẽ cần phải phụ thuộc vào Data warehouse. Khi yêu cầu phân tích một chủ đề cụ thể thì những data mart phụ thuộc sẽ truy xuất thông tin cụ thể có liên quan từ Data warehouse.
Data mart kết hợp: Loại này sẽ tích hợp data trong một data warehouse từ những nguồn bên ngoài. Nó rất linh hoạt và thường quản lý một số lượng lớn dữ liệu.
Dưới đây là những lợi ích khi tiến hành xây dựng dữ liệu data mart:
- Data mart có thể tạo ra những nhóm dữ liệu tập thể bởi những người dùng
- Người dùng có thể dễ dàng truy cập vào data dữ liệu thường xuyên
- Dễ dàng sáng tạo
- Cải thiện thời gian tối ưu khi phản hồi của các khách hàng
- Chi phí thấp hơn nhiều so với việc triển khai Data Warehouse hoàn chỉnh
- Khách hàng tiềm năng sẽ được đánh giá rõ ràng hơn so với tệp khách hàng trong Data Warehouse.
- Data mart chỉ chứa những thông tin kinh doanh thiết yếu và sắp xếp logic hơn.
Lợi ích khi ứng dụng data mart trong quá trình xử lý hệ thống thông tin
Dependent Data Marts là tên gọi của một tập hợp con của Data Warehouse cao hơn. Một Data Warehouse sẽ được tạo ra, sau đó làm tiền đề để tạo thêm nhiều những Data mart khác nhau.
Các Data mart này phải phụ thuộc vào Data Warehouse và phải trích xuất dữ liệu cần thiết từ đó. Khi Data Warehouse tạo ra data mart thì sẽ không cần tích hợp các data mart nữa.
Data Warehouse độc lập (IDM). Ở đây, những Data Warehouse độc lập sẽ được tạo nên, sau đó một Data Warehouse sẽ được nghiên cứu phát triển bằng cách sử dụng các Data Warehouse độc lập.
Tất cả những data mart được thiết kế độc lập, do đó việc tích hợp các data mart là điều bắt buộc.
Các loại data mart chính được sử dụng phổ biến hiện nay
Hybrid Data Marts sẽ kết hợp các dữ liệu từ ngoài Data Warehouse. Nó phù hợp ứng dụng với nhiều trường hợp khác nhau; đặc biệt là trường hợp cần tích hợp Adhoc.
Cơ sở để so sánh |
Data Warehouse |
Data Mart |
Căn bản |
Là kho dữ liệu ứng dụng độc lập. |
Data mart cụ thể quyết định ứng dụng hỗ trợ. |
Loại hệ thống |
Tập trung |
Phân cấp |
Dạng dữ liệu |
Chi tiết |
Tóm tắt |
Sử dụng không chuẩn hóa |
Các dữ liệu hơi bất thường. |
Các dữ liệu không chuẩn hóa. |
Mô hình dữ liệu |
Từ trên xuống |
Từ dưới lên |
Mức độ xây dựng |
Khó xây dựng |
Xây dựng đơn giản |
Các bước triển khai data mart bao gồm: thiết kế, Constructing, Populating, Accessing, Managing
Cụ thể như sau:
Thiết kế là bước đầu tiên bao gồm các chức năng từ khởi tạo yêu cầu với trung tâm dữ liệu bằng thao tác thu thập dữ liệu các yêu cầu thiết kế logic và vật lý của trung tâm dữ liệu, bao gồm các thao tác:
- Thu thập yêu cầu về kinh doanh, kỹ thuật
- Xác định nguồn data
- Chọn tập hợp con thích hợp
- Thiết kế logic và vật lý data mart.
Quy trình triển khai data mart trong việc xử lý thông tin, dữ liệu
Bước này bao gồm các nhiệm vụ:
- Tạo CSDL vật lý và cấu trúc logic như là không gian bảng liên kết với Data Warehouse.
- Tạo các lược đồ như bảng và chỉ mục
- Xác định cách thiết lập bảng và cấu trúc truy cập.
Bước này gồm các nhiệm vụ sau:
- Ánh xạ nguồn dữ liệu đến nguồn dữ liệu mục tiêu
- Trích xuất dữ liệu
- Làm sạch thông tin.
- Tải dữ liệu vào data mart
- Tạo và lưu trữ dữ liệu
Bước này là bước đưa dữ liệu vào sử dụng, bao gồm các nhiệm vụ sau:
- Thiết lập lớp trung gian để front-end sử dụng. Lớp này chuyển các hoạt động CSDL và tên đối tượng sang các điều kiện kinh doanh để người dùng cuối có thể tương tác với trung tâm bằng cách dùng các từ liên quan đến chức năng nghiệp vụ.
- Thiết lập, quản lý kiến trúc CSDL giúp các truy vấn đồng ý thông qua các front-end nhanh chóng và hiệu quả.
Các chức năng quản lý bao gồm:
- Cung cấp truy cập an toàn
- Quản lý sự tăng trưởng dữ liệu
- Tối ưu hóa hệ thống tạo hiệu suất tốt
- Đảm bảo tính khả dụng của sự kiện với các lỗi hệ thống.
Với những thông tin trên, bài viết hi vọng sẽ cung cấp cho bạn đọc những kiến thức hữu ích về data mart nói riêng và thông tin về công nghệ nói chung. Nếu muốn tìm hiểu thêm các thông tin về tài chính, công nghệ, hãy vào Vegafintech.vn để được hỗ trợ và tham khảo nhé!