Apache Spark là một framework xử lý dữ liệu thông tin mã nguồn mở trên quy mô lớn và trở thành công cụ đắc lực, hỗ trợ xử lý big data với tốc độ xử lý nhanh chóng, khả năng mở rộng linh hoạt và đa năng.
Phân tích dữ liệu là một quá trình gồm các thao tác thu thập, mô hình và phân tích để rút ra những nhận định, hiểu biết để đưa ra quyết định. Có các phương pháp để thực hiện phân tích dữ liệu tùy thuộc và mục đích và ngành.
Xử lý hình ảnh là quá trình chuyển đổi hình ảnh thành dạng kỹ thuật số và thực hiện những thao tác nhất định để có được thông tin hữu ích từ hình ảnh đó. Kỹ thuật xử lý hình ảnh đang ứng dụng phổ biến rộng rãi trong nhiều ngành công nghiệp.
Dữ liệu thô chính là dữ liệu máy tính chưa qua chế biến, lọc và xử lý. Những thông tin này thường được lưu trữ trong một tập tin, hoặc có thể chỉ là một tập hợp các số và ký tự được lưu trữ trên ở trong ổ cứng của máy tính.
Xử lý dữ liệu là quá trình xử lý và đồng bộ hóa tất cả các dữ liệu của hệ thống, tiếp nhận nguồn thông tin mới và lọc ra các dữ liệu phù hợp với yêu cầu. Xử lý dữ liệu là công đoạn đóng vai trò rất quan trọng đối với mỗi doanh nghiệp.