Machine Learning là gì? Các ứng dụng quan trọng của Machine Learning

13/04/2023

Machine Learning là gì? Các ứng dụng quan trọng của Machine Learning

Nội dung

Machine Learning đóng vai trò quan trọng trong ngành công nghệ số. Cùng tìm hiểu về khái niệm thuật toán Machine Learning là gì, lịch sử ra đời và những ứng dụng quan trọng của học máy trong các ngành công nghiệp lớn nhé.

I. Machine Learning là gì?

Machine Learning là một nhánh trong khoa học trí tuệ nhân tạo (AI) và khoa học máy tính, công nghệ này cung cấp cho các hệ thống khả năng tự “học” dựa trên dữ liệu mà không cần lập trình rõ ràng. Machine Learning tập trung vào việc sử dụng dữ liệu và dùng thuật toán để bắt chước cách con người học hỏi, sau đó dần dần cải thiện độ chính xác của nó.

Ví dụ: Machine Learning học cách phân loại thư điện tử có phải thư rác, spam hay không và phân loại, sắp xếp vào các mục tương ứng hay động cơ đề xuất của Netflix hoặc ô tô tự lái.

machine-learning-la-gi.jpg

Giải thích về khái niệm Machine Learning là gì

Có thể nói công nghệ máy học là một trong những cải tiến vượt bậc của nhân loại, dựa trên lịch sử thông tin và dữ liệu thu thập được, máy học có thể tự dự đoán hoặc đưa ra quyết định mà không cần lập trình.

II. Lịch sử ra đời và phát triển của Machine Learning

Arthur Samuel được cho là đã đặt ra thuật ngữ “Machine Learning” khi nghiên cứu trò chơi cờ caro. Robert Nealey - người tự xưng là bậc thầy cờ caro, đã chơi trò chơi này trên máy tính IBM 7094 vào năm 1962, và ông đã thua chiếc máy tính có công nghệ tự học này.

Nếu như con người học hỏi kinh nghiệm từ quá khứ rồi tổng hợp lại, sáng tạo ra nhiều thứ ở hiện tại và tương lai thì máy móc lại hoạt động theo những quy trình đã được lập trình sẵn, nghĩa là muốn máy làm điều gì ngoài những gì đã lập trình thì ta phải cung cấp thêm quy trình chi tiết và chính xác những việc cần làm.

Lịch sử ra đời và phát triển của Machine Learning

Machine Learning được cho là ra đời khi nghiên cứu chơi cờ caro trên máy tính

Thế nhưng khi con người viết lên kịch bản và lập trình để máy tính làm theo và có khả năng học hỏi tự động thì đó chính là cách Machine Learning ra đời. Nếu việc của Machine Learning là học liên tục thì công việc của Machine Learning engineer - kỹ sư máy học chính là dạy học liên tục cho máy.

III. Phân loại Machine Learning

Machine Learning cơ bản được phân loại thành học máy giám sát hoặc học máy không giám sát

1. Aupervised learning - Học máy được giám sát

Máy học có thể áp dụng tất cả những gì đã được học trong quá khứ (dữ liệu quá khứ) vào dữ liệu mới để dự đoán các sự kiện ở tương lai, nghĩa là Aupervised learning sử dụng các tập dữ liệu được gắn nhãn để huấn luyện các thuật toán phân loại dữ liệu hoặc dự đoán kết quả chính xác. Nếu xác lập thành công thì mô hình đó sẽ sử dụng trong những trường hợp tương tự.

Khi dữ liệu đầu vào được đưa vào mô hình máy tính, mô hình sẽ điều chỉnh trọng lượng của nó cho đến khi nó có thể được lắp một cách thích hợp. Học máy được giám sát giúp các tổ chức giải quyết nhiều vấn đề quy mô lớn trong thế giới thực.

 Aupervised learning - Học máy được giám sát

Machine Learning được chia thành 4 loại

2. Unsupervised learning - Học máy không giám sát

Unsupervised learning liên quan tới các dữ liệu có nguồn gốc không rõ ràng, trong trường hợp này, máy móc không có chìa khóa để trả lời mà phải tự phân tích dữ liệu, hình ảnh, tìm mối tương quan để đưa ra đáp án chính xác, hay nói cách khác là các thuật toán này tự động phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn mà không cần tới sự can thiệp của con người.

3. Semi-supervised Learning - Học máy bán giám sát

Với công nghệ học máy nửa giám sát, máy móc sẽ nhận dữ liệu đầu vào cả loại được gán nhãn và không gán nhãn, áp dụng khi có quá nhiều dữ liệu hoặc khi thông tin có quá nhiều sự khác biệt tới mức không thể sắp xếp câu trả lời cho từng thông tin, lúc này, hệ thống sẽ tự đề xuất câu trả lời và tạo ra các mô hình chung.

Học máy bán giám sát cung cấp một phương tiện kết nối giữa Machine Learning có giám sát và không giám sát. Trong quá trình đào tạo, máy học sử dụng một tập dữ liệu có nhãn nhỏ hơn để hướng dẫn phân loại, trích xuất tính năng từ một tập dữ liệu lớn không gắn nhãn. Học máy nửa giám sát có thể giải quyết vấn đề không có đủ dữ liệu được gắn nhãn để đào tạo thuật toán học có giám sát.

4. Học gia cố - Học tăng cường

Tức là Machine Learning nhận bộ thao tác và các quy định được phép trước đó và hoạt động theo khuôn khổ có sẵn. Machine Learning sẽ phân tích và quan sát kết quả các thao tác và tự động cập nhật, đưa ra những kết quả tốt hơn.

IV. Các thuật toán trong Machine Learning

Khi Machine Learning hoạt động, kỹ sư sẽ sử dụng nhiều mô hình khác nhau để chuyển đổi đầu vào (input) thành đầu ra (output) như mong muốn. Có nhiều thuật toán Machine Learning khác nhau phổ biến nhất là các thuật toán sau đây:

- Support Vector Machines (SVM): Trong 1 vài bài toán thì đây là mô hình này cho hiệu quả tốt nhất. Thuật toán xây dựng 1 siêu mặt phẳng trong không gian đa chiều nhằm phân biệt các đối tượng ở các lớp khác nhau.

- Mô hình xác suất (Probabilistic Models): Các mô hình này sẽ giải quyết bài toán bằng phân bố xác suất. Nó sử dụng lý thuyết Bayes và giả thiết, đặc trưng độc lập. Output không chỉ là label mà còn có xác suất thể hiện độ chính xác cho kết quả đó.

Các thuật toán trong Machine Learning

Rất nhiều thuật toán phổ biến được áp dụng vào Machine Learning

- Deep learning (Học sâu): Xu hướng hiện nay là dựa trên các mô hình mạng nơ ron nhân tạo (Artificial Neural Networks), tiếp cận kết nối và sử dụng ý tưởng theo cách mà não bộ con người làm việc. Deep learning liên tục được phát triển với các cấu trúc mới sâu hơn, không chỉ cố gắng học mà nó còn tự động xây dựng cấu trúc biểu diễn các đặc trưng quan trọng.

- Linear Regression (Hồi quy tuyến tính): Đây là phương pháp thống kê để hồi quy dữ liệu, các biến phụ thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị phân loại hoặc giá trị liên tục.

- Logistic Regression (Hồi quy logistic): Dùng để ước tính các giá trị rời rạc từ tập hợp các biến độc lập, giúp dự đoán xác suất của một sự kiện bằng cách khớp dữ liệu với một hàm logit. Logistic Regression sẽ hoạt động tốt hơn khi loại bỏ các thuộc tính tương tự nhau hoặc không liên quan đến biến đầu ra. Mô hình này có thể học được nhanh và có hiệu quả với các vấn đề phân loại nhị phân

- Decision Tree (Cây quyết định): Đây là một thuật toán học tập có giám sát được sử dụng để phân loại các vấn đề. Cây quyết định hoạt động tốt khi phân loại cho cả biến phụ thuộc phân loại và biến phụ thuộc liên tục. Thuật toán chia tổng thể thành hai hoặc nhiều tập đồng nhất dựa trên các thuộc tính hoặc biến độc lập quan trọng nhất.

- Thuật toán Naive Bayes: Đây là thuật toán đơn giản nhưng mô hình tiên đoán rất chính xác, nó giả định sự hiện diện của một đối tượng cụ thể trong 1 lớp không liên quan đến sự hiện diện của các đối tượng khác. Ngay cả khi các tính năng liên quan đến nhau thì Naive Bayes cũng xem xét tất cả các thuộc tính một cách độc lập và tính xác suất, từ đó đưa ra kết quả cụ thể.

- Thuật toán K-Nearest Neighbors (KNN): Thuật toán lưu trữ tất cả các trường hợp có sẵn và phân loại bằng cách lấy đa số phiếu bầu của K neighbor, sau đó trường hợp được gán cho các lớp có điểm chung nhất.

- K-Means: Đây là thuật toán học tập không giám sát có chức năng giải quyết các vấn đề phân cụm. Dữ liệu được phân thành cụm mà dữ liệu trong cụm đồng nhất và không đồng nhất với dữ liệu của cụm khác.

V. Các ứng dụng của Machine Learning trong thực tế

Machine Learning được ứng dụng phổ biến trong đời sống và rất nhiều lĩnh vực như tài chính - ngân hàng, nông nghiệp, sinh học, tự động hóa, tìm kiếm và trích xuất thông tin, Robotics, hóa học, mạng máy tính, quảng cáo, thị giác máy tính, khoa học vũ trụ…

Các ứng dụng của Machine Learning trong thực tế

Machine Learning ứng dụng rộng rãi vào công nghệ số

Ví dụ: Khi dự báo thời tiết, người ra sẽ dùng những thông tin về thời tiết trong quá khứ nhiều năm liền để đưa ra dự báo về thời tiết của những ngày kế tiếp. Việc ghi chép và sàng lọc dữ liệu trong nhiều năm liền để tìm điểm chung rất khó khăn với con người nhưng Machine Learning có thể thực hiện có độ chính xác cao.

- Speech recognition - Nhận dạng giọng nói tự động (ASR): Máy sẽ nhận dạng giọng nói máy tính hoặc chuyển giọng nói thành văn bản hoặc dịch giọng nói của con người sang định dạng viết.

- Tự động phân loại: Khối lượng thông tin đã đăng tải lên các website ngày một nhiều, mỗi cá nhân lại có sở thích và lựa chọn riêng, vậy nên rất khó tìm được thông tin đúng với nhu cầu. Ứng dụng Machine Learning vào phân loại các danh mục, điều hướng sẽ giúp độc giả cũng có thể tìm kiếm tin tức 1 cách đơn giản và nhanh chóng, website cũng phát triển tốt hơn.

- Ứng dụng trong các mạng xã hội: Facebook News Feed là điển hình của ứng dụng Machine Learning. Nếu bạn thường xuyên dừng lại để đọc hoặc like bài đăng của người nào, lĩnh vực nào thì news feed sẽ hiển thị tin về người ấy, lĩnh vực ấy nhiều hơn, nếu bạn lướt qua 1 vấn đề nào đó thì trang dữ liệu sẽ được điều chỉnh cho phù hợp.

Bên cạnh đó, phần mềm sử dụng phân tích để thống kê và dự đoán dữ liệu người dùng, từ đó sẽ đẩy mẫu này vào news feed. Instagram, Twitter, Tiktok,.. cũng sử dụng tính năng này.

- Nhận diện hình ảnh: Đây là một cách tiếp cận để xác định đặc trưng của 1 đối tượng trong hình ảnh kỹ thuật số. Kỹ thuật này còn có thể sử dụng để nhận dạng khuôn mặt, nhận dạng ký tự quang học… và được áp dụng cực kỳ phổ biến.

 Công nghệ máy học

Công nghệ máy học được ứng dụng đặc biệt trong ngành tài chính - ngân hàng

- Computer vision: Công nghệ AI lấy thông tin có ý nghĩa từ video, hình ảnh kỹ thuật số và các đầu vào trực quan khác và thực thi hành động thích hợp.

- Tài chính: Machine Learning giúp các nhà đầu tư phân tích thị trường chứng khoán để tìm cơ hội. đánh giá quỹ phòng hộ, điều chỉnh danh mục đầu tư, tài chính. Công nghệ máy học cũng giúp ngân hàng và các công ty tài chính, tín dụng xác định khách hàng có rủi ro cao, giảm bớt các trường hợp có hành vi lừa đảo vay tiền.

- Fraud detection: Ngân hàng và các tổ chức tài chính, tín dụng có thể sử dụng máy học để phát hiện các giao dịch đáng ngờ.

- Chăm sóc sức khỏe: Cảm biến và các thiết bị đeo đã tạo ra được 1 lượng lớn các dữ liệu về sức khỏe, dùng máy học phân tích những thông tin và hỗ trợ bác sĩ chẩn đoán, điều trị.

VI. Các khái niệm liên quan tới Machine Learning

Dataset (data corpus/data stock): là tập dữ liệu thu thập được ở bước data collection - dữ liệu nguyên thủy chưa qua xử lý. Một dataset luôn bao gồm nhiều data point.

Training data và test data: dataset thường sẽ được chia làm training data và test data, trong đó training data dùng để huấn luyện cho mô hình còn test data sẽ đánh giá mô hình và dự đoán kết quả.

Các khái niệm liên quan tới Machine Learning

Công nghệ máy học là một nhánh của trí tuệ nhân tạo

Data point - điểm dữ liệu: Mỗi điểm dữ liệu biểu diễn cho một quan sát. Mỗi data point có thuộc tính và đặc trưng khác nhau, chia thành dữ liệu số (numerical) và dữ liệu không phải số.

Features vector: là vector đặc trưng, mỗi vector biểu diễn cho một data point trong dataset. Mỗi vector có n chiều biểu diễn các đặc trưng của điểm dữ liệu, trong đó mỗi đặc trưng là một chiều và phải là dữ liệu số. Các mô hình chỉ có thể huấn luyện được từ các vector đặc trưng này, vì vậy dataset cần chuyển về dạng một tập các vector đặc trưng (features vectors).

Model: là các mô hình dùng để training trên một training data theo thuật toán của mô hình đó. Mô hình có thể dự đoán hoặc đưa ra các quyết định dựa trên những gì chúng đã được training.

Còn rất nhiều khía cạnh chuyên sâu khác cũng như những ứng dụng thực tiễn mà công nghệ Machine Learning mang lại. Mong rằng những chia sẻ của Vega Fintech sẽ giúp các bạn có được cái nhìn bao quát về Machine Learning và áp dụng công nghệ này vào mô hình kinh doanh của mình sao cho hiệu quả.

Xem thêm: Data là gì? Những ứng dụng quan trọng của data trong doanh nghiệp