Thị giác máy tính (tiếng Anh: Computer Vision) là một trong những lĩnh vực nổi bật đáng chú ý nhất của khoa học máy tính và nghiên cứu trí tuệ nhân tạo (AI). Dù công nghệ này vẫn chưa thể cạnh tranh với sức mạnh thị giác của mắt người, nhưng đã có rất nhiều ứng dụng hữu ích đột phá trong đời sống khai thác tiềm năng của chúng. Hãy cùng Vega Fintech tìm hiểu kỹ hơn về thị giác máy tính và các ứng dụng thực tiễn nhé!
Thị giác máy tính chính là thuật ngữ mô tả một tập hợp các công nghệ cho phép các thiết bị máy tính, phần mềm, robot hoặc bất kỳ thiết bị nào; có thể thu nhận, phân tích và xử lý hình ảnh.
Các nguồn hình ảnh khác nhau có thể vô cùng đa dạng từ hình ảnh, video, dữ liệu 3D, dữ liệu từ máy quét y tế hoặc máy công nghiệp,.v.v. Mục đích là để cung cấp cho các thiết bị này có khả năng “nhìn” và phản ứng tùy thuộc vào các thông tin chúng nhận được.
Hiện nay, thị giác máy tính thường được so sánh với nhận dạng giọng nói và cũng đi song song với nhau mang lại những cuộc cách mạng về công nghệ mới.
Một trong những công nghệ phổ biến trong lĩnh vực hình ảnh là OCR (Nhận dạng ký tự quang học), sử dụng trong việc nhận dạng văn bản trong ảnh hoặc tài liệu được quét trong nhiều năm qua. Nhận dạng chữ viết tay đã được sử dụng từ khá lâu bởi các hệ thống ngân hàng để đọc séc.
Khái niệm thị giác học máy tính trong thời đại số hóa
Các thí nghiệm ban đầu về thị giác máy tính bắt đầu khá sớm vào những năm 1950 và nó lần đầu tiên được đưa vào sử dụng thương mại để phân biệt giữa văn bản đánh máy và viết tay là vào những năm 1970, ngày nay các ứng dụng cho thị giác máy tính đã phát triển như vũ bão và có vai trò quan trọng trong đời sống.
Thị giác máy tính gắn liền với Trí tuệ nhân tạo (AI) theo nghĩa thiết bị không chỉ cần nhìn mà ngay sau giai đoạn nhận biết này, nó phải tiến hành phân tích và giải thích những gì mình thấy, từ đó đưa ra hành động phù hợp và tương tác lại được với môi trường.
Cùng với lượng dữ liệu trực quan khổng lồ (khoảng hơn 3 tỷ hình ảnh được chia sẻ trực tuyến mỗi ngày), lĩnh vực thị giác máy tính phát triển với phần cứng và thuật toán mới, tỷ lệ chính xác để nhận dạng đối tượng từ đó cũng tăng theo. Trong vòng chưa đầy một thập kỷ, các hệ thống ngày nay đã đạt đến độ chính xác lên tới 99% và chính xác hơn con người khi phải phản ứng nhanh với đầu vào trực quan.
Thị giác máy tính hiện gồm các lĩnh vực sau:
- Xử lý hình ảnh: Phát triển các thuật toán xử lý ảnh như tăng/giảm chất lượng ảnh, lọc nhiễu...
- Nhận diện mẫu: Giải thích, phân tích các kỹ thuật khác nhau để phân loại mẫu.
- Quang trắc: Liên quan đến việc thu thập lưu trữ các số đo chính xác từ hình ảnh.
Các thí nghiệm ban đầu về công nghệ thị giác máy tính diễn ra vào những năm 1950, sử dụng một số mạng nơ-ron đầu tiên để phát hiện các cạnh của vật thể và sắp xếp các vật thể đơn giản này thành các loại như hình tròn và hình vuông.
Năm 1966, Seymour Papert và Marvin Minsky, hai nhà tiên phong đầu tiên về trí tuệ nhân tạo, đã khởi động dự án “Summer Vision Project“, sự nỗ lực kéo dài hai tháng và kéo theo 10 người để tạo ra một hệ thống máy tính có thể nhận dạng được các vật thể trong ảnh.
Để hoàn thành nhiệm vụ, một chương trình máy tính phải có khả năng xác định được pixel nào thuộc về đối tượng nào. Đây là một vấn đề mà hệ thống thị giác của con người, được cung cấp bởi thế giới kiến thức rộng lớn của chúng ta. Nhưng đối với máy tính, vốn thế giới chỉ bao gồm các con số, đó là một nhiệm vụ đầy thách thức và tương đối khó khăn.
Quá trình hình thành và phát triển của thị giác học máy tính
Vào thời điểm của dự án táo bạo này, phân nhánh thống trị chủ lực của trí tuệ nhân tạo là symbolic AI dựa trên quy tắc (rule-based AI): Các lập trình viên tự chỉ định các quy tắc để phát hiện được các đối tượng trong hình ảnh. Summer Vision Project dù vậy đã không đi xa và mang lại kết quả khá hạn chế.
Đến những năm 1970, việc sử dụng thương mại đầu tiên của thị giác máy tính đã có thể diễn giải văn bản được đánh máy hoặc chữ viết tay bằng cách sử dụng nhận dạng ký tự quang học (Optical Character Recognition – OCR). Sự tiến bộ này được ứng dụng để giải thích văn bản viết dành cho người mù.
Vài năm sau đó, vào năm 1979, nhà khoa học Nhật Bản Kunihiko Fukushima đã đề xuất neocognitron , một hệ thống thị giác máy tính thông minh dựa trên nghiên cứu khoa học thần kinh được thực hiện trên vỏ não về thị giác của con người. Mặc dù neocognitron của Fukushima không thể thực hiện bất kỳ nhiệm vụ trực quan và xử lý hình ảnh phức tạp nào, nhưng nó đã đặt nền tảng cho một trong những phát triển quan trọng nhất trong lịch sử thị giác máy tính sau này.
Khi internet phát triển rực rỡ vào những năm 1990, khiến cho một lượng lớn hình ảnh sẵn có trên mạng sử dụng cho các chương trình nhận dạng và phân tích được khuôn mặt phát triển mạnh mẽ. Những tập dữ liệu này ngày càng gia tăng, đã giúp máy móc cũng có thể xác định những người cụ thể trong ảnh và video như ánh mắt của người nhìn thực tế.
Công nghệ thị giác máy tính hoạt động theo ba bước cơ bản:
- Thu nhận hình ảnh: Hình ảnh, thậm chí cả tập hợp lớn hình ảnh, có thể được thu thập trong thời gian thực thông qua video, hình ảnh là hoặc công nghệ 3D để phân tích.
- Xử lý hình ảnh: Các mô hình học sâu tự động hóa thực hiện phần lớn quy trình này, nhưng các mô hình này thường được đào tạo bởi lần đầu được cung cấp hàng nghìn hình ảnh được gắn nhãn hoặc đã được xác định trước.
- Nhật biết hình ảnh: Bước cuối cùng là bước diễn giải, xử lý, nơi một đối tượng được xác định hoặc phân loại.
Các hệ thống AI ngày nay có thể tiến thêm một bước nữa và thực hiện các hành động dựa trên sự hiểu biết về hình ảnh đã thu thập. Có nhiều loại Computer Vision được sử dụng theo những cách khác nhau như:
- Phân đoạn hình ảnh: phân vùng hình ảnh thành cố định nhiều vùng hoặc nhiều mảnh để kiểm tra một cách riêng biệt.
- Phát hiện đối tượng: xác định một đối tượng cụ thể kèm theo thông tin trong ảnh. Tính năng phát hiện đối tượng nâng cao sẽ nhận dạng nhiều đối tượng cùng xuất hiện trong một hình ảnh.
- Nhận dạng khuôn mặt: là một loại phát hiện đối tượng nâng cao, không chỉ nhận dạng khuôn mặt người trong ảnh mà còn nhận dạng và định danh được một cá nhân cụ thể.
- Phát hiện cạnh: là một kỹ thuật được sử dụng để xác định các cạnh bên ngoài của một đối tượng hoặc là nền phong cảnh để xác định rõ hơn những gì có trong ảnh.
- Phát hiện mẫu: là một quá trình nhận dạng các hình dạng giống phát hiện cạnh nhưng lại thiên về màu sắc và cả các chỉ số thị giác khác được lặp lại trong hình ảnh.
- Phân loại hình ảnh: xử lý thông tin nhóm các hình ảnh này thành các loại khác nhau.
- So khớp đặc tính: là một loại phát hiện được các hình ảnh với các điểm có phần tương đồng trong hình ảnh để giúp phân loại chúng tốt hơn.
Cách thức hoạt động và cách vận hành của thị giác học máy tính
Thị giác máy tính là một chuyên ngành đã phát triển từ khá lâu và có nhiều ứng dụng rộng rãi, vị trí quan trọng trong đời sống, giúp cho máy tính có thể “nhìn” được như con người. Nó đã được ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống, các thành tựu nổi bật đáng kể đến như:
- Trong y học, các thuật toán xử lý ảnh cho phép biến đổi hình ảnh được tạo ra từ nguồn bức xạ X-ray hay nguồn bức xạ siêu âm hình ảnh quang học trên bề mặt phim x-quang hoặc là trực tiếp lên bề mặt màn hình hiển thị. Hình ảnh các cơ quan chức năng của con người được xử lý tiếp nâng cao độ tương phản, lọc, tách các phần cần thiết hay tạo ra hình ảnh không gian 3 chiều hay đa chiều (siêu âm ba chiều). Mới nhất hiện nay, thị giác máy tính tạo ra ứng dụng giúp hỗ trợ thị giác cho người mù một cách hiệu quả…
- Trong lĩnh vực địa chất, kỹ thuật làm nổi đường biên và khôi phục hình ảnh từ đó giúp nâng cao chất lượng vệ tinh tạo ra bản đồ địa hình 3D với độ chính xác cực kỳ cao.
- Trong khí tượng học, ảnh thông qua vệ tinh, góp phần đưa ra các thông tin Trái Đất, giúp cho việc dự báo thời tiết toàn cầu được chính xác hơn.
- Trong lĩnh vực hình sự và bảo mật, kiểm soát truy cập, trong quá trình xử lý cũng như nhận dạng vân tay, khuôn mặt hay nhận dạng biển số xe giúp phát hiện nhanh đối tượng nghi vấn, không trung thực cũng như nâng cao quá trình bảo mật, giám sát hay nhận dạng mục tiêu trong lĩnh vực quân sự.
Các ứng dụng thực tiễn của thị giác học máy tính
- Không chỉ thế, thị giác máy tính ứng dụng nhiều trong việc điều khiển tiến trình như các robot trong công nghiệp, hay các thiết bị, xe tự hành hay trong các quá trình kiểm tra trong môi trường công nghiệp, …
- Ngoài ra, thị giác máy tính còn đóng vai trò tương tác (đóng vai trò làm đầu vào cho thiết bị trong quá trình tương tác giữa người và máy).
- Trong lĩnh vực tài chính ngân hàng, công nghệ giúp cho việc xác minh thông tin của khách hàng được nhanh hơn, đúng hơn, đảm bảo hơn, tiết kiệm được nhiều thời gian và nhân sự làm việc, rút ngắn quy trình hoạt động.
Xem thêm: Ứng dụng quan trọng của thị giác máy tính trong lĩnh vực tài chính - ngân hàng
Dù là một trong những xu hướng công nghệ có vai trò cực kỳ quan trọng trong đời sống, nhưng thị giác máy tính vẫn có một số hạn chế như sau:
Việc hiểu mối quan hệ giữa người và đối tượng có trong dữ liệu trực quan đòi hỏi phải có các cảm nhận và các kiến thức cơ bản chung và phức tạp. Vì vậy, các thuật toán thị giác máy tính được sử dụng bởi các mạng xã hội có thể phát hiện các nội dung nhạy cảm, nhưng thường phải khó khăn để phân biệt sự khác biệt giữa ảnh an toàn hay nhạy cảm thực sự.
Những mặt hạn chế của thị giác học máy tính
Phần cốt lõi của thị giác máy tính, các thuật toán học sâu cung cấp sức mạnh cho các ứng dụng thị giác máy tính chính là việc đối chiếu các mẫu pixel. Tuy nhiên, chúng không hiểu những gì đang diễn ra trong các hình ảnh thực tế ra sao.
Thị giác máy tính vẫn chưa hoàn toàn có thể xử lý được sự trừu tượng hay kỹ năng ngôn ngữ, tính nghệ thuật khi được ứng dụng trực tiếp vào các bộ môn hay những vấn đề có liên quan tới nghệ thuật.
Giải pháp duy nhất để giải quyết những vấn đề này là đào tạo các thuật toán AI thông minh với ngày càng nhiều các ví dụ, với hy vọng lượng dữ liệu bổ sung sẽ bao quát mọi tình huống mà AI sẽ gặp phải từ đó ứng dụng vào thị giác máy tính.
Như vậy, qua các thông tin trên, các bạn có thể thấy được thị giác máy tính – Computer Vision đang ngày càng trở nên phổ biến với vai trò đặc biệt quan trọng với toàn thể xã hội. Với sự trợ giúp của hình ảnh và video kỹ thuật số thông minh, máy móc ngày càng xác định và phân loại chính xác các đối tượng cụ thể hơn, qua đó trở thành trợ thủ đắc lực của các nhà sản xuất.
Một trong những cái tên nổi bật cung cấp các ứng dụng liên quan tới thị giác máy tính ở Việt Nam, Vega Fintech giúp cuộc sống của bạn hiện đại hơn, thông minh hơn và dễ dàng hơn.