Cảm biến thị giác, thị giác máy tính, xử lý ảnh (Computer vision) là gì?

Một trong những loại AI (Artificial Intelligence - trí tuệ nhân tạo) mạnh mẽ và hấp dẫn nhất là hệ thống cảm biến thị giác (computer vision) mà bạn có thể trải nghiệm theo bất kỳ cách nào. Định nghĩa, nguyên lý hoạt động của thị giác máy tính và một số thông tin khác sẽ được làm rõ trong nội dung bài blog dưới đây.

I. Hệ thống cảm biến thị giác (computer vision) là gì?

Đây là lĩnh vực khoa học máy tính tập trung vào việc tái tạo các bộ phận phức tạp của hệ thống thị giác của con người, cho phép máy tính xác định và xử lý các đối tượng trong hình ảnh và video giống như cách con người làm. Tuy nhiên, hệ thống cảm biến thị giác đến nay vẫn còn hoạt động trong khả năng hạn chế.

Nhờ những tiến bộ về trí tuệ nhân tạo và sự đổi mới trong việc nghiên cứu chuyên sâu và mạng lưới thần kinh, lĩnh vực này đã có những bước phát triển vượt bậc trong những năm gần đây và đã có thể vượt qua con người trong một số nhiệm vụ liên quan đến phát hiện và dán nhãn đối tượng.

Một trong những yếu tố thúc đẩy sự phát triển của thị giác máy tính là lượng dữ liệu chúng ta tạo ra ngày nay sau đó được sử dụng để đào tạo và cải thiện hệ thống cảm biến thị giác máy tính.

Cùng với một lượng dữ liệu trực quan khổng lồ (hơn 3 tỷ hình ảnh được chia sẻ trực tuyến mỗi ngày), khả năng tính toán cần thiết để phân tích dữ liệu hiện có thể truy cập được. Vì lĩnh vực thị giác máy tính đã phát triển với phần cứng và thuật toán mới nên có tỷ lệ chính xác để nhận dạng đối tượng. Trong vòng chưa đầy một thập kỷ, các hệ thống đã đạt độ chính xác từ 50% lên 99% khi phản ứng nhanh với các yếu tố đầu vào trực quan.

Những thử nghiệm ban đầu về thị giác máy tính bắt đầu từ những năm 1950 và lần đầu tiên nó được sử dụng với mục đích thương mại để phân biệt văn bản đánh máy và viết tay vào những năm 1970, ngày nay các ứng dụng cho thị giác máy tính đã phát triển theo cấp số nhân.

II. Nguyên lý hoạt động.

Ở một mức độ nhất định, hệ thống cảm biến thị giác (computer vision) chính là nhận dạng mẫu. Vì vậy, có một cách để đào tạo cho máy tính cách hiểu dữ liệu trực quan là cung cấp cho nó rất nhiều hình ảnh đã được gắn nhãn và sau đó tuân theo các kỹ thuật phần mềm hoặc thuật toán khác nhau. Từ đó cho phép máy tính tìm ra các mẫu trong tất cả các yếu tố liên quan đến những nhãn đó.

Ví dụ, nếu bạn cung cấp cho máy tính một triệu hình ảnh của mèo, nó sẽ đưa ra các thuật toán cho phép chúng phân tích màu sắc trong ảnh, hình dạng, khoảng cách giữa các hình dạng, nơi các vật thể giáp nhau,... để nó xác định một hồ sơ xem “mèo” có nghĩa là gì. Khi kết thúc, máy tính sẽ có thể sử dụng trải nghiệm của mình nếu được cung cấp các hình ảnh không nhãn khác để tìm những hình ảnh những con mèo.

Dưới đây là một hình minh họa đơn giản về bộ đệm ảnh thang độ xám lưu trữ hình ảnh của chúng ta về Abraham Lincoln. Mỗi độ sáng của pixel được biểu thị bằng một số 8 bit duy nhất, có phạm vi từ 0 (đen) đến 255 (trắng):

Trên thực tế, các giá trị pixel hầu như được lưu trữ phổ biến ở cấp độ phần cứng trong một mảng một chiều. Ví dụ: dữ liệu từ hình ảnh trên được lưu trữ theo cách tương tự như danh sách dài các ký tự không dấu này:

Cách lưu trữ dữ liệu hình ảnh này có thể đi ngược với mong đợi của bạn, vì dữ liệu được hiển thị dường như là hai chiều. Tuy nhiên, trong trường hợp này, bộ nhớ máy tính chỉ bao gồm một danh sách không gian địa chỉ tuyến tính ngày càng tăng.

Hãy quay lại với hình ảnh đầu tiên và tưởng tượng chúng ta bổ sung thêm một màu. Bây giờ mọi thứ bắt đầu trở nên phức tạp hơn. Máy tính thường đọc màu dưới dạng một chuỗi gồm 3 giá trị - đỏ, lục và lam (RGB) - trên cùng một thang từ 0-255. Bây giờ, mỗi pixel thực sự có 3 giá trị cho máy tính để lưu trữ ngoài vị trí của nó. Nếu chúng ta tô màu cho hình ảnh Tổng thống Lincoln, điều đó sẽ dẫn đến các giá trị 12 x 16 x 3, hoặc 576 số.

Bộ nhớ cần cho một hình ảnh như vậy là rất nhiều và có nhiều pixel cho một thuật toán lặp đi lặp lại. Nhưng để đào tạo một mô hình với độ chính xác có ý nghĩa nhất là khi bạn nói về nghiên cứu chuyên sâu, bạn sẽ cần hàng chục ngàn hình ảnh và càng có nhiều kinh nghiệm.

III. Ứng dụng của thị giác máy tính.

1. Dùng cảm biến thị giác vào xe tự lái.

Máy ảnh quay video từ các góc khác nhau xung quanh xe và đưa nó vào phần mềm thị giác máy tính, sau đó xử lý hình ảnh trong thời gian thực để tìm ra điểm cực của đường, đọc biển báo giao thông, phát hiện xe khác, đồ vật và người đi bộ. Chiếc xe tự lái sau đó có thể lái trên đường phố và đường cao tốc, tránh va chạm và đưa hành khách tới điểm đến một cách an toàn.

Ứng dụng của cảm biến thị giác vào xe tự hành agv, các loại robot tự hành, nhận diện

2. Nhận diện khuôn mặt bằng cảm biến thị giác.

Hệ thống cảm biến thị giác (computer vision) cũng đóng một vai trò quan trọng trong các ứng dụng nhận dạng khuôn mặt, công nghệ cho phép máy tính khớp hình ảnh của khuôn mặt người dùng với nhận dạng của họ. Các thuật toán thị giác máy tính phát hiện các đặc điểm khuôn mặt trong hình ảnh và so sánh chúng với cơ sở dữ liệu về cấu hình khuôn mặt. Các thiết bị tiêu dùng sử dụng nhận dạng khuôn mặt để xác thực danh tính của chủ sở hữu. Các ứng dụng truyền thông xã hội sử dụng nhận dạng khuôn mặt để phát hiện và gắn thẻ người dùng. Các cơ quan thực thi pháp luật cũng dựa vào công nghệ nhận dạng khuôn mặt để xác định tội phạm trong nguồn cấp dữ liệu video.

3. Thực tế mở rộng và thực tế hỗn hợp cảm biến thị giác.

Công nghệ này cho phép các thiết bị điện toán như điện thoại thông minh, máy tính bảng và kính thông minh có thể phủ và nhúng các vật thể ảo vào hình ảnh trong thế giới thực. Bằng việc sử dụng thị giác máy tính, thiết bị AR phát hiện các đối tượng trong thế giới thực để xác định các vị trí trên màn hình hiển thị trên thiết bị để đặt một vật thể ảo.

4. Chăm sóc sức khoẻ.

Thuật toán hệ thống cảm biến thị giác có thể giúp tự động hóa các tác vụ như phát hiện nốt ruồi ung thư trong hình ảnh da hoặc tìm triệu chứng khi chụp x-quang và MRI.

5. Dùng cảm biến thị giác để điều khiển robot.

Ứng dụng của tẩm nhìn robot dang được phổ biến rộng rãi vào các robot, các kĩ sư lập trình robot sử dụng thị giác máy tính để điều khiển robot và ứng dụng vào những công việc đòi hỏi cho robot thông minh hơn.

Xu hướng ứng dụng hệ thống cảm biến thị giác (computer vision) ngày càng phổ biến và con người đã tạo ra nhiều tiến bộ vượt bậc. như ứng dụng vào phần mềm quản lý doanh nghiệp, dây chuyền sản xuất, robot công nghiệp tự động. Uniduc hy vọng qua bài viết này, các bạn đã hiểu rõ hơn về thị giác máy tính.

Nguồn: uniduc

Xem thêm: Thị giác máy tính và ứng dụng của thị giác máy tính trong đời sống

Công nghệ AI nhận diện khuôn mặt

Cách khôi phục dữ liệu từ ổ cứng ngoài

Visual Studio Code và lợi thế từ việc sử dụng Visual Studio Code