Chỉnh sửa ảnh, phân tích cảnh quay giám sát và hiểu các phần của tế bào. Các tác vụ này có một điểm chung: bạn cần có khả năng xác định và tách các đối tượng khác nhau trong một hình ảnh. Theo truyền thống, các nhà nghiên cứu phải bắt đầu lại từ đầu mỗi khi họ muốn phân tích một phần mới của hình ảnh.
Meta nhằm mục đích thay đổi quy trình tốn nhiều công sức này bằng cách trở thành điểm dừng duy nhất cho các nhà nghiên cứu và nhà phát triển web giải quyết các vấn đề như vậy. Vào thứ Tư, công ty đã phát hành một mô hình AI, được gọi là “Mô hình bất kỳ phân đoạn” hoặc “SAM”. Qua đó người dùng có thể tạo “các phần cắt” hoặc các phân đoạn của bất kỳ mục nào trong hình ảnh bằng cách nhấp vào một điểm hoặc vẽ một hộp xung quanh đối tượng. Công cụ này có thể được sử dụng cho mục đích nghiên cứu, để chỉnh sửa sáng tạo hoặc thậm chí để hiểu các đối tượng khi đeo tai nghe VR bằng cách giúp việc khắc các phần khác nhau của hình ảnh nhanh hơn và hiệu quả hơn.
Công ty công nghệ đã tung ra công chúng công cụ dựa trên trình duyệt này và cũng mã nguồn mở mô hình thị giác máy tính của mình, mô hình mà họ tuyên bố là được đào tạo trên “bộ dữ liệu phân đoạn lớn nhất” gồm 1,1 tỷ mặt nạ phân đoạn (“mặt nạ” là các phần khác nhau của hình ảnh) và 11 triệu hình ảnh được cấp phép từ một công ty ảnh lớn. Meta không tiết lộ công ty nào đã cấp phép hình ảnh. Meta AI, bộ phận nghiên cứu trí tuệ nhân tạo của gã khổng lồ truyền thông xã hội, đã làm việc với 130 nhà chú thích con người có trụ sở tại Kenya để tạo ra bộ dữ liệu, được thực hiện thông qua sự kết hợp giữa gắn nhãn thủ công và tự động cho một tỷ phần của hàng triệu hình ảnh.


Các công nghệ nhận dạng đối tượng và thị giác máy tính đã xuất hiện trong nhiều năm và đã được tích hợp trong nhiều thiết bị khác nhau như camera giám sát và máy bay không người lái. Ví dụ, các cửa hàng của Amazon sử dụng tính năng nhận dạng đối tượng để phát hiện các mặt hàng bạn cho vào giỏ và các phương tiện tự lái sử dụng tính năng này để nhận biết môi trường xung quanh.
Các công ty khởi nghiệp đương đại như Runway và những công ty đương nhiệm như Adobe đã thương mại hóa khả năng sử dụng AI để phát hiện và chọn các đối tượng khác nhau trong một hình ảnh cho người dùng sáng tạo của họ. Khi các chatbot AI sáng tạo hấp dẫn xuất hiện, mục tiêu của các nhà nghiên cứu AI tại Meta là hợp nhất sự tiến bộ trong các mô hình nền tảng AI với lĩnh vực công nghệ thị giác máy tính đang ngủ yên.
Thông báo này được đưa ra đồng thời khi Meta được cho là có kế hoạch sử dụng AI tổng quát cho các quảng cáo trên Instagram và Facebook. Không muốn bỏ lỡ những tin đồn xung quanh AI, Giám đốc điều hành Mark Zuckerberg đã thông báo rằng ông đang tạo ra một nhóm sản phẩm mới chỉ tập trung vào việc xây dựng các công cụ AI tổng quát như nhân vật nhân tạo, bộ lọc Instagram và các tính năng dựa trên trò chuyện trong WhatsApp và Instagram. Zuckerberg được cho là dành phần lớn thời gian của mình cho nhóm AI mới.
Các nhà nghiên cứu Meta AI Alexander Kirillov và Nikhila Ravi cho biết, công cụ SAM được xây dựng cho những người không có cơ sở hạ tầng AI hoặc dung lượng dữ liệu để tạo mô hình của riêng họ để “phân đoạn” hoặc xác định các thành phần khác nhau của hình ảnh. “Điều này đang diễn ra trong thời gian thực trong trình duyệt và điều đó làm cho mô hình này dễ tiếp cận hơn với nhiều người hơn vì họ không cần phải chạy nhiều thứ trên GPU…Chúng tôi có thể kích hoạt nhiều trường hợp sử dụng cạnh hơn mà một số phương pháp khác có thể không cho phép,” Ravi nói.
Nhưng có những hạn chế của mô hình thị giác máy tính được đào tạo trên cơ sở dữ liệu hình ảnh hai chiều, Powers nói. Ví dụ: để công cụ phát hiện và chọn một điều khiển từ xa bị lộn ngược, nó cần được huấn luyện về các hướng khác nhau của cùng một đối tượng. Ông nói, các mô hình được đào tạo trên hình ảnh 2D sẽ không giúp phát hiện những hình ảnh bị che một phần hoặc lộ một phần. Điều này có nghĩa là nó sẽ không xác định chính xác các đối tượng không được tiêu chuẩn hóa thông qua tai nghe AR/VR hoặc nó sẽ không phát hiện các đối tượng bị che một phần trong không gian công cộng nếu được sử dụng bởi nhà sản xuất xe tự lái.