Đây là một bài kiểm tra dành cho trẻ sơ sinh: Cho xem một cốc nước trên bàn. Che nó sau một tấm gỗ. Di chuyển tấm gỗ về phía cốc. Nếu tấm gỗ đi qua cốc như thể cốc không tồn tại, liệu chúng có ngạc nhiên? Nhiều trẻ 6 tháng tuổi ngạc nhiên, và đến 1 tuổi, hầu hết trẻ có trực giác về sự bền vững của vật thể, học qua quan sát. Nay, một số mô hình trí tuệ nhân tạo cũng vậy.
Các nhà nghiên cứu đã phát triển một hệ AI học về thế giới qua video và thể hiện cảm giác “ngạc nhiên” khi nhận thông tin trái với những gì nó đã rút ra.
Mô hình do Meta tạo ra, gọi là Video Joint Embedding Predictive Architecture (V-JEPA), không đưa ra giả định nào về vật lý của thế giới trong video. Dù vậy, nó bắt đầu hiểu cách thế giới vận hành.
“Một cách tiên nghiệm, các tuyên bố của họ rất đáng tin, và kết quả cực kỳ thú vị,” Micha Heilbron, nhà khoa học nhận thức tại Đại học Amsterdam—nghiên cứu cách não và hệ thống nhân tạo hiểu thế giới—nhận xét.
Các Tầng Trừu Tượng Cao Hơn
Như các kỹ sư xe tự lái biết, thật khó để khiến AI nhất quán khi “hiểu” những gì nó thấy. Hầu hết hệ thống thiết kế để “hiểu” video nhằm phân loại nội dung (“một người chơi tennis”, chẳng hạn) hoặc nhận diện đường biên của vật thể—ví dụ, chiếc xe phía trước—hoạt động trong “không gian pixel”. Mô hình coi mọi pixel trong video đều quan trọng như nhau.
Nhưng các mô hình không gian pixel có giới hạn. Hãy thử hiểu một con phố ngoại ô. Nếu có xe, đèn giao thông và cây, mô hình có thể quá chú ý đến các chi tiết không liên quan như chuyển động của lá cây. Nó có thể bỏ lỡ màu đèn hoặc vị trí xe gần đó. “Khi làm với ảnh hay video, bạn không muốn làm trong không gian pixel vì có quá nhiều chi tiết bạn không muốn mô hình hóa,” Randall Balestriero, nhà khoa học máy tính tại Brown, nói.

Kiến trúc V-JEPA, ra mắt năm 2024, được thiết kế để tránh các vấn đề này. Dù chi tiết của các mạng nơ-ron nhân tạo trong V-JEPA phức tạp, ý tưởng cơ bản lại đơn giản.
Các hệ pixel truyền thống đào tạo bằng cách che một số pixel trong các khung hình video và huấn luyện mạng để dự đoán giá trị các pixel bị che. V-JEPA cũng che một phần khung hình. Nhưng nó không dự đoán những gì sau vùng che ở cấp độ pixel riêng lẻ. Thay vào đó, nó dùng các tầng trừu tượng cao hơn, hay “biểu diễn tiềm ẩn”, để mô hình hóa nội dung.
Biểu diễn tiềm ẩn chỉ nắm bắt chi tiết cốt lõi của dữ liệu. Ví dụ, với hình vẽ đường nét các hình trụ, một mạng gọi là encoder có thể học cách chuyển mỗi ảnh thành các con số biểu diễn thuộc tính nền tảng của hình trụ, như chiều cao, chiều rộng, hướng và vị trí. Bằng cách đó, thông tin chứa trong hàng trăm hay hàng nghìn pixel được chuyển thành vài con số—biểu diễn tiềm ẩn. Một mạng khác gọi là decoder học cách chuyển các chi tiết cốt lõi đó thành hình ảnh của hình trụ.
V-JEPA tập trung vào tạo và tái tạo các biểu diễn tiềm ẩn. Ở cấp cao, kiến trúc chia làm ba phần: encoder 1, encoder 2 và một bộ dự đoán. Trước tiên, thuật toán huấn luyện lấy một tập khung hình video, che cùng một tập pixel ở mọi khung, và đưa vào encoder 1. Đôi khi, vài khung cuối của video bị che toàn bộ. Encoder 1 chuyển các khung bị che thành biểu diễn tiềm ẩn. Thuật toán cũng đưa các khung không che vào encoder 2, chuyển chúng thành một tập biểu diễn tiềm ẩn khác.
Bây giờ bộ dự đoán vào cuộc. Nó dùng biểu diễn tiềm ẩn từ encoder 1 để dự đoán đầu ra của encoder 2. Về bản chất, nó lấy các biểu diễn tạo từ khung bị che để dự đoán các biểu diễn tạo từ khung không che. Bằng việc tái tạo biểu diễn tiềm ẩn liên quan, thay vì pixel bị thiếu như hệ trước đây, mô hình học cách “nhìn” xe trên đường và không bận tâm về lá cây.
“Điều này giúp mô hình loại bỏ thông tin không cần thiết… và tập trung vào khía cạnh quan trọng hơn của video,” Quentin Garrido, nhà nghiên cứu tại Meta, nói. “Loại bỏ thông tin thừa rất quan trọng và là điều V-JEPA hướng tới làm hiệu quả.”
Sau giai đoạn tiền huấn luyện này, bước tiếp theo là điều chỉnh V-JEPA cho các tác vụ cụ thể như phân loại ảnh hoặc nhận diện hành động trong video. Giai đoạn thích nghi này cần một số dữ liệu gán nhãn bởi con người. Ví dụ, video phải được gắn thẻ thông tin về hành động trong đó. Việc thích nghi cho tác vụ cuối cùng cần ít dữ liệu gán nhãn hơn nhiều so với huấn luyện toàn bộ hệ thống đầu-cuối cho từng tác vụ hạ nguồn. Ngoài ra, cùng bộ encoder và predictor có thể được điều chỉnh cho các nhiệm vụ khác nhau.
Bắt Chước Trực Giác
Tháng 2, nhóm V-JEPA báo cáo cách hệ thống hiểu các thuộc tính vật lý trực giác của thế giới thực—như tính bền vững của vật thể, sự ổn định của hình dạng và màu sắc, và tác động của trọng lực, va chạm. Trên bài kiểm tra IntPhys, yêu cầu mô hình AI xác định hành động trong video có khả thi vật lý hay không, V-JEPA đạt gần 98% chính xác. Một mô hình nổi tiếng dự đoán trong không gian pixel chỉ nhỉnh hơn chọn ngẫu nhiên đôi chút.

Nhóm cũng định lượng rõ “sự ngạc nhiên” khi mô hình dự đoán không khớp với quan sát. Họ lấy V-JEPA tiền huấn luyện trên video tự nhiên, cho nó xem video mới, rồi tính toán chênh lệch giữa những gì V-JEPA kỳ vọng ở các khung tương lai và những gì thực sự xảy ra. Họ thấy lỗi dự đoán tăng vọt khi khung tương lai chứa sự kiện bất khả về vật lý. Ví dụ, nếu một quả bóng lăn sau vật che và tạm biến mất, mô hình tạo lỗi khi quả bóng không xuất hiện lại từ sau vật che ở các khung tiếp theo. Phản ứng giống trực giác ở trẻ sơ sinh. Có thể nói V-JEPA “ngạc nhiên”.
Heilbron ấn tượng với khả năng của V-JEPA. “Chúng ta biết từ tài liệu phát triển rằng trẻ không cần quá nhiều phơi nhiễm để học các loại vật lý trực giác này,” ông nói. “Thật thuyết phục khi họ cho thấy điều này có thể học được ngay từ đầu, và bạn không cần mang theo các ‘tiên nghiệm’ bẩm sinh.”
Karl Friston, nhà thần kinh tính toán tại University College London, cho rằng V-JEPA đi đúng hướng trong việc bắt chước “cách não chúng ta học và mô hình hóa thế giới.” Tuy vậy, nó còn thiếu vài yếu tố nền tảng. “Thiếu trong đề xuất hiện tại là mã hóa đúng đắn cho bất định,” ông nói. Ví dụ, nếu thông tin trong các khung quá khứ không đủ để dự đoán chính xác khung tương lai, dự đoán là bất định, và V-JEPA không định lượng bất định này.
V-JEPA 2 Và Ứng Dụng Robot
Tháng 6, nhóm Meta ra mắt mô hình thế hệ tiếp theo 1,2 tỷ tham số, V-JEPA 2, tiền huấn luyện trên 22 triệu video. Họ cũng áp dụng mô hình cho robot: Họ cho thấy cách tinh chỉnh thêm một bộ dự đoán mới chỉ dùng khoảng 60 giờ dữ liệu robot (gồm video robot và thông tin hành động), rồi dùng mô hình tinh chỉnh để lên kế hoạch hành động tiếp theo của robot. “Một mô hình như vậy có thể giải các nhiệm vụ thao tác đơn giản và mở đường cho các nghiên cứu tiếp theo,” Garrido nói.
Để “đẩy” V-JEPA 2, nhóm thiết kế một chuẩn khó hơn cho hiểu vật lý trực giác, gọi là IntPhys 2. V-JEPA 2 và các mô hình khác chỉ nhỉnh hơn ngẫu nhiên đôi chút ở các bài khó này. Một lý do, Garrido nói, là V-JEPA 2 chỉ xử lý được khoảng vài giây video đầu vào và dự đoán vài giây tương lai. Bất kỳ dài hơn đều bị “quên”. Bạn có thể lại so sánh với trẻ nhỏ, nhưng Garrido nghĩ đến sinh vật khác. “Theo một nghĩa nào đó, bộ nhớ của mô hình gợi nhớ đến cá vàng,” ông nói.






