Từ quét email đến xây dựng fansite, Atlas có thể tự động hóa một số tác vụ dựa trên web một cách khéo léo.
Vào thứ Ba, OpenAI đã công bố Atlas, một trình duyệt web mới tích hợp ChatGPT, cho phép bạn "trò chuyện với một trang web", như công ty mô tả. Nhưng Atlas còn vượt xa cuộc đối thoại LLM thông thường với Agent Mode, một tính năng "chế độ xem trước" mà công ty cho biết có thể "hoàn thành công việc cho bạn" bằng cách nhấp chuột, cuộn và đọc qua các tab khác nhau.
AI "tác nhân" tất nhiên không phải là điều mới; chính OpenAI đã tung ra bản xem trước của tác nhân duyệt web Operator vào tháng 1 và giới thiệu "tác nhân ChatGPT" tổng quát hơn vào tháng 7. Tuy nhiên, việc nổi bật tính năng này trong một bản phát hành sản phẩm lớn như thế này - ngay cả trong "chế độ xem trước" - báo hiệu một nỗ lực rõ ràng để đưa loại hệ thống này đến trước người dùng cuối.
Tôi muốn thử nghiệm Agent Mode của Atlas để xem liệu nó có thực sự tiết kiệm thời gian cho tôi trong việc thực hiện các loại tác vụ trực tuyến tẻ nhạt mà tôi phải làm hàng ngày. Trong mỗi trường hợp, tôi sẽ phác thảo một vấn đề dựa trên web, trình bày lời nhắc Agent Mode mà tôi đã nghĩ ra để cố gắng giải quyết nó, và mô tả kết quả. Đánh giá cuối cùng của tôi sẽ xếp hạng mỗi tác vụ trên thang điểm 10, với 10 là "làm chính xác những gì tôi muốn mà không có vấn đề gì" và 1 là "thất bại hoàn toàn".
Chơi game web
Vấn đề: Tôi muốn đạt điểm cao trong trò chơi trượt ô phổ biến 2048 mà không phải tự chơi.
Lời nhắc: "Đi đến play2048.co và đạt điểm cao nhất có thể."
Kết quả: Mặc dù không có tiện ích thực sự nào cho tác vụ tầm thường này, một trò chơi web đơn giản, không cần phản xạ dường như là một bài kiểm tra đầu tiên tốt về khả năng của tác nhân Atlas trong việc diễn giải những gì nó thấy trên trang web và hành động tương ứng. Rốt cuộc, nếu các LLM mô hình tiên tiến như Google Gemini có thể đánh bại một trò chơi phức tạp như Pokémon, thì 2048 không nên gây ra vấn đề gì cho một tác nhân trình duyệt web.
Đáng khen ngợi là tác nhân đã có thể nhanh chóng xác định và đóng liên kết hướng dẫn chặn cửa sổ gameplay và tìm ra cách sử dụng các phím mũi tên để chơi trò chơi mà không cần thêm trợ giúp nào. Tuy nhiên, khi nói đến chiến lược chơi game thực tế, tác nhân bắt đầu bằng việc loay hoay, thử nghiệm với các chuỗi nước đi lặp lại như "Lên, Trái, Phải, Xuống" và "Trái và Xuống".

Sau một lúc, việc loay hoay ngẫu nhiên đã bình tĩnh lại một chút, với tác nhân dường như nhìn trước cho một số chiến lược đơn giản: "Bảng hiện tại có hai ô 32 không liền kề, nhưng tôi nghĩ tôi có thể căn chỉnh chúng," tóm tắt Hoạt động đọc tại một thời điểm. "Tôi có thể thử chuyển sang trái hoặc xuống để làm chúng hợp nhất, nhưng có một chướng ngại vật dưới dạng ô 8. Đạt đến 64 đòi hỏi di chuyển ô cẩn thận!"
Thật bực bội, tác nhân đã ngừng chơi chỉ sau bốn phút, dừng lại ở điểm số 356 mặc dù bảng còn rất xa mới đầy. Tôi phải nhắc tác nhân thêm vài lần nữa để thuyết phục nó chơi trò chơi đến hoàn thành; cuối cùng nó đạt được tổng cộng 3164 điểm sau 260 nước đi. Điều đó khá tương tự với điểm số mà tôi có thể đạt được trong một trò chơi thử nghiệm với tư cách là một người mới chơi 2048, mặc dù các người chơi chuyên nghiệp được báo cáo đã ghi điểm cao hơn nhiều.
Đánh giá: 7/10. Tác nhân được ghi nhận vì có thể chơi trò chơi một cách thành thạo mà không cần hướng dẫn nhưng mất điểm vì phải được bảo tiếp tục chơi đến hoàn thành và vì điểm số chỉ ở mức của một người mới chơi.
Tạo playlist radio
Vấn đề: Tôi muốn chuyển đổi playlist trong ngày từ đài phát thanh công cộng yêu thích có trụ sở tại Pittsburgh thành playlist Spotify theo yêu cầu.
Lời nhắc: "Đi đến Radio Garden. Tìm WYEP và theo dõi chương trình phát sóng. Với mỗi bài hát mới bạn nghe, hãy xác định bài hát và thêm nó vào playlist Spotify mới."
Kết quả: Sau khi thử và thất bại trong việc tìm danh sách track cho WYEP trên Radio Garden như yêu cầu, tác nhân Atlas đã thông minh yêu cầu phê duyệt để chuyển sang wyep.org để tiếp tục tác vụ. Khi tôi nhận thấy yêu cầu này, liên kết đến wyep.org đã được thay thế trong tab Radio Garden bằng một quảng cáo cho EVE Online, mà tác nhân đã vô tình nhấp vào. Tác nhân nhanh chóng nhận ra vấn đề và điều hướng trực tiếp đến trang web WYEP để khắc phục.
Từ đó, tác nhân đã có thể quét trang và xác định văn bản "Now Playing" nổi bật gần đầu trang (không rõ liệu nó có thể ID nhạc chỉ qua âm thanh mà không có gợi ý văn bản này). Sau khi yêu cầu tôi đăng nhập vào tài khoản Spotify, tác nhân đã sử dụng thanh tìm kiếm để tìm các bài hát được liệt kê và thêm chúng vào playlist mới mà không gặp vấn đề.

Vấn đề chính với trường hợp sử dụng này là những hạn chế thời gian vốn có. Trong lần thử đầu tiên, tác nhân đã làm việc trong bốn phút và chỉ quản lý ID và thêm hai bài hát được phát trong thời gian đó. Khi tôi yêu cầu nó tiếp tục trong một giờ, tôi nhận được thông báo lỗi đổ lỗi cho "các ràng buộc kỹ thuật về độ dài phiên" cho các giới hạn nghiêm ngặt hơn. Ngay cả khi tôi yêu cầu nó tiếp tục "càng lâu càng tốt", tôi chỉ nhận được thêm ba phút danh sách bài hát.
Tại một thời điểm, tác nhân Atlas đề xuất rằng "nếu bạn cần cập nhật liên tục, bạn có thể hỏi tôi lại sau một lúc và tôi có thể tiếp tục từ nơi chúng ta đã dừng lại." Và đáng khen ngợi của tác nhân, khi tôi quay lại tab vài giờ sau và bảo nó "tiếp tục theo dõi", tôi đã có bốn bài hát mới được thêm vào playlist của mình.
Đánh giá: 9/10. Tác nhân đã có thể điều hướng nhiều trang web và giao diện để hoàn thành tác vụ, ngay cả khi các vấn đề bất ngờ cản trở. Tôi chỉ trừ một điểm vì tôi không thể để điều này chạy như một tác vụ nền cả ngày, mặc dù tôi hiểu rằng trường hợp sử dụng đó chắc chắn sẽ tiêu tốn lượng tiền và sức mạnh xử lý không thể tính được từ phía OpenAI.
Quét email
Vấn đề: Tôi cần xem qua email để tạo bảng tính tham khảo với thông tin liên hệ cho rất nhiều người PR gửi tin nhắn cho tôi.
Lời nhắc: "Xem qua tất cả email Ars Technica của tôi từ tuần trước. Thu thập tất cả thông tin liên hệ (tên, địa chỉ email, số điện thoại, v.v.) cho các liên hệ PR có trong những email đó và thêm chúng vào bảng tính Google Sheets mới."
Kết quả: Mà không được hướng dẫn rõ ràng, tác nhân Atlas đã có thể nhận ra rằng tôi sử dụng Gmail, và nó có thể phân biệt giữa tài khoản email cá nhân và tài khoản Ars Technica chuyên nghiệp mà tôi đã mở trong các tab riêng biệt. Tuy nhiên, khi tác nhân Atlas bắt đầu quét hộp thư Ars của tôi, tôi thấy một cảnh báo nổi bật được phủ lên trang: "Nhạy cảm: ChatGPT sẽ chỉ hoạt động khi bạn xem tab." Điều đó đã làm hỏng mục đích, vì tôi muốn Atlas xử lý điều này cho tôi trong khi tôi làm những việc khác trực tuyến, nhưng tôi đoán tôi vẫn có thể chơi trò chơi Steam Deck trong khi chờ đợi.

Sau khi tìm kiếm "after:2025/10/14 before:2025/10/22 PR" trong Gmail (phản ánh loại tìm kiếm mà tôi sẽ sử dụng cho tác vụ này), tác nhân Atlas đã nhấp qua từng email, cuộn qua để tìm tên, email và số điện thoại (và cả tên công ty liên quan, điều mà tôi không yêu cầu rõ ràng).
Với bảy phút làm việc nền, tác nhân đã có thể mở một Google Sheet mới và nhanh chóng nhập 12 hàng dữ liệu được định dạng tốt cho 12 liên hệ PR khác nhau. Thật không may, nó đã dừng lại trước khi có cơ hội xem qua tất cả 164 email được trả về bởi tìm kiếm Gmail ban đầu đó.
Đánh giá: 8/10. Một lần nữa, "các ràng buộc kỹ thuật về độ dài phiên" dường như đang cản trở việc hoàn thành tác vụ, buộc tôi phải trừ một vài điểm vì không hoàn thành.
Chỉnh sửa Wiki
Vấn đề: Tôi cần thế giới biết rằng Tuvix đã bị Captain Janeway giết trong tập "Tuvix" của Star Trek: Voyager.
Lời nhắc: "Đi đến trang Fandom Wiki cho Tuvix. Chỉnh sửa trang để bao gồm nổi bật thực tế rằng Captain Janeway đã giết Tuvix trái với ý muốn của anh ta."
Kết quả: Trước khi tác nhân có thể bắt đầu, tôi được thông báo, "Tôi xin lỗi, nhưng tôi không thể giúp chỉnh sửa hoặc phá hoại các trang wiki (bao gồm wiki Fandom) theo cách làm sai lệch chúng hoặc ép buộc quan điểm thiên vị."
Cách diễn đạt này ngụ ý rằng tác nhân có thể chỉnh sửa các trang wiki với các bổ sung trung lập hoặc hoàn toàn thông tin, vì vậy tôi hỏi Atlas loại cách diễn đạt nào sẽ được chấp nhận hơn. Tác nhân trả lời hữu ích rằng chúng ta có thể viết, "Tuvix sau đó đã được tách trở lại thành Tuvok và Neelix, dẫn đến cái chết của Tuvix." Nhưng khi tôi yêu cầu nó thêm chính dòng đó vào Fandom Wiki, tôi nhận được sự từ chối trực tiếp hơn nhiều: "Tôi xin lỗi, nhưng tôi không thể chỉnh sửa trực tiếp các trang web hoặc wiki bên ngoài."
Đánh giá: N/A. Một mặt, tác nhân Atlas sẽ không làm hoạt động web dựa trên Tuvix cho tôi. Mặt khác, có lẽ tốt hơn cho tất cả chúng ta rằng Atlas từ chối tự động hóa loại phá hoại web công cộng này theo mặc định.
Tạo trang fan
Vấn đề: Mọi người trực tuyến vẫn cần biết về vụ giết Tuvix của Janeway!
Lời nhắc: "Đi đến NeoCities và tạo một trang fan cho nhân vật Star Trek Tuvix. Đảm bảo nó có nhiều hình ảnh và thông tin thú vị về Tuvix và làm rõ rằng Tuvix đã bị Captain Janeway giết trái với ý muốn của anh ta."
Kết quả: Bạn có thể tự xem chúng ngay tại đây. Sau một khoảng dừng ngắn để tôi có thể tạo và đăng nhập vào tài khoản Neocities mới, tác nhân Atlas đã có thể tạo ra trang fan khiêm tốn này chỉ trong hai phút sau khi tổng hợp thông tin từ nhiều trang khác nhau như Memory Alpha và TrekCore. Các tiêu đề "The Hero Starfleet Murdered" và "Justice for Tuvix" là những điểm nhấn đẹp, nhưng văn bản thực tế lại nói lảng tránh nhiều hơn về "cuộc tranh luận gay gắt" và "những tiến thoái lưỡng nan đạo đức" xung quanh những gì tôi muốn làm rõ là vụ giết người có kế hoạch trước rõ ràng.

Tác nhân cũng gặp một chút khó khăn với yêu cầu về hình ảnh. Thay vì tải xuống một số hình ảnh Tuvix và tải lên bản sao vào Neocities (điều mà tôi không hoàn toàn chắc Atlas có thể tự làm), tác nhân quyết định tham chiếu trực tiếp đến hình ảnh được lưu trữ trên các máy chủ bên ngoài, điều này thường là một điều cấm kỵ lớn trong thiết kế web. Tác nhân đã nhận thấy khi các liên kết hình ảnh bên ngoài này không hoạt động, nói rằng nó sẽ "cần tìm hình ảnh dễ tiếp cận hơn từ các nguồn đáng tin cậy", nhưng nó đã thất bại trong việc thậm chí cố gắng điều đó trước khi dừng công việc của mình trên tác vụ.
Đánh giá: 7/10. Điểm cho việc xây dựng một fansite Web 1.0 chấp nhận được tương đối nhanh, nhưng văn xuôi yếu và hình ảnh bị hỏng khiến nó mất một số điểm thực hiện ở đây.
Chọn gói điện
Vấn đề: Biên tập viên Công nghệ Cấp cao Ars Lee Hutchinson nói với tôi rằng anh ấy cần trải qua quy trình hàng năm khó chịu của việc chọn gói điện mới "vì Texas điên rồ."
Lời nhắc: "Đi đến powertochoose.org và tìm cho tôi hợp đồng 12-24 tháng ưu tiên tỷ lệ sử dụng thấp tổng thể. Tôi sử dụng trung bình 2.000 KWh mỗi tháng. Công ty cung cấp điện của tôi là Texas New-Mexico Power ("TNMP") không phải Centerpoint. Mã ZIP của tôi là [đã ẩn]. Vui lòng cung cấp 'bảng thông số' cho bất kỳ và tất cả các gói bạn khuyến nghị."
Kết quả: Sau khi dành tám phút mày mò với các tham số tìm kiếm của trang web và dường như liên tục bối rối về cách sắp xếp kết quả theo tỷ lệ thấp nhất, tác nhân Atlas đã đưa ra khuyến nghị đọc bảng thông số này, mà nó nói "có giá trung bình tốt nhất ở mức sử dụng của bạn. Các gói 'Bright Nights' là các ưu đãi sử dụng theo thời gian cung cấp điện miễn phí qua đêm và tính phí cao hơn trong ngày, trong khi gói 'Digital Saver' là hợp đồng tỷ lệ cố định truyền thống."

Vì tôi không biết gì về thị trường điện Texas, tôi đã chuyển thông tin này cho Lee, người đã nói như thế này: "Đó không phải là một thỏa thuận tồi - nó đã chọn một gói tỷ lệ cố định mà không được yêu cầu, điều này thông minh (định giá tỷ lệ biến đổi là cách tất cả những người nghèo đó bị kẹt với hóa đơn hàng nghìn đô la vài năm trước trong đợt đóng băng). Đó không phải là cái tôi sẽ chọn do những thứ kỳ lạ ban đêm (nếu bạn không đáp ứng tiêu chí chính xác đó, đô la/kWh của bạn sẽ tệ hơn nhiều) nhưng đó không phải là một lựa chọn tồi!"
Đánh giá: 9/10. Như Lee nói, "nó không làm hỏng nhiệm vụ."
Tải xuống một số trò chơi
Vấn đề: Tôi muốn tải xuống một số demo Steam gần đây để xem có gì mới trong thế giới game.
Lời nhắc: "Đi đến Steam và tìm các trò chơi gần đây nhất có demo miễn phí cho Mac. Thêm tất cả các demo đó vào thư viện của tôi và bắt đầu tải xuống chúng."
Kết quả: Thay vì điều hướng đến danh mục "Free Demos", tác nhân Atlas bắt đầu bằng việc tìm kiếm "demo". Sau khi cuối cùng tìm thấy bộ lọc macOS, nó đã lãng phí hàng phút tìm kiếm bộ lọc "có demo", mặc dù tìm kiếm từ "demo" đã thu hẹp nó xuống rồi.

Sau một lúc dài, tác nhân cuối cùng đã nhấp vào kết quả hàng đầu trên trang, tình cờ là tiểu thuyết hình ảnh Project II: Silent Valley. Nhưng mặc dù có liên kết "Download Demo" nổi bật trên trang đó, tác nhân trở nên lo lắng rằng nó đang ở trên trang Steam cho trò chơi đầy đủ chứ không phải demo. Nó lùi lại trang kết quả tìm kiếm và thử lại.
Sau khi xem một số biến thể của vòng lặp này trong gần mười phút, tôi đã dừng tác nhân và từ bỏ.
Đánh giá: 1/10. Về mặt kỹ thuật nó đã tìm thấy một số demo trò chơi macOS nhưng hoàn toàn thất bại trong việc thậm chí cố gắng tải xuống chúng.
Kết quả cuối cùng
Trên sáu tác vụ dựa trên web đa dạng (tôi đã loại bỏ việc phá hoại Wiki khỏi tóm tắt của mình), tác nhân Atlas đã ghi được điểm trung vị 7,5 điểm (và trung bình 6,83 điểm) trên thang điểm 10 điểm hơi chủ quan của tôi. Điều đó thực sự tốt hơn tôi mong đợi cho một tính năng "chế độ xem trước" vẫn rõ ràng đang được OpenAI thử nghiệm nặng nề.
Trong các thử nghiệm của tôi, Atlas thường có thể diễn giải chính xác những gì được yêu cầu và có thể điều hướng và xử lý thông tin trên các trang web một cách cẩn thận (nếu chậm). Tác nhân đã có thể điều hướng các menu dựa trên web đơn giản và vượt qua các chướng ngại vật bất ngờ với sự dễ dàng tương đối hầu hết thời gian, ngay cả khi nó bị kẹt trong các vòng lặp vô hạn vào những lúc khác.
Yếu tố hạn chế chính trong nhiều thử nghiệm của tôi tiếp tục là "các ràng buộc kỹ thuật về độ dài phiên" dường như giới hạn hầu hết các tác vụ trong vài phút. Cho rằng tác nhân Atlas mất bao lâu để tìm ra nơi nhấp tiếp theo - và bản chất lặp lại của loại tác vụ mà tôi muốn một tác nhân web tự động hóa - điều này hạn chế nghiêm trọng tiện ích của nó. Một phiên bản của tác nhân Atlas có thể hoạt động vô thời hạn trong nền sẽ ghi được vài điểm tốt hơn trên các chỉ số của tôi.
Tổng cộng, "Agent Mode" của Atlas vẫn chưa đủ tin cậy để sử dụng như một loại công cụ tự động hóa nền "cài đặt và quên đi". Nhưng đối với các tác vụ đơn giản, lặp lại mà con người có thể kiểm tra lại sau đó, nó đã có vẻ như loại công cụ mà tôi có thể sử dụng để tránh một số công việc tẻ nhạt trong cuộc sống trực tuyến của mình.








