Tuần này, Microsoft đã tích hợp một tính năng mới có tên là “Sử dụng máy tính” vào Copilot Studio. Tính năng này cho phép các đại lý AI tương tác trực tiếp với các trang web và ứng dụng máy tính để bàn. Tương tự như nhà điều hành của Openai hoặc “Sử dụng máy tính” của Claude (có tên tương tự), giờ đây các doanh nghiệp có thể tận dụng Copilot Studio để xây dựng các đại lý AI có thể thao tác trên các trang web và ứng dụng như các công cụ thực, giúp tự động hóa nhiều nhiệm vụ.
alt=”” >
Microsoft Copilot Studio
Ông Charles Lamanna, phó chủ tịch của Tập đoàn Copilot cho các doanh nghiệp và ngành công nghiệp của Microsoft, giải thích: “Máy tính sử dụng máy tính cho phép các tác nhân tương tác vào trang web và ứng dụng máy tính để bàn bằng cách nhấp vào nút, chọn các tùy chọn trong menu và nhập dữ liệu vào các trường trên màn hình. Điều này giúp các yếu tố có thể xử lý hoạt động ngay cả khi không có API kết nối trực tiếp với hệ thống.
alt=”” >
Với Copilot Studio, các doanh nghiệp sẽ có thể tạo ra các đại lý AI có khả năng tự động hóa các công việc như đầu vào, nghiên cứu thị trường hoặc thậm chí xử lý hóa đơn. Theo Microsoft, công cụ mới này cũng có khả năng tự động xác định các thay đổi trong giao diện nút hoặc bố cục màn hình của ứng dụng hoặc trang web, do đó tiếp tục hoạt động suôn sẻ mà không gặp lỗi.
Trước đó, vào đầu tháng này, Microsoft cũng đã giới thiệu một tính năng tương tự có tên Action với phiên bản người dùng Copilot. Hành động có thể hoạt động dưới lòng đất trong khi người dùng thực hiện các công việc khác. Bây giờ, Copilot có thể giúp người dùng thực hiện các nhiệm vụ như đặt phòng tại nhà hàng, mua các sự kiện và mua sắm trực tuyến. Tuy nhiên, trải nghiệm hành động hiện tại vẫn còn giới hạn ở một số đối tác nhất định. Ngược lại, Copilot Studio dường như linh hoạt hơn trong việc tương tác với nhiều trang web và ứng dụng khác nhau.
Nhà điều hành Openai
Một bản xem trước nghiên cứu của nhà điều hành, một đại lý có thể sử dụng trình duyệt của riêng mình để thực hiện các nhiệm vụ cho bạn. pic.twitter.com/wkbbdilililililililililililililililililililililililililililililililililililililililiLant
– Openai (@openai) Ngày 23 tháng 1 năm 2025
Trước đó, Openai cũng đã ra mắt Nhà điều hành, một trợ lý AI mới để “Surf the Web” và làm mọi thứ để giúp người dùng. Tác nhân AI này sẽ được cung cấp riêng cho người dùng gói Pro TATGPT ở Mỹ trong giai đoạn đầu.
Một tính năng đặc biệt của toán tử là khả năng “truy cập internet và thực hiện các tác vụ theo yêu cầu”. Openai mô tả rằng, “Sử dụng trình duyệt của riêng mình, nhà điều hành có thể xem nội dung trang web và tương tác với nó thông qua các hành động quen thuộc như gõ khóa, nhấp và trang cuộn.” Giai đoạn thử nghiệm ban đầu sẽ được giới hạn trong thị trường Hoa Kỳ và cho những người đăng ký gói chuyên nghiệp của OpenAI với mức phí 200 đô la mỗi tháng.
Sức mạnh của toán tử xuất phát từ mô hình mô hình “sử dụng máy tính”, một sự kết hợp độc đáo của khả năng thị giác GPT-4O và “khả năng lý luận nâng cao thông qua việc học tập tăng cường”. Do đó, toán tử có thể tương tác với giao diện đồ họa người dùng (GUI) một cách linh hoạt. Openai nói thêm, “Nhà điều hành có thể 'xem' (thông qua ảnh chụp màn hình) và 'tương tác' (với tất cả các hoạt động mà chuột và bàn phím cho phép) với trình duyệt, cho phép nó thực hiện các hành động trên web mà không cần tích hợp API tùy chỉnh.”
alt=”” >
Toán tử được trang bị khả năng lý luận để “điều chỉnh” khi gặp lỗi. Nếu nó ở trong một tình huống khó xử, nó sẽ chủ động trả lại quyền kiểm soát của người dùng. Ngoài ra, nhà điều hành cũng sẽ yêu cầu người dùng tiếp quản khi trang web yêu cầu thông tin nhạy cảm như tên người dùng và mật khẩu và “nên” tham khảo ý kiến của người dùng trước khi thực hiện các hành động quan trọng như email. Openai cũng nhấn mạnh rằng nhà điều hành được thiết kế để “từ chối các yêu cầu độc hại và chặn nội dung không phù hợp”.
Để đảm bảo nhà điều hành có thể đáp ứng các nhu cầu thực tế và tuân thủ các quy tắc hiện tại, OpenAI đang hợp tác chặt chẽ với nhiều công ty lớn như Doordash, Instacart, Opentable, Priceline, StubHub và Uber. Tuy nhiên, Openai cũng lưu ý rằng công cụ này có thể không hoạt động hoàn hảo trong mọi tình huống, đặc biệt là với “các giao diện phức tạp như tạo slide slide hoặc quản lý lịch”.
Nói tóm lại, cả Microsoft với Copilot Studio và OpenAI với nhà điều hành đang có những bước tiến mạnh mẽ trong việc phát triển các tác nhân AI có thể tương tác trực tiếp với máy tính và người dùng web. Mặc dù Copilot Studio nhằm mục đích cung cấp một nền tảng linh hoạt cho các doanh nghiệp tự xây dựng các tác nhân tự động hóa, nhà điều hành của Openai tập trung vào việc cung cấp một trợ lý AI thông minh có thể thực hiện các tác vụ phức tạp trên web cho người dùng cá nhân. Cả hai hứa sẽ mang lại các phương pháp làm việc hiệu quả và thuận tiện hơn trong tương lai.
https://www.youtube.com/watch?v=UK5NCCKDHII
>
charset=”utf-8″>
Ý kiến bạn đọc (0)