Cung cấp quyền kiểm soát trình duyệt cho các tác nhân LLM với một máy chủ MCP nhận thức về mã thông báo
scout, được phát triển bởi Felixgeelhaar, là một máy chủ Giao thức Ngữ cảnh Mô hình cung cấp cho các tác nhân AI quyền truy cập có kiểm soát vào web trực tiếp. Nó kết nối các mô hình ngôn ngữ với các phiên trình duyệt để chúng có thể điều hướng các trang, tương tác với các đầu vào và trích xuất dữ liệu có cấu trúc cho việc tạo văn bản và mã nhạy cảm với ngữ cảnh. Ứng dụng tập trung vào việc quan sát trang ngắn gọn và định vị hình ảnh thông qua các ảnh chụp màn hình được chú thích và các công cụ nhắm mục tiêu. Nó phù hợp với các nhà phát triển, nhà nghiên cứu AI, và người dùng chuyên nghiệp cần ngữ cảnh web theo thời gian thực cho các quy trình làm việc của tác nhân.
Các nhiệm vụ nào bạn thực sự có thể sử dụng nó cho?
scout cung cấp một bộ công cụ dành cho công việc web do tác nhân điều khiển. Máy chủ cung cấp hơn 66 công cụ chuyên biệt bao gồm điều hướng, quản lý nhiều tab, trích xuất dữ liệu và khớp biểu mẫu dựa trên nhãn. Kết quả điển hình bao gồm việc duyệt trang web theo chương trình, điền thông tin đầu vào bằng cách sử dụng các dấu hiệu truy cập và trả về các bản ghi có cấu trúc mà một LLM có thể tích hợp vào đầu ra văn bản hoặc mã. Bộ công cụ nhắm đến các quy trình làm việc tự động trong trình duyệt thay vì hoạt động GUI thủ công.
Các quan sát trang có độ gọn nhẹ và chính xác như thế nào?
Dịch vụ trả về các bức ảnh chụp trang chú ý đến token thay vì HTML thô. scout phát ra JSON có cấu trúc và các khác biệt DOM để đại diện cho các thay đổi trạng thái trang, điều này cắt giảm lượng ngữ cảnh gửi đến mô hình. Cơ sở hình ảnh có sẵn dưới dạng ảnh chụp màn hình có chú thích với các lớp số để các tác nhân có thể tham chiếu đến các yếu tố tương tác cụ thể thay vì tọa độ. Kiểm soát trình duyệt cơ bản sử dụng một triển khai Giao thức DevTools Chrome thuần túy để thao tác trực tiếp trên trang.
Các yêu cầu đầu vào và máy chủ nào ảnh hưởng đến việc sử dụng?
Triển khai và khả năng tương thích của khách hàng xác định nơi scout phù hợp. Máy chủ chạy như một nhị phân Go liên kết tĩnh đơn lẻ hoạt động trên macOS, Windows và Linux. Nó kết nối với bất kỳ khách hàng nào thực hiện giao diện MCP, ví dụ là một số khách hàng LLM tập trung vào desktop và mã. Kiến trúc đó loại bỏ các thời gian chạy bên ngoài như Node.js hoặc Python, trong khi ràng buộc công cụ với các môi trường nơi có khách hàng có khả năng MCP.
Có phải việc thiết lập và tích hợp thực tế cho các quy trình làm việc của nhà phát triển không?
Tích hợp ưu tiên người dùng kỹ thuật và các quy trình tập trung vào tác nhân. Nhị phân không có phụ thuộc đơn giản hóa việc cài đặt và giảm bớt các mối quan tâm về thời gian chạy bên thứ ba, điều mà người dùng lưu ý giúp tăng tốc độ tiếp nhận. Thiết kế ưu tiên tác nhân tập trung vào các quan sát dày đặc, liên quan đến mô hình hơn là độ trung thực của trang, vì vậy việc tích hợp scout vào các phiên tự động yêu cầu sự quen thuộc với việc nhắc nhở tác nhân, các khác biệt DOM và các khái niệm tự động hóa trình duyệt thay vì các phương pháp thu thập dữ liệu web tiêu chuẩn.
Lựa chọn thực tiễn cho các nhà xây dựng điều hành các phiên đại lý với ngữ cảnh web thực
Phản hồi của người dùng trong cộng đồng MCP nhấn mạnh việc cài đặt dễ dàng và giảm thiểu token có thể đo lường trong các phiên đại lý dài, khiến scout trở thành lựa chọn thực tiễn cho các nhóm tối ưu hóa chi phí ngữ cảnh mô hình. Mong đợi một nỗ lực cấu hình và thiết kế đại lý trước khi sử dụng sản xuất, và xác thực dữ liệu đã trích xuất trong các nhiệm vụ có rủi ro cao thay vì coi đầu ra là có thẩm quyền.