OPERAI Presents Operator, un asistente para navegar por la web


Para el año nuevo, y con motivo del segundo aniversario de Chatgpt, Sam Altman tomó el bolígrafo mismo En su blog Para compartir algunas reflexiones sobre su carrera personal y sus perspectivas. El emprendedor de 39 años, aunque no «Una idea aproximada» del futuro de la IA, tiene una intuición: 2025 marcará un paso adicional hacia «General Ai»dotado de las mismas capacidades que un humano, el objetivo perseguido por Operai desde sus comienzos.

La empresa se apresuró a materializar su visión. En una publicación de blog publicada este jueves 23 de enero de 2025, Operai ha presentado al operadorun agente capaz de realizar tareas en la web, cuyo desarrollo se había filtrado hace varios meses. OpenAi se posiciona en el sector de los agentes autónomos, el mismo día que la perplejidad, que lanzó su asistente móvil en Android. ¡Hacemos balance!

Operador: el agente de OpenAI que le trae la web

El operador es alimentado por un nuevo modelo de IA llamado CUA (agente de uso informático), que combina las capacidades de visión de GPT-4O con razonamiento avanzado basado en el fortalecimiento del aprendizaje. Gracias a este modelo, el operador puede interactuar en la web a través de su propio navegador integrado, sin requerir integraciones de API personalizadas. La ambición de OpenAI es ofrecer una herramienta capaz de reemplazar al usuario para una amplia gama de tareas.

Es posible que el operador tenga que administrar una amplia variedad de tareas repetitivas de navegador, como completar formularios, ordenar productos de comestibles e incluso crear memes, dice OpenAi.

Sin embargo, el operador sigue siendo «Una descripción de la investigación»advierte OpenAi. Por lo tanto, es imperfecto y evolucionará de acuerdo con los comentarios de los usuarios. Pero a diferencia de Claude y Microsoft, quienes también presentaron agentes autónomos, el editor de ChatGPT se atreve a enfrentar su novedad con el público en general: el operador ya está disponible para los usuarios de la oferta profesional ($ 200 por mes) en los Estados Unidos. En un segundo paso, se implementará para los usuarios de ChatGPT Plus, Team y Enterprise, y sus capacidades incluso se integrarán directamente en ChatGPT.

Cómo usar el operador

En el lado del usuario, el operador se usa a través de una plataforma dedicada, que es una copia compatible de la de ChatGPT. En la barra de entrada, el usuario entre su pedido y, si es necesario, el sitio en el que realizar la búsqueda. El operador luego muestra el navegador en la parte derecha de la interfaz, con el resultado de su navegación. Se pueden realizar varias tareas simultáneamente en varias pestañas, y el usuario puede recuperar el control del navegador en cualquier momento. Para ciertas tareas, como la información de identificadores o la resolución de Captcha, el operador le pedirá explícitamente al usuario que tome el control.

La interfaz del operador parece dos gotas de agua a la de ChatGPT. © OpenAi

Además, la herramienta incorpora instrucciones personalizadas, que pueden ser generales o específicas para ciertos sitios. Por ejemplo, es posible pedir reservar solo vuelos directos en un sitio de viaje. OpenAI también ha implementado medidas de seguridad para el operador, como el control del usuario para tareas confidenciales, protección de datos y defensas contra sitios maliciosos.

A continuación, descubra la operación general del operador en video.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *