OpenAI запускает ИИ-агента Operator: он может заказать вам столик или купить что-то в Интернете

В блоге TechCrunch появилась новость о том, что компания, занимающаяся разработкой OpenAI, запускает ИИ-ассистента Operator.

Генеральный директор OpenAI Сэм Альтман заявил в своем блоге, что в 2025 году они будут развивать ИИ-агентов — инструменты, которые автоматизируют задачи и выполняют действия автономно от вашего имени.

В четверг OpenAI объявила о запуске первой версии Operator, ИИ-агента общего назначения, который может взять под контроль ваш веб-браузер и самостоятельно выполнять определенные действия. Умный ассистент взаимодействует со страницами в Интернете так, будто он живой пользователь. Он умеет решать разные связанные с веб‑сайтами задачи, не применяя их API (application programming interface), а используя визуальный анализ страниц и отправляя сигналы нажатий на кнопки, кликов и перемещения курсора. В первую очередь Operator будет доступен американским пользователям с подпиской ChatGPT Pro за 200 долларов. OpenAI говорят, что со временем планирует открыть эту функцию и для пользователей тарифных планов Plus, Team и Enterprise.

«Operator скоро появится и в других странах», — сказал генеральный директор OpenAI Сэм Альтман во время прямой трансляции в четверг. «Но для Европы, к сожалению, понадобится некоторое время».

Интерфейс напоминает привычный ChatGPT: пользователю нужно ввести запрос и подробно описать, что за действия нужно выполнить, а агент выполняет их в реальном времени. При этом агент не действует локально, а действительно выходит в Интернет через виртуальную машину, а весь контент вы видите через свой интерфейс. Он умеет заказывать билеты, бронировать столики в ресторане и гостиницы, искать клининг, покупать онлайн и заказывать доставку – словом, все то, чем обычно занимаются люди в Сети. Когда пользователи ChatGPT активируют Operator, появляется небольшое окно, в котором отображается специальный веб-браузер, используемый агентом для выполнения заданий, а также пояснения к конкретным действиям, которые выполняет агент. Во время работы Operator пользователи могут контролировать свой экран, так как он использует свой собственный браузер.

Operator умеет выполнять многоступенчатые задачи: он может найти нужную страницу в поисковике, если вы не задали название нужного магазина или сайта. Он работает на модели CUA – Compute-Using Agent, она построена на основе модели GPT-4o и умеет выполнять поиск и пользоваться браузером так, как это делает человек. Эта модель не использует исходный код страниц, а считывает визуальный контент, использует фронтенд сайтов, как это делаем мы с вами. OpenAI также планирует открыть API модели – это даст разработчикам возможность интегрировать агента в свои проекты.

Иными словами, CUA умеет пользоваться ссылками, кнопками и меню навигации: вообще любыми формами на сайтах так, как это делает человек. Компания заявила, что они работают совместно с DoorDash, eBay, Instacart, Priceline, StubHub и Uber и уважают их пользовательские соглашения и положения о конфиденциальности.

«Модель CUA обучена запрашивать подтверждение у пользователя перед завершением задач, которые будут иметь результат в реальности, например, перед подачей заказа, отправкой электронного письма и т. д., чтобы пользователь мог перепроверить работу модели, прежде чем она станет стабильной», - пишет OpenAI. «Часто это необходимо, и мы стремимся распространить эту надежность на более широкий круг задач».

«В настоящее время Operator не может справляться со многими сложными или специализированными задачами, — добавляет OpenAI в документе поддержки, – такими, как создание подробных презентаций, управление сложными системами календарей или взаимодействие с нестандартными веб-интерфейсами».

ИИ-агенты – это следующая после ChatGPT революция в области ИИ: новая технология, которая изменит то, как люди используют Интернет и свои ПК. Вместо того, чтобы просто передавать и обрабатывать информацию, агенты могут, в теории, выполнять действия, которые будут иметь выражение в реальности.

Йошуа Бенжио, канадский математик, кибернетик и информатик, которого называют «крестным отцом ИИ», уже заявил, что такие агенты могут быть «самым опасным путем». Посмотрим, как будут развиваться события, остановить это мы уже не можем.

Читайте остальные тексты этого блога в нашем Телеграм-канале и приходите обсуждать их в комментариях!

Зарегистрироваться в Глабикс

OpenAI запускает ИИ-агента Operator: он может заказать вам столик или купить что-то в Интернете

Начать пользоваться Глабикс.Экраном

Больше полезного контента в наших пабликах