banner

Новости

May 22, 2023

Ролл хочет воссоздать кадры тележки и многое другое с помощью генеративного искусственного интеллекта

Те, кто знаком с Файзаном Буздаром, который до недавнего времени был вице-президентом по управлению продуктами в Box, вероятно, связывают предпринимателя с Convo, платформой цифрового рабочего пространства, популярной среди новостных редакций (включая эту). Но Буздар, имеющий опыт работы в области электроники, уже давно увлекается видео и визуальными эффектами.

«Всю жизнь я являюсь энтузиастом видео и фотографии, я много лет снимал видео самостоятельно, но заметил, что в последние десятилетия производство видео в основном оставалось ручным с небольшими инновациями, особенно для трудоемких задач, таких как редактирование видео», — сказал мне Буздар по электронной почте. . «Между тем, я заметил, что за последние несколько лет камера и сенсорная технология iPhone претерпели ступенчатые улучшения, став почти эквивалентными по качеству изображения зеркальным камерам».

Поэтому, находясь в Box, Буздар говорит, что решил попробовать объединить видео — все более популярное средство — с инновациями в области искусственного интеллекта и машинного обучения, чтобы попытаться улучшить процесс захвата и редактирования видео. Буздар обратился к Адилю Аббасу, видеоинженеру, который, работая в Twitter, вместе с Саджем Ханом, Фахадом Якубом и коллегой по Box, Мишель О, внес свой вклад в создание инфраструктуры, обеспечивающей функции потокового вещания на сайте, чтобы изучить возможности высокотехнологичного видеопроизводства.

Ролл – это результат. Новое приложение для iOS обеспечивает боке, снимки с нескольких камер, анимационную графику и — пожалуй, самое интригующее для меня — слайдеры, тележки и стрелы, «имитированные с помощью искусственного интеллекта».

Кредиты изображений:Рулон

«Наша миссия — изменить мир производства высококачественного видео и стать новым стандартом создания видеоконтента», — продолжил Буздар. «Создание отличного видео — это огромные первоначальные инвестиции в оборудование, обучение тому, как использовать это оборудование, программное обеспечение для редактирования — мы избавляемся от всего этого».

Roll, ориентированный на рынок «просьюмеров» (например, влиятельных лиц и подкастеров, а также предприятий, создающих свои собственные маркетинговые материалы), состоит из двух продуктов: приложения Roll для iPhone и веб-приложения. Приложение для iPhone захватывает и записывает видео, а затем автоматически загружает его в облако Roll для хранения и обработки. Между тем, веб-приложение — это место, где отснятый материал может быть просмотрен, доступен, опубликован, загружен и отредактирован одним или группой создателей контента.

Конечно, видеоприложений пруд пруди. Так что же отличает Ролл? Во-первых, по словам Буздара, приложение предназначено для случаев использования, которые не подходят большинству приложений для камеры, — например, для удаленных видеоинтервью, видеоподкастов и отзывов клиентов. Хотя Zoom, Microsoft Teams и Google Meet в некоторой степени удовлетворяют эту потребность, Буздар утверждает, что они не предназначены для производства «высококачественного» видео.

Roll также использует ряд эффектов в реальном времени, чтобы (якобы) предложить более широкий выбор вариантов постобработки, чем большинство приложений для захвата видео. Например, Roll записывает в стандарте HEVC, обеспечивая примерно вдвое больший битрейт и более высокое качество изображения при том же размере файла. А Roll может записывать и обрабатывать снимки с двух камер — широкоугольный и крупный план — одновременно, что позволяет пользователям создавать видеоролики с эффектной «многокамерной» перспективой.

Интерфейс редактирования рулона.Кредиты изображений:Рулон

Конечно, мультикамера не является особенно уникальной — Roll далеко не первое приложение, предлагающее ее. Но Буздар говорит, что волшебство заключается в постобработке. Roll использует генеративный искусственный интеллект для воссоздания комнат в трехмерном пространстве, чтобы создатели контента могли перемещать виртуальную камеру, похожую на видеоигру, имитируя такие движения, как панорамирование из стороны в сторону с помощью тележки или крана.

«Сегодня генеративный искусственный интеллект слишком часто ассоциируется с созданием фейкового контента из воздуха», — сказал Буздар. «Это не наша философия. Мы не создаем фальшивые пиксели, людей или сцены. Мы используем генеративный искусственный интеллект исключительно как инструмент для повышения производительности — мы хотим демократизировать доступ к видеопроизводству более высокого качества».

Буздар объяснил, что ИИ Ролла был обучен понимать глубину 3D-сцены, используя данные для измерения глубины и форм независимо от человека, сидящего в комнате. Roll начала обучение своих алгоритмов с использованием наборов данных с открытым исходным кодом, которые обычно используются для сравнительного анализа в академических кругах, но затем записала более 22 000 видеозвонков, создав собственную обширную базу данных.

ДЕЛИТЬСЯ