Новый инструмент оптимизации позволяет лучше оценивать движение видео

Исследователи из Корнелла разработали новый инструмент оптимизации для оценки движения на протяжении всего входного видео, который имеет потенциальное применение в видеомонтаже и создании видео с генеративным искусственным интеллектом.

Инструмент под названием OmniMotion описан в статье “Отслеживание всего, везде и сразу”, представленной на Международной конференции по компьютерному зрению 2-6 октября в Париже.

“В оценке движения существуют две доминирующие парадигмы — оптический поток, который является плотным, но с малой дальностью действия, и отслеживание объектов, которое является разреженным, но с большой дальностью действия”, – сказал Ной Снейвли, доцент кафедры компьютерных наук в Технологическом институте Корнелла и в Колледже вычислительной техники и информатики Корнелла Энн С. Бауэрс. “Наш метод позволяет нам осуществлять как плотное, так и дальнее отслеживание во времени”.

OmniMotion использует то, что исследователи называют “квази-3D—представлением” – расслабленную форму 3D, которая сохраняет важные свойства (такие как отслеживание пикселей, когда они проходят позади других объектов) без проблем динамической 3D-реконструкции.

“Мы нашли способ, по сути, заставить его оценивать более качественное 3D”, – сказал Снавели. “Он говорит: “Я не знаю точно, где находятся эти два объекта в трехмерном пространстве, но я знаю, что этот находится перед тем”. Вы не можете смотреть на это как на 3D-модель, так как все будет искажено, но он фиксирует упорядочивающие отношения между объектами.”

Новый метод использует небольшую выборку кадров и оценки движения, чтобы создать полное представление движения для всего видео. После оптимизации представление может быть запрошено для любого пикселя в любом кадре, чтобы создать плавную и точную траекторию движения по всему видео.

По словам Снейвли, это было бы полезно при включении компьютерных изображений, или CGI, в видеомонтаж.

“Если я хочу разместить объект — скажем, наклейку — на видео, то мне нужно знать, где он должен быть в каждом кадре”, – сказал он. “Итак, я помещаю это в первый кадр видео; чтобы избежать необходимости кропотливо редактировать каждый последующий кадр, было бы неплохо, если бы я мог просто отслеживать, где это должно быть в каждом кадре — а также, не должно ли этого там быть, если это что-то загораживает.”

По словам Снавели, OmniMotion также может помочь в разработке алгоритмов в приложениях для преобразования текста в видео.

“Часто эти модели преобразования текста в видео не очень последовательны”, – сказал он. “Объекты будут менять размер по ходу видео, или люди будут двигаться сверхъестественным образом, и это потому, что они просто генерируют необработанные пиксели видео. Они не имеют ни малейшего представления о лежащей в основе динамике, которая привела бы к движению пикселя.

“Мы надеемся, что, предоставляя алгоритмы для оценки движения в видеороликах, мы сможем помочь улучшить согласованность движения сгенерированных видеороликов”, – сказал он.

Ведущим автором был Цяньцянь Ван, аспирант Калифорнийского университета в Беркли и научный сотрудник Google Research. Другими соавторами были Бхарат Харихаран, доцент кафедры компьютерных наук в Корнелл Бауэрс СНГ; докторанты Йен-Ю Чанг и Руоджин Цай; и Александр Холински, постдокторский исследователь в Беркли и научный сотрудник Google Research; и Чжэнци Ли из Google Research.

Также на конференции Cai представил “Двойники: учимся устранять неоднозначность изображений похожих структур”, в котором используется огромный набор данных пар изображений для обучения приложений компьютерного зрения различать изображения, которые выглядят одинаково, но не являются таковыми, например, разные стороны башни с часами или здания.

Для Doppelgangers Снавели и его команда показывают, как использовать существующие аннотации к изображениям, хранящиеся в базе данных изображений Викисклада, для автоматического создания большого набора помеченных пар изображений 3D-поверхностей.

“Двойники” – это коллекция интернет-фотографий достопримечательностей и культурных объектов, которые демонстрируют повторяющиеся узоры и симметричные структуры. Набор данных включает в себя большое количество пар изображений, каждая из которых помечена как пара положительных или отрицательных совпадений.

“Биг—Бен или Эйфелева башня – они вроде как выглядят одинаково с разных сторон”, – сказал Снейвли. “Компьютерное зрение просто недостаточно хорошо, чтобы различать стороны. Поэтому мы изобрели метод, помогающий определить, когда две вещи выглядят похожими, но на самом деле разные, и когда две вещи на самом деле одинаковые”.

В Doppelgangers нейронная сеть обучается оценивать пространственное распределение ключевых точек на изображении, чтобы отличать пары изображений, которые выглядят похожими, но отличаются — как два разных лица Биг—Бена – от изображений с фактически идентичным содержанием сцены. По словам Снавели, это было бы полезно в технологии 3D-реконструкции.

“Сеть, вероятно, узнает такие вещи, как, являются ли фоновые данные одинаковыми или разными, или есть ли другие детали, которые их отличают”, – сказал он. “Затем он выводит вероятность: действительно ли они совпадают, или они просто выглядят так, как будто совпадают? Затем мы сможем интегрировать это с конвейерами 3D-реконструкции, чтобы создавать более совершенные модели”.

Proudly powered by forbusinessman.ru