Пресс-центр

Компания Panasonic Connect заняла первое место в конкурсе CVPR 2025 VidLLMs на ведущей мировой конференции по распознаванию изображений.

Компания Panasonic Connect заняла первое место в конкурсе CVPR 2025 VidLLMs на ведущей мировой конференции по распознаванию изображений.

Компания разработала «DIVE» — технологию распознавания видео с искусственным интеллектом и пошаговым решением задач.

Компания Panasonic Connect Co., Ltd. (https://connect.panasonic.com/) объявила о победе в конкурсе CVPR 2025 VidLLMs на конференции мирового уровня по распознаванию изображений. Победа досталась благодаря разработке «DIVE» – технологии искусственного интеллекта с пошаговым решением задач для распознавания видео. В этом конкурсе разработанная Panasonic Connect технология Deep-search Iterative Video Exploration («DIVE»), продемонстрировала свою высокую эффективность и показатель точности на уровне 81% при ответах на сложные вопросы, связанные с аналитикой видео.

История разработки

По мере роста использования видеоданных в различных сферах бизнеса, растёт потребность в технологиях искусственного интеллекта (ИИ), способных понимать видеоконтент и точно отвечать на заданные вопросы на понятном языке. Например, в сфере логистики ожидается что приложения, основанные на ИИ будут анализировать видеозаписи рабочих процессов и предлагать улучшения. Однако традиционный ИИ затрудняется с ответами на «вопросы», требующих глубокого понимания смысла и контекста видеозаписей, что усложняет возможности для практического применения.

Компания Panasonic Connect приняла участие в ведущей международной конференции по распознаванию изображений CVPR 2025, которая стала площадкой для комплексной оценки возможностей ИИ по аналитике видео и по формированию ответов на обычном языке общения.

Обзор задачи по анализу видео и оценке надежности

Рабочая группа VidLLMs, впервые проведённая на конференции CVPR 2025, представляла собой соревнование по проверке производительности больших языковых видео моделей (VidLLMs). Компания Panasonic Connect участвовала в категории «Оценка комплексного видеоанализа и надежности».
(Более подробную информацию можно найти на веб–сайте VidLLMs Workshop - CVPR 2025).

В задаче «Аналитика комплексного видео» оценивалась способность ИИ справляться с различными сложными ситуациями используя данные 214 видеороликов от третьего лица, содержащих сложные контексты и 2400 наборов описательных вопросов.

Видеозаписи охватывают 11 комплексных категорий, включая понимание временного порядка, понимание эмоций и социального происхождения, а также рассуждения, основанные на здравом смысле, требующие понимания ситуаций приближенных к реальным. Кроме того, для проверки способности ИИ справляться с ложной идентификацией фактов, намеренно были включены вопросы об объектах или событиях, которые не показаны в видеозаписи, а также вводящие в заблуждение вопросы. Для проверки способности ИИ выражать свои мысли в соответствии с контекстом, дополнительно оценивалось, чтобы ответы были изложены в свободной форме на естественном языке общения.

Традиционные модели ИИ дают около 75% правильных ответов, в то время как люди демонстрируют более высокую точность ответов на уровне 97%. Это свидетельствует о том, что между искусственным интеллектом и людьми в данной области по-прежнему существует значительный разрыв в эффективности.

Разработка технологии искусственного интеллекта DIVE

Компания Panasonic Connect разработала технологию искусственного интеллекта "DIVE", которая позволяет точно решать сложные задачи по распознаванию видео. В технологии применяются процессы дробления сложных вопросов на части и углубленного мышления с постепенным пониманием контекста. Данный подход предвосхищает новейшую тенденцию долгосрочного анализа на основе больших языковых моделей (LLM), которая привлекает к себе много внимания последние годы.

Например, подобно детективу, расследующему дело, вместо прямого ответа на сложный вопрос "Является ли мистер А преступником?", этот подход предполагает последовательную проверку нескольких более мелких вопросов, например: "Есть ли у мистера А алиби?", "Есть ли у А мотив?", "Является ли алиби подлинным?" Таким образом, в конечном итоге, решается основанная сложная задача. Для реализации такого подобного человеческому "мыслительного процесса", DIVE использует три основные технологии:

1. Процесс "длительного обдумывания" для глубокого пошагового рассмотрения комплексных вопросов:

Разбивая вопросы на составные элементы и преобразуя их в смысловые списки вопросов, ИИ реализует процесс «длительного обдумывания», тщательно шаг за шагом разбирая свои действия. Так ИИ реализует мыслительный процесс, которые позволяет подобно человеку упорядоченно решать сложные вопросы.

2. Технология получения сводной информации о видео, основанной на важных объектах:

Соединяя мультимодальные (текст, изображение, аудио, видео и т.д.) большие языковые модели с моделями обнаружения объектов, она фиксирует важные объекты и изменения сцены в видео и генерирует высокоточную краткую информацию, которая всесторонне охватывает все видео

3. Технология понимания контекста, позволяющая понять смысл вопросов:

Оценивая цель и перспективу вопросов, технология позволяет генерировать содержательные ответы, соответствующие контексту, и обеспечивает глубокое понимание, которое отражает намерения и контекст, скрывающиеся за поверхностными словами.

Благодаря интеграции этих технологий DIVE может гибко и поэтапно подходить к решению сложных вопросов и в конечном итоге находить окончательное решение.

<Пример подхода длительного обдумывания с целью глубокого понимания видео, используемого ИИ технологией распознавания видео “DIVE”>

Дальнейшее развитие

Panasonic Connect продолжит работу над дальнейшим совершенствованию этой технологии, опираясь на результаты текущей работы.

В будущем Panasonic Connect сосредоточится на сфере цепочки поставок (производство, логистика и розничная торговля) и будет способствовать внедрению решений с использованием ИИ для распознавания видео в местах практического применения, что будет способствовать повышению операционной эффективности и безопасности. В соответствии с целью "Связать рабочие места с обществом и будущим" Panasonic Connect будет визуализировать проблемы на местах с помощью технологии распознавания видео и стремиться к созданию устойчивого общества, в котором все люди смогут жить в безопасности.

Соответствующие Патенты: Одна заявка на патент находится на рассмотрении
Дополнительная информация:

Конкурс CVPR 2025 VidLLMs Challenge:
https://www.crcv.ucf.edu/cvpr2025-vidllms-workshop/challenges.htm

* Некоторые изображения в этом пресс-релизе приведены исключительно в иллюстративных целях и не использовались в ходе реального конкурса.

О компании Panasonic Connect

Panasonic Connect Co., Ltd. ( https://connect.panasonic.com/ ) была основана 1 апреля 2022 года в рамках перехода Panasonic Group ( https://holdings.panasonic/global/) на операционную корпоративную систему. Компания насчиытвает около 28 200 сотрудников по всему миру и годовой объем продаж в размере 1,333 миллиарда иен. Компания играет ключевую роль в развитии бизнеса B2B-решений Panasonic Group и предоставляет своим клиентам новые возможности, сочетая передовое оборудование, интеллектуальные программные решения и богатый опыт в области промышленного инжиниринга, накопленный за более чем 100-летнюю историю деятельности. Цель компании - “Изменить работу, продвинуть общество, быть на связи с завтрашним днем”. Внедряя инновации в цепочку поставок, общественные услуги, инфраструктуру и индустрию развлечений, Panasonic Connect стремится внести свой вклад в построение устойчивого общества и обеспечение всеобщего благополучия.

Пресс-служба Panasonic Россия (для запросов СМИ): press@ru.panasonic.com