generations_images_and_vide.../README.md

4.1 KiB
Raw Blame History

🎬 Проект генерации видео — Обзор статуса и метрики

📌 Введение

Этот документ фиксирует текущее состояние пайплайна генерации видео, последние обновления и принятую систему оценки качества.
Цель — иметь единый источник правды о том, что уже готово, как мы измеряем результат и какие выводы делаем по последним сгенерированным кадрам.

🚀 Последние обновления

  • Проведён аудит проекта
    Выполнен обзор существующих наработок команды по генерации видео. Основные выводы и план действий зафиксированы ниже.

  • Выбрана основная метрика
    После анализа нескольких вариантов в качестве ключевого показателя качества утверждён CLIP-score.

💻 Текущее состояние кода

Компонент Статус Примечания
Основной пайплайн генерации Работает стабильно Инференс проходит без ошибок, возможны небольшие доработки.
Управление конфигурациями ⚠️ В процессе Переход на единый YAML-конфиг для повторяемости экспериментов.
Скрипты для оценки метрик Добавлены Интегрирован расчет CLIP-score, вывод как по семплам, так и агрегированный.
Документация Обновлена Данный файл заменяет заметки в чатах, актуализирован.

Ближайшие шаги

  • Прогнать полную оценку по метрике на свежей партии генераций.
  • Задокументировать гиперпараметры и зерна (seeds) для каждого запуска.
  • Встроить логирование метрик прямо в пайплайн генерации.

📏 Метрика оценки: CLIP-score

Для количественной оценки соответствия сгенерированного изображения (или кадра видео) текстовому описанию мы используем CLIP-score.

  • Что измеряет: Косинусное сходство между эмбеддингами CLIP для текста (промпта) и визуального контента.
  • Почему выбрана именно она:
    • Хорошо коррелирует с человеческой оценкой релевантности «текст–картинка».
    • Не требует эталонного изображения (reference-free).
    • Является общепринятым стандартом в сообществе.
  • Источник: Learning Transferable Visual Models From Natural Language Supervision (Radford et al.)
  • library for testing

Детали реализации

# код расчета CLIP-score
pip install transformers==4.25.1
pip install torch
pip install clip-score

python -m clip_score .\images .\texts

# после проверки гереации картинок нашим tools показатели clip_score составили чуть больше 72%.