4.1 KiB
4.1 KiB
🎬 Проект генерации видео — Обзор статуса и метрики
📌 Введение
Этот документ фиксирует текущее состояние пайплайна генерации видео, последние обновления и принятую систему оценки качества.
Цель — иметь единый источник правды о том, что уже готово, как мы измеряем результат и какие выводы делаем по последним сгенерированным кадрам.
🚀 Последние обновления
-
Проведён аудит проекта
Выполнен обзор существующих наработок команды по генерации видео. Основные выводы и план действий зафиксированы ниже. -
Выбрана основная метрика
После анализа нескольких вариантов в качестве ключевого показателя качества утверждён CLIP-score.
💻 Текущее состояние кода
| Компонент | Статус | Примечания |
|---|---|---|
| Основной пайплайн генерации | ✅ Работает стабильно | Инференс проходит без ошибок, возможны небольшие доработки. |
| Управление конфигурациями | ⚠️ В процессе | Переход на единый YAML-конфиг для повторяемости экспериментов. |
| Скрипты для оценки метрик | ✅ Добавлены | Интегрирован расчет CLIP-score, вывод как по семплам, так и агрегированный. |
| Документация | ✅ Обновлена | Данный файл заменяет заметки в чатах, актуализирован. |
⚡ Ближайшие шаги
- Прогнать полную оценку по метрике на свежей партии генераций.
- Задокументировать гиперпараметры и зерна (seeds) для каждого запуска.
- Встроить логирование метрик прямо в пайплайн генерации.
📏 Метрика оценки: CLIP-score
Для количественной оценки соответствия сгенерированного изображения (или кадра видео) текстовому описанию мы используем CLIP-score.
- Что измеряет: Косинусное сходство между эмбеддингами CLIP для текста (промпта) и визуального контента.
- Почему выбрана именно она:
- Хорошо коррелирует с человеческой оценкой релевантности «текст–картинка».
- Не требует эталонного изображения (reference-free).
- Является общепринятым стандартом в сообществе.
- Источник: Learning Transferable Visual Models From Natural Language Supervision (Radford et al.)
- library for testing
Детали реализации
# код расчета CLIP-score
pip install transformers==4.25.1
pip install torch
pip install clip-score
python -m clip_score .\images .\texts
# после проверки гереации картинок нашим tools показатели clip_score составили чуть больше 72%.