53 lines
No EOL
4.1 KiB
Markdown
53 lines
No EOL
4.1 KiB
Markdown
# 🎬 Проект генерации видео — Обзор статуса и метрики
|
||
|
||
## 📌 Введение
|
||
|
||
Этот документ фиксирует текущее состояние пайплайна генерации видео, последние обновления и принятую систему оценки качества.
|
||
Цель — иметь единый источник правды о том, что уже готово, как мы измеряем результат и какие выводы делаем по последним сгенерированным кадрам.
|
||
|
||
## 🚀 Последние обновления
|
||
|
||
- **Проведён аудит проекта**
|
||
Выполнен обзор существующих наработок команды по генерации видео. Основные выводы и план действий зафиксированы ниже.
|
||
|
||
- **Выбрана основная метрика**
|
||
После анализа нескольких вариантов в качестве ключевого показателя качества утверждён **CLIP-score**.
|
||
|
||
|
||
## 💻 Текущее состояние кода
|
||
|
||
| Компонент | Статус | Примечания |
|
||
|---------------------------------|---------------------|-----------------------------------------------------------------------------|
|
||
| Основной пайплайн генерации | ✅ Работает стабильно | Инференс проходит без ошибок, возможны небольшие доработки. |
|
||
| Управление конфигурациями | ⚠️ В процессе | Переход на единый YAML-конфиг для повторяемости экспериментов. |
|
||
| Скрипты для оценки метрик | ✅ Добавлены | Интегрирован расчет CLIP-score, вывод как по семплам, так и агрегированный. |
|
||
| Документация | ✅ Обновлена | Данный файл заменяет заметки в чатах, актуализирован. |
|
||
|
||
> ⚡ **Ближайшие шаги**
|
||
> - Прогнать полную оценку по метрике на свежей партии генераций.
|
||
> - Задокументировать гиперпараметры и зерна (seeds) для каждого запуска.
|
||
> - Встроить логирование метрик прямо в пайплайн генерации.
|
||
|
||
## 📏 Метрика оценки: CLIP-score
|
||
|
||
Для количественной оценки соответствия сгенерированного изображения (или кадра видео) текстовому описанию мы используем **CLIP-score**.
|
||
|
||
- **Что измеряет**: Косинусное сходство между эмбеддингами CLIP для текста (промпта) и визуального контента.
|
||
- **Почему выбрана именно она**:
|
||
- Хорошо коррелирует с человеческой оценкой релевантности «текст–картинка».
|
||
- Не требует эталонного изображения (reference-free).
|
||
- Является общепринятым стандартом в сообществе.
|
||
- **Источник**: [Learning Transferable Visual Models From Natural Language Supervision](https://arxiv.org/abs/2103.00020) (Radford et al.)
|
||
- [library for testing](https://github.com/Taited/clip-score/)
|
||
|
||
### Детали реализации
|
||
|
||
```bash
|
||
# код расчета CLIP-score
|
||
pip install transformers==4.25.1
|
||
pip install torch
|
||
pip install clip-score
|
||
|
||
python -m clip_score .\images .\texts
|
||
|
||
# после проверки гереации картинок нашим tools показатели clip_score составили чуть больше 72%. |