generations_images_and_vide.../README.md

53 lines
No EOL
4.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 🎬 Проект генерации видео — Обзор статуса и метрики
## 📌 Введение
Этот документ фиксирует текущее состояние пайплайна генерации видео, последние обновления и принятую систему оценки качества.
Цель — иметь единый источник правды о том, что уже готово, как мы измеряем результат и какие выводы делаем по последним сгенерированным кадрам.
## 🚀 Последние обновления
- **Проведён аудит проекта**
Выполнен обзор существующих наработок команды по генерации видео. Основные выводы и план действий зафиксированы ниже.
- **Выбрана основная метрика**
После анализа нескольких вариантов в качестве ключевого показателя качества утверждён **CLIP-score**.
## 💻 Текущее состояние кода
| Компонент | Статус | Примечания |
|---------------------------------|---------------------|-----------------------------------------------------------------------------|
| Основной пайплайн генерации | ✅ Работает стабильно | Инференс проходит без ошибок, возможны небольшие доработки. |
| Управление конфигурациями | ⚠️ В процессе | Переход на единый YAML-конфиг для повторяемости экспериментов. |
| Скрипты для оценки метрик | ✅ Добавлены | Интегрирован расчет CLIP-score, вывод как по семплам, так и агрегированный. |
| Документация | ✅ Обновлена | Данный файл заменяет заметки в чатах, актуализирован. |
> ⚡ **Ближайшие шаги**
> - Прогнать полную оценку по метрике на свежей партии генераций.
> - Задокументировать гиперпараметры и зерна (seeds) для каждого запуска.
> - Встроить логирование метрик прямо в пайплайн генерации.
## 📏 Метрика оценки: CLIP-score
Для количественной оценки соответствия сгенерированного изображения (или кадра видео) текстовому описанию мы используем **CLIP-score**.
- **Что измеряет**: Косинусное сходство между эмбеддингами CLIP для текста (промпта) и визуального контента.
- **Почему выбрана именно она**:
- Хорошо коррелирует с человеческой оценкой релевантности «текст–картинка».
- Не требует эталонного изображения (reference-free).
- Является общепринятым стандартом в сообществе.
- **Источник**: [Learning Transferable Visual Models From Natural Language Supervision](https://arxiv.org/abs/2103.00020) (Radford et al.)
- [library for testing](https://github.com/Taited/clip-score/)
### Детали реализации
```bash
# код расчета CLIP-score
pip install transformers==4.25.1
pip install torch
pip install clip-score
python -m clip_score .\images .\texts
# после проверки гереации картинок нашим tools показатели clip_score составили чуть больше 72%.