generations_images_and_vide.../README.md

# 🎬 Проект генерации видео — Обзор статуса и метрики

## 📌 Введение

Этот документ фиксирует текущее состояние пайплайна генерации видео, последние обновления и принятую систему оценки качества.
Цель — иметь единый источник правды о том, что уже готово, как мы измеряем результат и какие выводы делаем по последним сгенерированным кадрам.

## 🚀 Последние обновления

- **Проведён аудит проекта**
  Выполнен обзор существующих наработок команды по генерации видео. Основные выводы и план действий зафиксированы ниже.

- **Выбрана основная метрика**
  После анализа нескольких вариантов в качестве ключевого показателя качества утверждён **CLIP-score**.


## 💻 Текущее состояние кода

| Компонент                       | Статус              | Примечания                                                                 |
|---------------------------------|---------------------|-----------------------------------------------------------------------------|
| Основной пайплайн генерации     | ✅ Работает стабильно | Инференс проходит без ошибок, возможны небольшие доработки.                 |
| Управление конфигурациями       | ⚠️ В процессе       | Переход на единый YAML-конфиг для повторяемости экспериментов.              |
| Скрипты для оценки метрик       | ✅ Добавлены        | Интегрирован расчет CLIP-score, вывод как по семплам, так и агрегированный. |
| Документация                    | ✅ Обновлена        | Данный файл заменяет заметки в чатах, актуализирован.                       |

> ⚡ **Ближайшие шаги**
> - Прогнать полную оценку по метрике на свежей партии генераций.
> - Задокументировать гиперпараметры и зерна (seeds) для каждого запуска.
> - Встроить логирование метрик прямо в пайплайн генерации.

## 📏 Метрика оценки: CLIP-score

Для количественной оценки соответствия сгенерированного изображения (или кадра видео) текстовому описанию мы используем **CLIP-score**.

- **Что измеряет**: Косинусное сходство между эмбеддингами CLIP для текста (промпта) и визуального контента.
- **Почему выбрана именно она**:
  - Хорошо коррелирует с человеческой оценкой релевантности «текст–картинка».
  - Не требует эталонного изображения (reference-free).
  - Является общепринятым стандартом в сообществе.
- **Источник**: [Learning Transferable Visual Models From Natural Language Supervision](https://arxiv.org/abs/2103.00020) (Radford et al.)
- [library for testing](https://github.com/Taited/clip-score/)

### Детали реализации

```bash
# код расчета CLIP-score
pip install transformers==4.25.1
pip install torch
pip install clip-score

python -m clip_score .\images .\texts

# после проверки гереации картинок нашим tools показатели clip_score составили чуть больше 72%.