Practice_reports/media-skill/efremova_anastasia.md
2026-05-19 00:57:19 +03:00

222 lines
34 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Журнал практики
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ
(национальный исследовательский университет)»
Институт № 8 «Компьютерные науки и прикладная математика»
Кафедра ЦОП ВО «ТОП-ИТ»
Учебная группа: М8О-105БВ-25
ФИО обучающейся: Ефремова Анастасия Михайловна
Направление подготовки / специальность:
02.03.02 Фундаментальная информатика и информационные технологии
Вид практики: ознакомительная
Оценка за практику: ____________________ Булакина М.Б.
Москва 2026
## 1. Место и сроки проведения практики
Наименование организации: ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"»
Сроки проведения практики:
Дата начала практики: 09.02.2026
Дата окончания практики: 07.06.2026
## 2. Инструктаж по технике безопасности
Проведён инструктаж по технике безопасности.
Подпись проводившего: __________________________
Расшифровка подписи: Булакина М.Б.
Дата проведения: 9 февраля 2026 г.
## 3. Индивидуальное задание обучающейся
Разработка и сопровождение проекта `media-skill`, предназначенного для генерации и обработки медиа-контента с использованием инструментов искусственного интеллекта.
## 4. План выполнения индивидуального задания обучающейся
| № п/п | Место проведения | Тема | Период выполнения |
|---|---|---|---|
| 1 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Инструктаж по технике безопасности. Знакомство с задачами лаборатории Lambda и направлением генерации медиа-контента. | 09.02.2026-09.02.2026 |
| 2 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Изучение общей структуры `media-skill` как навыка для работы с медиа, знакомство с описанием возможностей и организацией модулей. | 10.02.2026-19.03.2026 |
| 3 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Изучение базовых инструментов обработки медиа и подготовка основы для дальнейшей генерации коротких видео. | 20.03.2026-23.03.2026 |
| 4 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Разработка модуля генерации сценариев и идей для короткого контента: `story-gen`, трендовые промпты, preview-логика и шаблоны сюжетов. | 24.03.2026-02.04.2026 |
| 5 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Добавление функций генерации и редактирования изображений, удаления фона, стандартизации входных файлов и общей папки `assets`. | 01.04.2026-06.04.2026 |
| 6 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Разработка видео-пайплайнов: генерация сценариев, подготовка промптов, сборка логики роликов, поддержка TikTok/shorts-формата, сценарии для продуктовых и рекламных видео. | 03.04.2026-19.04.2026 |
| 7 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Разработка дополнительных медиа-возможностей: создание мемов, извлечение клипов из видео, анализ фото и лица, обработка нескольких изображений. | 19.04.2026-22.04.2026 |
| 8 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Улучшение качества генерации: тренд-коллектор, библиотека шаблонов, оценка качества, поддержка multi-photo-сценариев и уточнение пользовательских запросов. | 22.04.2026-28.04.2026 |
| 9 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Интеграция `media-skill` с общей агентной платформой: настройка рабочего окружения, subagent-описания, ACP-сервер, единый сценарий запуска. | 29.04.2026-18.05.2026 |
| 10 | ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» | Подготовка материалов отчёта, описание архитектуры проекта, основных модулей и результатов разработки. Оформление отчёта и подведение итогов. | 19.05.2026-07.06.2026 |
Утверждаю: __________________________ / Булакина М.Б. / 9 февраля 2026 г.
Подпись руководителя от МАИ, расшифровка подписи, дата утверждения
Утверждаю: __________________________ / ____________________ / 9 февраля 2026 г.
Подпись руководителя от организации/предприятия, расшифровка подписи, дата утверждения
Ознакомлена: __________________________ / Ефремова А.М. / 9 февраля 2026 г.
Подпись обучающейся, расшифровка подписи, дата ознакомления
## 5. Отзыв руководителя практики от организации/предприятия
Обучающаяся группы М8О-105БВ-25 Ефремова Анастасия Михайловна проходила практику в ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"».
В ходе практики обучающаяся принимала участие в разработке и сопровождении проекта `media-skill`, предназначенного для генерации и обработки медиа-контента с использованием инструментов искусственного интеллекта. Проект развивался как набор возможностей для агентной платформы: генерация сценариев и промптов для видео, анализ трендов, подготовка короткого контента, генерация изображений, создание мемов, обработка клипов, удаление фона, анализ изображений и сборка мультимедийных пайплайнов.
В ходе выполнения индивидуального задания обучающаяся изучила предметную область генерации медиа-контента и приняла участие в развитии структуры навыка `media-skill`. Основное внимание было уделено генерации сценариев для видео, анализу трендов, подготовке промптов для короткого контента, подключению внешних API и развитию новых функций проекта. Также были проработаны отдельные возможности для генерации изображений и видео, создания коротких роликов, мемов, анализа фото и интеграции с общей агентной средой.
За время прохождения практики обучающаяся показала хороший уровень практической подготовки. В работе были проявлены навыки анализа пользовательских сценариев, работы с модульной структурой программного проекта, подготовки промптов и сценариев для генерации медиа-контента, а также оформления результата в виде воспроизводимого навыка для дальнейшего использования.
Материалы, изложенные в отчёте обучающейся, полностью соответствуют индивидуальному заданию, рекомендуемая оценка «отлично».
Подпись руководителя от организации/предприятия: __________________________
Расшифровка подписи: ____________________
Дата: _____ __________ 2026 г.
## 6. Отчёт обучающейся по практике
### Цель и задачи практики
Целью моей практики являлась разработка и сопровождение проекта `media-skill` — навыка для генерации и обработки медиа-контента с использованием инструментов искусственного интеллекта. Проект относится к направлению генерации медиа-контента в рамках лаборатории Lambda и может использоваться как часть общей агентной платформы, где отдельные навыки отвечают за специализированные пользовательские задачи.
В рамках практики были поставлены следующие задачи:
- изучить структуру проекта `media-skill` и определить свою область работы;
- оформить описание возможностей навыка для пользователя и агентной платформы;
- реализовать сценарии генерации идей, сюжетов и промптов для короткого видео и другого медиа-контента;
- проработать анализ трендов и использование трендовых шаблонов при генерации сценариев;
- подключить и использовать внешние API для получения данных, генерации контента и расширения возможностей проекта;
- разрабатывать новые функции для разных пользовательских сценариев;
- реализовать инструменты для генерации и редактирования изображений;
- связать сценарии с видео-пайплайном и подготовкой коротких роликов;
- реализовать генерацию мемов и сценарии для развлекательного контента;
- добавить анализ изображений и фото;
- проработать генерацию коротких видео, продуктовых роликов и мультимедийные пайплайны;
- подготовить проект к использованию как воспроизводимый media-skill в общей системе навыков.
### Общий контекст проекта
На первой установочной встрече лаборатории Lambda была обозначена общая цель: разработка платформы AI-агентов, доступной обычному пользователю через привычные интерфейсы. Одним из направлений работы стали навыки агента, то есть отдельные инструменты, которые расширяют возможности системы. В числе направлений были выделены генерация медиа-контента и генерация видео: создание картинок, роликов, вирусного контента, материалов для Instagram, YouTube, TikTok и других форматов.
В рамках этого направления я работала над проектом `media-skill`. Его задача — предоставить агенту набор функций для работы с медиа: от генерации идеи и сценария до подготовки материалов для короткого ролика или изображения. При этом проект не ограничивается одной моделью или одним типом контента: он объединяет несколько модулей, каждый из которых решает отдельную задачу.
### Общая структура проекта media-skill
На начальном этапе была сформирована общая структура проекта. В корне проекта был подготовлен файл `SKILL.md`, описывающий назначение навыка, его возможности и ожидаемый способ использования. Постепенно проект был разделён на отдельные директории по направлениям:
- `ffmpeg-editing` — вспомогательная обработка видео, монтаж, переходы и субтитры;
- `story-gen` — генерация сценариев, идей и трендовых промптов;
- `image-generation` — генерация и редактирование изображений;
- `remove-background` — удаление фона с изображений;
- `video-generation` — генерация видео;
- `meme-gen` — создание мемов;
- `clip-extractor` — извлечение коротких клипов из видео;
- `face-analyzer` — анализ изображений и лиц;
- `assets` — единая директория входных материалов.
Такое разделение позволило развивать проект не как один монолитный скрипт, а как набор связанных инструментов. В рамках своей работы я ориентировалась на те части проекта, которые отвечали за генерацию сценариев, анализ трендов, подготовку промптов и развитие новых пользовательских сценариев.
### Вспомогательные инструменты обработки видео
Для работы с короткими роликами в проекте использовались вспомогательные инструменты обработки видео через FFmpeg. Я учитывала их как техническую основу для дальнейших видео-сценариев: обрезки клипов, объединения фрагментов, добавления субтитров, работы с вертикальным форматом и переходами между клипами.
Эта часть проекта была важна как техническая основа для дальнейших видео-пайплайнов, однако основной акцент моей работы был не на ручном монтаже, а на генерации идей, сценариев, промптов и логике выбора подходящего сценария для будущего видео.
### Основная работа: story-gen, сценарии для видео и трендовый анализ
Основным направлением моей работы стал модуль `story-gen`. Он предназначен для генерации идей, сценариев и промптов для короткого видео и другого медиа-контента. В процессе разработки мной были добавлены и доработаны трендовые шаблоны и отдельные файлы с идеями для визуальных трансформаций: аниме-стиль, студийное фото, советская эпоха, питомец как человек, фотобудка, цветы в волосах, несколько поколений и другие сценарии.
Особое внимание я уделяла тому, чтобы по пользовательскому запросу можно было получить не просто отдельную картинку, а понятный сценарий для будущего ролика: идею, визуальный стиль, структуру сцен и промпты для дальнейшей генерации. Мной была доработана логика сопоставления пользовательского запроса с подходящим сценарием, учёта трендовых форматов и подготовки материала для последующей генерации видео.
В рамках этой части я также занималась сценариями для продуктового и рекламного контента. Для таких задач важно было не только сгенерировать текст, но и связать описание продукта, визуальный образ, стиль ролика и формат публикации. Поэтому мной были проработаны решения для карточек и видео-режима, а также логика подготовки промптов для дальнейшего video-generation этапа.
### Подключение внешних API и источников данных
Отдельно я занималась подключением внешних источников и API. Это было необходимо для того, чтобы `media-skill` мог не только использовать заранее заданные шаблоны, но и опираться на актуальные данные: популярные темы, визуальные стили, трендовые форматы и примеры пользовательских запросов.
В этой части мной были добавлены загрузка переменных окружения, работа с внешними источниками трендов, GitHub-источниками промптов и другими данными, которые могли использоваться для генерации сценариев. Это позволило сделать сценарии более актуальными и лучше связанными с реальными форматами короткого контента.
### Работа с входными изображениями и multi-photo сценариями
В рамках проекта также развивалось направление генерации и редактирования изображений. В моей работе это направление использовалось прежде всего в связке со сценариями: нужно было учитывать, какие исходные изображения и визуальные материалы будут передаваться дальше в генерацию видео, карточек или других форматов.
Отдельно мной была проработана обработка нескольких изображений: для multi-photo-запросов добавлялась логика автоматического объединения входных файлов в коллаж перед передачей дальше в сценарии редактирования или генерации. Это было нужно, чтобы пользователь мог отправлять несколько материалов, а `media-skill` корректно использовал их в одном запросе.
### Генерация видео и мультимедийные пайплайны
Отдельным этапом моей работы стала связка сценариев с видео-направлением. В проект были добавлены сценарии генерации видео, а также пайплайны, объединяющие несколько шагов: подготовку идеи, генерацию визуального материала, сборку ролика и финальное оформление.
В рамках этого направления мной прорабатывались короткие вертикальные ролики, TikTok/shorts-формат, продуктовые видео и рекламные сценарии. Отдельно развивался пайплайн для товарного контента, где из исходного изображения или описания продукта формировалась карточка и видео-материал.
Дальнейшее развитие привело к более цельному процессу: `story-gen` подготавливал сценарий, видеогенератор создавал визуальную часть, а вспомогательные инструменты сборки помогали оформить итоговый ролик. В этой связке моя основная задача заключалась в том, чтобы правильно сформировать сценарий, визуальную логику и промпты, от которых зависит качество будущего видео.
### Создание мемов и развлекательного контента
Одной из дополнительных функций, над которыми я работала, стал модуль `meme-gen`, предназначенный для создания мемов. Он поддерживал разные форматы: наложение текста на изображение, использование классических шаблонов, выбор структуры мема в зависимости от запроса пользователя. Позже мной была добавлена логика умного выбора режима: если запрос лучше подходит для подписи на фото, используется один сценарий, если в запросе есть противопоставление или формат "А против Б", выбирается шаблонный мем.
Также была расширена библиотека шаблонов и добавлены сценарии для meme-video. Это сделало media-skill полезным не только для "серьёзной" генерации изображений и видео, но и для быстрого создания развлекательного контента.
### Анализ изображений и извлечение клипов
Для расширения возможностей проекта мной был доработан модуль `face-analyzer`. Изначально он использовал геометрический анализ, но затем был переработан в сторону LLM vision-подхода. Модуль стал отвечать на конкретные вопросы пользователя по изображению, анализировать несколько фотографий в одном запросе, сравнивать визуальные признаки и избегать слишком общих ответов.
Параллельно мной был добавлен и доработан `clip-extractor` — инструмент для извлечения коротких клипов из видео. Он поддерживал работу с YouTube-ссылками и локальными видеофайлами, а также включал улучшения для вертикального кадрирования и выделения лиц в клипе. Это направление было важно для задач создания короткого вирусного контента из длинных видео.
### Улучшение качества и тренд-коллектор
На следующих этапах мной были добавлены механизмы повышения качества. Появился тренд-коллектор, который собирает и обновляет идеи для актуальных визуальных трансформаций и форматов. В рамках этой части работы я прорабатывала подключение внешних источников и API, чтобы использовать данные о популярных темах, форматах и визуальных стилях при генерации сценариев.
Мной были добавлены источники трендов, библиотека промптов, поддержка multi-photo-сценариев и элементы оценки качества результата. Эти изменения были нужны для того, чтобы media-skill не был набором статичных команд, а мог предлагать актуальные идеи для пользовательских запросов. Особенно это важно для контента в социальных сетях, где визуальные тренды быстро меняются.
### Разработка новых функций
В процессе практики я занималась разработкой новых функций для разных пользовательских сценариев. По мере развития проекта добавлялись отдельные возможности: обработка нескольких изображений, автоматическое создание коллажа для multi-photo-запросов, генерация мемов, сценарии для meme-video, анализ фото, извлечение клипов, поддержка локальных видеофайлов, улучшение вертикального кадрирования и подготовка результатов для разных форматов короткого контента.
Такой подход позволил мне развивать `media-skill` итерационно: сначала появлялись базовые инструменты, затем они объединялись в более сложные сценарии. В результате проект стал набором модулей, которые можно использовать как отдельно, так и в составе общего процесса генерации медиа-контента.
### Интеграция с агентной платформой
На позднем этапе проект был подготовлен к использованию в составе общей агентной платформы. В этой части я участвовала в адаптации описаний и сценариев запуска под формат навыка: были переработаны `SKILL.md` и `SUBAGENT.md`, добавлены настройки рабочего окружения, поддержка переменной `MEDIA_SKILL_WORKDIR`, единые правила входных и выходных директорий, а также ACP-сервер для взаимодействия с агентной средой.
Эта работа позволила рассматривать `media-skill` как самостоятельный навык, который может быть вызван агентом для решения медиа-задач пользователя. При этом каждый модуль сохраняет свою специализацию, а общий входной сценарий помогает маршрутизировать пользовательский запрос к нужному инструменту.
### Полученные результаты
По итогам практической работы был создан и развит проект `media-skill`, включающий набор инструментов для генерации и обработки медиа-контента. В числе выполненных мной работ были:
- генерация идей, сценариев и промптов для короткого видео и другого медиа-контента;
- анализ трендов и использование трендовых шаблонов;
- подключение внешних источников и API для расширения возможностей проекта;
- подготовка сценариев и промптов для вертикальных видео и shorts-роликов;
- связь сценариев с дальнейшей генерацией видео и сборкой роликов;
- проработка продуктового и рекламного видео-пайплайна;
- обработка нескольких входных изображений и multi-photo-сценариев;
- создание мемов и meme-video;
- извлечение коротких клипов из видео;
- анализ изображений и лиц;
- использование трендовых шаблонов и промптов;
- адаптация описаний и сценариев запуска для использования проекта как навыка в агентной платформе.
### Вывод
В ходе практики были получены и закреплены навыки разработки модульного программного проекта, связанного с генерацией и обработкой медиа-контента. Основной практический опыт был связан с генерацией сценариев для видео, анализом трендов, подключением внешних API и развитием новых функций проекта. Была изучена предметная область AI-инструментов для изображений, видео и короткого развлекательного контента. В процессе работы я внесла вклад в развитие проекта `media-skill`, объединяющего несколько направлений медиа-обработки и пригодного для использования в составе общей системы AI-агентов.
Также выполненная работа была связана с общей идеей лаборатории Lambda: созданием набора прикладных навыков для AI-агента, которые позволяют пользователю решать практические задачи через единую платформу. `media-skill` закрывает одно из таких направлений — генерацию и обработку медиа-контента — и может использоваться как часть более широкой системы агентных инструментов.
Выполненная работа позволила разработать основу навыка для генерации медиа-контента, расширить его отдельными модулями и подготовить проект к дальнейшему развитию.
Подпись обучающейся: __________________________ / Ефремова А.М. / 7 июня 2026 г.