Practice_reports/media-skill/efremova_anastasia.md
2026-05-19 00:57:19 +03:00

34 KiB
Raw Permalink Blame History

Журнал практики

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ
(национальный исследовательский университет)»

Институт № 8 «Компьютерные науки и прикладная математика»

Кафедра ЦОП ВО «ТОП-ИТ»

Учебная группа: М8О-105БВ-25

ФИО обучающейся: Ефремова Анастасия Михайловна

Направление подготовки / специальность:
02.03.02 Фундаментальная информатика и информационные технологии

Вид практики: ознакомительная

Оценка за практику: ____________________ Булакина М.Б.

Москва 2026

1. Место и сроки проведения практики

Наименование организации: ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"»

Сроки проведения практики:

Дата начала практики: 09.02.2026

Дата окончания практики: 07.06.2026

2. Инструктаж по технике безопасности

Проведён инструктаж по технике безопасности.

Подпись проводившего: __________________________

Расшифровка подписи: Булакина М.Б.

Дата проведения: 9 февраля 2026 г.

3. Индивидуальное задание обучающейся

Разработка и сопровождение проекта media-skill, предназначенного для генерации и обработки медиа-контента с использованием инструментов искусственного интеллекта.

4. План выполнения индивидуального задания обучающейся

№ п/п Место проведения Тема Период выполнения
1 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Инструктаж по технике безопасности. Знакомство с задачами лаборатории Lambda и направлением генерации медиа-контента. 09.02.2026-09.02.2026
2 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Изучение общей структуры media-skill как навыка для работы с медиа, знакомство с описанием возможностей и организацией модулей. 10.02.2026-19.03.2026
3 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Изучение базовых инструментов обработки медиа и подготовка основы для дальнейшей генерации коротких видео. 20.03.2026-23.03.2026
4 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Разработка модуля генерации сценариев и идей для короткого контента: story-gen, трендовые промпты, preview-логика и шаблоны сюжетов. 24.03.2026-02.04.2026
5 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Добавление функций генерации и редактирования изображений, удаления фона, стандартизации входных файлов и общей папки assets. 01.04.2026-06.04.2026
6 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Разработка видео-пайплайнов: генерация сценариев, подготовка промптов, сборка логики роликов, поддержка TikTok/shorts-формата, сценарии для продуктовых и рекламных видео. 03.04.2026-19.04.2026
7 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Разработка дополнительных медиа-возможностей: создание мемов, извлечение клипов из видео, анализ фото и лица, обработка нескольких изображений. 19.04.2026-22.04.2026
8 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Улучшение качества генерации: тренд-коллектор, библиотека шаблонов, оценка качества, поддержка multi-photo-сценариев и уточнение пользовательских запросов. 22.04.2026-28.04.2026
9 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Интеграция media-skill с общей агентной платформой: настройка рабочего окружения, subagent-описания, ACP-сервер, единый сценарий запуска. 29.04.2026-18.05.2026
10 ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"» Подготовка материалов отчёта, описание архитектуры проекта, основных модулей и результатов разработки. Оформление отчёта и подведение итогов. 19.05.2026-07.06.2026

Утверждаю: __________________________ / Булакина М.Б. / 9 февраля 2026 г.
Подпись руководителя от МАИ, расшифровка подписи, дата утверждения

Утверждаю: __________________________ / ____________________ / 9 февраля 2026 г.
Подпись руководителя от организации/предприятия, расшифровка подписи, дата утверждения

Ознакомлена: __________________________ / Ефремова А.М. / 9 февраля 2026 г.
Подпись обучающейся, расшифровка подписи, дата ознакомления

5. Отзыв руководителя практики от организации/предприятия

Обучающаяся группы М8О-105БВ-25 Ефремова Анастасия Михайловна проходила практику в ООО «ГРУППА КОМПАНИЙ "ИННОТЕХ"».

В ходе практики обучающаяся принимала участие в разработке и сопровождении проекта media-skill, предназначенного для генерации и обработки медиа-контента с использованием инструментов искусственного интеллекта. Проект развивался как набор возможностей для агентной платформы: генерация сценариев и промптов для видео, анализ трендов, подготовка короткого контента, генерация изображений, создание мемов, обработка клипов, удаление фона, анализ изображений и сборка мультимедийных пайплайнов.

В ходе выполнения индивидуального задания обучающаяся изучила предметную область генерации медиа-контента и приняла участие в развитии структуры навыка media-skill. Основное внимание было уделено генерации сценариев для видео, анализу трендов, подготовке промптов для короткого контента, подключению внешних API и развитию новых функций проекта. Также были проработаны отдельные возможности для генерации изображений и видео, создания коротких роликов, мемов, анализа фото и интеграции с общей агентной средой.

За время прохождения практики обучающаяся показала хороший уровень практической подготовки. В работе были проявлены навыки анализа пользовательских сценариев, работы с модульной структурой программного проекта, подготовки промптов и сценариев для генерации медиа-контента, а также оформления результата в виде воспроизводимого навыка для дальнейшего использования.

Материалы, изложенные в отчёте обучающейся, полностью соответствуют индивидуальному заданию, рекомендуемая оценка «отлично».

Подпись руководителя от организации/предприятия: __________________________

Расшифровка подписи: ____________________

Дата: _____ __________ 2026 г.

6. Отчёт обучающейся по практике

Цель и задачи практики

Целью моей практики являлась разработка и сопровождение проекта media-skill — навыка для генерации и обработки медиа-контента с использованием инструментов искусственного интеллекта. Проект относится к направлению генерации медиа-контента в рамках лаборатории Lambda и может использоваться как часть общей агентной платформы, где отдельные навыки отвечают за специализированные пользовательские задачи.

В рамках практики были поставлены следующие задачи:

  • изучить структуру проекта media-skill и определить свою область работы;
  • оформить описание возможностей навыка для пользователя и агентной платформы;
  • реализовать сценарии генерации идей, сюжетов и промптов для короткого видео и другого медиа-контента;
  • проработать анализ трендов и использование трендовых шаблонов при генерации сценариев;
  • подключить и использовать внешние API для получения данных, генерации контента и расширения возможностей проекта;
  • разрабатывать новые функции для разных пользовательских сценариев;
  • реализовать инструменты для генерации и редактирования изображений;
  • связать сценарии с видео-пайплайном и подготовкой коротких роликов;
  • реализовать генерацию мемов и сценарии для развлекательного контента;
  • добавить анализ изображений и фото;
  • проработать генерацию коротких видео, продуктовых роликов и мультимедийные пайплайны;
  • подготовить проект к использованию как воспроизводимый media-skill в общей системе навыков.

Общий контекст проекта

На первой установочной встрече лаборатории Lambda была обозначена общая цель: разработка платформы AI-агентов, доступной обычному пользователю через привычные интерфейсы. Одним из направлений работы стали навыки агента, то есть отдельные инструменты, которые расширяют возможности системы. В числе направлений были выделены генерация медиа-контента и генерация видео: создание картинок, роликов, вирусного контента, материалов для Instagram, YouTube, TikTok и других форматов.

В рамках этого направления я работала над проектом media-skill. Его задача — предоставить агенту набор функций для работы с медиа: от генерации идеи и сценария до подготовки материалов для короткого ролика или изображения. При этом проект не ограничивается одной моделью или одним типом контента: он объединяет несколько модулей, каждый из которых решает отдельную задачу.

Общая структура проекта media-skill

На начальном этапе была сформирована общая структура проекта. В корне проекта был подготовлен файл SKILL.md, описывающий назначение навыка, его возможности и ожидаемый способ использования. Постепенно проект был разделён на отдельные директории по направлениям:

  • ffmpeg-editing — вспомогательная обработка видео, монтаж, переходы и субтитры;
  • story-gen — генерация сценариев, идей и трендовых промптов;
  • image-generation — генерация и редактирование изображений;
  • remove-background — удаление фона с изображений;
  • video-generation — генерация видео;
  • meme-gen — создание мемов;
  • clip-extractor — извлечение коротких клипов из видео;
  • face-analyzer — анализ изображений и лиц;
  • assets — единая директория входных материалов.

Такое разделение позволило развивать проект не как один монолитный скрипт, а как набор связанных инструментов. В рамках своей работы я ориентировалась на те части проекта, которые отвечали за генерацию сценариев, анализ трендов, подготовку промптов и развитие новых пользовательских сценариев.

Вспомогательные инструменты обработки видео

Для работы с короткими роликами в проекте использовались вспомогательные инструменты обработки видео через FFmpeg. Я учитывала их как техническую основу для дальнейших видео-сценариев: обрезки клипов, объединения фрагментов, добавления субтитров, работы с вертикальным форматом и переходами между клипами.

Эта часть проекта была важна как техническая основа для дальнейших видео-пайплайнов, однако основной акцент моей работы был не на ручном монтаже, а на генерации идей, сценариев, промптов и логике выбора подходящего сценария для будущего видео.

Основная работа: story-gen, сценарии для видео и трендовый анализ

Основным направлением моей работы стал модуль story-gen. Он предназначен для генерации идей, сценариев и промптов для короткого видео и другого медиа-контента. В процессе разработки мной были добавлены и доработаны трендовые шаблоны и отдельные файлы с идеями для визуальных трансформаций: аниме-стиль, студийное фото, советская эпоха, питомец как человек, фотобудка, цветы в волосах, несколько поколений и другие сценарии.

Особое внимание я уделяла тому, чтобы по пользовательскому запросу можно было получить не просто отдельную картинку, а понятный сценарий для будущего ролика: идею, визуальный стиль, структуру сцен и промпты для дальнейшей генерации. Мной была доработана логика сопоставления пользовательского запроса с подходящим сценарием, учёта трендовых форматов и подготовки материала для последующей генерации видео.

В рамках этой части я также занималась сценариями для продуктового и рекламного контента. Для таких задач важно было не только сгенерировать текст, но и связать описание продукта, визуальный образ, стиль ролика и формат публикации. Поэтому мной были проработаны решения для карточек и видео-режима, а также логика подготовки промптов для дальнейшего video-generation этапа.

Подключение внешних API и источников данных

Отдельно я занималась подключением внешних источников и API. Это было необходимо для того, чтобы media-skill мог не только использовать заранее заданные шаблоны, но и опираться на актуальные данные: популярные темы, визуальные стили, трендовые форматы и примеры пользовательских запросов.

В этой части мной были добавлены загрузка переменных окружения, работа с внешними источниками трендов, GitHub-источниками промптов и другими данными, которые могли использоваться для генерации сценариев. Это позволило сделать сценарии более актуальными и лучше связанными с реальными форматами короткого контента.

Работа с входными изображениями и multi-photo сценариями

В рамках проекта также развивалось направление генерации и редактирования изображений. В моей работе это направление использовалось прежде всего в связке со сценариями: нужно было учитывать, какие исходные изображения и визуальные материалы будут передаваться дальше в генерацию видео, карточек или других форматов.

Отдельно мной была проработана обработка нескольких изображений: для multi-photo-запросов добавлялась логика автоматического объединения входных файлов в коллаж перед передачей дальше в сценарии редактирования или генерации. Это было нужно, чтобы пользователь мог отправлять несколько материалов, а media-skill корректно использовал их в одном запросе.

Генерация видео и мультимедийные пайплайны

Отдельным этапом моей работы стала связка сценариев с видео-направлением. В проект были добавлены сценарии генерации видео, а также пайплайны, объединяющие несколько шагов: подготовку идеи, генерацию визуального материала, сборку ролика и финальное оформление.

В рамках этого направления мной прорабатывались короткие вертикальные ролики, TikTok/shorts-формат, продуктовые видео и рекламные сценарии. Отдельно развивался пайплайн для товарного контента, где из исходного изображения или описания продукта формировалась карточка и видео-материал.

Дальнейшее развитие привело к более цельному процессу: story-gen подготавливал сценарий, видеогенератор создавал визуальную часть, а вспомогательные инструменты сборки помогали оформить итоговый ролик. В этой связке моя основная задача заключалась в том, чтобы правильно сформировать сценарий, визуальную логику и промпты, от которых зависит качество будущего видео.

Создание мемов и развлекательного контента

Одной из дополнительных функций, над которыми я работала, стал модуль meme-gen, предназначенный для создания мемов. Он поддерживал разные форматы: наложение текста на изображение, использование классических шаблонов, выбор структуры мема в зависимости от запроса пользователя. Позже мной была добавлена логика умного выбора режима: если запрос лучше подходит для подписи на фото, используется один сценарий, если в запросе есть противопоставление или формат "А против Б", выбирается шаблонный мем.

Также была расширена библиотека шаблонов и добавлены сценарии для meme-video. Это сделало media-skill полезным не только для "серьёзной" генерации изображений и видео, но и для быстрого создания развлекательного контента.

Анализ изображений и извлечение клипов

Для расширения возможностей проекта мной был доработан модуль face-analyzer. Изначально он использовал геометрический анализ, но затем был переработан в сторону LLM vision-подхода. Модуль стал отвечать на конкретные вопросы пользователя по изображению, анализировать несколько фотографий в одном запросе, сравнивать визуальные признаки и избегать слишком общих ответов.

Параллельно мной был добавлен и доработан clip-extractor — инструмент для извлечения коротких клипов из видео. Он поддерживал работу с YouTube-ссылками и локальными видеофайлами, а также включал улучшения для вертикального кадрирования и выделения лиц в клипе. Это направление было важно для задач создания короткого вирусного контента из длинных видео.

Улучшение качества и тренд-коллектор

На следующих этапах мной были добавлены механизмы повышения качества. Появился тренд-коллектор, который собирает и обновляет идеи для актуальных визуальных трансформаций и форматов. В рамках этой части работы я прорабатывала подключение внешних источников и API, чтобы использовать данные о популярных темах, форматах и визуальных стилях при генерации сценариев.

Мной были добавлены источники трендов, библиотека промптов, поддержка multi-photo-сценариев и элементы оценки качества результата. Эти изменения были нужны для того, чтобы media-skill не был набором статичных команд, а мог предлагать актуальные идеи для пользовательских запросов. Особенно это важно для контента в социальных сетях, где визуальные тренды быстро меняются.

Разработка новых функций

В процессе практики я занималась разработкой новых функций для разных пользовательских сценариев. По мере развития проекта добавлялись отдельные возможности: обработка нескольких изображений, автоматическое создание коллажа для multi-photo-запросов, генерация мемов, сценарии для meme-video, анализ фото, извлечение клипов, поддержка локальных видеофайлов, улучшение вертикального кадрирования и подготовка результатов для разных форматов короткого контента.

Такой подход позволил мне развивать media-skill итерационно: сначала появлялись базовые инструменты, затем они объединялись в более сложные сценарии. В результате проект стал набором модулей, которые можно использовать как отдельно, так и в составе общего процесса генерации медиа-контента.

Интеграция с агентной платформой

На позднем этапе проект был подготовлен к использованию в составе общей агентной платформы. В этой части я участвовала в адаптации описаний и сценариев запуска под формат навыка: были переработаны SKILL.md и SUBAGENT.md, добавлены настройки рабочего окружения, поддержка переменной MEDIA_SKILL_WORKDIR, единые правила входных и выходных директорий, а также ACP-сервер для взаимодействия с агентной средой.

Эта работа позволила рассматривать media-skill как самостоятельный навык, который может быть вызван агентом для решения медиа-задач пользователя. При этом каждый модуль сохраняет свою специализацию, а общий входной сценарий помогает маршрутизировать пользовательский запрос к нужному инструменту.

Полученные результаты

По итогам практической работы был создан и развит проект media-skill, включающий набор инструментов для генерации и обработки медиа-контента. В числе выполненных мной работ были:

  • генерация идей, сценариев и промптов для короткого видео и другого медиа-контента;
  • анализ трендов и использование трендовых шаблонов;
  • подключение внешних источников и API для расширения возможностей проекта;
  • подготовка сценариев и промптов для вертикальных видео и shorts-роликов;
  • связь сценариев с дальнейшей генерацией видео и сборкой роликов;
  • проработка продуктового и рекламного видео-пайплайна;
  • обработка нескольких входных изображений и multi-photo-сценариев;
  • создание мемов и meme-video;
  • извлечение коротких клипов из видео;
  • анализ изображений и лиц;
  • использование трендовых шаблонов и промптов;
  • адаптация описаний и сценариев запуска для использования проекта как навыка в агентной платформе.

Вывод

В ходе практики были получены и закреплены навыки разработки модульного программного проекта, связанного с генерацией и обработкой медиа-контента. Основной практический опыт был связан с генерацией сценариев для видео, анализом трендов, подключением внешних API и развитием новых функций проекта. Была изучена предметная область AI-инструментов для изображений, видео и короткого развлекательного контента. В процессе работы я внесла вклад в развитие проекта media-skill, объединяющего несколько направлений медиа-обработки и пригодного для использования в составе общей системы AI-агентов.

Также выполненная работа была связана с общей идеей лаборатории Lambda: созданием набора прикладных навыков для AI-агента, которые позволяют пользователю решать практические задачи через единую платформу. media-skill закрывает одно из таких направлений — генерацию и обработку медиа-контента — и может использоваться как часть более широкой системы агентных инструментов.

Выполненная работа позволила разработать основу навыка для генерации медиа-контента, расширить его отдельными модулями и подготовить проект к дальнейшему развитию.

Подпись обучающейся: __________________________ / Ефремова А.М. / 7 июня 2026 г.