11 KiB
EGE-Checker — Отчёт о проделанной работе
Период: март — май 2026
Команда: Лаборатория Лямбда 3.0, МАИ
1. Цель проекта
Скилл для автоматической проверки заданий ЕГЭ с выставлением баллов по официальным критериям ФИПИ 2026. Два модуля:
- Модуль 1 — Сочинение (русский язык): OCR рукописных бланков + оценка по критериям К1–К10
- Модуль 2 — Говорение (английский язык): STT аудиозаписей через Whisper + оценка по 4 заданиям
Целевой сценарий использования: помощник для эксперта — модель проверяет работу параллельно с человеком, показывает своё мнение по каждому критерию с подробным разбором.
2. Архитектура и стек
Стек
| Компонент | Инструмент |
|---|---|
| Агент | ZeroClaw (Rust) / OpenClaw |
| LLM | Qwen3.5-122B (основная), GPT-4o, Claude Opus (тестирование) |
| OCR рукописи | Vision-возможности LLM (Qwen Vision) |
| STT аудио | faster-whisper (модель medium, локально) |
| Интерфейс | Telegram, Matrix |
Файловая структура скилла
ege-checker/
├── SKILL.md # Инструкции и логика агента
├── recognition.py # STT-модуль (faster-whisper)
└── references/
├── russian-essay-criteria.md # Критерии К1–К10, ЕГЭ 2026
└── english-speaking-criteria.md # Критерии 4 заданий говорения, ЕГЭ 2026
Схема работы (текущая)
Telegram / Matrix - сообщение
↓
Claw-агент
↓
Агент (Qwen3.5-122B) + SKILL.md
↓
Ответ в Telegram
3. Реализованные компоненты
3.1. SKILL.md — логика агента
Описывает два режима работы для каждого модуля:
Модуль 1 (сочинение):
- Только сканы → распознать рукопись, сообщить количество слов, запросить исходный текст
- Сканы + исходный текст + тема → распознать + оценить К1–К10 с объяснением снятий
Модуль 2 (говорение):
- Только аудио → транскрибировать через recognition.py, вывести текст
- Аудио + задание → транскрибировать + оценить по критериям
Поддержка нескольких аудиофайлов (каждое задание отдельно).
3.2. recognition.py — STT-модуль
Транскрибирует аудиофайлы с ответами ученика через faster-whisper. Ключевые возможности:
- Автовыбор устройства (CPU / CUDA)
- VAD-фильтрация тишины и пауз
- WHISPER_PROMPT с описанием формата ответов для точного распознавания
- Сегментация с таймкодами
- Возвращает
TranscriptResult: текст, язык, длительность, сегменты
Поддерживаемые форматы: MP3, WAV, M4A, OGG, WEBM, FLAC.
3.3. Критерии ЕГЭ 2026
Русский язык (К1–К10), итого 22 балла:
| К1 | К2 | К3 | К4 | К5 | К6 | К7 | К8 | К9 | К10 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 3 | 2 | 1 | 2 | 1 | 3 | 3 | 3 | 3 |
Английский язык — Говорение (4 задания), итого 20 баллов:
| Задание | Тип | Макс. баллов |
|---|---|---|
| 1 | Чтение вслух | 1 |
| 2 | Диалог-расспрос (4 вопроса) | 4 |
| 3 | Диалог-интервью (5 ответов) | 5 |
| 4 | Монолог (3 критерия: содержание 4б + организация 3б + язык 3б) | 10 |
4. Тестирование
4.1. OCR + оценка сочинения (RESULTS.md)
Протестировано на реальных работах учеников с известными баллами экспертов.
Сводка по моделям:
| Модель | Характеристика |
|---|---|
| qwen3.5-122b | Основная рабочая модель. Хорошее качество, часть работ — точное совпадение с экспертом (±0–1 балл) |
| gpt-4o | Минимальная предвзятость, на ряде работ точнее qwen. Лучший результат: 22/22 |
| gpt-5-pro | Стабильно высокое качество, несколько работ — 21–22/22 |
| claude-opus-4-6 | Системно занижает оценки, закончились токены до завершения тестирования |
Примеры результатов (выборка):
| Балл эксперта | Лучший балл модели | Лучшая модель |
|---|---|---|
| 22 | 22 | qwen3.5-122b |
| 22 | 22 | qwen3.5-122b |
| 20 | 22 | qwen3.5-122b |
| 22 | 22 | gpt-4o |
| 22 | 22 | gpt-4o / qwen |
Типичное расхождение: ±1–3 балла. На сложных работах с плохим OCR (низкий OCR Accuracy) расхождение возрастает.
OCR Accuracy измерена для части работ. Диапазон: 57–99%. Низкая точность (Бакирова 57%, Агупова 68%) коррелирует с большим расхождением в оценке.
4.2. Оценка говорения (transcriptions-report.md)
Протестировано на 14 учениках из 4 регионов (Адыгея, Башкортостан, Бурятия, Алтай).
Средние показатели по заданиям:
| Метрика | Задание 1 | Задание 2 | Задание 3 | Задание 4 |
|---|---|---|---|---|
| Avg True (эксперт) | 0.786 | 2.429 | 1.857 | 5.857 |
| Avg Pred (модель) | 0.357 | 2.286 | 1.357 | 7.000 |
| MAE | 0.429 | 0.143 | 0.500 | 1.143 |
Выводы по заданиям:
- Задание 2 — наиболее точное (MAE 0.143). Объективный критерий (форма вопроса) хорошо распознаётся
- Задание 1 — систематическое занижение (Avg Pred 0.357 vs True 0.786). Модель строже экспертов в оценке фонетики
- Задание 3 — заметное занижение (MAE 0.500). Проблема: ответы ученика идут сплошным текстом, сложно разбить на 5 отдельных ответов
- Задание 4 — систематическое завышение (Avg Pred 7.000 vs True 5.857). Модель щедрее оценивает монолог
5. Текущее состояние и открытые вопросы
Работает
- ✅ recognition.py запускается локально в прокси, транскрипт передаётся агенту готовым
- ✅ Критерии ЕГЭ 2026 актуализированы (русский + говорение английский)
- ✅ SKILL.md описывает корректную логику для обоих модулей
- ✅ OCR + оценка сочинения протестированы на реальных работах
Открытые вопросы
Оценка говорения:
- Задание 1 (чтение): систематическое занижение — нужна калибровка критерия фонетики
- Задание 3 (ответы): нужен метод сегментации сплошного транскрипта на отдельные ответы
- Задание 4 (монолог): систематическое завышение — нужны few-shot примеры для калибровки
OCR:
- Нет золотого стандарта для измерения точности OCR — нужна разметка эталонного датасета
- Qwen Vision может исправлять рукописные ошибки "на лету", что искажает результат OCR
Инфраструктура:
- Контекст задания (исходный текст из ФИПИ) не добавляется автоматически — нужна интеграция или ручная подача
- Тестирование говорения проводилось на небольшой выборке (14 человек, 4 региона) — нужно расширить
6. Соответствие дорожной карте
| Фаза | Срок по плану | Статус |
|---|---|---|
| Ф1: Базовый прототип | 23 марта — 5 апреля | ✅ Выполнено. Скилл работает на тестовом наборе |
| М1: Первые цифры расхождения | 5 апреля | ✅ RESULTS.md + transcriptions-report.md |
| Ф2: Улучшение распознавания | 6–19 апреля | ✅ Выполнено. OCR итерации проведены, STT настроен |
| М2: OCR >90%, STT >85% | 19 апреля | ✅ OCR: достигнут на чистых бланках. STT: выявлены систематические отклонения |
| Ф3: Стабильность оценки | 20 апреля — 10 мая | ✅ Выполнено. Корректировка критериев проверки |
| Ф4: Интеграция и финализация | 11–24 мая | 🔄 В процессе. |
8. Дальнейшая работа
-
Расширение тестовой выборки: протестировать говорение на 30+ работах из разных регионов для статистически значимых выводов
-
Интеграция с платформой: после готовности agent-api от команды платформы — переехать с локального Claw на общего агента