ege-skill-org/ege-skill

Fork 0

shuler7 ce7b9ebe0a update report.md

2026-05-09 11:22:49 +03:00

11 KiB

Raw Blame History

EGE-Checker — Отчёт о проделанной работе

Период: март — май 2026
Команда: Лаборатория Лямбда 3.0, МАИ

1. Цель проекта

Скилл для автоматической проверки заданий ЕГЭ с выставлением баллов по официальным критериям ФИПИ 2026. Два модуля:

Модуль 1 — Сочинение (русский язык): OCR рукописных бланков + оценка по критериям К1–К10
Модуль 2 — Говорение (английский язык): STT аудиозаписей через Whisper + оценка по 4 заданиям

Целевой сценарий использования: помощник для эксперта — модель проверяет работу параллельно с человеком, показывает своё мнение по каждому критерию с подробным разбором.

2. Архитектура и стек

Стек

Компонент	Инструмент
Агент	ZeroClaw (Rust) / OpenClaw
LLM	Qwen3.5-122B (основная), GPT-4o, Claude Opus (тестирование)
OCR рукописи	Vision-возможности LLM (Qwen Vision)
STT аудио	faster-whisper (модель medium, локально)
Интерфейс	Telegram, Matrix

Файловая структура скилла

ege-checker/
├── SKILL.md                          # Инструкции и логика агента
├── recognition.py                    # STT-модуль (faster-whisper)
└── references/
    ├── russian-essay-criteria.md     # Критерии К1–К10, ЕГЭ 2026
    └── english-speaking-criteria.md  # Критерии 4 заданий говорения, ЕГЭ 2026

Схема работы (текущая)

Telegram / Matrix - сообщение
    ↓
Claw-агент
    ↓
Агент (Qwen3.5-122B) + SKILL.md
    ↓
Ответ в Telegram

3. Реализованные компоненты

3.1. SKILL.md — логика агента

Описывает два режима работы для каждого модуля:

Модуль 1 (сочинение):

Только сканы → распознать рукопись, сообщить количество слов, запросить исходный текст
Сканы + исходный текст + тема → распознать + оценить К1–К10 с объяснением снятий

Модуль 2 (говорение):

Только аудио → транскрибировать через recognition.py, вывести текст
Аудио + задание → транскрибировать + оценить по критериям

Поддержка нескольких аудиофайлов (каждое задание отдельно).

3.2. recognition.py — STT-модуль

Транскрибирует аудиофайлы с ответами ученика через faster-whisper. Ключевые возможности:

Автовыбор устройства (CPU / CUDA)
VAD-фильтрация тишины и пауз
WHISPER_PROMPT с описанием формата ответов для точного распознавания
Сегментация с таймкодами
Возвращает TranscriptResult: текст, язык, длительность, сегменты

Поддерживаемые форматы: MP3, WAV, M4A, OGG, WEBM, FLAC.

3.3. Критерии ЕГЭ 2026

Русский язык (К1–К10), итого 22 балла:

К1	К2	К3	К4	К5	К6	К7	К8	К9	К10
1	3	2	1	2	1	3	3	3	3

Английский язык — Говорение (4 задания), итого 20 баллов:

Задание	Тип	Макс. баллов
1	Чтение вслух	1
2	Диалог-расспрос (4 вопроса)	4
3	Диалог-интервью (5 ответов)	5
4	Монолог (3 критерия: содержание 4б + организация 3б + язык 3б)	10

4. Тестирование

4.1. OCR + оценка сочинения (RESULTS.md)

Протестировано на реальных работах учеников с известными баллами экспертов.

Сводка по моделям:

Модель	Характеристика
qwen3.5-122b	Основная рабочая модель. Хорошее качество, часть работ — точное совпадение с экспертом (±0–1 балл)
gpt-4o	Минимальная предвзятость, на ряде работ точнее qwen. Лучший результат: 22/22
gpt-5-pro	Стабильно высокое качество, несколько работ — 21–22/22
claude-opus-4-6	Системно занижает оценки, закончились токены до завершения тестирования

Примеры результатов (выборка):

Балл эксперта	Лучший балл модели	Лучшая модель
22	22	qwen3.5-122b
22	22	qwen3.5-122b
20	22	qwen3.5-122b
22	22	gpt-4o
22	22	gpt-4o / qwen

Типичное расхождение: ±1–3 балла. На сложных работах с плохим OCR (низкий OCR Accuracy) расхождение возрастает.

OCR Accuracy измерена для части работ. Диапазон: 57–99%. Низкая точность (Бакирова 57%, Агупова 68%) коррелирует с большим расхождением в оценке.

4.2. Оценка говорения (transcriptions-report.md)

Протестировано на 14 учениках из 4 регионов (Адыгея, Башкортостан, Бурятия, Алтай).

Средние показатели по заданиям:

Метрика	Задание 1	Задание 2	Задание 3	Задание 4
Avg True (эксперт)	0.786	2.429	1.857	5.857
Avg Pred (модель)	0.357	2.286	1.357	7.000
MAE	0.429	0.143	0.500	1.143

Выводы по заданиям:

Задание 2 — наиболее точное (MAE 0.143). Объективный критерий (форма вопроса) хорошо распознаётся
Задание 1 — систематическое занижение (Avg Pred 0.357 vs True 0.786). Модель строже экспертов в оценке фонетики
Задание 3 — заметное занижение (MAE 0.500). Проблема: ответы ученика идут сплошным текстом, сложно разбить на 5 отдельных ответов
Задание 4 — систематическое завышение (Avg Pred 7.000 vs True 5.857). Модель щедрее оценивает монолог

5. Текущее состояние и открытые вопросы

Работает

✅ recognition.py запускается локально в прокси, транскрипт передаётся агенту готовым
✅ Критерии ЕГЭ 2026 актуализированы (русский + говорение английский)
✅ SKILL.md описывает корректную логику для обоих модулей
✅ OCR + оценка сочинения протестированы на реальных работах

Открытые вопросы

Оценка говорения:

Задание 1 (чтение): систематическое занижение — нужна калибровка критерия фонетики
Задание 3 (ответы): нужен метод сегментации сплошного транскрипта на отдельные ответы
Задание 4 (монолог): систематическое завышение — нужны few-shot примеры для калибровки

OCR:

Нет золотого стандарта для измерения точности OCR — нужна разметка эталонного датасета
Qwen Vision может исправлять рукописные ошибки "на лету", что искажает результат OCR

Инфраструктура:

Контекст задания (исходный текст из ФИПИ) не добавляется автоматически — нужна интеграция или ручная подача
Тестирование говорения проводилось на небольшой выборке (14 человек, 4 региона) — нужно расширить

6. Соответствие дорожной карте

Фаза	Срок по плану	Статус
Ф1: Базовый прототип	23 марта — 5 апреля	✅ Выполнено. Скилл работает на тестовом наборе
М1: Первые цифры расхождения	5 апреля	✅ RESULTS.md + transcriptions-report.md
Ф2: Улучшение распознавания	6–19 апреля	✅ Выполнено. OCR итерации проведены, STT настроен
М2: OCR >90%, STT >85%	19 апреля	✅ OCR: достигнут на чистых бланках. STT: выявлены систематические отклонения
Ф3: Стабильность оценки	20 апреля — 10 мая	✅ Выполнено. Корректировка критериев проверки
Ф4: Интеграция и финализация	11–24 мая	🔄 В процессе.

8. Дальнейшая работа

Расширение тестовой выборки: протестировать говорение на 30+ работах из разных регионов для статистически значимых выводов
Интеграция с платформой: после готовности agent-api от команды платформы — переехать с локального Claw на общего агента

11 KiB Raw Blame History Unescape Escape