From 7f68b66e878e4f31edc60e209434ab71362d8813 Mon Sep 17 00:00:00 2001 From: shuler7 Date: Sat, 9 May 2026 11:21:46 +0300 Subject: [PATCH] update report.md --- REPORT.md | 198 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 198 insertions(+) create mode 100644 REPORT.md diff --git a/REPORT.md b/REPORT.md new file mode 100644 index 0000000..27d3b2c --- /dev/null +++ b/REPORT.md @@ -0,0 +1,198 @@ +# EGE-Checker — Отчёт о проделанной работе + +**Период:** март — май 2026 +**Команда:** Лаборатория Лямбда 3.0, МАИ + +--- + +## 1. Цель проекта + +Скилл для автоматической проверки заданий ЕГЭ с выставлением баллов по официальным критериям ФИПИ 2026. Два модуля: + +- **Модуль 1 — Сочинение (русский язык):** OCR рукописных бланков + оценка по критериям К1–К10 +- **Модуль 2 — Говорение (английский язык):** STT аудиозаписей через Whisper + оценка по 4 заданиям + +Целевой сценарий использования: помощник для эксперта — модель проверяет работу параллельно с человеком, показывает своё мнение по каждому критерию с подробным разбором. + +--- + +## 2. Архитектура и стек + +### Стек + +| Компонент | Инструмент | +|-----------|-----------| +| Агент | ZeroClaw (Rust) / OpenClaw | +| LLM | Qwen3.5-122B (основная), GPT-4o, Claude Opus (тестирование) | +| OCR рукописи | Vision-возможности LLM (Qwen Vision) | +| STT аудио | faster-whisper (модель medium, локально) | +| Интерфейс | Telegram, Matrix | + +### Файловая структура скилла + +``` +ege-checker/ +├── SKILL.md # Инструкции и логика агента +├── recognition.py # STT-модуль (faster-whisper) +└── references/ + ├── russian-essay-criteria.md # Критерии К1–К10, ЕГЭ 2026 + └── english-speaking-criteria.md # Критерии 4 заданий говорения, ЕГЭ 2026 +``` + +### Схема работы (текущая) + +``` +Telegram / Matrix - сообщение + ↓ +Claw-агент + ↓ +Агент (Qwen3.5-122B) + SKILL.md + ↓ +Ответ в Telegram +``` + +--- + +## 3. Реализованные компоненты + +### 3.1. SKILL.md — логика агента + +Описывает два режима работы для каждого модуля: + +**Модуль 1 (сочинение):** +- Только сканы → распознать рукопись, сообщить количество слов, запросить исходный текст +- Сканы + исходный текст + тема → распознать + оценить К1–К10 с объяснением снятий + +**Модуль 2 (говорение):** +- Только аудио → транскрибировать через recognition.py, вывести текст +- Аудио + задание → транскрибировать + оценить по критериям + +Поддержка нескольких аудиофайлов (каждое задание отдельно). + +### 3.2. recognition.py — STT-модуль + +Транскрибирует аудиофайлы с ответами ученика через faster-whisper. Ключевые возможности: + +- Автовыбор устройства (CPU / CUDA) +- VAD-фильтрация тишины и пауз +- WHISPER_PROMPT с описанием формата ответов для точного распознавания +- Сегментация с таймкодами +- Возвращает `TranscriptResult`: текст, язык, длительность, сегменты + +Поддерживаемые форматы: MP3, WAV, M4A, OGG, WEBM, FLAC. + +### 3.3. Критерии ЕГЭ 2026 + +**Русский язык (К1–К10), итого 22 балла:** + +| К1 | К2 | К3 | К4 | К5 | К6 | К7 | К8 | К9 | К10 | +|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:---:| +| 1 | 3 | 2 | 1 | 2 | 1 | 3 | 3 | 3 | 3 | + +**Английский язык — Говорение (4 задания), итого 20 баллов:** + +| Задание | Тип | Макс. баллов | +|---------|-----|:------------:| +| 1 | Чтение вслух | 1 | +| 2 | Диалог-расспрос (4 вопроса) | 4 | +| 3 | Диалог-интервью (5 ответов) | 5 | +| 4 | Монолог (3 критерия: содержание 4б + организация 3б + язык 3б) | 10 | + +--- + +## 4. Тестирование + +### 4.1. OCR + оценка сочинения (RESULTS.md) + +Протестировано на реальных работах учеников с известными баллами экспертов. + +**Сводка по моделям:** + +| Модель | Характеристика | +|--------|---------------| +| **qwen3.5-122b** | Основная рабочая модель. Хорошее качество, часть работ — точное совпадение с экспертом (±0–1 балл) | +| **gpt-4o** | Минимальная предвзятость, на ряде работ точнее qwen. Лучший результат: 22/22 | +| **gpt-5-pro** | Стабильно высокое качество, несколько работ — 21–22/22 | +| **claude-opus-4-6** | Системно занижает оценки, закончились токены до завершения тестирования | + +**Примеры результатов (выборка):** + +| Балл эксперта | Лучший балл модели | Лучшая модель | +|:-------------:|:-----------------:|---------------| +| 22 | 22 | qwen3.5-122b | +| 22 | 22 | qwen3.5-122b | +| 20 | 22 | qwen3.5-122b | +| 22 | 22 | gpt-4o | +| 22 | 22 | gpt-4o / qwen | + +Типичное расхождение: ±1–3 балла. На сложных работах с плохим OCR (низкий OCR Accuracy) расхождение возрастает. + +**OCR Accuracy** измерена для части работ. Диапазон: 57–99%. Низкая точность (Бакирова 57%, Агупова 68%) коррелирует с большим расхождением в оценке. + +### 4.2. Оценка говорения (transcriptions-report.md) + +Протестировано на 14 учениках из 4 регионов (Адыгея, Башкортостан, Бурятия, Алтай). + +**Средние показатели по заданиям:** + +| Метрика | Задание 1 | Задание 2 | Задание 3 | Задание 4 | +|---------|:---------:|:---------:|:---------:|:---------:| +| Avg True (эксперт) | 0.786 | 2.429 | 1.857 | 5.857 | +| Avg Pred (модель) | 0.357 | 2.286 | 1.357 | 7.000 | +| MAE | **0.429** | **0.143** | **0.500** | **1.143** | + +**Выводы по заданиям:** +- **Задание 2** — наиболее точное (MAE 0.143). Объективный критерий (форма вопроса) хорошо распознаётся +- **Задание 1** — систематическое занижение (Avg Pred 0.357 vs True 0.786). Модель строже экспертов в оценке фонетики +- **Задание 3** — заметное занижение (MAE 0.500). Проблема: ответы ученика идут сплошным текстом, сложно разбить на 5 отдельных ответов +- **Задание 4** — систематическое завышение (Avg Pred 7.000 vs True 5.857). Модель щедрее оценивает монолог + +--- + +## 5. Текущее состояние и открытые вопросы + +### Работает +- ✅ recognition.py запускается локально в прокси, транскрипт передаётся агенту готовым +- ✅ Критерии ЕГЭ 2026 актуализированы (русский + говорение английский) +- ✅ SKILL.md описывает корректную логику для обоих модулей +- ✅ OCR + оценка сочинения протестированы на реальных работах + +### Открытые вопросы + +**Оценка говорения:** +- Задание 1 (чтение): систематическое занижение — нужна калибровка критерия фонетики +- Задание 3 (ответы): нужен метод сегментации сплошного транскрипта на отдельные ответы +- Задание 4 (монолог): систематическое завышение — нужны few-shot примеры для калибровки + +**OCR:** +- Нет золотого стандарта для измерения точности OCR — нужна разметка эталонного датасета +- Qwen Vision может исправлять рукописные ошибки "на лету", что искажает результат OCR + +**Инфраструктура:** +- Контекст задания (исходный текст из ФИПИ) не добавляется автоматически — нужна интеграция или ручная подача +- Тестирование говорения проводилось на небольшой выборке (14 человек, 4 региона) — нужно расширить + +--- + +## 6. Соответствие дорожной карте + +| Фаза | Срок по плану | Статус | +|------|:-------------:|--------| +| Ф1: Базовый прототип | 23 марта — 5 апреля | ✅ Выполнено. Скилл работает на тестовом наборе | +| М1: Первые цифры расхождения | 5 апреля | ✅ RESULTS.md + transcriptions-report.md | +| Ф2: Улучшение распознавания | 6–19 апреля | ✅ Выполнено. OCR итерации проведены, STT настроен | +| М2: OCR >90%, STT >85% | 19 апреля | ✅ OCR: достигнут на чистых бланках. STT: выявлены систематические отклонения | +| Ф3: Стабильность оценки | 20 апреля — 10 мая | ✅ Выполнено. Корректировка критериев проверки | +| Ф4: Интеграция и финализация | 11–24 мая | 🔄 В процессе. | + +--- + +## 8. Рекомендации по дальнейшей работе + +1. **Калибровка говорения:** добавить few-shot примеры в `english-speaking-criteria.md` для заданий 1 и 4 — устранить систематическое занижение/завышение + +2. **Расширение тестовой выборки:** протестировать говорение на 30+ работах из разных регионов для статистически значимых выводов + +3. **Стабильность:** провести 10 прогонов одной работы (temperature=0), измерить std по каждому критерию — цель std < 0.3 + +4. **Интеграция с платформой:** после готовности agent-api от команды платформы — переехать с локального Claw на общего агента \ No newline at end of file