update report.md
This commit is contained in:
parent
29fe627437
commit
7f68b66e87
1 changed files with 198 additions and 0 deletions
198
REPORT.md
Normal file
198
REPORT.md
Normal file
|
|
@ -0,0 +1,198 @@
|
|||
# EGE-Checker — Отчёт о проделанной работе
|
||||
|
||||
**Период:** март — май 2026
|
||||
**Команда:** Лаборатория Лямбда 3.0, МАИ
|
||||
|
||||
---
|
||||
|
||||
## 1. Цель проекта
|
||||
|
||||
Скилл для автоматической проверки заданий ЕГЭ с выставлением баллов по официальным критериям ФИПИ 2026. Два модуля:
|
||||
|
||||
- **Модуль 1 — Сочинение (русский язык):** OCR рукописных бланков + оценка по критериям К1–К10
|
||||
- **Модуль 2 — Говорение (английский язык):** STT аудиозаписей через Whisper + оценка по 4 заданиям
|
||||
|
||||
Целевой сценарий использования: помощник для эксперта — модель проверяет работу параллельно с человеком, показывает своё мнение по каждому критерию с подробным разбором.
|
||||
|
||||
---
|
||||
|
||||
## 2. Архитектура и стек
|
||||
|
||||
### Стек
|
||||
|
||||
| Компонент | Инструмент |
|
||||
|-----------|-----------|
|
||||
| Агент | ZeroClaw (Rust) / OpenClaw |
|
||||
| LLM | Qwen3.5-122B (основная), GPT-4o, Claude Opus (тестирование) |
|
||||
| OCR рукописи | Vision-возможности LLM (Qwen Vision) |
|
||||
| STT аудио | faster-whisper (модель medium, локально) |
|
||||
| Интерфейс | Telegram, Matrix |
|
||||
|
||||
### Файловая структура скилла
|
||||
|
||||
```
|
||||
ege-checker/
|
||||
├── SKILL.md # Инструкции и логика агента
|
||||
├── recognition.py # STT-модуль (faster-whisper)
|
||||
└── references/
|
||||
├── russian-essay-criteria.md # Критерии К1–К10, ЕГЭ 2026
|
||||
└── english-speaking-criteria.md # Критерии 4 заданий говорения, ЕГЭ 2026
|
||||
```
|
||||
|
||||
### Схема работы (текущая)
|
||||
|
||||
```
|
||||
Telegram / Matrix - сообщение
|
||||
↓
|
||||
Claw-агент
|
||||
↓
|
||||
Агент (Qwen3.5-122B) + SKILL.md
|
||||
↓
|
||||
Ответ в Telegram
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 3. Реализованные компоненты
|
||||
|
||||
### 3.1. SKILL.md — логика агента
|
||||
|
||||
Описывает два режима работы для каждого модуля:
|
||||
|
||||
**Модуль 1 (сочинение):**
|
||||
- Только сканы → распознать рукопись, сообщить количество слов, запросить исходный текст
|
||||
- Сканы + исходный текст + тема → распознать + оценить К1–К10 с объяснением снятий
|
||||
|
||||
**Модуль 2 (говорение):**
|
||||
- Только аудио → транскрибировать через recognition.py, вывести текст
|
||||
- Аудио + задание → транскрибировать + оценить по критериям
|
||||
|
||||
Поддержка нескольких аудиофайлов (каждое задание отдельно).
|
||||
|
||||
### 3.2. recognition.py — STT-модуль
|
||||
|
||||
Транскрибирует аудиофайлы с ответами ученика через faster-whisper. Ключевые возможности:
|
||||
|
||||
- Автовыбор устройства (CPU / CUDA)
|
||||
- VAD-фильтрация тишины и пауз
|
||||
- WHISPER_PROMPT с описанием формата ответов для точного распознавания
|
||||
- Сегментация с таймкодами
|
||||
- Возвращает `TranscriptResult`: текст, язык, длительность, сегменты
|
||||
|
||||
Поддерживаемые форматы: MP3, WAV, M4A, OGG, WEBM, FLAC.
|
||||
|
||||
### 3.3. Критерии ЕГЭ 2026
|
||||
|
||||
**Русский язык (К1–К10), итого 22 балла:**
|
||||
|
||||
| К1 | К2 | К3 | К4 | К5 | К6 | К7 | К8 | К9 | К10 |
|
||||
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:---:|
|
||||
| 1 | 3 | 2 | 1 | 2 | 1 | 3 | 3 | 3 | 3 |
|
||||
|
||||
**Английский язык — Говорение (4 задания), итого 20 баллов:**
|
||||
|
||||
| Задание | Тип | Макс. баллов |
|
||||
|---------|-----|:------------:|
|
||||
| 1 | Чтение вслух | 1 |
|
||||
| 2 | Диалог-расспрос (4 вопроса) | 4 |
|
||||
| 3 | Диалог-интервью (5 ответов) | 5 |
|
||||
| 4 | Монолог (3 критерия: содержание 4б + организация 3б + язык 3б) | 10 |
|
||||
|
||||
---
|
||||
|
||||
## 4. Тестирование
|
||||
|
||||
### 4.1. OCR + оценка сочинения (RESULTS.md)
|
||||
|
||||
Протестировано на реальных работах учеников с известными баллами экспертов.
|
||||
|
||||
**Сводка по моделям:**
|
||||
|
||||
| Модель | Характеристика |
|
||||
|--------|---------------|
|
||||
| **qwen3.5-122b** | Основная рабочая модель. Хорошее качество, часть работ — точное совпадение с экспертом (±0–1 балл) |
|
||||
| **gpt-4o** | Минимальная предвзятость, на ряде работ точнее qwen. Лучший результат: 22/22 |
|
||||
| **gpt-5-pro** | Стабильно высокое качество, несколько работ — 21–22/22 |
|
||||
| **claude-opus-4-6** | Системно занижает оценки, закончились токены до завершения тестирования |
|
||||
|
||||
**Примеры результатов (выборка):**
|
||||
|
||||
| Балл эксперта | Лучший балл модели | Лучшая модель |
|
||||
|:-------------:|:-----------------:|---------------|
|
||||
| 22 | 22 | qwen3.5-122b |
|
||||
| 22 | 22 | qwen3.5-122b |
|
||||
| 20 | 22 | qwen3.5-122b |
|
||||
| 22 | 22 | gpt-4o |
|
||||
| 22 | 22 | gpt-4o / qwen |
|
||||
|
||||
Типичное расхождение: ±1–3 балла. На сложных работах с плохим OCR (низкий OCR Accuracy) расхождение возрастает.
|
||||
|
||||
**OCR Accuracy** измерена для части работ. Диапазон: 57–99%. Низкая точность (Бакирова 57%, Агупова 68%) коррелирует с большим расхождением в оценке.
|
||||
|
||||
### 4.2. Оценка говорения (transcriptions-report.md)
|
||||
|
||||
Протестировано на 14 учениках из 4 регионов (Адыгея, Башкортостан, Бурятия, Алтай).
|
||||
|
||||
**Средние показатели по заданиям:**
|
||||
|
||||
| Метрика | Задание 1 | Задание 2 | Задание 3 | Задание 4 |
|
||||
|---------|:---------:|:---------:|:---------:|:---------:|
|
||||
| Avg True (эксперт) | 0.786 | 2.429 | 1.857 | 5.857 |
|
||||
| Avg Pred (модель) | 0.357 | 2.286 | 1.357 | 7.000 |
|
||||
| MAE | **0.429** | **0.143** | **0.500** | **1.143** |
|
||||
|
||||
**Выводы по заданиям:**
|
||||
- **Задание 2** — наиболее точное (MAE 0.143). Объективный критерий (форма вопроса) хорошо распознаётся
|
||||
- **Задание 1** — систематическое занижение (Avg Pred 0.357 vs True 0.786). Модель строже экспертов в оценке фонетики
|
||||
- **Задание 3** — заметное занижение (MAE 0.500). Проблема: ответы ученика идут сплошным текстом, сложно разбить на 5 отдельных ответов
|
||||
- **Задание 4** — систематическое завышение (Avg Pred 7.000 vs True 5.857). Модель щедрее оценивает монолог
|
||||
|
||||
---
|
||||
|
||||
## 5. Текущее состояние и открытые вопросы
|
||||
|
||||
### Работает
|
||||
- ✅ recognition.py запускается локально в прокси, транскрипт передаётся агенту готовым
|
||||
- ✅ Критерии ЕГЭ 2026 актуализированы (русский + говорение английский)
|
||||
- ✅ SKILL.md описывает корректную логику для обоих модулей
|
||||
- ✅ OCR + оценка сочинения протестированы на реальных работах
|
||||
|
||||
### Открытые вопросы
|
||||
|
||||
**Оценка говорения:**
|
||||
- Задание 1 (чтение): систематическое занижение — нужна калибровка критерия фонетики
|
||||
- Задание 3 (ответы): нужен метод сегментации сплошного транскрипта на отдельные ответы
|
||||
- Задание 4 (монолог): систематическое завышение — нужны few-shot примеры для калибровки
|
||||
|
||||
**OCR:**
|
||||
- Нет золотого стандарта для измерения точности OCR — нужна разметка эталонного датасета
|
||||
- Qwen Vision может исправлять рукописные ошибки "на лету", что искажает результат OCR
|
||||
|
||||
**Инфраструктура:**
|
||||
- Контекст задания (исходный текст из ФИПИ) не добавляется автоматически — нужна интеграция или ручная подача
|
||||
- Тестирование говорения проводилось на небольшой выборке (14 человек, 4 региона) — нужно расширить
|
||||
|
||||
---
|
||||
|
||||
## 6. Соответствие дорожной карте
|
||||
|
||||
| Фаза | Срок по плану | Статус |
|
||||
|------|:-------------:|--------|
|
||||
| Ф1: Базовый прототип | 23 марта — 5 апреля | ✅ Выполнено. Скилл работает на тестовом наборе |
|
||||
| М1: Первые цифры расхождения | 5 апреля | ✅ RESULTS.md + transcriptions-report.md |
|
||||
| Ф2: Улучшение распознавания | 6–19 апреля | ✅ Выполнено. OCR итерации проведены, STT настроен |
|
||||
| М2: OCR >90%, STT >85% | 19 апреля | ✅ OCR: достигнут на чистых бланках. STT: выявлены систематические отклонения |
|
||||
| Ф3: Стабильность оценки | 20 апреля — 10 мая | ✅ Выполнено. Корректировка критериев проверки |
|
||||
| Ф4: Интеграция и финализация | 11–24 мая | 🔄 В процессе. |
|
||||
|
||||
---
|
||||
|
||||
## 8. Рекомендации по дальнейшей работе
|
||||
|
||||
1. **Калибровка говорения:** добавить few-shot примеры в `english-speaking-criteria.md` для заданий 1 и 4 — устранить систематическое занижение/завышение
|
||||
|
||||
2. **Расширение тестовой выборки:** протестировать говорение на 30+ работах из разных регионов для статистически значимых выводов
|
||||
|
||||
3. **Стабильность:** провести 10 прогонов одной работы (temperature=0), измерить std по каждому критерию — цель std < 0.3
|
||||
|
||||
4. **Интеграция с платформой:** после готовности agent-api от команды платформы — переехать с локального Claw на общего агента
|
||||
Loading…
Add table
Add a link
Reference in a new issue