ege-skill/README.md

# Аналитический обзор проверки работ

## Общая статистика

| Показатель | Значение |
|------------|----------|
| Всего проверено работ | ~100 |
| Моделей для сравнения | 4 |
| Диапазон баллов | 13/22 (41%) — 22/22 (100%) |
| Средний балл по выборке | ~18.5/22 (84%) |

---

## Сравнение моделей проверки

### Сводная таблица точности

| Модель | Средняя точность | Стабильность | Скорость | Надёжность |
|--------|-----------------|--------------|----------|------------|
| **Qwen 3.5 (122B)** | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется |
| **GPT-4o** | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками |
| **GPT-5 Pro** | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля |
| **Claude 4.6 Opus** | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты |

## 🔤 Тестирование OCR-моделей

### Результаты распознавания рукописного текста

| Показатель | Значение |
|------------|----------|
| Средняя точность распознавания | **97.8%** |
| Лучший результат | 99.1% (Абдрахманова) |
| Типичные ошибки | Имена собственные, окончания, пунктуация |

### 🔎 Типичные ошибки OCR

| Тип ошибки | Частота | Пример |
|------------|---------|--------|
| Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден |
| Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок |
| Пунктуация | ~10% | Пропуск тире, кавычек |
| Латиница в кириллице | ~5% | «Глеbove» вместо Глебове |

### 💡 Выводы по OCR:
✅ **Можно доверять** для общей оценки содержания и структуры работы
⚠️ **Требует ручной проверки** при оценке:
- Имен авторов и персонажей
- Цитат и точных формулировок
- Пунктуационных нюансов

---

## ⚖️ Плюсы и минусы моделей

### ✅ Сильные стороны

| Модель | Преимущества |
|--------|-------------|
| **Qwen 3.5** | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
| **GPT-4o** | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
| **GPT-5 Pro** | • Детальные комментарии • Попытка объяснить логику оценки |
| **Claude 4.6** | • Аккуратное форматирование • Внимание к структуре текста |

### ❌Слабые стороны

| Модель | Недостатки |
|--------|-----------|
| **Qwen 3.5** | • Иногда избыточно строг к аргументации • Редкие ошибки в именах |
| **GPT-4o** | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
| **GPT-5 Pro** | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
| **Claude 4.6** | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |

---

## 🎯 Можно ли доверять моделям?

### ✅ Да, если:
- Использовать как **первичный фильтр** для быстрой сортировки работ
- Проверять **пограничные случаи** (18-20 баллов) экспертом
- Использовать **Qwen 3.5 как основную** модель проверки

### ❌ Нет, если:
- Требуется **100% точность** для апелляций
- Работа содержит **нестандартную аргументацию**
- Критичны **точные цитаты и имена**

### 🔧 Рекомендации по внедрению:
1. **Двухэтапная проверка**: Модель → Эксперт (только для работ 17-20 баллов)
2. **Контрольная выборка**: 10% работ перепроверять вручную
3. **Логирование расхождений**: Накопление данных для дообучения
4. **Приоритет Qwen 3.5**: Использовать как baseline-модель

---