ege-skill/README.md

93 lines
No EOL
5.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Аналитический обзор проверки работ
## Общая статистика
| Показатель | Значение |
|------------|----------|
| Всего проверено работ | ~100 |
| Моделей для сравнения | 4 |
| Диапазон баллов | 13/22 (41%) — 22/22 (100%) |
| Средний балл по выборке | ~18.5/22 (84%) |
---
## Сравнение моделей проверки
### Сводная таблица точности
| Модель | Средняя точность | Стабильность | Скорость | Надёжность |
|--------|-----------------|--------------|----------|------------|
| **Qwen 3.5 (122B)** | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется |
| **GPT-4o** | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками |
| **GPT-5 Pro** | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля |
| **Claude 4.6 Opus** | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты |
## 🔤 Тестирование OCR-моделей
### Результаты распознавания рукописного текста
| Показатель | Значение |
|------------|----------|
| Средняя точность распознавания | **97.8%** |
| Лучший результат | 99.1% (Абдрахманова) |
| Типичные ошибки | Имена собственные, окончания, пунктуация |
### 🔎 Типичные ошибки OCR
| Тип ошибки | Частота | Пример |
|------------|---------|--------|
| Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден |
| Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок |
| Пунктуация | ~10% | Пропуск тире, кавычек |
| Латиница в кириллице | ~5% | «Глеbove» вместо Глебове |
### 💡 Выводы по OCR:
**Можно доверять** для общей оценки содержания и структуры работы
⚠️ **Требует ручной проверки** при оценке:
- Имен авторов и персонажей
- Цитат и точных формулировок
- Пунктуационных нюансов
---
## ⚖️ Плюсы и минусы моделей
### ✅ Сильные стороны
| Модель | Преимущества |
|--------|-------------|
| **Qwen 3.5** | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
| **GPT-4o** | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
| **GPT-5 Pro** | • Детальные комментарии • Попытка объяснить логику оценки |
| **Claude 4.6** | • Аккуратное форматирование • Внимание к структуре текста |
### ❌Слабые стороны
| Модель | Недостатки |
|--------|-----------|
| **Qwen 3.5** | • Иногда избыточно строг к аргументации • Редкие ошибки в именах |
| **GPT-4o** | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
| **GPT-5 Pro** | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
| **Claude 4.6** | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |
---
## 🎯 Можно ли доверять моделям?
### ✅ Да, если:
- Использовать как **первичный фильтр** для быстрой сортировки работ
- Проверять **пограничные случаи** (18-20 баллов) экспертом
- Использовать **Qwen 3.5 как основную** модель проверки
### ❌ Нет, если:
- Требуется **100% точность** для апелляций
- Работа содержит **нестандартную аргументацию**
- Критичны **точные цитаты и имена**
### 🔧 Рекомендации по внедрению:
1. **Двухэтапная проверка**: Модель → Эксперт (только для работ 17-20 баллов)
2. **Контрольная выборка**: 10% работ перепроверять вручную
3. **Логирование расхождений**: Накопление данных для дообучения
4. **Приоритет Qwen 3.5**: Использовать как baseline-модель
---