No description
| photo | ||
| references | ||
| .env.example | ||
| .gitignore | ||
| cleaner.py | ||
| evaluate_ocr.py | ||
| full_comparison.json | ||
| README.md | ||
| Report.md | ||
| RESULTS.md | ||
| SKILL.md | ||
Аналитический обзор проверки работ
Общая статистика
| Показатель | Значение |
|---|---|
| Всего проверено работ | ~100 |
| Моделей для сравнения | 4 |
| Диапазон баллов | 13/22 (41%) — 22/22 (100%) |
| Средний балл по выборке | ~18.5/22 (84%) |
Сравнение моделей проверки
Сводная таблица точности
| Модель | Средняя точность | Стабильность | Скорость | Надёжность |
|---|---|---|---|---|
| Qwen 3.5 (122B) | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется |
| GPT-4o | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками |
| GPT-5 Pro | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля |
| Claude 4.6 Opus | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты |
🔤 Тестирование OCR-моделей
Результаты распознавания рукописного текста
| Показатель | Значение |
|---|---|
| Средняя точность распознавания | 97.8% |
| Лучший результат | 99.1% (Абдрахманова) |
| Типичные ошибки | Имена собственные, окончания, пунктуация |
🔎 Типичные ошибки OCR
| Тип ошибки | Частота | Пример |
|---|---|---|
| Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден |
| Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок |
| Пунктуация | ~10% | Пропуск тире, кавычек |
| Латиница в кириллице | ~5% | «Глеbove» вместо Глебове |
💡 Выводы по OCR:
✅ Можно доверять для общей оценки содержания и структуры работы
⚠️ Требует ручной проверки при оценке:
- Имен авторов и персонажей
- Цитат и точных формулировок
- Пунктуационных нюансов
⚖️ Плюсы и минусы моделей
✅ Сильные стороны
| Модель | Преимущества |
|---|---|
| Qwen 3.5 | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
| GPT-4o | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
| GPT-5 Pro | • Детальные комментарии • Попытка объяснить логику оценки |
| Claude 4.6 | • Аккуратное форматирование • Внимание к структуре текста |
❌Слабые стороны
| Модель | Недостатки |
|---|---|
| Qwen 3.5 | • Иногда избыточно строг к аргументации • Редкие ошибки в именах |
| GPT-4o | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
| GPT-5 Pro | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
| Claude 4.6 | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |
🎯 Можно ли доверять моделям?
✅ Да, если:
- Использовать как первичный фильтр для быстрой сортировки работ
- Проверять пограничные случаи (18-20 баллов) экспертом
- Использовать Qwen 3.5 как основную модель проверки
❌ Нет, если:
- Требуется 100% точность для апелляций
- Работа содержит нестандартную аргументацию
- Критичны точные цитаты и имена
🔧 Рекомендации по внедрению:
- Двухэтапная проверка: Модель → Эксперт (только для работ 17-20 баллов)
- Контрольная выборка: 10% работ перепроверять вручную
- Логирование расхождений: Накопление данных для дообучения
- Приоритет Qwen 3.5: Использовать как baseline-модель