Аналитический обзор проверки работ
Общая статистика
| Показатель |
Значение |
| Всего проверено работ |
~100 |
| Моделей для сравнения |
4 |
| Диапазон баллов |
13/22 (41%) — 22/22 (100%) |
| Средний балл по выборке |
~18.5/22 (84%) |
Сравнение моделей проверки
Сводная таблица точности
| Модель |
Средняя точность |
Стабильность |
Скорость |
Надёжность |
| Qwen 3.5 (122B) |
94.2% |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
✅ Рекомендуется |
| GPT-4o |
91.8% |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
✅ С оговорками |
| GPT-5 Pro |
89.5% |
⭐⭐⭐ |
⭐⭐⭐ |
⚠️ Требует контроля |
| Claude 4.6 Opus |
87.3% |
⭐⭐⭐ |
⭐⭐⭐ |
⚠️ Частые артефакты |
🔤 Тестирование OCR-моделей
Результаты распознавания рукописного текста
| Показатель |
Значение |
| Средняя точность распознавания |
97.8% |
| Лучший результат |
99.1% (Абдрахманова) |
| Типичные ошибки |
Имена собственные, окончания, пунктуация |
🔎 Типичные ошибки OCR
| Тип ошибки |
Частота |
Пример |
| Имена собственные |
~60% |
«Гурифонов» → Трифонов, «Эгиден» → Эмден |
| Окончания слов |
~25% |
«намочила» → намокла, «переулочок» → переулок |
| Пунктуация |
~10% |
Пропуск тире, кавычек |
| Латиница в кириллице |
~5% |
«Глеbove» вместо Глебове |
💡 Выводы по OCR:
✅ Можно доверять для общей оценки содержания и структуры работы
⚠️ Требует ручной проверки при оценке:
- Имен авторов и персонажей
- Цитат и точных формулировок
- Пунктуационных нюансов
⚖️ Плюсы и минусы моделей
✅ Сильные стороны
| Модель |
Преимущества |
| Qwen 3.5 |
• Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
| GPT-4o |
• Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
| GPT-5 Pro |
• Детальные комментарии • Попытка объяснить логику оценки |
| Claude 4.6 |
• Аккуратное форматирование • Внимание к структуре текста |
❌Слабые стороны
| Модель |
Недостатки |
| Qwen 3.5 |
• Иногда избыточно строг к аргументации • Редкие ошибки в именах |
| GPT-4o |
• Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
| GPT-5 Pro |
• Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
| Claude 4.6 |
• Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |
🎯 Можно ли доверять моделям?
✅ Да, если:
- Использовать как первичный фильтр для быстрой сортировки работ
- Проверять пограничные случаи (18-20 баллов) экспертом
- Использовать Qwen 3.5 как основную модель проверки
❌ Нет, если:
- Требуется 100% точность для апелляций
- Работа содержит нестандартную аргументацию
- Критичны точные цитаты и имена
🔧 Рекомендации по внедрению:
- Двухэтапная проверка: Модель → Эксперт (только для работ 17-20 баллов)
- Контрольная выборка: 10% работ перепроверять вручную
- Логирование расхождений: Накопление данных для дообучения
- Приоритет Qwen 3.5: Использовать как baseline-модель