# Аналитический обзор проверки работ ## Общая статистика | Показатель | Значение | |------------|----------| | Всего проверено работ | ~100 | | Моделей для сравнения | 4 | | Диапазон баллов | 13/22 (41%) — 22/22 (100%) | | Средний балл по выборке | ~18.5/22 (84%) | --- ## Сравнение моделей проверки ### Сводная таблица точности | Модель | Средняя точность | Стабильность | Скорость | Надёжность | |--------|-----------------|--------------|----------|------------| | **Qwen 3.5 (122B)** | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется | | **GPT-4o** | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками | | **GPT-5 Pro** | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля | | **Claude 4.6 Opus** | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты | ## 🔤 Тестирование OCR-моделей ### Результаты распознавания рукописного текста | Показатель | Значение | |------------|----------| | Средняя точность распознавания | **97.8%** | | Лучший результат | 99.1% (Абдрахманова) | | Типичные ошибки | Имена собственные, окончания, пунктуация | ### 🔎 Типичные ошибки OCR | Тип ошибки | Частота | Пример | |------------|---------|--------| | Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден | | Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок | | Пунктуация | ~10% | Пропуск тире, кавычек | | Латиница в кириллице | ~5% | «Глеbove» вместо Глебове | ### 💡 Выводы по OCR: ✅ **Можно доверять** для общей оценки содержания и структуры работы ⚠️ **Требует ручной проверки** при оценке: - Имен авторов и персонажей - Цитат и точных формулировок - Пунктуационных нюансов --- ## ⚖️ Плюсы и минусы моделей ### ✅ Сильные стороны | Модель | Преимущества | |--------|-------------| | **Qwen 3.5** | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом | | **GPT-4o** | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода | | **GPT-5 Pro** | • Детальные комментарии • Попытка объяснить логику оценки | | **Claude 4.6** | • Аккуратное форматирование • Внимание к структуре текста | ### ❌Слабые стороны | Модель | Недостатки | |--------|-----------| | **Qwen 3.5** | • Иногда избыточно строг к аргументации • Редкие ошибки в именах | | **GPT-4o** | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах | | **GPT-5 Pro** | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности | | **Claude 4.6** | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах | --- ## 🎯 Можно ли доверять моделям? ### ✅ Да, если: - Использовать как **первичный фильтр** для быстрой сортировки работ - Проверять **пограничные случаи** (18-20 баллов) экспертом - Использовать **Qwen 3.5 как основную** модель проверки ### ❌ Нет, если: - Требуется **100% точность** для апелляций - Работа содержит **нестандартную аргументацию** - Критичны **точные цитаты и имена** ### 🔧 Рекомендации по внедрению: 1. **Двухэтапная проверка**: Модель → Эксперт (только для работ 17-20 баллов) 2. **Контрольная выборка**: 10% работ перепроверять вручную 3. **Логирование расхождений**: Накопление данных для дообучения 4. **Приоритет Qwen 3.5**: Использовать как baseline-модель ---