93 lines
No EOL
5.1 KiB
Markdown
93 lines
No EOL
5.1 KiB
Markdown
# Аналитический обзор проверки работ
|
||
|
||
## Общая статистика
|
||
|
||
| Показатель | Значение |
|
||
|------------|----------|
|
||
| Всего проверено работ | ~100 |
|
||
| Моделей для сравнения | 4 |
|
||
| Диапазон баллов | 13/22 (41%) — 22/22 (100%) |
|
||
| Средний балл по выборке | ~18.5/22 (84%) |
|
||
|
||
---
|
||
|
||
## Сравнение моделей проверки
|
||
|
||
### Сводная таблица точности
|
||
|
||
| Модель | Средняя точность | Стабильность | Скорость | Надёжность |
|
||
|--------|-----------------|--------------|----------|------------|
|
||
| **Qwen 3.5 (122B)** | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется |
|
||
| **GPT-4o** | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками |
|
||
| **GPT-5 Pro** | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля |
|
||
| **Claude 4.6 Opus** | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты |
|
||
|
||
## 🔤 Тестирование OCR-моделей
|
||
|
||
### Результаты распознавания рукописного текста
|
||
|
||
| Показатель | Значение |
|
||
|------------|----------|
|
||
| Средняя точность распознавания | **97.8%** |
|
||
| Лучший результат | 99.1% (Абдрахманова) |
|
||
| Типичные ошибки | Имена собственные, окончания, пунктуация |
|
||
|
||
### 🔎 Типичные ошибки OCR
|
||
|
||
| Тип ошибки | Частота | Пример |
|
||
|------------|---------|--------|
|
||
| Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден |
|
||
| Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок |
|
||
| Пунктуация | ~10% | Пропуск тире, кавычек |
|
||
| Латиница в кириллице | ~5% | «Глеbove» вместо Глебове |
|
||
|
||
### 💡 Выводы по OCR:
|
||
✅ **Можно доверять** для общей оценки содержания и структуры работы
|
||
⚠️ **Требует ручной проверки** при оценке:
|
||
- Имен авторов и персонажей
|
||
- Цитат и точных формулировок
|
||
- Пунктуационных нюансов
|
||
|
||
---
|
||
|
||
## ⚖️ Плюсы и минусы моделей
|
||
|
||
### ✅ Сильные стороны
|
||
|
||
| Модель | Преимущества |
|
||
|--------|-------------|
|
||
| **Qwen 3.5** | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
|
||
| **GPT-4o** | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
|
||
| **GPT-5 Pro** | • Детальные комментарии • Попытка объяснить логику оценки |
|
||
| **Claude 4.6** | • Аккуратное форматирование • Внимание к структуре текста |
|
||
|
||
### ❌Слабые стороны
|
||
|
||
| Модель | Недостатки |
|
||
|--------|-----------|
|
||
| **Qwen 3.5** | • Иногда избыточно строг к аргументации • Редкие ошибки в именах |
|
||
| **GPT-4o** | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
|
||
| **GPT-5 Pro** | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
|
||
| **Claude 4.6** | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |
|
||
|
||
---
|
||
|
||
## 🎯 Можно ли доверять моделям?
|
||
|
||
### ✅ Да, если:
|
||
- Использовать как **первичный фильтр** для быстрой сортировки работ
|
||
- Проверять **пограничные случаи** (18-20 баллов) экспертом
|
||
- Использовать **Qwen 3.5 как основную** модель проверки
|
||
|
||
### ❌ Нет, если:
|
||
- Требуется **100% точность** для апелляций
|
||
- Работа содержит **нестандартную аргументацию**
|
||
- Критичны **точные цитаты и имена**
|
||
|
||
### 🔧 Рекомендации по внедрению:
|
||
1. **Двухэтапная проверка**: Модель → Эксперт (только для работ 17-20 баллов)
|
||
2. **Контрольная выборка**: 10% работ перепроверять вручную
|
||
3. **Логирование расхождений**: Накопление данных для дообучения
|
||
4. **Приоритет Qwen 3.5**: Использовать как baseline-модель
|
||
|
||
--- |