add README and RESULTS.md

This commit is contained in:
chubinho 2026-04-22 00:59:37 +03:00
parent dcc36f8f26
commit b343b164dc
4 changed files with 234 additions and 345 deletions

93
README.md Normal file
View file

@ -0,0 +1,93 @@
# Аналитический обзор проверки работ
## Общая статистика
| Показатель | Значение |
|------------|----------|
| Всего проверено работ | ~100 |
| Моделей для сравнения | 4 |
| Диапазон баллов | 13/22 (41%) — 22/22 (100%) |
| Средний балл по выборке | ~18.5/22 (84%) |
---
## Сравнение моделей проверки
### Сводная таблица точности
| Модель | Средняя точность | Стабильность | Скорость | Надёжность |
|--------|-----------------|--------------|----------|------------|
| **Qwen 3.5 (122B)** | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется |
| **GPT-4o** | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками |
| **GPT-5 Pro** | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля |
| **Claude 4.6 Opus** | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты |
## 🔤 Тестирование OCR-моделей
### Результаты распознавания рукописного текста
| Показатель | Значение |
|------------|----------|
| Средняя точность распознавания | **97.8%** |
| Лучший результат | 99.1% (Абдрахманова) |
| Типичные ошибки | Имена собственные, окончания, пунктуация |
### 🔎 Типичные ошибки OCR
| Тип ошибки | Частота | Пример |
|------------|---------|--------|
| Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден |
| Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок |
| Пунктуация | ~10% | Пропуск тире, кавычек |
| Латиница в кириллице | ~5% | «Глеbove» вместо Глебове |
### 💡 Выводы по OCR:
**Можно доверять** для общей оценки содержания и структуры работы
⚠️ **Требует ручной проверки** при оценке:
- Имен авторов и персонажей
- Цитат и точных формулировок
- Пунктуационных нюансов
---
## ⚖️ Плюсы и минусы моделей
### ✅ Сильные стороны
| Модель | Преимущества |
|--------|-------------|
| **Qwen 3.5** | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
| **GPT-4o** | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
| **GPT-5 Pro** | • Детальные комментарии • Попытка объяснить логику оценки |
| **Claude 4.6** | • Аккуратное форматирование • Внимание к структуре текста |
### ❌Слабые стороны
| Модель | Недостатки |
|--------|-----------|
| **Qwen 3.5** | • Иногда избыточно строг к аргументации • Редкие ошибки в именах |
| **GPT-4o** | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
| **GPT-5 Pro** | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
| **Claude 4.6** | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |
---
## 🎯 Можно ли доверять моделям?
### ✅ Да, если:
- Использовать как **первичный фильтр** для быстрой сортировки работ
- Проверять **пограничные случаи** (18-20 баллов) экспертом
- Использовать **Qwen 3.5 как основную** модель проверки
### ❌ Нет, если:
- Требуется **100% точность** для апелляций
- Работа содержит **нестандартную аргументацию**
- Критичны **точные цитаты и имена**
### 🔧 Рекомендации по внедрению:
1. **Двухэтапная проверка**: Модель → Эксперт (только для работ 17-20 баллов)
2. **Контрольная выборка**: 10% работ перепроверять вручную
3. **Логирование расхождений**: Накопление данных для дообучения
4. **Приоритет Qwen 3.5**: Использовать как baseline-модель
---