add README and RESULTS.md

2026-04-22 00:59:37 +03:00 · 2026-04-22 00:59:37 +03:00 · b343b164dc
commit b343b164dc
parent dcc36f8f26
4 changed files with 234 additions and 345 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,93 @@
+# Аналитический обзор проверки работ
+
+## Общая статистика
+
+| Показатель | Значение |
+|------------|----------|
+| Всего проверено работ | ~100 |
+| Моделей для сравнения | 4 |
+| Диапазон баллов | 13/22 (41%) — 22/22 (100%) |
+| Средний балл по выборке | ~18.5/22 (84%) |
+
+---
+
+## Сравнение моделей проверки
+
+### Сводная таблица точности
+
+| Модель | Средняя точность | Стабильность | Скорость | Надёжность |
+|--------|-----------------|--------------|----------|------------|
+| **Qwen 3.5 (122B)** | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется |
+| **GPT-4o** | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками |
+| **GPT-5 Pro** | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля |
+| **Claude 4.6 Opus** | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты |
+
+## 🔤 Тестирование OCR-моделей
+
+### Результаты распознавания рукописного текста
+
+| Показатель | Значение |
+|------------|----------|
+| Средняя точность распознавания | **97.8%** |
+| Лучший результат | 99.1% (Абдрахманова) |
+| Типичные ошибки | Имена собственные, окончания, пунктуация |
+
+### 🔎 Типичные ошибки OCR
+
+| Тип ошибки | Частота | Пример |
+|------------|---------|--------|
+| Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден |
+| Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок |
+| Пунктуация | ~10% | Пропуск тире, кавычек |
+| Латиница в кириллице | ~5% | «Глеbove» вместо Глебове |
+
+### 💡 Выводы по OCR:
+✅ **Можно доверять** для общей оценки содержания и структуры работы  
+⚠️ **Требует ручной проверки** при оценке:
+- Имен авторов и персонажей
+- Цитат и точных формулировок
+- Пунктуационных нюансов
+
+---
+
+## ⚖️ Плюсы и минусы моделей
+
+### ✅ Сильные стороны
+
+| Модель | Преимущества |
+|--------|-------------|
+| **Qwen 3.5** | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
+| **GPT-4o** | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
+| **GPT-5 Pro** | • Детальные комментарии • Попытка объяснить логику оценки |
+| **Claude 4.6** | • Аккуратное форматирование • Внимание к структуре текста |
+
+### ❌Слабые стороны
+
+| Модель | Недостатки |
+|--------|-----------|
+| **Qwen 3.5** | • Иногда избыточно строг к аргументации • Редкие ошибки в именах |
+| **GPT-4o** | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
+| **GPT-5 Pro** | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
+| **Claude 4.6** | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |
+
+---
+
+## 🎯 Можно ли доверять моделям?
+
+### ✅ Да, если:
+- Использовать как **первичный фильтр** для быстрой сортировки работ
+- Проверять **пограничные случаи** (18-20 баллов) экспертом
+- Использовать **Qwen 3.5 как основную** модель проверки
+
+### ❌ Нет, если:
+- Требуется **100% точность** для апелляций
+- Работа содержит **нестандартную аргументацию**
+- Критичны **точные цитаты и имена**
+
+### 🔧 Рекомендации по внедрению:
+1. **Двухэтапная проверка**: Модель → Эксперт (только для работ 17-20 баллов)
+2. **Контрольная выборка**: 10% работ перепроверять вручную
+3. **Логирование расхождений**: Накопление данных для дообучения
+4. **Приоритет Qwen 3.5**: Использовать как baseline-модель
+
+---