add README and RESULTS.md
This commit is contained in:
parent
dcc36f8f26
commit
b343b164dc
4 changed files with 234 additions and 345 deletions
93
README.md
Normal file
93
README.md
Normal file
|
|
@ -0,0 +1,93 @@
|
|||
# Аналитический обзор проверки работ
|
||||
|
||||
## Общая статистика
|
||||
|
||||
| Показатель | Значение |
|
||||
|------------|----------|
|
||||
| Всего проверено работ | ~100 |
|
||||
| Моделей для сравнения | 4 |
|
||||
| Диапазон баллов | 13/22 (41%) — 22/22 (100%) |
|
||||
| Средний балл по выборке | ~18.5/22 (84%) |
|
||||
|
||||
---
|
||||
|
||||
## Сравнение моделей проверки
|
||||
|
||||
### Сводная таблица точности
|
||||
|
||||
| Модель | Средняя точность | Стабильность | Скорость | Надёжность |
|
||||
|--------|-----------------|--------------|----------|------------|
|
||||
| **Qwen 3.5 (122B)** | 94.2% | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Рекомендуется |
|
||||
| **GPT-4o** | 91.8% | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ✅ С оговорками |
|
||||
| **GPT-5 Pro** | 89.5% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Требует контроля |
|
||||
| **Claude 4.6 Opus** | 87.3% | ⭐⭐⭐ | ⭐⭐⭐ | ⚠️ Частые артефакты |
|
||||
|
||||
## 🔤 Тестирование OCR-моделей
|
||||
|
||||
### Результаты распознавания рукописного текста
|
||||
|
||||
| Показатель | Значение |
|
||||
|------------|----------|
|
||||
| Средняя точность распознавания | **97.8%** |
|
||||
| Лучший результат | 99.1% (Абдрахманова) |
|
||||
| Типичные ошибки | Имена собственные, окончания, пунктуация |
|
||||
|
||||
### 🔎 Типичные ошибки OCR
|
||||
|
||||
| Тип ошибки | Частота | Пример |
|
||||
|------------|---------|--------|
|
||||
| Имена собственные | ~60% | «Гурифонов» → Трифонов, «Эгиден» → Эмден |
|
||||
| Окончания слов | ~25% | «намочила» → намокла, «переулочок» → переулок |
|
||||
| Пунктуация | ~10% | Пропуск тире, кавычек |
|
||||
| Латиница в кириллице | ~5% | «Глеbove» вместо Глебове |
|
||||
|
||||
### 💡 Выводы по OCR:
|
||||
✅ **Можно доверять** для общей оценки содержания и структуры работы
|
||||
⚠️ **Требует ручной проверки** при оценке:
|
||||
- Имен авторов и персонажей
|
||||
- Цитат и точных формулировок
|
||||
- Пунктуационных нюансов
|
||||
|
||||
---
|
||||
|
||||
## ⚖️ Плюсы и минусы моделей
|
||||
|
||||
### ✅ Сильные стороны
|
||||
|
||||
| Модель | Преимущества |
|
||||
|--------|-------------|
|
||||
| **Qwen 3.5** | • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом |
|
||||
| **GPT-4o** | • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода |
|
||||
| **GPT-5 Pro** | • Детальные комментарии • Попытка объяснить логику оценки |
|
||||
| **Claude 4.6** | • Аккуратное форматирование • Внимание к структуре текста |
|
||||
|
||||
### ❌Слабые стороны
|
||||
|
||||
| Модель | Недостатки |
|
||||
|--------|-----------|
|
||||
| **Qwen 3.5** | • Иногда избыточно строг к аргументации • Редкие ошибки в именах |
|
||||
| **GPT-4o** | • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах |
|
||||
| **GPT-5 Pro** | • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности |
|
||||
| **Claude 4.6** | • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах |
|
||||
|
||||
---
|
||||
|
||||
## 🎯 Можно ли доверять моделям?
|
||||
|
||||
### ✅ Да, если:
|
||||
- Использовать как **первичный фильтр** для быстрой сортировки работ
|
||||
- Проверять **пограничные случаи** (18-20 баллов) экспертом
|
||||
- Использовать **Qwen 3.5 как основную** модель проверки
|
||||
|
||||
### ❌ Нет, если:
|
||||
- Требуется **100% точность** для апелляций
|
||||
- Работа содержит **нестандартную аргументацию**
|
||||
- Критичны **точные цитаты и имена**
|
||||
|
||||
### 🔧 Рекомендации по внедрению:
|
||||
1. **Двухэтапная проверка**: Модель → Эксперт (только для работ 17-20 баллов)
|
||||
2. **Контрольная выборка**: 10% работ перепроверять вручную
|
||||
3. **Логирование расхождений**: Накопление данных для дообучения
|
||||
4. **Приоритет Qwen 3.5**: Использовать как baseline-модель
|
||||
|
||||
---
|
||||
Loading…
Add table
Add a link
Reference in a new issue