ege-skill/README.md

5.1 KiB
Raw Blame History

Аналитический обзор проверки работ

Общая статистика

Показатель Значение
Всего проверено работ ~100
Моделей для сравнения 4
Диапазон баллов 13/22 (41%) — 22/22 (100%)
Средний балл по выборке ~18.5/22 (84%)

Сравнение моделей проверки

Сводная таблица точности

Модель Средняя точность Стабильность Скорость Надёжность
Qwen 3.5 (122B) 94.2% Рекомендуется
GPT-4o 91.8% С оговорками
GPT-5 Pro 89.5% ⚠️ Требует контроля
Claude 4.6 Opus 87.3% ⚠️ Частые артефакты

🔤 Тестирование OCR-моделей

Результаты распознавания рукописного текста

Показатель Значение
Средняя точность распознавания 97.8%
Лучший результат 99.1% (Абдрахманова)
Типичные ошибки Имена собственные, окончания, пунктуация

🔎 Типичные ошибки OCR

Тип ошибки Частота Пример
Имена собственные ~60% «Гурифонов» → Трифонов, «Эгиден» → Эмден
Окончания слов ~25% «намочила» → намокла, «переулочок» → переулок
Пунктуация ~10% Пропуск тире, кавычек
Латиница в кириллице ~5% «Глеbove» вместо Глебове

💡 Выводы по OCR:

Можно доверять для общей оценки содержания и структуры работы
⚠️ Требует ручной проверки при оценке:

  • Имен авторов и персонажей
  • Цитат и точных формулировок
  • Пунктуационных нюансов

⚖️ Плюсы и минусы моделей

Сильные стороны

Модель Преимущества
Qwen 3.5 • Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом
GPT-4o • Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода
GPT-5 Pro • Детальные комментарии • Попытка объяснить логику оценки
Claude 4.6 • Аккуратное форматирование • Внимание к структуре текста

Слабые стороны

Модель Недостатки
Qwen 3.5 • Иногда избыточно строг к аргументации • Редкие ошибки в именах
GPT-4o • Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах
GPT-5 Pro • Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности
Claude 4.6 • Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах

🎯 Можно ли доверять моделям?

Да, если:

  • Использовать как первичный фильтр для быстрой сортировки работ
  • Проверять пограничные случаи (18-20 баллов) экспертом
  • Использовать Qwen 3.5 как основную модель проверки

Нет, если:

  • Требуется 100% точность для апелляций
  • Работа содержит нестандартную аргументацию
  • Критичны точные цитаты и имена

🔧 Рекомендации по внедрению:

  1. Двухэтапная проверка: Модель → Эксперт (только для работ 17-20 баллов)
  2. Контрольная выборка: 10% работ перепроверять вручную
  3. Логирование расхождений: Накопление данных для дообучения
  4. Приоритет Qwen 3.5: Использовать как baseline-модель