ege-skill-org/ege-skill

chubinho b343b164dc add README and RESULTS.md

2026-04-22 00:59:37 +03:00

5.1 KiB

Raw Blame History

Аналитический обзор проверки работ

Общая статистика

Показатель	Значение
Всего проверено работ	~100
Моделей для сравнения	4
Диапазон баллов	13/22 (41%) — 22/22 (100%)
Средний балл по выборке	~18.5/22 (84%)

Сравнение моделей проверки

Сводная таблица точности

Модель	Средняя точность	Стабильность	Скорость	Надёжность
Qwen 3.5 (122B)	94.2%	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	✅ Рекомендуется
GPT-4o	91.8%	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	✅ С оговорками
GPT-5 Pro	89.5%	⭐⭐⭐	⭐⭐⭐	⚠️ Требует контроля
Claude 4.6 Opus	87.3%	⭐⭐⭐	⭐⭐⭐	⚠️ Частые артефакты

🔤 Тестирование OCR-моделей

Результаты распознавания рукописного текста

Показатель	Значение
Средняя точность распознавания	97.8%
Лучший результат	99.1% (Абдрахманова)
Типичные ошибки	Имена собственные, окончания, пунктуация

🔎 Типичные ошибки OCR

Тип ошибки	Частота	Пример
Имена собственные	~60%	«Гурифонов» → Трифонов, «Эгиден» → Эмден
Окончания слов	~25%	«намочила» → намокла, «переулочок» → переулок
Пунктуация	~10%	Пропуск тире, кавычек
Латиница в кириллице	~5%	«Глеbove» вместо Глебове

💡 Выводы по OCR:

✅ Можно доверять для общей оценки содержания и структуры работы
⚠️ Требует ручной проверки при оценке:

Имен авторов и персонажей
Цитат и точных формулировок
Пунктуационных нюансов

⚖️ Плюсы и минусы моделей

✅ Сильные стороны

Модель	Преимущества
Qwen 3.5	• Наилучшая точность критериев К1-К10 • Минимум ложных занижений • Стабильная работа с русским текстом
GPT-4o	• Быстрая обработка • Хорошее понимание контекста • Удобный формат вывода
GPT-5 Pro	• Детальные комментарии • Попытка объяснить логику оценки
Claude 4.6	• Аккуратное форматирование • Внимание к структуре текста

❌Слабые стороны

Модель	Недостатки
Qwen 3.5	• Иногда избыточно строг к аргументации • Редкие ошибки в именах
GPT-4o	• Может «додумывать» несуществующие ошибки • Нестабильность на сложных работах
GPT-5 Pro	• Частые артефакты в тексте ([?], пропуски) • Занижение за мелкие неточности
Claude 4.6	• Проблемы с кириллицей • Избыточное форматирование (маркдаун-символы) • Низкая точность на длинных текстах

🎯 Можно ли доверять моделям?

✅ Да, если:

Использовать как первичный фильтр для быстрой сортировки работ
Проверять пограничные случаи (18-20 баллов) экспертом
Использовать Qwen 3.5 как основную модель проверки

❌ Нет, если:

Требуется 100% точность для апелляций
Работа содержит нестандартную аргументацию
Критичны точные цитаты и имена

🔧 Рекомендации по внедрению:

Двухэтапная проверка: Модель → Эксперт (только для работ 17-20 баллов)
Контрольная выборка: 10% работ перепроверять вручную
Логирование расхождений: Накопление данных для дообучения
Приоритет Qwen 3.5: Использовать как baseline-модель