4.9 KiB
4.9 KiB
📊 Сводный аналитический отчет по проверке сочинений (ЕГЭ) — FINAL
Дата: 31 марта 2026 г.
Объект: Сочинения (Ученики: andrey, student_2, aleksandr, ivan)
Модели: Claude Opus 4-6, GPT-4o, GPT-5-Pro.
1. Итоговая таблица (Баттл за 22 балла)
| Ученик | Эксперт | Claude Opus | GPT-4o | GPT-5-Pro | Средний ИИ |
|---|---|---|---|---|---|
| andrey | 22 | 18 | 22 | 18 | 19.3 |
| student_2 | 22 | 14 | 18 | 17 | 16.3 |
| aleksandr | 22 | 18 | 19 | 21 | 19.3 |
| ivan | 22 | 18 | 22 | 20 | 20.0 |
2. Анализ аномалий (Почему ИИ "завалил" student_2?)
Работа student_2 — самый яркий пример расхождения (14 vs 22).
- Ловушка "Неразборчивости": Модели (особенно Opus) споткнулись о неразборчивые слова (отмечены как
[?]). Там, где человек по контексту понимает "влияние" или "выгоду", ИИ видит грамматическую ошибку. - Галлюцинации имен: GPT-4o переименовала Глебова в "Гибова", а Вадика в "Батмана". Из-за своих же ошибок в чтении модель снизила баллы ученику.
- Строгость К10 (Речь): Все модели оштрафовали за фразу "во благо тебе же", посчитав её разговорной, хотя эксперты ЕГЭ часто закрывают на это глаза, если мысль ясна.
3. Сравнение "характеров" моделей
🕵️ Claude Opus 4-6 (Прокурор)
- Стиль: Ищет иголку в стоге сена. Заметила отсутствие "н" в отчестве "Яковлевна" у Александра.
- Проблема: Не умеет прощать. Если в тексте есть зачеркивания, она трактует это как "логическую неуверенность" (К5), что не соответствует правилам ЕГЭ.
- Рекомендация: Использовать только для поиска орфографических микро-ошибок.
🚀 GPT-4o (Оптимист)
- Стиль: Самая высокая вероятность получить 22 балла. Она игнорирует мелкие повторы, если текст читается бодро.
- Проблема: Плохой OCR. Может выдумать слова ("детский таз" у Александра), которых нет в помине.
- Рекомендация: Идеальна для проверки структуры и "духа" сочинения.
🧠 GPT-5-Pro (Судья)
- Стиль: Самая взвешенная. Она единственная дала Александру 21 балл, увидев глубину анализа, несмотря на мелкие описки.
- Проблема: Очень медленная (до 600 секунд).
- Рекомендация: Эталонная модель. Если GPT-5-Pro ставит балл, он максимально близок к справедливому.
4. Обновленные инструкции для бота (на базе твоих правок)
Чтобы бот перестал занижать баллы, в SKILL.md теперь жестко прописано:
- Принцип "In Dubio Pro Reo" (Сомнение в пользу ученика): Если слово неразборчиво, ИИ обязан считать его верным, если это не ломает смысл.
- Легализация повторов: * До 3-х повторов ключевого слова на абзац = НОРМА.
- Повтор в 2-х предложениях подряд = НОРМА.
- Ошибка только при 3-х повторах в ряд.
- Игнор исправлений: Любое зачеркнутое слово просто исчезает из анализа. Никаких штрафов за "неуверенность".
5. Вывод
Система значительно поумнела. Ученик ivan уже получил от GPT-4o заслуженные 22 балла. Для стартапа рекомендую использовать GPT-5-Pro как основного оценщика, а Claude Opus как технического корректора (только К7-К8).
Отчет сформирован для Андрея. Версия 2.1