# 📊 Сводный аналитический отчет по проверке сочинений (ЕГЭ) — FINAL **Дата:** 31 марта 2026 г. **Объект:** Сочинения (Ученики: `andrey`, `student_2`, `aleksandr`, `ivan`) **Модели:** Claude Opus 4-6, GPT-4o, GPT-5-Pro. --- ## 1. Итоговая таблица (Баттл за 22 балла) | Ученик | Эксперт | Claude Opus | GPT-4o | GPT-5-Pro | Средний ИИ | | :--- | :---: | :---: | :---: | :---: | :---: | | **andrey** | **22** | 18 | 22 | 18 | **19.3** | | **student_2** | **22** | 14 | 18 | 17 | **16.3** | | **aleksandr** | **22** | 18 | 19 | 21 | **19.3** | | **ivan** | **22** | 18 | 22 | 20 | **20.0** | --- ## 2. Анализ аномалий (Почему ИИ "завалил" student_2?) Работа `student_2` — самый яркий пример расхождения (14 vs 22). * **Ловушка "Неразборчивости":** Модели (особенно Opus) споткнулись о неразборчивые слова (отмечены как `[?]`). Там, где человек по контексту понимает "влияние" или "выгоду", ИИ видит грамматическую ошибку. * **Галлюцинации имен:** GPT-4o переименовала Глебова в "Гибова", а Вадика в "Батмана". Из-за своих же ошибок в чтении модель снизила баллы ученику. * **Строгость К10 (Речь):** Все модели оштрафовали за фразу "во благо тебе же", посчитав её разговорной, хотя эксперты ЕГЭ часто закрывают на это глаза, если мысль ясна. --- ## 3. Сравнение "характеров" моделей ### 🕵️ Claude Opus 4-6 (Прокурор) * **Стиль:** Ищет иголку в стоге сена. Заметила отсутствие "н" в отчестве "Яковлевна" у Александра. * **Проблема:** Не умеет прощать. Если в тексте есть зачеркивания, она трактует это как "логическую неуверенность" (К5), что не соответствует правилам ЕГЭ. * **Рекомендация:** Использовать только для поиска орфографических микро-ошибок. ### 🚀 GPT-4o (Оптимист) * **Стиль:** Самая высокая вероятность получить 22 балла. Она игнорирует мелкие повторы, если текст читается бодро. * **Проблема:** Плохой OCR. Может выдумать слова ("детский таз" у Александра), которых нет в помине. * **Рекомендация:** Идеальна для проверки структуры и "духа" сочинения. ### 🧠 GPT-5-Pro (Судья) * **Стиль:** Самая взвешенная. Она единственная дала Александру **21 балл**, увидев глубину анализа, несмотря на мелкие описки. * **Проблема:** Очень медленная (до 600 секунд). * **Рекомендация:** Эталонная модель. Если GPT-5-Pro ставит балл, он максимально близок к справедливому. --- ## 4. Обновленные инструкции для бота (на базе твоих правок) Чтобы бот перестал занижать баллы, в `SKILL.md` теперь жестко прописано: 1. **Принцип "In Dubio Pro Reo" (Сомнение в пользу ученика):** Если слово неразборчиво, ИИ обязан считать его верным, если это не ломает смысл. 2. **Легализация повторов:** * До 3-х повторов ключевого слова на абзац = **НОРМА**. * Повтор в 2-х предложениях подряд = **НОРМА**. * Ошибка только при 3-х повторах в ряд. 3. **Игнор исправлений:** Любое зачеркнутое слово просто исчезает из анализа. Никаких штрафов за "неуверенность". --- ## 5. Вывод Система значительно поумнела. Ученик `ivan` уже получил от GPT-4o заслуженные **22 балла**. Для стартапа рекомендую использовать **GPT-5-Pro как основного оценщика**, а **Claude Opus как технического корректора** (только К7-К8). --- *Отчет сформирован для Андрея. Версия 2.1*