ege-skill/Report.md

63 lines
No EOL
4.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 📊 Сводный аналитический отчет по проверке сочинений (ЕГЭ) — FINAL
**Дата:** 31 марта 2026 г.
**Объект:** Сочинения (Ученики: `andrey`, `student_2`, `aleksandr`, `ivan`)
**Модели:** Claude Opus 4-6, GPT-4o, GPT-5-Pro.
---
## 1. Итоговая таблица (Баттл за 22 балла)
| Ученик | Эксперт | Claude Opus | GPT-4o | GPT-5-Pro | Средний ИИ |
| :--- | :---: | :---: | :---: | :---: | :---: |
| **andrey** | **22** | 18 | 22 | 18 | **19.3** |
| **student_2** | **22** | 14 | 18 | 17 | **16.3** |
| **aleksandr** | **22** | 18 | 19 | 21 | **19.3** |
| **ivan** | **22** | 18 | 22 | 20 | **20.0** |
---
## 2. Анализ аномалий (Почему ИИ "завалил" student_2?)
Работа `student_2` — самый яркий пример расхождения (14 vs 22).
* **Ловушка "Неразборчивости":** Модели (особенно Opus) споткнулись о неразборчивые слова (отмечены как `[?]`). Там, где человек по контексту понимает "влияние" или "выгоду", ИИ видит грамматическую ошибку.
* **Галлюцинации имен:** GPT-4o переименовала Глебова в "Гибова", а Вадика в "Батмана". Из-за своих же ошибок в чтении модель снизила баллы ученику.
* **Строгость К10 (Речь):** Все модели оштрафовали за фразу "во благо тебе же", посчитав её разговорной, хотя эксперты ЕГЭ часто закрывают на это глаза, если мысль ясна.
---
## 3. Сравнение "характеров" моделей
### 🕵️ Claude Opus 4-6 (Прокурор)
* **Стиль:** Ищет иголку в стоге сена. Заметила отсутствие "н" в отчестве "Яковлевна" у Александра.
* **Проблема:** Не умеет прощать. Если в тексте есть зачеркивания, она трактует это как "логическую неуверенность" (К5), что не соответствует правилам ЕГЭ.
* **Рекомендация:** Использовать только для поиска орфографических микро-ошибок.
### 🚀 GPT-4o (Оптимист)
* **Стиль:** Самая высокая вероятность получить 22 балла. Она игнорирует мелкие повторы, если текст читается бодро.
* **Проблема:** Плохой OCR. Может выдумать слова ("детский таз" у Александра), которых нет в помине.
* **Рекомендация:** Идеальна для проверки структуры и "духа" сочинения.
### 🧠 GPT-5-Pro (Судья)
* **Стиль:** Самая взвешенная. Она единственная дала Александру **21 балл**, увидев глубину анализа, несмотря на мелкие описки.
* **Проблема:** Очень медленная (до 600 секунд).
* **Рекомендация:** Эталонная модель. Если GPT-5-Pro ставит балл, он максимально близок к справедливому.
---
## 4. Обновленные инструкции для бота (на базе твоих правок)
Чтобы бот перестал занижать баллы, в `SKILL.md` теперь жестко прописано:
1. **Принцип "In Dubio Pro Reo" (Сомнение в пользу ученика):** Если слово неразборчиво, ИИ обязан считать его верным, если это не ломает смысл.
2. **Легализация повторов:** * До 3-х повторов ключевого слова на абзац = **НОРМА**.
* Повтор в 2-х предложениях подряд = **НОРМА**.
* Ошибка только при 3-х повторах в ряд.
3. **Игнор исправлений:** Любое зачеркнутое слово просто исчезает из анализа. Никаких штрафов за "неуверенность".
---
## 5. Вывод
Система значительно поумнела. Ученик `ivan` уже получил от GPT-4o заслуженные **22 балла**. Для стартапа рекомендую использовать **GPT-5-Pro как основного оценщика**, а **Claude Opus как технического корректора** (только К7-К8).
---
*Отчет сформирован для Андрея. Версия 2.1*