add new tests and update russian-essay-criteria.md

2026-04-01 00:12:17 +03:00 · 2026-04-01 00:12:17 +03:00 · 710e9a8b64
commit 710e9a8b64
parent e01a51e2ae
21 changed files with 663 additions and 207 deletions
--- a/Report.md
+++ b/Report.md
@ -1,51 +1,63 @@
-# 📊 Сводный аналитический отчет по проверке сочинений (ЕГЭ)
+# 📊 Сводный аналитический отчет по проверке сочинений (ЕГЭ) — FINAL 

-**Дата проверки:** 26 марта 2026 г.  
-**Объект:** Сочинения формата ЕГЭ (Ученики: `andrey`, `student_2`)  
-**Используемые модели:** Claude Opus 4-6, GPT-4o, GPT-5-Pro.
+**Дата:** 31 марта 2026 г.  
+**Объект:** Сочинения (Ученики: `andrey`, `student_2`, `aleksandr`, `ivan`)  
+**Модели:** Claude Opus 4-6, GPT-4o, GPT-5-Pro.

 ---

-## 1. Сводная таблица результатов (Баллы)
+## 1. Итоговая таблица (Баттл за 22 балла)

-| Ученик | Реальный балл (Эксперт) | Claude Opus 4-6 | GPT-4o | GPT-5-Pro | Средний ИИ |
+| Ученик | Эксперт | Claude Opus | GPT-4o | GPT-5-Pro | Средний ИИ |
 | :--- | :---: | :---: | :---: | :---: | :---: |
-| **andrey** | **22** | 17 | 22 | 19 | **19.3** |
-| **student_2** | **22** | 13 | 18 | 17 | **16.0** |
+| **andrey** | **22** | 18 | 22 | 18 | **19.3** |
+| **student_2** | **22** | 14 | 18 | 17 | **16.3** |
+| **aleksandr** | **22** | 18 | 19 | 21 | **19.3** |
+| **ivan** | **22** | 18 | 22 | 20 | **20.0** |

 ---

-## 2. Анализ работы моделей (Battle Review)
+## 2. Анализ аномалий (Почему ИИ "завалил" student_2?)

-### 🥇 Claude Opus 4-6 (Самый внимательный / Строгий)
-* **Сильные стороны:** Лучшее распознавание почерка (OCR). Заметила все зачеркивания («Юшка» -> «Мужчина») и оценила их как неуверенность.
-* **Критика:** Слишком жестко судит критерий **К10 (Речь)**. Считает повторы слов «тяжело» и «человек» грубой ошибкой, в то время как эксперты ЕГЭ допускают это в рамках темы.
-* **Вердикт:** Идеальна для "жесткой" самопроверки. Если Opus поставил 18+, на реальном экзамене это будет 20-22.
-
-### 🥈 GPT-5-Pro (Сбалансированный / Reasoning)
-* **Сильные стороны:** Глубокая логика. Заметила тонкие ошибки в управлении («обсуждали о том») и пунктуации в БСП.
-* **Критика:** Долгое время генерации (почти 500 сек), что может быть критично для массовых проверок.
-* **Вердикт:** Самая близкая к "человеческому" подходу модель. Она сомневается, пересматривает баллы (как в случае с К4 у Андрея) и дает дельные советы.
-
-### 🥉 GPT-4o (Лояльный / Быстрый)
-* **Сильные стороны:** Высокая скорость и "оптимизм". Поставила Андрею **22/22**, полностью совпав с реальным экспертом.
-* **Критика:** Склонна "прощать" или не замечать мелкие речевые недочеты и повторы.
-* **Вердикт:** Отлично подходит для быстрой оценки структуры и логики, но может быть слишком мягкой в плане грамотности.
+Работа `student_2` — самый яркий пример расхождения (14 vs 22).
+* **Ловушка "Неразборчивости":** Модели (особенно Opus) споткнулись о неразборчивые слова (отмечены как `[?]`). Там, где человек по контексту понимает "влияние" или "выгоду", ИИ видит грамматическую ошибку.
+* **Галлюцинации имен:** GPT-4o переименовала Глебова в "Гибова", а Вадика в "Батмана". Из-за своих же ошибок в чтении модель снизила баллы ученику.
+* **Строгость К10 (Речь):** Все модели оштрафовали за фразу "во благо тебе же", посчитав её разговорной, хотя эксперты ЕГЭ часто закрывают на это глаза, если мысль ясна.

 ---

-## 3. Почему ИИ занижает баллы? (Анализ расхождений)
+## 3. Сравнение "характеров" моделей

-В ходе тестирования выявлено, что ИИ часто ставит балл ниже, чем реальный эксперт (17-19 вместо 22). Причины:
+### 🕵️ Claude Opus 4-6 (Прокурор)
+* **Стиль:** Ищет иголку в стоге сена. Заметила отсутствие "н" в отчестве "Яковлевна" у Александра.
+* **Проблема:** Не умеет прощать. Если в тексте есть зачеркивания, она трактует это как "логическую неуверенность" (К5), что не соответствует правилам ЕГЭ.
+* **Рекомендация:** Использовать только для поиска орфографических микро-ошибок.

-1.  **Роботизированная коррекция:** ИИ считает количество повторов слов на 100 символов. Если слово «герой» встречается 3 раза в абзаце — для ИИ это ошибка. Эксперт понимает, что это специфика жанра.
-2.  **Галлюцинации почерка:** Плохо разборчивые буквы ИИ иногда принимает за орфографические ошибки или лишние запятые.
-3.  **Трактовка К5-К6:** ИИ более чувствителен к стилистике. Разговорные слова («хоть», «наплевать») он наказывает строже, чем живой человек.
+### 🚀 GPT-4o (Оптимист)
+* **Стиль:** Самая высокая вероятность получить 22 балла. Она игнорирует мелкие повторы, если текст читается бодро.
+* **Проблема:** Плохой OCR. Может выдумать слова ("детский таз" у Александра), которых нет в помине.
+* **Рекомендация:** Идеальна для проверки структуры и "духа" сочинения.
+
+### 🧠 GPT-5-Pro (Судья)
+* **Стиль:** Самая взвешенная. Она единственная дала Александру **21 балл**, увидев глубину анализа, несмотря на мелкие описки.
+* **Проблема:** Очень медленная (до 600 секунд).
+* **Рекомендация:** Эталонная модель. Если GPT-5-Pro ставит балл, он максимально близок к справедливому.

 ---

-## 4. Итоговый вывод
-Система готова к работе. Для получения максимально объективной оценки рекомендуется ориентироваться на **средний балл между GPT-4o и GPT-5-Pro**. Результаты Claude Opus следует использовать как "планку максимума" для идеальной вычитки текста.
+## 4. Обновленные инструкции для бота (на базе твоих правок)
+
+Чтобы бот перестал занижать баллы, в `SKILL.md` теперь жестко прописано:
+1.  **Принцип "In Dubio Pro Reo" (Сомнение в пользу ученика):** Если слово неразборчиво, ИИ обязан считать его верным, если это не ломает смысл.
+2.  **Легализация повторов:** * До 3-х повторов ключевого слова на абзац = **НОРМА**.
+    * Повтор в 2-х предложениях подряд = **НОРМА**.
+    * Ошибка только при 3-х повторах в ряд.
+3.  **Игнор исправлений:** Любое зачеркнутое слово просто исчезает из анализа. Никаких штрафов за "неуверенность".

 ---
-*Отчет сформирован автоматически на основе баттла моделей 2026.*
+
+## 5. Вывод
+Система значительно поумнела. Ученик `ivan` уже получил от GPT-4o заслуженные **22 балла**. Для стартапа рекомендую использовать **GPT-5-Pro как основного оценщика**, а **Claude Opus как технического корректора** (только К7-К8).
+
+---
+*Отчет сформирован для Андрея. Версия 2.1*