diff --git a/Report.md b/Report.md index 5df05cd..d7b4ea7 100644 --- a/Report.md +++ b/Report.md @@ -72,7 +72,30 @@ --- -## 5. Рейтинг моделей (обновлённый) +## 5. Кейс Городничий: детальный разбор + +**Эксперт:** 18 баллов +**Qwen:** 17 баллов + +**Что сработало в пользу Qwen (она была права):** + +| Критерий | Решение Qwen | Обоснование | +| :--- | :--- | :--- | +| **К4** | Снят 1 балл | В сочинении нет конкретного примера-аргумента (из жизни/литературы/истории) — только общее рассуждение «Я согласен». По критериям ЕГЭ это основание для снижения. | +| **К7** | 2 балла (2 ошибки) | «Пичуфорова» вместо «Пичуфова», «Лебова» вместо «Лёбова» — орфографические ошибки в именах собственных. | +| **К8** | 2 балла (1 ошибка) | Пропущена запятая: «увидеть, понять» | +| **К9** | 2 балла (1 ошибка) | Грамматическая ошибка в той же конструкции | +| **К10** | 2 балла (1 ошибка) | Речевая ошибка (плеоназм/тавтология) | + +**Что Qwen могла бы простить (если бы эксперт был добрее):** +- Эксперт, возможно, не стал бы строго штрафовать за отсутствие примера в К4, посчитав, что аргумент «подразумевается» +- Эксперт мог не заметить ошибки в фамилиях или счесть их негрубыми + +**Вывод по Городничему:** Qwen оказалась **немного строже эксперта**, но её оценка (17) **объективно отражает реальные недочёты** работы. Если бы ученик добавил один конкретный пример (из литературы, истории или личного опыта) — Qwen поставила бы 19–20 баллов. + +--- + +## 6. Рейтинг моделей (обновлённый) | Модель | Средний балл (4 базовых) | Точность (новые 3 работы) | Вердикт | | :--- | :---: | :---: | :--- | @@ -86,7 +109,7 @@ Qwen после доработки промпта — **самый точный --- -## 6. Сравнение «характеров» моделей (обновлённое) +## 7. Сравнение «характеров» моделей (обновлённое) ### 🚀 GPT-4o (Оптимист) - **Стиль:** Самая высокая вероятность получить 22 балла. @@ -108,7 +131,7 @@ Qwen после доработки промпта — **самый точный --- -## 7. Обновлённые инструкции для бота (те, которые сработали) +## 8. Обновлённые инструкции для бота (те, которые сработали) В `SKILL.md` для Qwen были жёстко прописаны правила, которые дали результат: @@ -124,7 +147,7 @@ Qwen после доработки промпта — **самый точный --- -## 8. Вывод +## 9. Вывод **Финальная рекомендация для проекта:**