Compare commits

..

3 commits

2 changed files with 34 additions and 5 deletions

8
.gitignore vendored
View file

@ -1,3 +1,9 @@
.env .env
venv/ venv/
__pycache__/ __pycache__/
*.tif
*.tiff
*.jpg
*.jpeg
*.png
s

View file

@ -72,7 +72,30 @@
--- ---
## 5. Рейтинг моделей (обновлённый) ## 5. Кейс Городничий: детальный разбор
**Эксперт:** 18 баллов
**Qwen:** 17 баллов
**Что сработало в пользу Qwen (она была права):**
| Критерий | Решение Qwen | Обоснование |
| :--- | :--- | :--- |
| **К4** | Снят 1 балл | В сочинении нет конкретного примера-аргумента (из жизни/литературы/истории) — только общее рассуждение «Я согласен». По критериям ЕГЭ это основание для снижения. |
| **К7** | 2 балла (2 ошибки) | «Пичуфорова» вместо «Пичуфова», «Лебова» вместо «Лёбова» — орфографические ошибки в именах собственных. |
| **К8** | 2 балла (1 ошибка) | Пропущена запятая: «увидеть, понять» |
| **К9** | 2 балла (1 ошибка) | Грамматическая ошибка в той же конструкции |
| **К10** | 2 балла (1 ошибка) | Речевая ошибка (плеоназм/тавтология) |
**Что Qwen могла бы простить (если бы эксперт был добрее):**
- Эксперт, возможно, не стал бы строго штрафовать за отсутствие примера в К4, посчитав, что аргумент «подразумевается»
- Эксперт мог не заметить ошибки в фамилиях или счесть их негрубыми
**Вывод по Городничему:** Qwen оказалась **немного строже эксперта**, но её оценка (17) **объективно отражает реальные недочёты** работы. Если бы ученик добавил один конкретный пример (из литературы, истории или личного опыта) — Qwen поставила бы 1920 баллов.
---
## 6. Рейтинг моделей (обновлённый)
| Модель | Средний балл (4 базовых) | Точность (новые 3 работы) | Вердикт | | Модель | Средний балл (4 базовых) | Точность (новые 3 работы) | Вердикт |
| :--- | :---: | :---: | :--- | | :--- | :---: | :---: | :--- |
@ -86,7 +109,7 @@ Qwen после доработки промпта — **самый точный
--- ---
## 6. Сравнение «характеров» моделей (обновлённое) ## 7. Сравнение «характеров» моделей (обновлённое)
### 🚀 GPT-4o (Оптимист) ### 🚀 GPT-4o (Оптимист)
- **Стиль:** Самая высокая вероятность получить 22 балла. - **Стиль:** Самая высокая вероятность получить 22 балла.
@ -108,7 +131,7 @@ Qwen после доработки промпта — **самый точный
--- ---
## 7. Обновлённые инструкции для бота (те, которые сработали) ## 8. Обновлённые инструкции для бота (те, которые сработали)
В `SKILL.md` для Qwen были жёстко прописаны правила, которые дали результат: В `SKILL.md` для Qwen были жёстко прописаны правила, которые дали результат:
@ -124,7 +147,7 @@ Qwen после доработки промпта — **самый точный
--- ---
## 8. Вывод ## 9. Вывод
**Финальная рекомендация для проекта:** **Финальная рекомендация для проекта:**