Compare commits
No commits in common. "811e4d3ffa4b76f28dabc905dab57f7534d0a910" and "3c87f998dddd19bd311363879196222f4aedeeaf" have entirely different histories.
811e4d3ffa
...
3c87f998dd
2 changed files with 5 additions and 34 deletions
6
.gitignore
vendored
6
.gitignore
vendored
|
|
@ -1,9 +1,3 @@
|
||||||
.env
|
.env
|
||||||
venv/
|
venv/
|
||||||
__pycache__/
|
__pycache__/
|
||||||
*.tif
|
|
||||||
*.tiff
|
|
||||||
*.jpg
|
|
||||||
*.jpeg
|
|
||||||
*.png
|
|
||||||
s
|
|
||||||
31
Report.md
31
Report.md
|
|
@ -72,30 +72,7 @@
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 5. Кейс Городничий: детальный разбор
|
## 5. Рейтинг моделей (обновлённый)
|
||||||
|
|
||||||
**Эксперт:** 18 баллов
|
|
||||||
**Qwen:** 17 баллов
|
|
||||||
|
|
||||||
**Что сработало в пользу Qwen (она была права):**
|
|
||||||
|
|
||||||
| Критерий | Решение Qwen | Обоснование |
|
|
||||||
| :--- | :--- | :--- |
|
|
||||||
| **К4** | Снят 1 балл | В сочинении нет конкретного примера-аргумента (из жизни/литературы/истории) — только общее рассуждение «Я согласен». По критериям ЕГЭ это основание для снижения. |
|
|
||||||
| **К7** | 2 балла (2 ошибки) | «Пичуфорова» вместо «Пичуфова», «Лебова» вместо «Лёбова» — орфографические ошибки в именах собственных. |
|
|
||||||
| **К8** | 2 балла (1 ошибка) | Пропущена запятая: «увидеть, понять» |
|
|
||||||
| **К9** | 2 балла (1 ошибка) | Грамматическая ошибка в той же конструкции |
|
|
||||||
| **К10** | 2 балла (1 ошибка) | Речевая ошибка (плеоназм/тавтология) |
|
|
||||||
|
|
||||||
**Что Qwen могла бы простить (если бы эксперт был добрее):**
|
|
||||||
- Эксперт, возможно, не стал бы строго штрафовать за отсутствие примера в К4, посчитав, что аргумент «подразумевается»
|
|
||||||
- Эксперт мог не заметить ошибки в фамилиях или счесть их негрубыми
|
|
||||||
|
|
||||||
**Вывод по Городничему:** Qwen оказалась **немного строже эксперта**, но её оценка (17) **объективно отражает реальные недочёты** работы. Если бы ученик добавил один конкретный пример (из литературы, истории или личного опыта) — Qwen поставила бы 19–20 баллов.
|
|
||||||
|
|
||||||
---
|
|
||||||
|
|
||||||
## 6. Рейтинг моделей (обновлённый)
|
|
||||||
|
|
||||||
| Модель | Средний балл (4 базовых) | Точность (новые 3 работы) | Вердикт |
|
| Модель | Средний балл (4 базовых) | Точность (новые 3 работы) | Вердикт |
|
||||||
| :--- | :---: | :---: | :--- |
|
| :--- | :---: | :---: | :--- |
|
||||||
|
|
@ -109,7 +86,7 @@ Qwen после доработки промпта — **самый точный
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 7. Сравнение «характеров» моделей (обновлённое)
|
## 6. Сравнение «характеров» моделей (обновлённое)
|
||||||
|
|
||||||
### 🚀 GPT-4o (Оптимист)
|
### 🚀 GPT-4o (Оптимист)
|
||||||
- **Стиль:** Самая высокая вероятность получить 22 балла.
|
- **Стиль:** Самая высокая вероятность получить 22 балла.
|
||||||
|
|
@ -131,7 +108,7 @@ Qwen после доработки промпта — **самый точный
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 8. Обновлённые инструкции для бота (те, которые сработали)
|
## 7. Обновлённые инструкции для бота (те, которые сработали)
|
||||||
|
|
||||||
В `SKILL.md` для Qwen были жёстко прописаны правила, которые дали результат:
|
В `SKILL.md` для Qwen были жёстко прописаны правила, которые дали результат:
|
||||||
|
|
||||||
|
|
@ -147,7 +124,7 @@ Qwen после доработки промпта — **самый точный
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
## 9. Вывод
|
## 8. Вывод
|
||||||
|
|
||||||
**Финальная рекомендация для проекта:**
|
**Финальная рекомендация для проекта:**
|
||||||
|
|
||||||
|
|
|
||||||
Loading…
Add table
Add a link
Reference in a new issue