Преодоление плато и переход к фазе усиления игры
На предыдущем этапе, в интервале примерно 38 000 – 75 000 итераций обучения наблюдалась характерная фаза плато:
- avg.policy_loss стабилизировался на уровне ~2.0 – 2.3
- avg.value_loss уже был низким (~0.07 – 0.10)
- winrate держался в диапазоне ~30–35%
- обучение визуально "замедлялось"
Это плато соответствует стадии, когда:
- Value head уже обучилась и перестала давать значимый градиент
- Policy head стала основным драйвером обучения
- качество обучения стало зависеть от сложности и качества target из дерева
Новый этап: выход с плато (~75k+ итераций)
В последнем запуске впервые применена небольшая доработка для обучающей функции для более точного вычисления adaptiveK.
Запуск увеличил количество тренировок сети примерно с 75000 по 86000.
Неясно точно, какой из этих факторов повлиял больше, но впервые наблюдается устойчивое снижение avg.policy_loss:
- было: ~2.1 – 2.3
- стало: ~1.3 – 1.5
Одновременно:
- avg.value_loss продолжает снижаться: ~0.03 – 0.05
- avg.spread растёт: ~1.5 → ~1.9–2.0
- maxP увеличивается: сеть стала увереннее
- entropy падает: решения становятся более определёнными
Это означает, что сеть:
- начала лучше различать хорошие и плохие ходы
- перешла от “обучения” к усилению стратегии
Что означает падение avg.policy_loss
Снижение avg.policy_loss на этой стадии — очень важный сигнал.
Это означает:
- сеть начала успешно аппроксимировать распределение ходов из дерева
- уменьшился конфликт между разными позициями
- обучение стало более согласованным
В отличие от ранних стадий, где падение loss означало просто "обучение", здесь это означает:
переход к реальному усилению игры
Новая стадия обучения
Текущая стадия:
🟢 Late training / skill consolidation
- Value head — полностью обучена
- Policy head — активно улучшается
- обучение стало стабильным и предсказуемым
- ошибки возникают в сложных позициях, а не случайно
Прогноз по winrate
На текущем этапе:
- winrate вырос до ~43–45% в рамках запуска
- в self-play наблюдается почти баланс (~50/50 между NX и NO)
Это означает, что:
- сеть уже близка к равному уровню с legacy
- дальнейший рост будет зависеть от качества policy
Когда будет 50 на 50
С учётом текущей динамики:
- ещё 1–3 таких запуска (≈10k итераций каждый)
- итого: ~90k – 110k итераций
👉 ожидается достижение 50% winrate
Сможет ли сеть перевалить за 50%
С учётом исправления adaptiveK:
Сеть не только сможет перевалить за 50%, но и имеет потенциал устойчиво превзойти legacy-алгоритм.
👉 возможен выход на 60%+ против legacy
👉 Текущий момент — это переход от “догоняющей” модели к конкурирующей и потенциально более сильной.
Вывод
- Плато на ~60k–75k итераций — нормальная стадия
- После ~75k итераций произошло пробитие плато
- Снижение avg.policy_loss — ключевой индикатор прогресса
- Сеть перешла к фазе усиления игры
- До 50/50 осталось немного
- Дальше рост будет медленным, но качественным
👉 Текущий этап — один из самых важных: именно здесь модель начинает реально играть, а не просто учиться.
