Кружок Программирования

Преодоление плато и переход к фазе усиления игры

На предыдущем этапе, в интервале примерно 38 000 – 75 000 итераций обучения наблюдалась характерная фаза плато:

  • avg.policy_loss стабилизировался на уровне ~2.0 – 2.3
  • avg.value_loss уже был низким (~0.07 – 0.10)
  • winrate держался в диапазоне ~30–35%
  • обучение визуально "замедлялось"

Это плато соответствует стадии, когда:

  • Value head уже обучилась и перестала давать значимый градиент
  • Policy head стала основным драйвером обучения
  • качество обучения стало зависеть от сложности и качества target из дерева

Новый этап: выход с плато (~75k+ итераций)

В последнем запуске впервые применена небольшая доработка для обучающей функции для более точного вычисления adaptiveK.

Запуск увеличил количество тренировок сети примерно с 75000 по 86000.

Неясно точно, какой из этих факторов повлиял больше, но впервые наблюдается устойчивое снижение avg.policy_loss:

  • было: ~2.1 – 2.3
  • стало: ~1.3 – 1.5

Одновременно:

  • avg.value_loss продолжает снижаться: ~0.03 – 0.05
  • avg.spread растёт: ~1.5 → ~1.9–2.0
  • maxP увеличивается: сеть стала увереннее
  • entropy падает: решения становятся более определёнными

Это означает, что сеть:

  • начала лучше различать хорошие и плохие ходы
  • перешла от “обучения” к усилению стратегии

Что означает падение avg.policy_loss

Снижение avg.policy_loss на этой стадии — очень важный сигнал.

Это означает:

  • сеть начала успешно аппроксимировать распределение ходов из дерева
  • уменьшился конфликт между разными позициями
  • обучение стало более согласованным

В отличие от ранних стадий, где падение loss означало просто "обучение", здесь это означает:

переход к реальному усилению игры


Новая стадия обучения

Текущая стадия:

🟢 Late training / skill consolidation

  • Value head — полностью обучена
  • Policy head — активно улучшается
  • обучение стало стабильным и предсказуемым
  • ошибки возникают в сложных позициях, а не случайно

Прогноз по winrate

На текущем этапе:

  • winrate вырос до ~43–45% в рамках запуска
  • в self-play наблюдается почти баланс (~50/50 между NX и NO)

Это означает, что:

  • сеть уже близка к равному уровню с legacy
  • дальнейший рост будет зависеть от качества policy

Когда будет 50 на 50

С учётом текущей динамики:

  • ещё 1–3 таких запуска (≈10k итераций каждый)
  • итого: ~90k – 110k итераций

👉 ожидается достижение 50% winrate


Сможет ли сеть перевалить за 50%

С учётом исправления adaptiveK:

Сеть не только сможет перевалить за 50%, но и имеет потенциал устойчиво превзойти legacy-алгоритм.

👉 возможен выход на 60%+ против legacy

👉 Текущий момент — это переход от “догоняющей” модели к конкурирующей и потенциально более сильной.


Вывод

  • Плато на ~60k–75k итераций — нормальная стадия
  • После ~75k итераций произошло пробитие плато
  • Снижение avg.policy_loss — ключевой индикатор прогресса
  • Сеть перешла к фазе усиления игры
  • До 50/50 осталось немного
  • Дальше рост будет медленным, но качественным

👉 Текущий этап — один из самых важных: именно здесь модель начинает реально играть, а не просто учиться.

Страница создана 09.04.2026
М.О.