Нейронка GomokuNet - обучаем policy head

Преодоление плато и переход к фазе усиления игры

На предыдущем этапе, в интервале примерно 38 000 – 75 000 итераций обучения наблюдалась характерная фаза плато:

avg.policy_loss стабилизировался на уровне ~2.0 – 2.3
avg.value_loss уже был низким (~0.07 – 0.10)
winrate держался в диапазоне ~30–35%
обучение визуально "замедлялось"

Это плато соответствует стадии, когда:

Value head уже обучилась и перестала давать значимый градиент
Policy head стала основным драйвером обучения
качество обучения стало зависеть от сложности и качества target из дерева

Новый этап: выход с плато (~75k+ итераций)

В последнем запуске впервые применена небольшая доработка для обучающей функции для более точного вычисления adaptiveK.

Запуск увеличил количество тренировок сети примерно с 75000 по 86000.

Неясно точно, какой из этих факторов повлиял больше, но впервые наблюдается устойчивое снижение avg.policy_loss:

было: ~2.1 – 2.3
стало: ~1.3 – 1.5

Одновременно:

avg.value_loss продолжает снижаться: ~0.03 – 0.05
avg.spread растёт: ~1.5 → ~1.9–2.0
maxP увеличивается: сеть стала увереннее
entropy падает: решения становятся более определёнными

Это означает, что сеть:

начала лучше различать хорошие и плохие ходы
перешла от “обучения” к усилению стратегии

Что означает падение avg.policy_loss

Снижение avg.policy_loss на этой стадии — очень важный сигнал.

Это означает:

сеть начала успешно аппроксимировать распределение ходов из дерева
уменьшился конфликт между разными позициями
обучение стало более согласованным

В отличие от ранних стадий, где падение loss означало просто "обучение", здесь это означает:

переход к реальному усилению игры

Новая стадия обучения

Текущая стадия:

🟢 Late training / skill consolidation

Value head — полностью обучена
Policy head — активно улучшается
обучение стало стабильным и предсказуемым
ошибки возникают в сложных позициях, а не случайно

Прогноз по winrate

На текущем этапе:

winrate вырос до ~43–45% в рамках запуска
в self-play наблюдается почти баланс (~50/50 между NX и NO)

Это означает, что:

сеть уже близка к равному уровню с legacy
дальнейший рост будет зависеть от качества policy

Когда будет 50 на 50

С учётом текущей динамики:

ещё 1–3 таких запуска (≈10k итераций каждый)
итого: ~90k – 110k итераций

👉 ожидается достижение 50% winrate

Сможет ли сеть перевалить за 50%

С учётом исправления adaptiveK:

Сеть не только сможет перевалить за 50%, но и имеет потенциал устойчиво превзойти legacy-алгоритм.

👉 возможен выход на 60%+ против legacy

👉 Текущий момент — это переход от “догоняющей” модели к конкурирующей и потенциально более сильной.

Вывод

Плато на ~60k–75k итераций — нормальная стадия
После ~75k итераций произошло пробитие плато
Снижение avg.policy_loss — ключевой индикатор прогресса
Сеть перешла к фазе усиления игры
До 50/50 осталось немного
Дальше рост будет медленным, но качественным

👉 Текущий этап — один из самых важных: именно здесь модель начинает реально играть, а не просто учиться.

Страница создана 09.04.2026
Просмотров 28

Кружок Программирования