MCTSnet과 alphazero를 합칠 수 없을까

일단 생각이라도 해보자.

1. readout network를 policy말고 value도 출력하게 하자.

그다음 그 policy하고 value를 alphazero처럼 훈련시키자(KL, SSE)

2. MCTS해서 나온 h(vector representation)을 embedding network에서 내놓게 훈련시키자(SSE)
3. simulation policy는 다음의 원칙에 따라 훈련시키자

h_t값에 가장 큰 영향을 주는 것일수록 더 필수적인 search이다
4. backup network는 그냥 MCTSnet에서 건의한것처럼 깊은 SGD를 해서 훈련시켜야 할듯(1번하고 통합될지도)

송운의 티스토리