2018/03/09 썸네일형 리스트형 MCTSnet과 alphazero를 합칠 수 없을까 일단 생각이라도 해보자.1. readout network를 policy말고 value도 출력하게 하자.그다음 그 policy하고 value를 alphazero처럼 훈련시키자(KL, SSE)2. MCTS해서 나온 h(vector representation)을 embedding network에서 내놓게 훈련시키자(SSE) 3. simulation policy는 다음의 원칙에 따라 훈련시키자h_t값에 가장 큰 영향을 주는 것일수록 더 필수적인 search이다 4. backup network는 그냥 MCTSnet에서 건의한것처럼 깊은 SGD를 해서 훈련시켜야 할듯(1번하고 통합될지도) 더보기 이전 1 다음