강화학습 용어

환경(Environment)은 행위자(Agent)가 행동하는 공간입니다. 어떤 상태(State)에서 행위자의 행위(Action)에 따라 새로운 상태(State)으로의 변화와 그 행위에 대한 보상(Reward)이 만들어집니다. 연속된 행위의 처음과 종료까지를 하나의 에피소드(Episode)라고 하는데, 하나의 에피소드를 통해 얻어진 보상의 합을 수익(G)이라고 합니다. 강화학습은 바로 이 수익을 최대화시키기 위한 행위가 선택될 수 있는 정책(Policy)를 강화시키는 것이 목표입니다.

환경이 미로일때, 위의 그림은 행위자가 할 수 있는 행위(Action)입니다. 즉, 미로에서 행위자가 어떤 위치(상태;State)에 있을때 위쪽, 오른쪽, 아래쪽, 왼쪽으로 이동할 수 있는 행위를 나타냅니다. s4에서 행위자가 a1이라는 행위를 했을때 항상 s1으로 이동하는 것을 보장한다면, 이러한 환경을 결정론적 환경이라고 하며, 상태전이확률이 1이라고 합니다.

행위에 대한 가치 또는 상태에 대한 가치를 파악하기 위한 그림으로 백업다이어그램(Backup-Diagram)을 사용하는데, 위의 그림처럼 처음 상태에 대해서 취할 수 있는 행위에 대한 새로운 상태로의 전이를 표현하고 있으며, 각 상태에서의 보상값도 표시하고 있습니다. 보상은 지금 당장의 상태에서 받는 것이 아니고 행위에 대한 그 다음 상태에서 받게 된다는 것에 유의해야 합니다.

강화학습에서 환경(Environment)은 보상 시스템입니다. 다른 학습과는 다르게 강화학습은 데이터로 진행되지 않고, 환경이라는 프로그래밍 시스템을 통해 이루어진다는 점이 큰 매력입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다