Q-러닝
Q-러닝은 에이전트의 현재 상태를 고려하여 가장 좋은 행동 방침을 찾는 모델이 없는, 정책 외부 강화 학습 알고리즘입니다.에이전트가 환경 내 어느 위치에 있는지에 따라 다음에 어떤 작업을 수행할지 결정합니다. "Q"는 알고리즘이 계산한 함수를 의미하는데, 주어진 상태에서 수행된 동작에 대한 기대 보상입니다.
Q-학습의 목표는 현재 상태에서 가장 좋은 행동 방침을 찾는 것입니다. 이를 위해 회사는 자체 규칙을 만들거나 규정된 정책의 틀에서 벗어나 운영할 수도 있습니다.이는 실제로 정책이 필요하지 않다는 것을 의미하며, 따라서 "비정책"이라는 이름이 붙었습니다.유한한 마르코프 결정 과정에 대해 Q-학습은 현재 상태에서 시작하여 모든 연속적인 단계에서 총 보상의 기대값을 최대화하는 최적 정책을 찾습니다. Q-학습은 무한한 탐색 시간과 부분적으로 무작위화된 정책이 주어졌을 때, 주어진 유한 마르코프 결정 과정에 대해 가장 적합한 행동 선택 정책을 식별할 수 있습니다.
Q-학습의 예로는 광고 추천 시스템이 있습니다. 일반적인 광고 추천 시스템에서는 시청자가 보게 되는 광고가 시청자의 이전 구매 내역이나 방문했던 웹사이트를 기반으로 결정됩니다. 시청자가 TV를 구매하면, 시청자는 다양한 브랜드의 TV를 추천받게 됩니다.
Q-Learning의 중요 용어
- 상태: 상태 S(상태)는 환경에서 에이전트의 현재 위치를 나타냅니다.
- 행동: 행동은 에이전트가 특정 상태에 있을 때 취하는 단계입니다.
- 보상: 각 행동에 대해 에이전트는 긍정적 또는 부정적 보상을 받습니다.
- 줄거리: 행위자가 더 이상 새로운 행동을 취할 수 없는 최후의 상태에 도달하는 경우입니다.
- Q 값: 특정 상태 S에서 행동 A가 실행될 때 얼마나 좋은지를 판단하는 데 사용됩니다. Q(A, S)로 표현됩니다.
- 시간적 차이: 현재 상태와 동작, 그리고 이전 상태와 동작의 값을 사용하여 Q 값을 찾는 공식입니다.