2 Agosto 2019

파이썬 강화학습 예제

가장 간단한 단어에서 강화 학습은 시행 착오에 의해 학습이다. 주인공은 우리의 문제에서 차가 될 것입니다 “에이전트”라고합니다. 에이전트는 환경에서 작업을 수행하며 해당 작업에 대한 새로운 관찰 및 보상을 받게 됩니다. 더 큰 보상으로 이어지는 행동이 강화되어 이름도 됩니다. 컴퓨터 과학의 다른 많은 것들과 마찬가지로,이 사람은 또한 살아있는 생물을 관찰하여 영감을 받았습니다. 위의 코드를 검사하면 먼저 Python 모듈을 가져온 다음 gym.make() 명령을 통해 환경이 로드되는 것을 관찰할 수 있습니다. 첫 번째 단계는 env.reset()를 실행하여 환경을 초기화/재설정하는 것입니다. 그런 다음 실행하는 첫 번째 명령은 env.step(1)입니다. 앞에서 설명한 것처럼 동작 1은 체인의 시작 부분(상태 0)으로 돌아가는 단계를 나타냅니다. Step() 명령은 튜플에서 4개의 변수를 반환하며, 이들은 (순서대로): 보강 학습은 탐색을 통해 해당 상태에서 수행할 최적의 동작에 대한 상태 매핑을 학습합니다. 환경에 정의됩니다. 괜찮아! 우리는 실제 비유의 도움으로 강화 학습을 이해로 시작했다.

그런 다음 강화 학습의 기본에 뛰어 들어 자율 주행 운전 실을 보강 학습 문제로 구성했습니다. 그런 다음 파이썬에 OpenAI의 Gym을 사용하여 에이전트를 개발하고 평가할 수 있는 관련 환경을 제공했습니다. 그런 다음 에이전트가 게임을 플레이하기 위해 알고리즘을 사용하지 않고 얼마나 끔찍한지 관찰했기 때문에 Q-러닝 알고리즘을 처음부터 구현하기 시작했습니다. Q-러닝 후 에이전트의 성능이 크게 향상되었습니다. 마지막으로 알고리즘에 대한 하이퍼매개 변수를 결정하기 위한 더 나은 접근 방식에 대해 설명했습니다. P.S. 구현을 위해 파이썬에 대한 기본 지식이 있다고 가정합니다. 파이썬을 모르는 경우 먼저 이 튜토리얼 보강 학습을 통해 특정 목표를 최대화하기 위해 환경과 상호 작용할 수 있는 에이전트를 모델링하고 학습하는 알고리즘을 개발하고 이해하려고 하는 분야입니다. 아이디어는 매우 간단합니다 : 에이전트는 자신의 상태 t를 알고, 상태 t +1로 그를 리드하고 보상 Rt를받을 수있는 액션 At를 합니다. 다음 계획은 St →Rt →St+1 →At +1 →1 →1 →1 →St+2…: 마지막으로, 여기에 작품의 대부분은 영감 또는 앤드류 G. 및 리처드 S.

책이라는 최신 버전에서 그려진 것을 언급하고 싶습니다. : 이 저자들이 공개적으로 접근할 수 있게 한 소개, 놀라운 작품. 우리는 파이썬에서 처음부터 환경을 도입하고 최적의 정책을 발견했습니다. 또한 Q-러닝을 통해 최적의 정책을 찾는 방법을 소개하기 시작했습니다. 케라스에서 강화 학습 – 에피소드의 수에 대한 평균 보상 개선 화려한 기사 파이잔 훈련, 있다 10 데이비드 실버에 의해 가르쳐 강화 학습의 튜토리얼. 다윗은 강화 학습의 창립 아버지 중 하나입니다.

Contact us

Get in touch with us!