mlpack-git/doxygen/continuous__mountain__car_8hpp_source.html

 #ifndef MLPACK_METHODS_RL_ENVIRONMENT_CONTINUOUS_MOUNTAIN_CAR_HPP
 #define MLPACK_METHODS_RL_ENVIRONMENT_CONTINUOUS_MOUNTAIN_CAR_HPP

 #include <mlpack/prereqs.hpp>
 #include <mlpack/core/math/clamp.hpp>

 namespace mlpack {
 namespace rl {

 class ContinuousMountainCar
 {
  public:
   class State
   {
    public:
     State() : data(dimension, arma::fill::zeros)
     { /* Nothing to do here. */ }

     State(const arma::colvec& data): data(data)
     { /* Nothing to do here. */ }

     arma::colvec& Data() { return data; }

     double Velocity() const { return data[0]; }
     double& Velocity() { return data[0]; }

     double Position() const { return data[1]; }
     double& Position() { return data[1]; }

     const arma::colvec& Encode() const { return data; }

     static constexpr size_t dimension = 2;

    private:
     arma::colvec data;
   };

   struct Action
   {
     double action[1];
     // Storing degree of freedom
     const int size = 1;
   };

   ContinuousMountainCar(const double positionMin = -1.2,
                         const double positionMax = 0.6,
                         const double positionGoal = 0.45,
                         const double velocityMin = -0.07,
                         const double velocityMax = 0.07,
                         const double duration = 0.0015,
                         const double doneReward = 100,
                         const size_t maxSteps = 0) :
       positionMin(positionMin),
       positionMax(positionMax),
       positionGoal(positionGoal),
       velocityMin(velocityMin),
       velocityMax(velocityMax),
       duration(duration),
       doneReward(doneReward),
       maxSteps(maxSteps),
       stepsPerformed(0)
   { /* Nothing to do here */ }

   double Sample(const State& state,
                 const Action& action,
                 State& nextState)
   {
     // Update the number of steps performed.
     stepsPerformed++;

     // Calculate acceleration.
     double force = math::ClampRange(action.action[0], -1.0, 1.0);

     // Update states.
     nextState.Velocity() = state.Velocity() + force * duration - 0.0025 *
         std::cos(3 * state.Position());
     nextState.Velocity() = math::ClampRange(nextState.Velocity(),
       velocityMin, velocityMax);
     nextState.Position() = state.Position() + nextState.Velocity();
     nextState.Position() = math::ClampRange(nextState.Position(),
       positionMin, positionMax);
     if (nextState.Position() == positionMin && nextState.Velocity() < 0)
       nextState.Velocity() = 0.0;

     // Check if the episode has terminated.
     bool done = IsTerminal(nextState);

     // Do not reward the agent if time ran out.
     if (done && maxSteps != 0 && stepsPerformed >= maxSteps)
       return 0;
     else if (done)
       return doneReward;

     return std::pow(action.action[0], 2) * 0.1;
   }

   double Sample(const State& state, const Action& action)
   {
     State nextState;
     return Sample(state, action, nextState);
   }

   State InitialSample()
   {
     State state;
     stepsPerformed = 0;
     state.Velocity() = 0.0;
     state.Position() = math::Random(-0.6, -0.4);
     return state;
   }

   bool IsTerminal(const State& state) const
   {
     if (maxSteps != 0 && stepsPerformed >= maxSteps)
     {
       Log::Info << "Episode terminated due to the maximum number of steps"
           "being taken.";
       return true;
     }
     else if (state.Position() >= positionGoal)
     {
       Log::Info << "Episode terminated due to agent succeeding.";
       return true;
     }
     return false;
   }

   size_t StepsPerformed() const { return stepsPerformed; }

   size_t MaxSteps() const { return maxSteps; }
   size_t& MaxSteps() { return maxSteps; }

  private:
   double positionMin;

   double positionMax;

   double positionGoal;

   double velocityMin;

   double velocityMax;

   double duration;

   double doneReward;

   size_t maxSteps;

   size_t stepsPerformed;
 };

 } // namespace rl
 } // namespace mlpack

 #endif
mlpack::rl::ContinuousMountainCar::State::Position
double Position() const
Get the position.
Definition: continuous_mountain_car.hpp:62

mlpack
Linear algebra utility functions, generally performed on matrices or vectors.
Definition: add_to_cli11.hpp:21

mlpack::rl::ContinuousMountainCar::Sample
double Sample(const State &state, const Action &action)
Dynamics of Continuous Mountain Car.
Definition: continuous_mountain_car.hpp:173

prereqs.hpp
The core includes that mlpack expects; standard C++ includes and Armadillo.

mlpack::rl::ContinuousMountainCar::State::Position
double & Position()
Modify the position.
Definition: continuous_mountain_car.hpp:64

mlpack::rl::ContinuousMountainCar::State
Implementation of state of Continuous Mountain Car.
Definition: continuous_mountain_car.hpp:36

mlpack::rl::ContinuousMountainCar::State::Encode
const arma::colvec & Encode() const
Encode the state to a column vector.
Definition: continuous_mountain_car.hpp:67

mlpack::rl::ContinuousMountainCar::State::Velocity
double Velocity() const
Get the velocity.
Definition: continuous_mountain_car.hpp:57

mlpack::rl::ContinuousMountainCar::State::dimension
static constexpr size_t dimension
Dimension of the encoded state.
Definition: continuous_mountain_car.hpp:70

clamp.hpp
Miscellaneous math clamping routines.

mlpack::Log::Info
static MLPACK_EXPORT util::PrefixedOutStream Info
Prints informational messages if –verbose is specified, prefixed with [INFO ].
Definition: log.hpp:84

mlpack::rl::ContinuousMountainCar::State::State
State(const arma::colvec &data)
Construct a state based on the given data.
Definition: continuous_mountain_car.hpp:50

mlpack::rl::ContinuousMountainCar::State::Data
arma::colvec & Data()
Modify the internal representation of the state.
Definition: continuous_mountain_car.hpp:54

mlpack::rl::ContinuousMountainCar::Action::action
double action[1]
Definition: continuous_mountain_car.hpp:87

mlpack::rl::ContinuousMountainCar::Action
Implementation of action of Continuous Mountain Car.
Definition: continuous_mountain_car.hpp:85

mlpack::rl::ContinuousMountainCar::State::State
State()
Construct a state instance.
Definition: continuous_mountain_car.hpp:42

mlpack::rl::ContinuousMountainCar::MaxSteps
size_t & MaxSteps()
Set the maximum number of steps allowed.
Definition: continuous_mountain_car.hpp:222

mlpack::rl::ContinuousMountainCar
Implementation of Continuous Mountain Car task.
Definition: continuous_mountain_car.hpp:29

mlpack::math::Random
double Random()
Generates a uniform random number between 0 and 1.
Definition: random.hpp:83

mlpack::rl::ContinuousMountainCar::MaxSteps
size_t MaxSteps() const
Get the maximum number of steps allowed.
Definition: continuous_mountain_car.hpp:220

mlpack::rl::ContinuousMountainCar::StepsPerformed
size_t StepsPerformed() const
Get the number of steps performed.
Definition: continuous_mountain_car.hpp:217

mlpack::rl::ContinuousMountainCar::State::Velocity
double & Velocity()
Modify the velocity.
Definition: continuous_mountain_car.hpp:59

mlpack::rl::ContinuousMountainCar::InitialSample
State InitialSample()
Initial position is randomly generated within [-0.6, -0.4].
Definition: continuous_mountain_car.hpp:185

mlpack::rl::ContinuousMountainCar::ContinuousMountainCar
ContinuousMountainCar(const double positionMin=-1.2, const double positionMax=0.6, const double positionGoal=0.45, const double velocityMin=-0.07, const double velocityMax=0.07, const double duration=0.0015, const double doneReward=100, const size_t maxSteps=0)
Construct a Continuous Mountain Car instance using the given constant.
Definition: continuous_mountain_car.hpp:105

mlpack::rl::ContinuousMountainCar::IsTerminal
bool IsTerminal(const State &state) const
Whether given state is a terminal state.
Definition: continuous_mountain_car.hpp:200

mlpack::rl::ContinuousMountainCar::Sample
double Sample(const State &state, const Action &action, State &nextState)
Dynamics of Continuous Mountain Car.
Definition: continuous_mountain_car.hpp:132

mlpack::math::ClampRange
double ClampRange(double value, const double rangeMin, const double rangeMax)
Clamp a number between a particular range.
Definition: clamp.hpp:53