mlpack-git/doxygen/greedy__policy_8hpp_source.html

 #ifndef MLPACK_METHODS_RL_POLICY_GREEDY_POLICY_HPP
 #define MLPACK_METHODS_RL_POLICY_GREEDY_POLICY_HPP

 #include <mlpack/prereqs.hpp>

 namespace mlpack {
 namespace rl {

 template <typename EnvironmentType>
 class GreedyPolicy
 {
  public:
   using ActionType = typename EnvironmentType::Action;

   GreedyPolicy(const double initialEpsilon,
                const size_t annealInterval,
                const double minEpsilon,
                const double decayRate = 1.0) :
       epsilon(initialEpsilon),
       minEpsilon(minEpsilon),
       delta(((initialEpsilon - minEpsilon) * decayRate) / annealInterval)
   { /* Nothing to do here. */ }

   ActionType Sample(const arma::colvec& actionValue,
                     bool deterministic = false,
                     const bool isNoisy = false)
   {
     double exploration = math::Random();
     ActionType action;

     // Select the action randomly.
     if (!deterministic && exploration < epsilon && isNoisy == false)
     {
       action.action = static_cast<decltype(action.action)>
           (math::RandInt(ActionType::size));
     }
     // Select the action greedily.
     else
     {
       action.action = static_cast<decltype(action.action)>(
           arma::as_scalar(arma::find(actionValue == actionValue.max(), 1)));
     }
     return action;
   }

   void Anneal()
   {
     epsilon -= delta;
     epsilon = std::max(minEpsilon, epsilon);
   }

   const double& Epsilon() const { return epsilon; }

  private:
   double epsilon;

   double minEpsilon;

   double delta;
 };

 } // namespace rl
 } // namespace mlpack

 #endif
mlpack::rl::GreedyPolicy::ActionType
typename EnvironmentType::Action ActionType
Convenient typedef for action.
Definition: greedy_policy.hpp:35

mlpack
Linear algebra utility functions, generally performed on matrices or vectors.
Definition: add_to_cli11.hpp:21

mlpack::rl::GreedyPolicy
Implementation for epsilon greedy policy.
Definition: greedy_policy.hpp:31

prereqs.hpp
The core includes that mlpack expects; standard C++ includes and Armadillo.

mlpack::rl::GreedyPolicy::Anneal
void Anneal()
Exploration probability will anneal at each step.
Definition: greedy_policy.hpp:90

mlpack::rl::GreedyPolicy::Sample
ActionType Sample(const arma::colvec &actionValue, bool deterministic=false, const bool isNoisy=false)
Sample an action based on given action values.
Definition: greedy_policy.hpp:65

mlpack::rl::GreedyPolicy::Epsilon
const double & Epsilon() const
Definition: greedy_policy.hpp:99

mlpack::math::Random
double Random()
Generates a uniform random number between 0 and 1.
Definition: random.hpp:83

mlpack::math::RandInt
int RandInt(const int hiExclusive)
Generates a uniform random integer.
Definition: random.hpp:110

mlpack::rl::GreedyPolicy::GreedyPolicy
GreedyPolicy(const double initialEpsilon, const size_t annealInterval, const double minEpsilon, const double decayRate=1.0)
Constructor for epsilon greedy policy class.
Definition: greedy_policy.hpp:48