trictrac/bot/src/dqn/burnrl/main.rs

use bot::dqn::burnrl::{
    dqn_model, environment,
    utils::{demo_model, load_model, save_model},
};
use burn::backend::{Autodiff, NdArray};
use burn_rl::agent::DQN;
use burn_rl::base::ElemType;

type Backend = Autodiff<NdArray<ElemType>>;
type Env = environment::TrictracEnvironment;

fn main() {
    // println!("> Entraînement");

    // See also MEMORY_SIZE in dqn_model.rs : 8192
    let conf = dqn_model::DqnConfig {
        //                   defaults
        num_episodes: 40, // 40
        min_steps: 500.0, // 1000 min of max steps by episode (mise à jour par la fonction)
        max_steps: 1000,  // 1000 max steps by episode
        dense_size: 256,  // 128  neural network complexity (default 128)
        eps_start: 0.9,   // 0.9  epsilon initial value (0.9 => more exploration)
        eps_end: 0.05,    // 0.05
        // eps_decay higher = epsilon decrease slower
        // used in : epsilon = eps_end + (eps_start - eps_end) * e^(-step / eps_decay);
        // epsilon is updated at the start of each episode
        eps_decay: 2000.0, // 1000 ?

        gamma: 0.999, // 0.999 discount factor. Plus élevé = encourage stratégies à long terme
        tau: 0.005, // 0.005 soft update rate. Taux de mise à jour du réseau cible. Plus bas = adaptation
        // plus lente moins sensible aux coups de chance
        learning_rate: 0.001, // 0.001 taille du pas. Bas : plus lent, haut : risque de ne jamais
        // converger
        batch_size: 32, // 32 nombre d'expériences passées sur lesquelles pour calcul de l'erreur moy.
        clip_grad: 100.0, // 100 limite max de correction à apporter au gradient (default 100)
    };
    println!("{conf}----------");
    let agent = dqn_model::run::<Env, Backend>(&conf, false); //true);

    let valid_agent = agent.valid();

    println!("> Sauvegarde du modèle de validation");

    let path = "models/burn_dqn_40".to_string();
    save_model(valid_agent.model().as_ref().unwrap(), &path);

    println!("> Chargement du modèle pour test");
    let loaded_model = load_model(conf.dense_size, &path);
    let loaded_agent = DQN::new(loaded_model.unwrap());

    println!("> Test avec le modèle chargé");
    demo_model(loaded_agent);
}
refact dqn burn demo 2025-08-08 17:07:34 +02:00			`use bot::dqn::burnrl::{`
			`dqn_model, environment,`
			`utils::{demo_model, load_model, save_model},`
			`};`
			`use burn::backend::{Autodiff, NdArray};`
refact : save model 2025-07-23 21:16:28 +02:00			`use burn_rl::agent::DQN;`
refact dqn burn demo 2025-08-08 17:07:34 +02:00			`use burn_rl::base::ElemType;`
wip burn-rl dqn example 2025-07-08 21:58:15 +02:00
			`type Backend = Autodiff<NdArray<ElemType>>;`
			`type Env = environment::TrictracEnvironment;`

			`fn main() {`
bot train graph 2025-08-03 20:32:06 +02:00			`// println!("> Entraînement");`
script train bots 2025-08-10 15:32:41 +02:00
			`// See also MEMORY_SIZE in dqn_model.rs : 8192`
fix: train bot dqn burnrl : extract config 2025-08-02 12:42:32 +02:00			`let conf = dqn_model::DqnConfig {`
doc params train bot 2025-08-10 17:45:53 +02:00			`// defaults`
			`num_episodes: 40, // 40`
			`min_steps: 500.0, // 1000 min of max steps by episode (mise à jour par la fonction)`
compile ok but diverge 2025-08-12 21:56:52 +02:00			`max_steps: 1000, // 1000 max steps by episode`
doc params train bot 2025-08-10 17:45:53 +02:00			`dense_size: 256, // 128 neural network complexity (default 128)`
			`eps_start: 0.9, // 0.9 epsilon initial value (0.9 => more exploration)`
			`eps_end: 0.05, // 0.05`
script train bots 2025-08-10 15:32:41 +02:00			`// eps_decay higher = epsilon decrease slower`
			`// used in : epsilon = eps_end + (eps_start - eps_end) * e^(-step / eps_decay);`
			`// epsilon is updated at the start of each episode`
doc params train bot 2025-08-10 17:45:53 +02:00			`eps_decay: 2000.0, // 1000 ?`
script train bots 2025-08-10 15:32:41 +02:00
doc params train bot 2025-08-10 17:45:53 +02:00			`gamma: 0.999, // 0.999 discount factor. Plus élevé = encourage stratégies à long terme`
			`tau: 0.005, // 0.005 soft update rate. Taux de mise à jour du réseau cible. Plus bas = adaptation`
script train bots 2025-08-10 15:32:41 +02:00			`// plus lente moins sensible aux coups de chance`
doc params train bot 2025-08-10 17:45:53 +02:00			`learning_rate: 0.001, // 0.001 taille du pas. Bas : plus lent, haut : risque de ne jamais`
script train bots 2025-08-10 15:32:41 +02:00			`// converger`
doc params train bot 2025-08-10 17:45:53 +02:00			`batch_size: 32, // 32 nombre d'expériences passées sur lesquelles pour calcul de l'erreur moy.`
			`clip_grad: 100.0, // 100 limite max de correction à apporter au gradient (default 100)`
fix: train bot dqn burnrl : extract config 2025-08-02 12:42:32 +02:00			`};`
script train bots 2025-08-10 15:32:41 +02:00			`println!("{conf}----------");`
fix: train bot dqn burnrl : extract config 2025-08-02 12:42:32 +02:00			`let agent = dqn_model::run::<Env, Backend>(&conf, false); //true);`
wip burn-rl dqn example 2025-07-08 21:58:15 +02:00
refact : save model 2025-07-23 21:16:28 +02:00			`let valid_agent = agent.valid();`

save inference model 2025-07-23 21:28:29 +02:00			`println!("> Sauvegarde du modèle de validation");`

refact dqn burn demo 2025-08-08 17:07:34 +02:00			`let path = "models/burn_dqn_40".to_string();`
action mask 2025-07-26 09:37:54 +02:00			`save_model(valid_agent.model().as_ref().unwrap(), &path);`

load inference model 2025-07-23 21:52:32 +02:00			`println!("> Chargement du modèle pour test");`
fix: train bot dqn burnrl : extract config 2025-08-02 12:42:32 +02:00			`let loaded_model = load_model(conf.dense_size, &path);`
runcli with bot dqn burn-rl 2025-08-08 21:31:38 +02:00			`let loaded_agent = DQN::new(loaded_model.unwrap());`
load inference model 2025-07-23 21:52:32 +02:00
			`println!("> Test avec le modèle chargé");`
action mask 2025-07-26 09:37:54 +02:00			`demo_model(loaded_agent);`
refact : save model 2025-07-23 21:16:28 +02:00			`}`