Selezione dell’azione

Un agente seleziona una azione prima calcolando una stima di rilevanza per ogni link dal documento corrente. Questo viene fatto mandando dentro la rete neurale dell’agente un’attività corrispondente a un piccolo insieme di parole chiave (geneticamente specificate) alle quali è sensibile. Ogni input della rete neurale riceve un conteggio pesato della frequenza con la quale la parola chiave si manifesta nelle vicinanze del link da attraversare. Si veda la figura nella pagina successiva: per ogni link nel documento, ogni ingresso della rete neurale viene calcolato contando le parole nel documento simili alla parola chiave corrispondente a quell’ingresso, con pesi che diminuiscono secondo la distanza dal link.


 
 

Più specificamente, per ogni link l e ogni parola chiave k, la rete neurale riceve in ingresso:
  In(k,l)= Sommatoria(1/dist(Ki,l))  per i: dist(Ki,l)<=r

dove Ki è l’i-esima occorrenza di K in D . La rete neurale poi somma le attività per tutti gli ingressi; ogni unità j calcola l’attivazione:
 
tangh(bj +Sommatoria(wik Inlk))

dove bj è una costante, wij sono i pesi, Inkl  sono gli ingressi.  L’uscita della rete è l’attivazione dell’unità di output Ll  . Il processo illustrato nella figura sopra viene poi ripetuto per ogni link e alla fine l’agente usa un selettore stocastico che sceglie un link con distribuzione di probabilità:
 
Pr[l]= exp(B*L1)/Sommatoria (exp (B*Ll’)  , con l’ appartenente a D