Attività scientifica del Prof. Filippo Lanubile – Consigliere Scientifico CITEL – Direttore Dipartimento Informatica UniBa
La interdisciplinarietà dell’informatica , spiega il prof. Filippo Lanubile, è legata alla sua essenza: elaborare i dati in tante forme, in tanti settori diversi, ed essere applicata in settori altrettanto diversi. Il riconoscimento automatico delle emozioni, il fare in modo che una macchina possa riconoscere le emozioni riveste particolare interesse, laddove si vogliano applicare agenti artificiali in grado di riconoscerle. Le emozioni esercitano una influenza importante sulle attività creative di problem solving e la nostra investigazione riguarda il settore dei lavoratori della conoscenza.
La sperimentazione è stata svolta in soggetti sani, laddove non si può escludere in futuro di allargarla anche in altri ambiti. Esistono in psicologia diversi modelli delle emozioni ed il Professore ne ha evidenziato uno che categorizza le emozioni in 6 classi: rabbia, paura, disgusto, sorpresa, felicità, tristezza.
Gli esseri umani, ha proseguito il Professore, vedendo dei volti, tendono ad accorgersi delle emozioni, a meno che non si faccia la poker face, ossia si cerchi di celare l’emozione per non svelare emozioni/informazioni che potrebbero essere utilizzate a vantaggio dell’antagonista.
Nel caso che segue, invece, il riconoscimento delle emozioni viene fatto da una macchina: sarà una macchina in grado di riconoscere le emozioni? Questo dato riveste grande importanza poiché, per comunicare con gli altri, utilizziamo anche le emozioni; oltre alla comunicazione verbale, infatti, deve sempre essere considerata anche la comunicazione non verbale, la quale consente lo svelamento delle emozioni. Il riconoscimento automatico delle emozioni è reso possibile dall’intelligenza artificiale.
L’intelligenza artificiale conferisce un comportamento al computer, in modo che altri possano pensare che quel comportamento sia legato all’intelligenza umana.
Per dimostrare che una macchina è dotata di intelligenza artificiale, è possibile utilizzare il Test di Turing: si fa dialogare la macchina con un essere umano e quest’ultimo deve capire se quello con cui dialoga è artificiale oppure no. Se la macchina supera il test, si può dire dotata di intelligenza artificiale. E’ possibile parlare di intelligenza artificiale, ha proseguito il Professore, tutte le volte che si riesce ad emulare un essere umano, includendo le emozioni, la capacità di visione, la capacità del parlato, la capacità del ragionamento, ecc….
Nel caso del riconoscimento delle emozioni, oltre al metodo molto semplice evidenziato nella prima diapositiva, sono presi in considerazione vari modelli, tra i quali uno, utilizzato dagli Psicologi, è il Modello Circonflesso delle emozioni, nel quale le emozioni sono rappresentate in due dimensioni ortogonali: la dimensione orizzontale – Valenza – rappresenta la piacevolezza dello stimolo ( a sinistra stimolo spiacevole, a destra stimolo piacevole ). La dimensione verticale – Arousal – esplicita il livello di attivazione ( in alto quanto si sia eccitati, in basso quanto si sia rilassati). In questa ortogonalità delle due dimensioni è possibile mappare anche le emozioni espresse dai sei volti della prima diapositiva.
Il riconoscimento delle emozioni diventa così un modello di machine learning, cioè di apprendimento automatico che consente di riconoscere se una emozione abbia una valenza negativa, neutra oppure positiva e se l’attivazione sia alta, neutra oppure bassa.
L’apprendimento automatico, da esempi, trasmettendo ad un agente artificiale (un computer) la capacità umana di apprendere, è una branca rilevante dell’intelligenza artificiale.
In passato si è cercato di insegnare alle macchine attraverso una serie di regole, i cosiddetti “sistemi esperti”, basati su una lunga lista di regole che cercavano di raccontare ad una macchina come si sarebbe raccontato un esperto, ad esempio come un ortopedico avrebbe potuto diagnosticare un problema. Il limite di questa procedura era rappresentato dal fatto che si riusciva a dare un numero di regole che non sempre era capace di catturare tutta l’esperienza di una persona particolarmente capace in quel campo.
La svolta è stata rappresentata dall’apprendimento da esempi, cioè vengono raccolti esempi (input) associati a degli output.
Ad esempio, possiamo avere una lista di comunicazioni di emozioni che sono state classificate da un esperto: l’esperto, osservando una serie di fotografie, ha detto: questo soggetto è felice, questo è triste, ecc… Raccogliendo tanti di questi esempi, accoppiati come input e come output, utilizzando poi vari algoritmi, l’addestramento porta al risultato di modelli di apprendimento automatico; si tratta di programmi che fanno delle predizioni su dati futuri, laddove i dati futuri saranno i successivi input e gli output saranno le predizioni di cui non sappiamo ancora.
Vengono misurati i risultati valutando l’accuratezza; i programmi sono realizzati ottimizzando le previsioni di addestramento, in modo tale da avere una accuratezza sufficientemente alta.
Nel momento in cui si è soddisfatti delle prestazioni ottenute, il modello viene reso disponibile per l’utilizzo.
Nel riconoscimento delle emozioni, l’input può essere di vario tipo, ad esempio rivelato dalle espressioni facciali, da gesti del corpo, dal parlato, da produzioni scritte, da segnali fisiologici.
Ma quale sarà l’output? Il modello più utilizzato è quello circonflesso che comprende valenza ed arousal. Il riconoscimento delle emozioni dalle espressioni facciali è un metodo ben consolidato, tanto che sono disponibili in commercio programmi dedicati. Altrettanto consolidato è il riconoscimento dal parlato, sul riconoscimento da testi è stata fatta ricerca negli ultimi quindici anni, ma è sul riconoscimento da segnali fisiologici che le attività di ricerca sono preponderanti, facilitate, inoltre, dalla disponibilità dei soggetti arruolabili ad esprimere il proprio consenso informato. Indossare un orologio digitale, strumento tra l’altro poco invasivo, esprime, infatti, una maggiore accettabilità da parte dei soggetti potenzialmente arruolabili, rispetto a metodi che prevedano l’utilizzo delle espressioni facciali o del parlato.
Nelle nostre ricerche, ha proseguito il Professore, abbiamo iniziato dall’analisi del testo, definita sentiment analysis, un tipo di analisi molto usata in ambito politico ed in ambito commerciale, e successivamente abbiamo proceduto con l’analisi di segnali fisiologici.
I segnali fisiologici analizzati (battito cardiaco, variazione galvanica della pelle, temperatura del corpo, conduzione elettrica, segnali cerebrali) hanno previsto l’utilizzo di sensori non molto invasivi poiché atti a rilevare dati in ambito fisiologico.
Numerosi sono i dispositivi messi in commercio. Empatica, azienda fondata a Boston, produce dispositivi indossabili (es. smartwatch) certificati come dispositivi medici, principalmente utilizzati per il riconoscimento dell’insorgenza di epilessia.
I dispositivi indossabili utilizzati dagli sportivi sono “ambienti chiusi”, cioè è possibile solamente vedere la risposta elaborata sul display dello smarthwach, ma non è possibile avere il dato grezzo.
Empatica, invece, dispone di suoi biomarkers per gli scopi previsti, ma consente anche ad altri scienziati di usare i dati grezzi.
Nelle nostre ricerche, utilizziamo i sensori di questo dispositivo come dati di input per riconoscere valenza ed attivazione per il riconoscimento delle emozioni.
Un altro dispositivo utilizzato è un caschetto leggero, facilmente indossabile ed accettabile.
Il focus della nostra ricerca è stato misurare le emozioni degli sviluppatori di software, poiché vi sono evidenze scientifiche di come gli stati emotivi influenzino i risultati del lavoro di sviluppo del software.
Sviluppatori in condizioni emotive positive, infatti, migliorano le proprie prestazioni, ossia sono più produttivi e commettono meno errori. Al contrario, sviluppatori in condizioni negative producono risultati, e quindi prodotti, non affidabili.
Le nostre ricerche hanno previsto sperimentazioni con video musicali, campionati e classificati rispetto alle emozioni che avrebbero potuto suscitare. Questa catalogazione ci è servita per addestrare modelli e capire, utilizzando diversi tipi di dispositivi con vari sensori, quali potessero essere particolarmente utili e quindi poter misurare le prestazioni dei modelli addestrati.
Abbiamo fatto esperimenti di laboratorio con giovani sviluppatori che svolgevano compiti di programmazione: obiettivo era capire se i loro stati emotivi potevano essere previsti.
Durante l’addestramento, veniva chiesto loro in modo esplicito di dichiarare il proprio stato emotivo, in modo tale da avere una base di verità sulla quale potere addestrare il modello.
La sperimentazione è proseguita con sviluppatori senior nel luogo di lavoro, dopo aver avuto il consenso dell’azienda di appartenenza.
Uno dei risultati della ricerca è stato aver definito il tipo di sensore strettamente necessario per poter addestrare i modelli di riconoscimento delle emozioni.
Nei nostri Studi, utilizzando sia il braccialetto di Empatica che il caschetto per la misurazione dei segnali EEG, abbiamo dimostrato che il caschetto, sia per la valenza che per l’attivazione, non produceva un grande guadagno in termini di accuratezza e quindi, quando siamo passati dalla fase sperimentale in laboratorio alla ricerca nelle aziende, abbiamo proposto loro il braccialetto indossabile che avrebbe avuto una maggiore probabilità di essere accettato.
L’accuratezza dipende molto dalle singole persone: è molto difficile avere risultati omogenei tra persone diverse e questo concetto ha valore anche quando si costruiscono modelli; l’ideale sarebbe avere modelli addestrati sulla singola persona, procedimento molto costoso.
La nostra ricerca in corso prevede il creare clusters di soggetti vicini nelle caratteristiche e, quindi, creare modelli per clusters di individui. Tra le sfide ancora aperte, c’è quella di comeriuscire a costruire modelli che almeno al cluster based abbiano accuratezza maggiore.
Va evidenziato che l’intelligenza artificiale basata sull’apprendimento automatico funziona molto bene quando si hanno tanti dati a disposizione. Addestrare modelli sui dati di social network è relativamente semplice perche’ in essi sono disponibili milioni di dati. Addestrare, invece, modelli di riconoscimento delle emozioni basati sulla partecipazione volontaria delle persone, non essendo possibile avere un numero altrettanto elevato di dati, conduce ad una minore accuratezza.
Il metodo della nostra ricerca prevede che ogni 30 minuti si apra una finestra nella quale viene posta in modo esplicito la domanda “come ti senti?” dal punto di vista della valenza e dell’arousal, utilizzando idiogrammi che misurano il valore con una scala da 1 a 5. Questo metodo per raccogliere i dati per costruire una realtà fattuale può essere compromesso dalla mancanza di sincerità o di ricordo dello stato emotivo precedente.
Abbiamo fatto un’altra sperimentazione, ha proseguito il Professore, sostituendo ai questionari il riconoscimento facciale attraverso l’utilizzo di webcam ed abbiamo dimostrato che l’accuratezza dei modelli di riconoscimento aumenta.
L’utilizzo di modelli di questo tipo può essere applicata a livello individuale, di un team di sviluppatori oppure di una intera organizzazione. A livello individuale, l’utilizzo può essere lo stesso di quello ad esempio da parte degli sportivi che usano un dispositivo indossabile per monitorare i parametri vitali. A livello di team, può consentire nell’ambito delle riunioni periodiche di team, di discutere su come migliorare il modo di lavorare e di coordinarsi, consentendo l’autoregolazione di gruppo. A livello di organizzazione lavorativa, potrebbe contenere il fenomeno del turn over, particolarmente evidente nelle società di software. I managers, infatti, possono non accorgersi in tempo utile di condizioni di lavoro non ideali; la disponibilità di questi strumenti potrebbe, invece, consentire loro di modificare aspetti/procedure dell’organizzazione, prevenendo così perdite di personale che, nel campo dello sviluppo del software, conducono a danni rilevanti. Con la possibilità di lavorare in modalità smart working, questo fenomeno è ulteriormente aumentato poichè i lavoratori si affezionano meno all’azienda e quindi manifestano una maggiore propensione al cambiamento: anche in questo caso il metodo di riconoscimento delle emozioni potrebbe rappresentare un vantaggio. La relazione del Prof. Lanubile ha catturato l’attenzione dei presenti, suscitando numerosissime domande da parte dei presenti.
