Chat bot e Voice bot: cosa sono?

di Lorenzo Neri

Questi due termini in tecnichese sono spesso associati ai famosi assistenti virtuali che sono in grado come per magia di comprendere quello che stai dicendo e fornirti le risposte che stai cercando ai tuoi dilemmi!

Nella realtà dei fatti dietro i chat bot e i voice bot c’è tutt’altro che magia e cose strane, ad eccezione di alcune tecniche usate per migliorarli 🙂

Ciao mi chiamo Lorenzo Neri e sono un informatico: realizzo contenuti per aiutare le persone a padroneggiare l’arte del nuovo millennio, ovvero l’informatica!

Questo blog è nato con lo scopo di raccogliere tutti i problemi che ho avuto nel corso della mia vita lavorativa e tramutarli in soluzioni che possano essere utili a persone come te che mi stai leggendo!

Qua però, si parla di una grossa fetta della mia vita: la mia tesi di laurea!

E questo articolo infatti è preso proprio da lei. Ciò detto, ti parlerò dei chat bot e dei voice bot: capiremo che cosa sono, a cosa servono e come funzionano!

Agente conversazionale

Questo termine, sta ad indicare tutti quei software in grado di sostenere una conversazione con un essere umano.

Gli agenti conversazionali non sono nient’altro che tante righe di codice scritte per interagire con un essere umano, capire che cosa vuole, come rispondergli ma soprattutto: capire di quali dati ha bisogno.

Ovviamente, chat bot e voice bot sono le due categorie principali di agenti conversazionali.

Che cos’è un chat bot?

Un chat bot è un agente conversazionale che è in grado di comprendere una frase scritta e fornire risposte con lo stesso metodo.

In altre parole, c’è di mezzo una tastiera che tu, essere umano, utilizzi per comunicare con il chat bot e uno schermo con il quale sei in grado di leggere ciò che il chat bot ti sta scrivendo!

Che cos’è un voice bot?

Sono una versione molto più figa dei chat bot. Tramite un microfono con il quale ti esprimi, il voice bot tramite il suo software è in grado di comprendere ciò che hai detto, per poi, grazie all’utilizzo di un auricolare o delle casse, fornirti una risposta attraverso l’uso di tracce pre-registrate oppure del text-to-speech.

Il text-to-speech è una tecnica che consiste nel trasformare una frase di testo scritta in traccia audio: un po’ come Loquendo.

Se non ti scatta nulla sentendo il nome “Loquendo”, hai presente la bellissima voce di Trenitalia che non vede l’ora di dirti “Il tuo treno che aspetti da mezz’ora è stato soppresso?” 😀

Ecco, il personale di Trenitalia, tramite un programma scrive delle frasi che verranno analizzate da Loquendo per produrre tracce audio da riprodurre in stazione: questa è la tecnologia del text-to-speech.

A che cosa servono gli agenti conversazionali?

Domanda da un milione di dollari: a tutto.

Possono tornare molto utili per fornire risposte a domande molto in voga in generale.

Certo, la frase di prima vuol dire tutto e niente: facciamo degli esempi.

Il medico con 10000 pazienti ipocondriaci

Non è raro che un medico si ritrovi a perdere tempo per diagnosi inutili oppure a fornire consigli e linee guida migliaia di volte.

E se avesse un metodo per fornire un aiuto immediato che gli faccia risparmiare tempo da dedicare a pazienti con priorità maggiore?

Non fraintendermi: un agente conversazionale non potrà MAI sostituire il cervello di un medico, non voglio dire questo.

Ma hai presente quante volte un medico si sente chiedere quale sia la dieta più opportuna da seguire?

Quali farmaci NON prendere se hai 37 e mezzo di febbre?

Stiamo parlando di quesiti alquanto banali (sotto alcuni punti di vista, ribadisco: un agente conversazionale non sostituirà mai un medico in carne ed ossa) a cui un medico deve rispondere pedissequamente.

Ora, prendiamo tutte le informazioni che sa un medico legate a queste domande, prendiamo tutte le risposte associate e creiamo un agente conversazionale che sia in grado di rispondere in una frazione di secondo.

Un sacco di tempo risparmiato per il medico, un sacco di pazienti aiutati.

Il centro informativo dei pazzi

Immaginate di essere responsabili di un centro informativo della vostra città.

Sapete tutto di tutto: ovviamente avete un sacco di persone che vengono a bombardarvi sempre con le stesse domande.

Certo, se sono alquanto strutturate e strane un agente conversazionale non vi può sostituire, ma pensate a tutte le volte che vi hanno chiesto: “dov’è il parcheggio?” e si trova dietro l’angolo del vostro ufficio.

Anche qua, prendete il vostro bagaglio informativo, una serie di risposte valide et voilà!

Quindi, gli agenti conversazionali, servono a risparmiare tempo.

Ma ora veniamo a un punto più interessante di questo articolo.

Come funzionano i chat bot e i voice bot?

Come dicevo all’inizio dell’articolo, non c’è niente di magico dietro il loro funzionamento.

In linea generale, li dobbiamo immaginare così.

  1. Intento

    Questa parola strana, sta ad indicare l’intenzione di fare qualcosa.

    Nel nostro caso specifico, l’agente conversazionale ha l’intenzione di comprendere delle frasi e formulare delle risposte funzionali alla domanda.

    L’intento si struttura quindi, con un insieme di frasi (le domande potenziali che può fare l’utente), delle parole chiave su cui basarsi e ovviamente delle risposte da fornire all’utente finale.

  2. Contensto

    Ogni dialogo ha un contesto. Il contesto per renderla molto semplice, lo possiamo condensare in “Di che cosa stiamo parlando?”.

    In altre parole è l’argomento chiave della conversazione.

    Un agente conversazionale, ha diversi intenti con cui creare il dialogo: non vogliamo di certo limitarlo a un “botta e risposta” no? 😀

    E qua subentra un problema: il dialogo può evolversi in più argomenti.

    All’inizio si chiedeva semplicemente a che ora fosse la metropolitana, poi una volta accontentato l’utente può succedere che ci chieda se vicino alla fermata di arrivo della metro ci sia una lavanderia, eccetera, eccetera.

    Il contesto serve a mantenere le parole chiave durante il flusso del dialogo e a far capire all’agente conversazionale come rispondere.

  3. Machine learning

    Questa è l’unica parte “magica” di un agente conversazionale.

    Un utente può commettere diversi errori (grammaticali, di punteggiatura, di pronuncia se usa la voce) e ovviamente l’agente conversazionale non ha l’intelligenza tale da capirli!

    Sono relativamente stupidi: vengono creati in base a tante frasi che noi, creatori, inseriamo durante la sua creazione.

    Spesso, può venir spontaneo non considerare alcune variazioni di queste frasi (quelle che potenzialmente potrebbe dire l’utente finale per intenderci) e ovviamente non ci viene da pensare che utente possa scrivere “mertopollitanna” anziché “metropolitana”!

    Il machine learning ci aiuta in questo: in estrema sintesi, visto che è un argomento tutt’altro che banalotto, permette all’agente conversazionale di capire gli errori che può fare l’utente durante il dialogo.

    Si va a creare un’associazione tra le frasi base dell’agente e quelle scritte male dall’utente.

    Di volta in volta, con il passare del tempo, l’agente acquisisce queste informazioni e diventa sempre più bravo a capire gli errori!

Come si crea un agente conversazionale?

Ci sono tanti strumenti in giro nel web, ma uno dei miei preferiti, rimane DialogFlow con cui ho scritto la mia tesi 😀

Ne parlo in questo articolo!

Ma prima di salutarti, devi sapere che ho creato una sezione legata a Telegram sul blog.

Il motivo? Con Telegram possiamo dare vita ai chatbot e ne parlo proprio qui: puoi farlo anche tu in pochi e semplici passi, ma non solo.

Spiego anche che cosa ci puoi fare!

… E prima che me ne dimentichi: ho creato anche un percorso a riguardo, lo trovi qui!

Continua a scoprire di più con questi articoli!

Lascia un commento

Questo sito potrebbe fare uso di cookie e siccome l'UE mi obbliga a fartelo presente, eccoti il classico banner dove puoi decidere come gestirli. Accetta Leggi di più