Expert System aderisce ad AFCEA –Armed Forces Communications and Electronic Associations, Capitolo di Roma - associazione internazionale che promuove “un continuo dialogo tra gli Enti Governativi Civili e Militari e le industrie del settore delle Telecomunicazioni, Elettronica ed Informatica”.
Tecnologie semantiche e algoritmi matematici: dall'invisibile al visibile
Tecnologie semantiche e algoritmi matematici: dall'invisibile al visibile.
Le soluzioni Expert System - Semeion per il contrasto al crimine e l'Homeland Security
Andrea Melegari, VP Security & Intelligence Expert System
Marco Buscema, Direttore Semeion
Expert System ha sviluppato Cogito, una tecnologia unica al mondo per l’analisi semantica approfondita.
Cogito è un software in grado di
- estrarre e analizzare le informazioni contenute in migliaia di documenti, email, pagine web…
- capire automaticamente il significato di ogni parola e di ogni testo scritto nel linguaggio che usiamo normalmente per comunicare (linguaggio naturale).
A differenza delle tecnologie tradizionali (a keyword e statistiche), che possono solo cercare di indovinare il senso di un testo, Cogito legge e interpreta tutta la conoscenza potenzialmente interessante e identifica in automatico le relazioni concettuali fra le varie informazioni. Individua all’interno dei documenti i concetti più rilevanti, le entità, gli eventi e specifiche informazioni utili per l’analisi, individuando i dati principali, in qualunque modo siano espressi. Normalizza e ordina i contenuti e genera la mappatura dei metadata per migliorare l’utilizzo delle informazioni disponibili e supportare gli analisti nelle attività di Intelligence.
Gli algoritmi sviluppati dal Centro Semeion sono in grado di formulare alcune interessanti analisi dei dati, tramite l’applicazione di particolari sistemi intelligenti in grado di scoprire le regole nascoste nei dati strutturati.
Questa attività di analisi delle informazioni nascoste è definita Intelligent Data Mining (IDM).
L’IDM è basato su complessi algoritmi matematici ideati e brevettati dal Semeion. Questi algoritmi si comportano come agenti artificiali adattivi in grado di interagire con i dati, al fine di carpire le relazioni nascoste che esistono tra i dati stessi.
I legami che emergono spontaneamente dai concetti sono della stessa natura delle complesse geometrie prodotte in volo dagli stormi di uccelli: anche queste sono del tutto ignote agli stessi uccelli.
In breve: quello che diciamo e quello che facciamo è sempre più complesso di quello che sappiamo.
Case study
Una ricerca di Gartner ha stimato che l’80% delle informazioni disponibili si presentano in forma non organizzata. Articoli, documenti, email, verbali, pagine web sono solo alcune delle diverse forme della comunicazione scritta.
La maggior parte delle applicazioni informatiche opera però su database, ovvero su dati organizzati.
Anche gli algoritmi di Semeion necessitano di database.
L'estrazione, la normalizzazione e l'inserimento di informazioni (entità e relazioni tra le entità) presenti in un testo verso un database (sintetizzabile con l'acronimo ETL) rappresenta un aspetto critico dell'intera operazione.
Si consideri ad esempio la notizia:
March 2, 2009 (PAKISTAN): A suicide bomber killed six people at a religious school for girls in Balochistan Province. Pakistani press reports stated that the attacker wanted to assassinate a senior leader of Jamiat, who was scheduled to speak at the school The Jamiat leader was not harmed in the attack.
riportata nel bollettino di Aprile edito da Combating Terrorism Center (http://www.ctc.usma.edu/sentinel/).
In soli due paragrafi sono presenti molte entità (associazioni criminali, persone, località, azioni, edifici, paesi, date, ecc.) e diverse azioni.

Alcune entità e azioni estratte da ETL
Inoltre le entità sono relazionate tra loro, con legami complessi, caratterizzati da diversi attributi.

La relazione KILL individuata e contestualizzata da Cogito
Grazie all'impiego della tecnologia semantica Cogito è possibile automatizzare l'ETL e dunque ottenere come output un dato XML.
XML che può quindi essere facilmente visualizzato graficamente o trasposto in un database.

La notizia iniziale
March 2, 2009 (PAKISTAN): A suicide bomber killed six people at a religious school for girls in Balochistan Province. Pakistani press reports stated that the attacker wanted to assassinate a senior leader of Jamiat, who was scheduled to speak at the school. The Jamiat leader was not harmed in the attack.
grazie a Cogito può essere trasformata in un record di un database.
L'ETL di Cogito può consentire inoltre di processare contenuti in tempi molto rapidi.

E trasformarli in un database come il seguente

L'archivio campione utilizzato per questo case history, volutamente limitato a pochi record contestualizzati al dominio terrorismo, rappresenta comunque un buon esempio per comprendere al meglio le elaborazioni eseguibili ed i risultati ottenibili.
In questa fase è utile sottolineare come sia importante focalizzarsi non troppo sui risultati ottenuti, come si diceva partendo da un contesto esemplificativo, valorizzando invece l'applicabilità di questa elaborazione semantico-matematica ad altri ambiti applicativi, come l'analisi dei social network, la genesi e l'evoluzione di notizie, la comunicazione tra gruppi, i riflessi politici ed economici della pubblicazione di informazioni, ecc.
Grazie alla disponibilità di un database ora è possibile applicare gli algoritmi di Semeion.
In questo grafico, i concetti individuati da Cogito vengono organizzati in una nuova mappa cognitiva.

La mappa cognitiva generata dall’algoritmo del Semeion
Mappa dalla quale emerge che:
- gli attacchi suicidi sono legati all’uso di bombe, hanno obiettivi principalmente militari in Afghanistan e sono effettuati per uccidere, specie in Iraq. Inoltre non riguardano le bande citate per nome e cognome nelle notizie di agenzia analizzate;
- gli attacchi in Pakistan, se effettuati dai Talebani usano missili e avvengono di notte, mentre quelli che avvengono alla luce del giorno hanno di norma un obiettivo politico, implicano vittime civili e sono spesso organizzati sotto la sigla di al-Qaida, e in questi caso sono analoghi a quelli che avvengono nello Yemen;
- se questi attacchi hanno invece motivi religiosi, allora sono simili a quelli effettuati in Somalia, usano dei killer professionisti, quali le due bande citate nelle News analizzate e producono dei feriti.
Queste informazioni non erano presenti in modo visibile nelle diverse informazioni analizzate (e inserite nel flusso XLM). Ma erano implicite in quelle notizie come inferenze possibili e probabili. La mappa cognitiva, tramite un potente algoritmo matematico - Auto Contractive Map - , ha operato delle inferenze astratte sui concetti e ha rivelato un universo di connessioni tra i concetti altamente probabile.
Altri algoritmi del Semeion possono interrogare la base di dati creata da Cogito per scoprire relazioni che nessun sistema SQL sarebbe in grado di trovare. Nelle notizie analizzate in questo esempio, infatti, è evidente l’estraneità tra l’attacco terroristico a fini militari e quello a fini religiosi. Del resto questa relazione è rara anche esaminando basi di dati più vaste.
Tuttavia, chiedersi quali caratteristiche potrebbe avere un simile attentato è sensato: il sistema ACS (Activaction & Competition System) del Semeion è in grado di affrontare questo compito e di forzare la piccola base di concetti di cui dispone. Ed ecco il prototipo di un possibile attacco a fini militari e religiosi (entrambi evidenziati in rosso) che l’algoritmo propone:
- Potrebbe avvenire in Iraq o in Afghanistan (entrambi i paesi ottengono un elevato numero di punteggio, espresso in 'quadratini bianchi'), forse in Somalia, ma non in Pakistan;
- L’opzione “missile” verrebbe considerata ma poi scartata e prevarrebbe l’opzione “Bomba” con “attacco suicida”;
Verrebbe legato a motivi “politici”, implicherebbe dei morti e avverrebbe di giorno, senza vittime civili.

Si tratta di inferenze, e quindi connessioni probabili e non certe. Ma la vita è legata alla capacità di fare buone ipotesi e previsioni.
Quella manciata di notizie sulla quale stiamo basando il nostro esempio contiene anche il luogo di alcuni degli attentati effettuati. Cogito ci fornisce latitudine e longitudine di ogni attentato ma ciò non basta per ipotizzare quello che ci interessa, e cioè: in quale zona dello spazio è probabile che sia collocata la regia di questi attentati, se sono frutto di un’unica mano?
L’algoritmo dHarmonic del Semeion ha il compito di ipotizzare il “punto nascosto” che potrebbe essere l’origine dei punti nei quali gli attentati sono avvenuti. Questo solo a partire dai punti degli attentati, catturati da Cogito in una serie disordinata di notizie della stampa.
L’algoritmo dHarmonic può fare ipotesi di questo tipo sempre per la stessa ragione: l’agire umano, quando è organizzato e/o ripetuto nel tempo, è sempre schiavo di un ordine nascosto.
Il caso anche in natura si organizza spontaneamente (v. mappe in alto e sotto che mostrano i risultati di questa elaborazione).

Individuazione sulla mappa dell’Afghanistan del probabile punto di regia degli attentati
