CORD-19 Search, il motore di ricerca di Verizon Media per i dati sulla pandemia

Verizon Media, la società che presiede ai portali AOL e Yahoo!, ha messo a punto un motore di ricerca ad uso prettamente accademico e statistico per analizzare, processare e indicizzare tutti i numeri e le informazioni sul COVID-19.

Sotto il cofano di questo strumento c’è Vespa, un motore di ricerca open source particolarmente indicato per i dataset di grosse dimensioni, facilmente espandibile e modificabile nei comportamenti di raccolta delle informazioni.

Verizon Media fa già uso di Vespa per la raccolta dati e l’invio di ad mirati e nell’algoritmo utilizzato per promuovere i contenuti a seconda degli interessi dei suoi utenti.

Come per molte altre realtà in questi mesi, la tecnologia alla base di questo strumento è stata riconvertita e con l’ausilio del modello scibert-nli, specializzato nella ricerca di termini scientifici, Vespa adesso cerca la risposta giusta (anche se sarebbe meglio dire migliore e più ricorrente) alle domande sul Coronavirus.

In particolare, in questa sua incarnazione, le fonti a cui attinge sono:

  • CORD-19 (COVID-19 Open Research Dataset);
  • bioRxiv e medRxiv, i noti preprint server (archivi dove le pubblicazioni scientifiche attendono prima di essere stampati sulle riviste di settore) già indicizzati dalla community di CORD-19;
  • PubMed Central, il motore di ricerca per la letteratura dell’ Istituto Nazionale della Salute degli USA (NIH/NLM);
  • Microsoft Academic, una raccolta di strumenti utili a processare i dati raccolti;
  • Archivio della World Health Organization;

Come nella migliore delle tradizioni open source, il codice di CORD-19 Search è liberamente scaricabile, trovate tutte le informazioni (in divenire costante, soprattutto in questi giorni) sul repository ufficiale.

Amministratore di sistema "umile ma onesto". Inciampato in Linux per caso, è stato l'inizio di una storia d'amore bellissima.

Tags: , ,