
Verizon Media, la società che presiede ai portali AOL e Yahoo!, ha messo a punto un motore di ricerca ad uso prettamente accademico e statistico per analizzare, processare e indicizzare tutti i numeri e le informazioni sul COVID-19.
Sotto il cofano di questo strumento c’è Vespa, un motore di ricerca open source particolarmente indicato per i dataset di grosse dimensioni, facilmente espandibile e modificabile nei comportamenti di raccolta delle informazioni.
Verizon Media fa già uso di Vespa per la raccolta dati e l’invio di ad mirati e nell’algoritmo utilizzato per promuovere i contenuti a seconda degli interessi dei suoi utenti.
Come per molte altre realtà in questi mesi, la tecnologia alla base di questo strumento è stata riconvertita e con l’ausilio del modello scibert-nli, specializzato nella ricerca di termini scientifici, Vespa adesso cerca la risposta giusta (anche se sarebbe meglio dire migliore e più ricorrente) alle domande sul Coronavirus.
In particolare, in questa sua incarnazione, le fonti a cui attinge sono:
- CORD-19 (COVID-19 Open Research Dataset);
- bioRxiv e medRxiv, i noti preprint server (archivi dove le pubblicazioni scientifiche attendono prima di essere stampati sulle riviste di settore) già indicizzati dalla community di CORD-19;
- PubMed Central, il motore di ricerca per la letteratura dell’ Istituto Nazionale della Salute degli USA (NIH/NLM);
- Microsoft Academic, una raccolta di strumenti utili a processare i dati raccolti;
- Archivio della World Health Organization;
Come nella migliore delle tradizioni open source, il codice di CORD-19 Search è liberamente scaricabile, trovate tutte le informazioni (in divenire costante, soprattutto in questi giorni) sul repository ufficiale.
Amministratore di sistema “umile ma onesto”. Inciampato in Linux per caso, è stato l’inizio di una storia d’amore bellissima.
Lascia un commento