GitHub: più della metà è codice duplicato

GitHub: più della metà è codice duplicato

Elena Metelli

22 Novembre 2017

Secondo un recente studio condotto dai team della University of California, dalla Czech Technical University, dalla Northeastern University, Irvine e dalla Microsoft Research, oltre l’82% del codice presente su GitHub sarebbe un mero clone di file precedentemente creati.

Su 4.5 milioni di progetti esaminati (non-forked), di 482 milioni di file solo poco più del 17% si è rivelato essere composto da codice unico.

Lo studio è stato condotto confrontando gli hash dei file su progetti scritti in Java, JavaScript, Python e C++, queste le percentuali di codice duplicato:

JavaScript, 94%
C++, 73%
Python, 71%
Java, 40%

Nella tabella sono indicati anche i confronti fatti utilizzando i token hash che prende in considerazione match parziali nel contenuto del file, ed i risultati non variano di molto.

Non stupisce molto che il codice di JavaScript sia presente milioni e milioni di volte sempre uguale e la “colpa” è da attribuire ad NPM, il package manager per Node.js, che include oltre 350.000 librerie.

Il team ha reso disponibili i dump MySQL utilizzati per la ricerca e pubblicato un documento “DéjàVu: A Map of Code Duplicates on GitHub” con tutti i dettagli dello studio.

Git e GitHub sono nati per incoraggiare i fork ma la situazione attuale è ben diversa: un enorme copia-incolla di codice e addirittura di intere librerie! Il tutto perché, solitamente, chi crea un nuovo progetto tende a committare sul repository anche tutte le librerie, come se fossero parte del codice dell’applicazione.

Forse anche noi abbiamo una piccola parte in quell’82% di duplicati…

Elena Metelli

Affascinata sin da piccola dai computer (anche se al massimo avevo un cluster di Mio Caro Diario), sono un’opensourcer per caso, da quando sono incappata in Mandrake. Legacy dentro. Se state leggendo un articolo amarcord, probabilmente l’ho scritto io.

Notizie

codice, GitHub

2 risposte a “GitHub: più della metà è codice duplicato”

Lorenzo

22 Novembre 2017

Colpa di npm? Colpa di chi non tiene in .gitignore la dir node_modules
Kim Allamandola

23 Novembre 2017

Mh, personalmente credo che la maggior parte dei progetti siano nati e semi-abbandonati, per far prima han fatto un repo alla *zzo e poi han lasciato tutto li dimenticato. Questo dovrebbe coprire una buona parte dei duplicati. Per un’altra fetta c’è un problema tecnologico: un tempo si facevano progetti realmente nuovi, ad oggi si cambia la carrozzeria lasciando la macchina così com’è anche perché tutto si deve fare subito, a costo zero, con break-even a sei mesi massimo. In ultimo per molti il concetto di aggiornamento si traduce in seccatura quindi per i propri utenti vogliono si usi la HEAD del loro repo, ma tutto quel che usano come base deve restare immutato nei secoli…

Lascia un commento

GitHub

Articoli

Saturday’s Talks

The Security Corner

Elena Metelli

Curiosi di sapere quale sia il processo creativo dietro ai loghi di Ubuntu? Ve lo spiega Canonical!

Tutti i dubbi di LibreOffice su Euro-Office: non usare lo standard ODF aiuta Microsoft ed il lock-in

Un nuovo sito per le donazioni e tanti ricordi: KDE Compie trent’anni!

Git & Tricks – Pillole di source code management | Parte 3: l’importanza del rebase per un mondo migliore

Kubelab, un ruolo Ansible per imparare ad installare e gestire Kubernetes

Kubernetes, CPU Limits e Requests per i Pod, spiegazione e confronto: massimo controllo o massima efficienza?

Git & Tricks – Pillole di source code management | Parte 2: gestire i commit con empatia

Installare Kubernetes in ambienti totalmente isolati si può, kubeadm supporta gli Air Gap Cluster!

Git & Tricks – Pillole di source code management | Parte 1: un ambiente confortevole

Errori di battitura nel terminale: quando il typo di un singolo carattere fa tutta la differenza del mondo

Saturday’s Talks: il prezzo dell’AI? Con CUDA è vendor lock-in totale (anche) nelle distribuzioni Linux, senza alternative!

Saturday’s Talks: l’open-source è nulla senza la riproducibilità delle build

Saturday’s Talks: OpenStack entra nella Linux Foundation, che differenza c’è tra opportunità e ultima spiaggia?

Saturday’s Talks: l’open-source ha davvero bisogno di Dittatori? Empatia e Dittatura sono un ossimoro, ma solo la prima ci salverà!

I repository AUR di Arch Linux sono di nuovo nei guai per uno degli attacchi malware più estesi di sempre

HTTP/2 Bomb: l’attacco DoS che distrugge nginx, Apache e IIS in 10 secondi (trovato da un’IA)

CIFSwitch: un bug del Kernel Linux vecchio 19 anni che regala i permessi di root

GitHub violata: 3.800 repository interne rubate tramite un’estensione VS Code malevola

Fragnesia: un nuovo membro della famiglia Dirty Frag permette di diventare root su Linux

Categories

Collabora con noi!