Perché le unioni dei panda in Python erano più veloci delle unioni di data.table in R nel 2012?

| |

Recentemente mi sono imbattuto nella libreria panda per python, che secondo questo benchmark esegue unioni in memoria molto veloci. È persino più veloce del pacchetto data.table in R (il mio linguaggio preferito per l'analisi).

Perché panda è molto più veloce di data.table? È a causa di una velocità intrinseca vantaggio che Python ha su R, o c'è qualche compromesso di cui non sono a conoscenza? C'è un modo per eseguire join interni ed esterni in data.table senza ricorrere a merge(X, Y, all=FALSE) e merge(X, Y , tutto=VERO)?

Confronto

Ecco il codice R e il Codice Python utilizzato per confrontare i vari pacchetti.