Glavni problem s kopiranjem spojenih datoteka hdfs je taj što može biti vrlo spor.
import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")
Ova linija koda uvozi shutil modul i zatim koristi funkciju copyfile iz tog modula za kopiranje datoteke iz HDFS-a u lokalni datotečni sustav.
Što je hdfs
HDFS je distribuirani datotečni sustav koji pruža skalabilnu, izdržljivu i pouzdanu pohranu za velike skupove podataka. Napisan je u Javi i radi na Java platformi.
Načini spajanja datoteka
Postoji nekoliko načina za spajanje datoteka u Pythonu. Najjednostavniji način je korištenje ugrađenog modula za spajanje datoteka:
import filemerger
datoteka1 = otvori(“datoteka1.txt”)
datoteka2 = otvori(“datoteka2.txt”)
spoji_datoteku(datoteka1, datoteka2)
print("Datoteka spojena!")
Rad s datotekama
U Pythonu možete raditi s datotekama uvozom odgovarajućeg modula. Na primjer, za uvoz modula za rukovanje datotekama upotrijebili biste sljedeći redak:
iz datoteke Rukovanje uvozom datoteke
Nakon što ste uvezli modul, možete pristupiti datotekama koristeći njihov naziv kao varijablu. Na primjer, ako želite pristupiti datoteci myfile.txt u vašem trenutnom direktoriju, upotrijebili biste sljedeći redak:
moja datoteka = datoteka (“moja datoteka.txt”)