Glavni problem sa kopiranjem spojenih hdfs datoteka je taj što može biti vrlo spor.
import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")
Ova linija koda uvozi shutil modul, a zatim koristi funkciju copyfile iz tog modula za kopiranje datoteke iz HDFS-a u lokalni sistem datoteka.
Šta je hdfs
HDFS je distribuirani sistem datoteka koji pruža skalabilno, izdržljivo i pouzdano skladištenje za velike skupove podataka. Napisan je na Javi i radi na Java platformi.
Načini spajanja fajlova
Postoji nekoliko načina za spajanje datoteka u Pythonu. Najjednostavniji način je korištenje ugrađenog modula za spajanje datoteka:
import filemerger
file1 = open(“file1.txt”)
file2 = open(“file2.txt”)
spojiti_datoteku(fajl1, fajl2)
print(“Fajl spojen!”)
Rad s datotekama
U Pythonu možete raditi s datotekama uvozom odgovarajućeg modula. Na primjer, za uvoz modula za rukovanje datotekama, koristili biste sljedeći red:
iz datoteke Rukovanje import datoteka
Nakon što uvezete modul, možete pristupiti datotekama koristeći njihovo ime kao varijablu. Na primjer, ako želite pristupiti datoteci myfile.txt u vašem trenutnom direktoriju, koristili biste sljedeći red:
myfile = File(“myfile.txt”)