Suurin ongelma kopiointitiedostojen yhdistettyjen hdfs-tiedostojen kanssa on, että se voi olla hyvin hidas.
import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")
Tämä koodirivi tuo shutil-moduulin ja käyttää sitten kopiointitiedostotoimintoa kyseisestä moduulista tiedoston kopioimiseen HDFS:stä paikalliseen tiedostojärjestelmään.
Mikä on hdfs
HDFS on hajautettu tiedostojärjestelmä, joka tarjoaa skaalautuvan, kestävän ja luotettavan tallennustilan suurille tietojoukoille. Se on kirjoitettu Java-kielellä ja toimii Java-alustalla.
Tapoja yhdistää tiedostoja
Pythonissa on useita tapoja yhdistää tiedostoja. Yksinkertaisin tapa on käyttää sisäänrakennettua tiedostojen yhdistämismoduulia:
tuo tiedostojen yhdistäminen
tiedosto1 = avoin ("tiedosto1.txt")
tiedosto2 = avoin ("tiedosto2.txt")
yhdistä_tiedosto(tiedosto1, tiedosto2)
tulosta ("Tiedosto yhdistetty!")
Työskentele tiedostojen kanssa
Pythonissa voit käsitellä tiedostoja tuomalla sopivan moduulin. Esimerkiksi tiedostonkäsittelymoduulin tuomiseksi käytä seuraavaa riviä:
tiedostosta Tuontitiedoston käsittely
Kun olet tuonut moduulin, voit käyttää tiedostoja käyttämällä niiden nimeä muuttujana. Jos esimerkiksi haluat käyttää tiedostoa myfile.txt nykyisessä hakemistossasi, käytä seuraavaa riviä:
myfile = Tiedosto("omatiedosto.txt")