Galvenā problēma ar kopēšanas failu sapludināto hdfs ir tā, ka tā var būt ļoti lēna.
import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")
Šī koda rinda importē Shutil moduli un pēc tam izmanto šī moduļa funkciju copyfile, lai kopētu failu no HDFS uz vietējo failu sistēmu.
Kas ir hdfs
HDFS ir izplatīta failu sistēma, kas nodrošina mērogojamu, izturīgu un uzticamu lielu datu kopu krātuvi. Tas ir rakstīts Java valodā un darbojas Java platformā.
Failu sapludināšanas veidi
Ir daži veidi, kā apvienot failus programmā Python. Vienkāršākais veids ir izmantot iebūvēto failu apvienošanas moduli:
importēt failu apvienošanu
fails1 = atvērts (“fails1.txt”)
fails2 = atvērts (“fails2.txt”)
sapludināt_fails(fails1, fails2)
drukāt (“Fails sapludināts!”)
Darbs ar failiem
Programmā Python varat strādāt ar failiem, importējot atbilstošo moduli. Piemēram, lai importētu failu apstrādes moduli, jāizmanto šāda rinda:
no faila Importa faila apstrāde
Kad modulis ir importēts, varat piekļūt failiem, izmantojot to nosaukumu kā mainīgo. Piemēram, ja vēlaties piekļūt failam myfile.txt savā pašreizējā direktorijā, izmantojiet šo rindu:
mans fails = Fails (“mans fails.txt”)