Het grootste probleem met het kopiëren van bestanden met hdfs is dat het erg traag kan zijn.
import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")
Deze coderegel importeert de shutil-module en gebruikt vervolgens de copyfile-functie van die module om een bestand van HDFS naar het lokale bestandssysteem te kopiëren.
Wat is hdfs
HDFS is een gedistribueerd bestandssysteem dat schaalbare, duurzame en betrouwbare opslag biedt voor grote datasets. Het is geschreven in Java en draait op het Java-platform.
Manieren om bestanden samen te voegen
Er zijn een paar manieren om bestanden samen te voegen in Python. De eenvoudigste manier is om de ingebouwde module voor het samenvoegen van bestanden te gebruiken:
bestandsfusie importeren
bestand1 = openen ("bestand1.txt")
bestand2 = openen ("bestand2.txt")
merge_file(bestand1, bestand2)
print(“Bestand samengevoegd!”)
Werken met bestanden
In Python kunt u met bestanden werken door de juiste module te importeren. Om bijvoorbeeld de bestandsafhandelingsmodule te importeren, gebruikt u de volgende regel:
uit bestand Afhandeling import Bestand
Nadat u de module hebt geïmporteerd, kunt u bestanden openen door hun naam als variabele te gebruiken. Als u bijvoorbeeld toegang wilt tot het bestand mijnbestand.txt in uw huidige map, gebruikt u de volgende regel:
mijnbestand = Bestand ("mijnbestand.txt")