Opgelost: kopieer het samengevoegde hdfs-bestand

Het grootste probleem met het kopiëren van bestanden met hdfs is dat het erg traag kan zijn.

import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")

Deze coderegel importeert de shutil-module en gebruikt vervolgens de copyfile-functie van die module om een ​​bestand van HDFS naar het lokale bestandssysteem te kopiëren.

Wat is hdfs

HDFS is een gedistribueerd bestandssysteem dat schaalbare, duurzame en betrouwbare opslag biedt voor grote datasets. Het is geschreven in Java en draait op het Java-platform.

Manieren om bestanden samen te voegen

Er zijn een paar manieren om bestanden samen te voegen in Python. De eenvoudigste manier is om de ingebouwde module voor het samenvoegen van bestanden te gebruiken:

bestandsfusie importeren
bestand1 = openen ("bestand1.txt")
bestand2 = openen ("bestand2.txt")
merge_file(bestand1, bestand2)
print(“Bestand samengevoegd!”)

Werken met bestanden

In Python kunt u met bestanden werken door de juiste module te importeren. Om bijvoorbeeld de bestandsafhandelingsmodule te importeren, gebruikt u de volgende regel:

uit bestand Afhandeling import Bestand

Nadat u de module hebt geïmporteerd, kunt u bestanden openen door hun naam als variabele te gebruiken. Als u bijvoorbeeld toegang wilt tot het bestand mijnbestand.txt in uw huidige map, gebruikt u de volgende regel:

mijnbestand = Bestand ("mijnbestand.txt")

Gerelateerde berichten:

Laat een bericht achter