Résolu : copier le fichier hdfs fusionné

Le principal problème avec la copie de fichiers hdfs fusionnés est qu'il peut être très lent.

import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")

Cette ligne de code importe le module shutdown puis utilise la fonction copyfile de ce module pour copier un fichier de HDFS vers le système de fichiers local.

Qu'est-ce que hdfs

HDFS est un système de fichiers distribué qui fournit un stockage évolutif, durable et fiable pour de grands ensembles de données. Il est écrit en Java et fonctionne sur la plate-forme Java.

Façons de fusionner des fichiers

Il existe plusieurs façons de fusionner des fichiers en Python. Le moyen le plus simple consiste à utiliser le module intégré de fusion de fichiers :

importer la fusion de fichiers
fichier1 = ouvrir("fichier1.txt")
fichier2 = ouvrir("fichier2.txt")
fusionner_fichier(fichier1, fichier2)
print("Fichier fusionné !")

Travailler avec des fichiers

En Python, vous pouvez travailler avec des fichiers en important le module approprié. Par exemple, pour importer le module de gestion de fichiers, vous utiliserez la ligne suivante :

à partir d'un fichier Gestion de l'importation d'un fichier

Une fois que vous avez importé le module, vous pouvez accéder aux fichiers en utilisant leur nom comme variable. Par exemple, si vous vouliez accéder au fichier monfichier.txt dans votre répertoire courant, vous utiliseriez la ligne suivante :

monfichier = Fichier("monfichier.txt")

Articles connexes

Laisser un commentaire