Основният проблем с копирането на обединени hdfs файлове е, че може да бъде много бавно.
import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")
Този кодов ред импортира модула shutil и след това използва функцията copyfile от този модул, за да копира файл от HDFS в локалната файлова система.
Какво е hdfs
HDFS е разпределена файлова система, която осигурява мащабируемо, издръжливо и надеждно съхранение за големи набори от данни. Написан е на Java и работи на платформата Java.
Начини за обединяване на файлове
Има няколко начина за обединяване на файлове в Python. Най-лесният начин е да използвате вградения модул за обединяване на файлове:
импортиране на обединяване на файлове
файл1 = отворен(“файл1.txt”)
файл2 = отворен(“файл2.txt”)
merge_file(файл1, файл2)
print("Файлът е обединен!")
Работете с файлове
В Python можете да работите с файлове, като импортирате съответния модул. Например, за да импортирате модула за обработка на файлове, ще използвате следния ред:
от файл Обработка импортиране на файл
След като импортирате модула, можете да осъществявате достъп до файлове, като използвате името им като променлива. Например, ако искате да получите достъп до файла myfile.txt в текущата ви директория, ще използвате следния ред:
myfile = файл (“myfile.txt”)