ปัญหาหลักของการคัดลอกไฟล์ที่ผสาน hdfs คืออาจช้ามาก
import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")
บรรทัดรหัสนี้นำเข้าโมดูล shutil จากนั้นใช้ฟังก์ชัน copyfile จากโมดูลนั้นเพื่อคัดลอกไฟล์จาก HDFS ไปยังระบบไฟล์ในเครื่อง
hdfs คืออะไร
HDFS เป็นระบบไฟล์แบบกระจายที่ให้พื้นที่เก็บข้อมูลที่ปรับขนาดได้ ทนทาน และเชื่อถือได้สำหรับชุดข้อมูลขนาดใหญ่ มันถูกเขียนด้วยภาษาจาวาและทำงานบนแพลตฟอร์มจาวา
วิธีการรวมไฟล์
มีสองสามวิธีในการรวมไฟล์ใน Python วิธีที่ง่ายที่สุดคือการใช้โมดูลการรวมไฟล์ในตัว:
นำเข้าไฟล์เมอร์
ไฟล์ 1 = เปิด ("file1.txt")
ไฟล์ 2 = เปิด ("file2.txt")
merge_file (ไฟล์ 1, ไฟล์ 2)
พิมพ์ ("รวมไฟล์!")
ทำงานกับไฟล์
ใน Python คุณสามารถทำงานกับไฟล์ได้โดยการนำเข้าโมดูลที่เหมาะสม ตัวอย่างเช่น หากต้องการนำเข้าโมดูลการจัดการไฟล์ คุณจะต้องใช้บรรทัดต่อไปนี้:
จากไฟล์ จัดการไฟล์นำเข้า
เมื่อคุณนำเข้าโมดูลแล้ว คุณจะสามารถเข้าถึงไฟล์ได้โดยใช้ชื่อเป็นตัวแปร ตัวอย่างเช่น หากคุณต้องการเข้าถึงไฟล์ myfile.txt ในไดเร็กทอรีปัจจุบันของคุณ ให้ใช้บรรทัดต่อไปนี้:
myfile = ไฟล์ (“myfile.txt”)