แก้ไขแล้ว: คัดลอกไฟล์ที่ผสาน hdfs

ปัญหาหลักของการคัดลอกไฟล์ที่ผสาน hdfs คืออาจช้ามาก

import shutil shutil.copyfile("/hdfs/path/to/file", "/local/path/to/file")

บรรทัดรหัสนี้นำเข้าโมดูล shutil จากนั้นใช้ฟังก์ชัน copyfile จากโมดูลนั้นเพื่อคัดลอกไฟล์จาก HDFS ไปยังระบบไฟล์ในเครื่อง

hdfs คืออะไร

HDFS เป็นระบบไฟล์แบบกระจายที่ให้พื้นที่เก็บข้อมูลที่ปรับขนาดได้ ทนทาน และเชื่อถือได้สำหรับชุดข้อมูลขนาดใหญ่ มันถูกเขียนด้วยภาษาจาวาและทำงานบนแพลตฟอร์มจาวา

วิธีการรวมไฟล์

มีสองสามวิธีในการรวมไฟล์ใน Python วิธีที่ง่ายที่สุดคือการใช้โมดูลการรวมไฟล์ในตัว:

นำเข้าไฟล์เมอร์
ไฟล์ 1 = เปิด ("file1.txt")
ไฟล์ 2 = เปิด ("file2.txt")
merge_file (ไฟล์ 1, ไฟล์ 2)
พิมพ์ ("รวมไฟล์!")

ทำงานกับไฟล์

ใน Python คุณสามารถทำงานกับไฟล์ได้โดยการนำเข้าโมดูลที่เหมาะสม ตัวอย่างเช่น หากต้องการนำเข้าโมดูลการจัดการไฟล์ คุณจะต้องใช้บรรทัดต่อไปนี้:

จากไฟล์ จัดการไฟล์นำเข้า

เมื่อคุณนำเข้าโมดูลแล้ว คุณจะสามารถเข้าถึงไฟล์ได้โดยใช้ชื่อเป็นตัวแปร ตัวอย่างเช่น หากคุณต้องการเข้าถึงไฟล์ myfile.txt ในไดเร็กทอรีปัจจุบันของคุณ ให้ใช้บรรทัดต่อไปนี้:

myfile = ไฟล์ (“myfile.txt”)

กระทู้ที่เกี่ยวข้อง:

แสดงความคิดเห็น