ಪರಿಹರಿಸಲಾಗಿದೆ: ಪಾಂಡಾಗಳು s3 ರಿಂದ ಪ್ಯಾರ್ಕ್ವೆಟ್ ಅನ್ನು ಓದುತ್ತಾರೆ

ಇಂದಿನ ಫ್ಯಾಷನ್-ಚಾಲಿತ ಜಗತ್ತಿನಲ್ಲಿ, ದೊಡ್ಡ ಡೇಟಾ ಸೆಟ್‌ಗಳೊಂದಿಗೆ ವ್ಯವಹರಿಸುವುದು ತುಂಬಾ ಸಾಮಾನ್ಯವಾಗಿದೆ ಮತ್ತು ಪೈಥಾನ್‌ನಲ್ಲಿ ಪಾಂಡಾಗಳು ಜನಪ್ರಿಯ ಲೈಬ್ರರಿಯಾಗಿದ್ದು ಅದು ಶಕ್ತಿಯುತವಾದ, ಬಳಸಲು ಸುಲಭವಾದ ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ವೈವಿಧ್ಯಮಯ ಡೇಟಾ ಸ್ವರೂಪಗಳಲ್ಲಿ, ಪಾರ್ಕ್ವೆಟ್ ಅನ್ನು ಅದರ ಸಮರ್ಥ ಸ್ತಂಭಾಕಾರದ ಸಂಗ್ರಹಣೆ ಮತ್ತು ಹಗುರವಾದ ಸಿಂಟ್ಯಾಕ್ಸ್‌ಗಾಗಿ ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ. Amazon S3 ನಿಮ್ಮ ಫೈಲ್‌ಗಳಿಗೆ ಜನಪ್ರಿಯ ಶೇಖರಣಾ ಆಯ್ಕೆಯಾಗಿದೆ, ಮತ್ತು ಅದನ್ನು ಪಾಂಡಾಗಳೊಂದಿಗೆ ಸಂಯೋಜಿಸುವುದರಿಂದ ನಿಮ್ಮ ಕೆಲಸದ ಹರಿವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸಬಹುದು. ಈ ಲೇಖನದಲ್ಲಿ, ಶಕ್ತಿಶಾಲಿ ಪಾಂಡಾಸ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು Amazon S3 ನಿಂದ ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್‌ಗಳನ್ನು ಹೇಗೆ ಓದುವುದು ಎಂಬುದನ್ನು ನಾವು ಅನ್ವೇಷಿಸುತ್ತೇವೆ.

S3 ನಿಂದ ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್ಗಳನ್ನು ಓದುವ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು, ನೀವು ಒಳಗೊಂಡಿರುವ ಪ್ರಮುಖ ಘಟಕಗಳು ಮತ್ತು ಲೈಬ್ರರಿಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು. ನಾವು ಬಳಸುವ ಎರಡು ಮುಖ್ಯ ಗ್ರಂಥಾಲಯಗಳು ಪಾಂಡಾಗಳು ಮತ್ತು s3fs. ಪಾಂಡಾಗಳು ಡೇಟಾದ ಸಂಸ್ಕರಣೆಯನ್ನು ನಿರ್ವಹಿಸುತ್ತಾರೆ, ಆದರೆ s3fs Amazon S3 ಗೆ ಸಂಪರ್ಕವನ್ನು ಒದಗಿಸುತ್ತದೆ.

import pandas as pd
import s3fs

ಪಾಂಡಾಸ್ ಲೈಬ್ರರಿ

ಪಾಂಡಾಗಳು ಪೈಥಾನ್‌ನಲ್ಲಿ ಶಕ್ತಿಯುತ ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್ ಮತ್ತು ವಿಶ್ಲೇಷಣಾ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುವ ಓಪನ್ ಸೋರ್ಸ್ ಲೈಬ್ರರಿಯಾಗಿದೆ. ಇದು ಡೇಟಾ ಸೈನ್ಸ್ ಸಮುದಾಯದಿಂದ ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲ್ಪಡುತ್ತದೆ, ಅದರ ನಮ್ಯತೆ ಮತ್ತು ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್‌ಗಳು ಸೇರಿದಂತೆ ವಿವಿಧ ಡೇಟಾ ಸ್ವರೂಪಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಸಾಮರ್ಥ್ಯಕ್ಕೆ ಧನ್ಯವಾದಗಳು. ಪಾಂಡಾಗಳೊಂದಿಗೆ, ನೀವು ಸುಲಭವಾಗಿ ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡಬಹುದು, ವಿಶ್ಲೇಷಿಸಬಹುದು ಮತ್ತು ಮ್ಯಾನಿಪ್ಯುಲೇಟ್ ಮಾಡಬಹುದು, ನಿಮ್ಮ ಡೇಟಾದಲ್ಲಿನ ಮಾದರಿಗಳು ಮತ್ತು ಪ್ರವೃತ್ತಿಗಳನ್ನು ತ್ವರಿತವಾಗಿ ಅನ್ವೇಷಿಸಲು ಮತ್ತು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ನಿಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.

S3fs ಲೈಬ್ರರಿ

S3fs Amazon S3 ವಸ್ತುಗಳನ್ನು ಮನಬಂದಂತೆ ಪ್ರವೇಶಿಸಲು ಪೈಥಾನ್ ಫೈಲ್ ತರಹದ ಇಂಟರ್ಫೇಸ್ ಆಗಿದೆ. ಇದು Boto3 ಮತ್ತು FUSE (ಬಳಕೆದಾರರ ಜಾಗದಲ್ಲಿ ಫೈಲ್‌ಸಿಸ್ಟಮ್) ನ ಕಾರ್ಯವನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ, ಸ್ಥಳೀಯ ಫೈಲ್‌ಗಳಂತೆ S3 ಆಬ್ಜೆಕ್ಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು ನಂಬಲಾಗದಷ್ಟು ಸುಲಭವಾಗಿದೆ. s3fs ಮೂಲಕ, ನೀವು S3 ನಿಂದ ಫೈಲ್‌ಗಳನ್ನು ಓದಬಹುದು ಮತ್ತು ಬರೆಯಬಹುದು, ವಸ್ತುಗಳನ್ನು ಪಟ್ಟಿ ಮಾಡಬಹುದು ಮತ್ತು ಅಳಿಸಬಹುದು ಮತ್ತು ಪೈಥಾನ್‌ನೊಂದಿಗೆ ನೇರವಾಗಿ ಇತರ ಫೈಲ್ ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ಮಾಡಬಹುದು.

ಈಗ ನೀವು ಒಳಗೊಂಡಿರುವ ಲೈಬ್ರರಿಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡಿದ್ದೀರಿ, ಪಾಂಡಾಗಳು ಮತ್ತು s3f ಗಳನ್ನು ಬಳಸಿಕೊಂಡು S3 ನಿಂದ ಪ್ಯಾರ್ಕ್ವೆಟ್ ಫೈಲ್‌ಗಳನ್ನು ಓದುವ ಹಂತ-ಹಂತದ ವಿವರಣೆಯ ಮೂಲಕ ಹೋಗೋಣ.

  1. ಪಾಂಡಾಗಳು ಮತ್ತು s3fs ಅನ್ನು ಸ್ಥಾಪಿಸಿ - ಮೊದಲಿಗೆ, ನೀವು ಪಿಪ್ ಮೂಲಕ ಪಾಂಡಾಗಳು ಮತ್ತು s3fs ಲೈಬ್ರರಿಗಳನ್ನು ಸ್ಥಾಪಿಸಬೇಕು:
pip install pandas s3fs
  1. ಗ್ರಂಥಾಲಯಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳಿ - ಪಾಂಡಾಗಳು ಮತ್ತು s3fs ಲೈಬ್ರರಿಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳುವ ಮೂಲಕ ಪ್ರಾರಂಭಿಸಿ:
import pandas as pd
import s3fs
  1. ಕಾನ್ಫಿಗರೇಶನ್ ಅನ್ನು ಹೊಂದಿಸಿ - ನಿಮ್ಮ Amazon S3 ರುಜುವಾತುಗಳನ್ನು ನೇರವಾಗಿ s3fs ಗೆ ರವಾನಿಸುವ ಮೂಲಕ ಅಥವಾ AWS_ACCESS_KEY_ID ಮತ್ತು AWS_SECRET_ACCESS_KEY ಜೊತೆಗೆ ನಿಮ್ಮ ಪರಿಸರವನ್ನು ಕಾನ್ಫಿಗರ್ ಮಾಡುವ ಮೂಲಕ ಹೊಂದಿಸಿ:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. S3 ನಿಂದ ಪಾರ್ಕ್ವೆಟ್ ಫೈಲ್ ಅನ್ನು ಓದಿ - ನಿಮ್ಮ ಪಾರ್ಕ್ವೆಟ್ ಫೈಲ್ ಅನ್ನು ಓದಲು ಪಾಂಡಾಗಳು ಮತ್ತು s3fs ಬಳಸಿ:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

ಈ ಹಂತಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿದ ನಂತರ, ನೀವು S3 ನಿಂದ ನಿಮ್ಮ ಪಾರ್ಕ್ವೆಟ್ ಫೈಲ್ ಅನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಓದಬೇಕು, ಮತ್ತು ಡೇಟಾಫ್ರೇಮ್ 'ಡಿಎಫ್' ಈಗ ನಿಮ್ಮ S3 ಡೇಟಾವನ್ನು ಕೋಷ್ಟಕ ಸ್ವರೂಪದಲ್ಲಿ ಹೊಂದಿದೆ.

ಈ ಲೇಖನದಲ್ಲಿ, ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್‌ಗಾಗಿ ಶಕ್ತಿಯುತ ಪಾಂಡಾಸ್ ಲೈಬ್ರರಿ ಮತ್ತು ತಡೆರಹಿತ S3 ಸಂಪರ್ಕಕ್ಕಾಗಿ s3fs ಅನ್ನು ಬಳಸಿಕೊಂಡು Amazon S3 ನಿಂದ ಪಾರ್ಕ್ವೆಟ್ ಫೈಲ್‌ಗಳನ್ನು ಹೇಗೆ ಪ್ರವೇಶಿಸುವುದು ಮತ್ತು ಓದುವುದು ಎಂಬುದನ್ನು ನಾವು ನೋಡಿದ್ದೇವೆ. ಈ ಪರಿಕರಗಳು ನಿಮ್ಮ ಡೇಟಾ ಪ್ರೊಸೆಸಿಂಗ್ ವರ್ಕ್‌ಫ್ಲೋಗಳನ್ನು ಹೆಚ್ಚು ಸುಧಾರಿಸಬಹುದು ಮತ್ತು ಒಳನೋಟಗಳನ್ನು ಹೊರತೆಗೆಯಲು ಮತ್ತು ಫ್ಯಾಷನ್ ಜಗತ್ತಿನಲ್ಲಿ ಇತ್ತೀಚಿನ ಪ್ರವೃತ್ತಿಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ನಿಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ವಿವಿಧ ಶೈಲಿಯ ಸಂಯೋಜನೆಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದರಿಂದ ಹಿಡಿದು ಬಟ್ಟೆಯ ಪ್ರವೃತ್ತಿಗಳ ಇತಿಹಾಸ ಮತ್ತು ವಿಕಸನವನ್ನು ವಿಶ್ಲೇಷಿಸುವವರೆಗೆ, ಪಾಂಡಾಗಳು ನಿಮ್ಮ ಡೇಟಾದಲ್ಲಿ ಅಡಗಿರುವ ರತ್ನಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುವುದನ್ನು ಸರಳಗೊಳಿಸುತ್ತದೆ.

ಸಂಬಂಧಿತ ಪೋಸ್ಟ್ಗಳು:

ಒಂದು ಕಮೆಂಟನ್ನು ಬಿಡಿ