தீர்க்கப்பட்டது: டேபிள் பாண்டாக்கள் முதல் postgresql வரை

தரவு பகுப்பாய்வு மற்றும் கையாளுதல் உலகில், மிகவும் பிரபலமான பைதான் நூலகங்களில் ஒன்றாகும் பாண்டாக்கள். கட்டமைக்கப்பட்ட தரவுகளுடன் பணிபுரிய பல்வேறு சக்திவாய்ந்த கருவிகளை இது வழங்குகிறது, இது கையாளுதல், காட்சிப்படுத்துதல் மற்றும் பகுப்பாய்வு செய்வதை எளிதாக்குகிறது. ஒரு தரவு ஆய்வாளர் சந்திக்கும் பல பணிகளில் ஒன்று a இலிருந்து தரவை இறக்குமதி செய்வது , CSV ஒரு கோப்பு போஸ்ட்கெரே தரவுத்தளம். இந்த கட்டுரையில், இரண்டையும் பயன்படுத்தி இந்த பணியை எவ்வாறு திறம்பட மற்றும் திறமையாகச் செய்வது என்பது பற்றி விவாதிப்போம் பாண்டாக்கள் மற்றும் இந்த சைக்கோப்ஜி2 நூலகம். இந்தச் செயல்பாட்டில் உள்ள பல்வேறு செயல்பாடுகள் மற்றும் நூலகங்களை நாங்கள் ஆராய்வோம், தீர்வு பற்றிய விரிவான புரிதலை வழங்குவோம்.

பாண்டாக்கள் மற்றும் PostgreSQL அறிமுகம்

Pandas என்பது ஒரு சக்திவாய்ந்த பைதான் நூலகமாகும், இது தரவு பகுப்பாய்வுக்காக பயன்படுத்த எளிதான தரவு கட்டமைப்புகள் மற்றும் தரவு கையாளுதல் செயல்பாடுகளை வழங்குகிறது. பெரிய தரவுத் தொகுப்புகளைக் கையாளும் போது அல்லது சிக்கலான தரவு மாற்றங்களைச் செய்ய வேண்டியிருக்கும் போது இது மிகவும் பயனுள்ளதாக இருக்கும். மறுபுறம், PostgreSQL என்பது ஒரு இலவச மற்றும் திறந்த மூல பொருள்-தொடர்பு தரவுத்தள மேலாண்மை அமைப்பு (ORDBMS) நீட்டிப்பு மற்றும் SQL இணக்கத்தை வலியுறுத்துகிறது. இது பெரிய அளவிலான, சிக்கலான தரவு மேலாண்மை பணிகளுக்கு பரவலாகப் பயன்படுத்தப்படுகிறது.

இப்போது, ​​எங்களிடம் ஒரு பெரிய தரவுத்தொகுப்பைக் கொண்ட CSV கோப்பு இருப்பதாக வைத்துக்கொள்வோம், அதை PostgreSQL தரவுத்தளத்தில் இறக்குமதி செய்ய விரும்புகிறோம். இந்தப் பணியை அடைவதற்கான ஒரு பொதுவான வழி, Python ஐப் பயன்படுத்தி அதைத் தொடர்பு கொள்ள அனுமதிக்கும் PostgreSQL தரவுத்தளங்களுக்கான அடாப்டரை வழங்கும் சைகோப்ஜி2 நூலகத்துடன் இணைந்து பாண்டாஸைப் பயன்படுத்துவது.

பாண்டாக்கள்: CSV கோப்புகளைப் படித்தல்

எங்கள் செயல்பாட்டின் முதல் படி, பாண்டாஸைப் பயன்படுத்தி எங்கள் CSV கோப்பின் உள்ளடக்கத்தைப் படிப்பதாகும்.

import pandas as pd

filename = "example.csv"
df = pd.read_csv(filename)

இந்த குறியீடு பயன்படுத்துகிறது pd.read_csv() செயல்பாடு, இது CSV கோப்பைப் படித்து, DataFrame ஆப்ஜெக்ட்டை வழங்குகிறது. DataFrame ஆப்ஜெக்ட் மூலம், நாம் எளிதாக தரவுகளை கையாளலாம் மற்றும் பகுப்பாய்வு செய்யலாம்.

PostgreSQL தரவுத்தளத்துடன் இணைக்கிறது

அடுத்த படியாக psycopg2 நூலகத்தைப் பயன்படுத்தி எங்கள் PostgreSQL தரவுத்தளத்துடன் இணைக்க வேண்டும். இதைச் செய்ய, நாம் psycopg2 நூலகத்தை நிறுவ வேண்டும், இது பிப்பைப் பயன்படுத்தி செய்யப்படலாம்:

pip install psycopg2

நூலகம் நிறுவப்பட்டதும், எங்கள் PostgreSQL தரவுத்தளத்துடன் இணைக்க வேண்டும்:

import psycopg2

connection = psycopg2.connect(
    dbname="your_database_name",
    user="your_username",
    password="your_password",
    host="your_hostname",
    port="your_port",
)

தி psycopg2.connect() செயல்பாடு வழங்கப்பட்ட நற்சான்றிதழ்களைப் பயன்படுத்தி தரவுத்தள சேவையகத்துடன் இணைப்பை நிறுவுகிறது. இணைப்பு வெற்றிகரமாக இருந்தால், செயல்பாடு தரவுத்தளத்துடன் தொடர்பு கொள்ள நாம் பயன்படுத்தும் இணைப்பு பொருளை வழங்குகிறது.

PostgreSQL இல் அட்டவணையை உருவாக்குதல்

இப்போது DataFrame ஆப்ஜெக்ட்டில் எங்கள் தரவு உள்ளது மற்றும் PostgreSQL தரவுத்தளத்துடன் இணைப்பு உள்ளது, தரவுத்தளத்தில் எங்கள் தரவைச் சேமிக்க ஒரு அட்டவணையை உருவாக்கலாம்.

cursor = connection.cursor()
create_table_query = '''
CREATE TABLE IF NOT EXISTS example_table (
    column1 data_type,
    column2 data_type,
    ...
)
'''
cursor.execute(create_table_query)
connection.commit()

இந்த குறியீடு துணுக்கில், நாம் முதலில் கர்சர் பொருளைப் பயன்படுத்தி உருவாக்குகிறோம் connection.cursor() முறை. அட்டவணைகளை உருவாக்குதல் மற்றும் தரவைச் செருகுதல் போன்ற தரவுத்தள செயல்பாடுகளைச் செய்ய கர்சர் பயன்படுத்தப்படுகிறது. அடுத்து, ஒரு அட்டவணையை உருவாக்குவதற்கான SQL வினவலை வரையறுத்து, அதைப் பயன்படுத்தி அதை இயக்கவும் cursor.execute() முறை. இறுதியாக, தரவுத்தளத்தில் மாற்றங்களைச் செய்கிறோம் connection.commit().

PostgreSQL தரவுத்தளத்தில் தரவைச் செருகுகிறது

இப்போது எங்களிடம் ஒரு அட்டவணை உள்ளது, எங்கள் DataFrame இலிருந்து தரவை PostgreSQL தரவுத்தளத்தில் செருகலாம் to_sql() பாண்டாஸ் வழங்கிய முறை.

from sqlalchemy import create_engine

engine = create_engine("postgresql://your_username:your_password@your_hostname:your_port/your_database_name")
df.to_sql("example_table", engine, if_exists="append", index=False)

இந்த குறியீடு துணுக்கில், முதலில் நாம் ஒரு தரவுத்தள இயந்திரத்தை உருவாக்குகிறோம் create_engine() SQLAlchemy நூலகத்தின் செயல்பாடு, இதற்கு எங்கள் தரவுத்தள நற்சான்றிதழ்களைக் கொண்ட இணைப்பு சரம் தேவைப்படுகிறது. பின்னர், நாங்கள் பயன்படுத்துகிறோம் to_sql() PostgreSQL தரவுத்தளத்தில் உள்ள "example_table" அட்டவணையில் எங்கள் DataFrame இலிருந்து தரவைச் செருகுவதற்கான முறை.

முடிவில், Pandas மற்றும் psycopg2 ஐப் பயன்படுத்தி CSV கோப்பில் இருந்து PostgreSQL தரவுத்தளத்தில் தரவை எவ்வாறு இறக்குமதி செய்வது என்பது குறித்த விரிவான வழிகாட்டியை இந்தக் கட்டுரை வழங்குகிறது. PostgreSQL இன் சக்தி மற்றும் அளவிடுதல் ஆகியவற்றுடன் Pandas இல் தரவு கையாளுதலின் எளிமையை இணைப்பதன் மூலம், CSV தரவை தரவுத்தளத்தில் இறக்குமதி செய்யும் பொதுவான பணிக்கான தடையற்ற மற்றும் திறமையான தீர்வை நாம் அடைய முடியும்.

தொடர்புடைய இடுகைகள்:

ஒரு கருத்துரையை