แก้ไขแล้ว: อัปเดตเซลล์ในแผ่นงานตามชื่อคอลัมน์โดยใช้หมีแพนด้า

ในโลกของการวิเคราะห์ข้อมูล การใช้สเปรดชีตเป็นเรื่องปกติ โดยเฉพาะอย่างยิ่งเมื่อทำงานกับข้อมูลที่มีโครงสร้างในรูปแบบคอลัมน์ หนึ่งในไลบรารียอดนิยมสำหรับการทำงานกับข้อมูลสเปรดชีตใน Python คือ Pandas ไลบรารีที่มีประสิทธิภาพนี้ช่วยให้นักพัฒนาสามารถอ่าน จัดการ และส่งออกข้อมูลแบบตารางได้อย่างง่ายดาย ในบทความนี้ เราจะมุ่งเน้นไปที่ปัญหาเฉพาะ: การอัปเดตเซลล์ในแผ่นงานตามชื่อคอลัมน์โดยใช้ Pandas เราจะลงลึกในการแก้ปัญหา ตามด้วยคำอธิบายทีละขั้นตอนของโค้ด และสุดท้ายจะหารือเกี่ยวกับแนวคิดและฟังก์ชันที่เกี่ยวข้องใน Pandas เช่น การทำงานกับดัชนีและการเลือกข้อมูล มาเริ่มกันเลย

การอัปเดตเซลล์ตามชื่อคอลัมน์โดยใช้ Pandas

หากต้องการอัปเดตเซลล์ในชีตตามชื่อคอลัมน์ ก่อนอื่นเราต้องติดตั้งไลบรารี Pandas หากยังไม่ได้ติดตั้งโดยใช้คำสั่งต่อไปนี้:

!pip install pandas

เมื่อติดตั้ง Pandas แล้ว ให้ร่างขั้นตอนในการอัปเดตเซลล์ในแผ่นงานตามชื่อคอลัมน์:

1. โหลดแผ่นงานลงในวัตถุ DataFrame
2. เข้าถึงเซลล์ที่เราต้องการอัปเดต
3. แก้ไขเซลล์ที่ต้องการโดยกำหนดค่าใหม่
4. บันทึกวัตถุ DataFrame กลับไปที่แผ่นงาน

ต่อไปนี้คือข้อมูลโค้ดที่แสดงวิธีแก้ปัญหาด้วยตัวอย่างง่ายๆ:

import pandas as pd

# Load data from a CSV file into a DataFrame object
df = pd.read_csv('your_spreadsheet.csv')

# Access and update the desired cells - let's update column 'Age' by adding 1 to each value
df['Age'] = df['Age'] + 1

# Save the updated DataFrame back to the CSV file
df.to_csv('your_updated_spreadsheet.csv', index=False)

การทำความเข้าใจรหัส

ขั้นตอนแรกคือนำเข้าไลบรารี Pandas ภายใต้นามแฝง `pd` ต่อไป เราต้องโหลดข้อมูลจากไฟล์ CSV ลงในวัตถุ DataFrame โดยใช้ฟังก์ชัน `pd.read_csv()` โดยระบุชื่อไฟล์อินพุต ('your_spreadsheet.csv')

ตอนนี้ส่วนหลักของปัญหามาถึงแล้ว: การเข้าถึงและอัปเดตเซลล์ที่ต้องการ ในตัวอย่างนี้ เราต้องการอัปเดตคอลัมน์ 'อายุ' โดยเพิ่ม 1 ให้กับแต่ละค่าในคอลัมน์ เราทำได้โดยเพิ่ม 1 ลงในคอลัมน์ 'อายุ' ซึ่งเข้าถึงได้โดยใช้ไวยากรณ์ `df['Age']` รหัสนี้จะทำการเพิ่ม 1 ให้กับแต่ละรายการในคอลัมน์ 'อายุ' ตามองค์ประกอบ

สุดท้าย เราบันทึก DataFrame ที่อัปเดตแล้วกลับไปยังไฟล์ CSV โดยใช้ฟังก์ชัน `df.to_csv()` พร้อมชื่อไฟล์เอาต์พุต ('your_updated_spreadsheet.csv') พารามิเตอร์ `index=False` ใช้เพื่อหลีกเลี่ยงการเขียนหมายเลขแถวไปยังไฟล์เอาต์พุต

Pandas Indexes และการเลือกข้อมูล

Pandas อาศัยแนวคิดของดัชนีอย่างมากในการเลือกและจัดการข้อมูล ตามค่าเริ่มต้น เมื่อโหลดข้อมูลจากไฟล์ Pandas จะกำหนด ดัชนีตัวเลข ไปยังแต่ละแถวของ DataFrame โดยเริ่มจาก 0 เมื่อทำงานกับข้อมูลใน Pandas สิ่งสำคัญคือต้องเข้าใจวิธีต่างๆ การเลือกและกรองข้อมูล ตามค่าดัชนีหรือชื่อคอลัมน์

ตัวอย่างเช่น หากต้องการเลือกแถวใดแถวหนึ่ง คุณสามารถใช้ตัวทำดัชนี `iloc` ซึ่งช่วยให้คุณเข้าถึงแถวตามดัชนีจำนวนเต็ม:

# Select the first row of the DataFrame
first_row = df.iloc[0]

# Select rows 1 to 3 (excluding 3)
rows_1_to_2 = df.iloc[1:3]

เมื่อคุณต้องอัปเดตเซลล์ตามเงื่อนไขเฉพาะ เช่น อัปเดตคอลัมน์ 'อายุ' สำหรับแถวที่คอลัมน์อื่น (เช่น 'เมือง') มีค่าที่แน่นอน คุณสามารถใช้การทำดัชนีบูลีนได้ดังนี้

# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York'
df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1

ในตัวอย่างนี้ ตัวสร้างดัชนี `loc` ใช้เพื่อเลือกแถวตามเงื่อนไขบูลีน จากนั้นคอลัมน์ 'อายุ' จะได้รับการอัปเดต

โปรดทราบว่านี่เป็นเพียงส่วนเล็กของภูเขาน้ำแข็งเมื่อพูดถึงการทำงานกับข้อมูลใน Pandas ไลบรารีมีฟังก์ชันและเทคนิคมากมายในการจัดการ วิเคราะห์ และแสดงภาพข้อมูลของคุณอย่างมีประสิทธิภาพ การทำความเข้าใจพื้นฐาน เช่น การอัปเดตเซลล์ในชีตตามชื่อคอลัมน์ จะเป็นการวางรากฐานที่แข็งแกร่งสำหรับการทำงานกับโครงสร้างข้อมูลและงานวิเคราะห์ที่ซับซ้อนมากขึ้นในอนาคต

กระทู้ที่เกี่ยวข้อง:

แสดงความคิดเห็น