Lahendatud: pandad liituvad mitteunikaalsete

Pandas on laialdaselt kasutatav Pythoni teek andmete töötlemise ja analüüsi valdkonnas. See pakub andmestruktuure ja funktsioone, mis on vajalikud struktureeritud andmetega sujuvaks töötamiseks. Üks paljudest selle pakutavatest funktsioonidest on võimalus ühendada tabeleid mitteunikaalsete võtmetega, mis võib olla praktilistes rakendustes tavaline nõue. Selles artiklis käsitleme selle probleemi lahendust, uurime pandade DataFrame'i objektide mitteunikaalsete võtmetega ühendamiseks kasutatava koodi samm-sammult selgitust ning arutame selle protsessiga seotud teeke ja funktsioone.

Sissejuhatus

Tabelite ühendamine on andmete töötlemise ja analüüsimise ülesannete põhitoiming. Teatud stsenaariumide korral võidakse meilt nõuda tabelite ühendamist mitteunikaalse võtmega, mis võib tekitada probleeme. Kuid töötamine võimsa Pythoni raamatukoguga pandad võimaldab meil selle probleemi elegantselt lahendada, kasutades selle paindlikku funktsionaalsust.

Panda DataFrames'iga liitumine mitteunikaalsete võtmetega

Andmeraamide ühendamiseks pandades saame kasutada funktsiooni "merge()", mis toetab mitteunikaalsete võtmete ühendamist. Siiski on oluline mõista, et mitteunikaalsete võtmete ühendamise tulemus võib olla oodatust erinev, kuna see võib viia Descartes'i korrutisele, mille tulemuseks võib olla ridade arvu märkimisväärne suurenemine saadud DataFrame'is.

Siin on samm-sammuline juhend funktsiooni `merge()` kasutamiseks DataFrames'i ühendamiseks mitteunikaalsete võtmetega:

import pandas as pd

# Create sample DataFrames
df1 = pd.DataFrame({"key": ["A", "B", "A", "C"], "value": [1, 2, 3, 4]})
df2 = pd.DataFrame({"key": ["A", "B", "A", "D"], "value2": [5, 6, 7, 8]})

# Perform the merge operation
result = df1.merge(df2, on="key", how="inner")

Ülaltoodud näites impordime esmalt pandade teegi ja loome kaks näidisandmeraami (df1 ja df2). Seejärel kasutame funktsiooni "merge()", et ühendada DataFrames veerus "võti", mis sisaldab mitteunikaalseid väärtusi (A ja B korduvad). Parameeter "kuidas" on seatud väärtusele "sisemine", kuna tahame säilitada ainult read, millel on mõlemas andmeraamis sobivad võtmed.

Pandade liitmisfunktsiooni mõistmine

Funktsioon "merge()" on pandades väga võimas ja paindlik tööriist tabelite ühendamise toimingute tegemiseks. Lisaks DataFrame'ide ühendamisele mitteunikaalsete võtmetega toetab see erinevaid kohandamise tasemeid, võimaldades teil saada täielikku kontrolli tulemuseks oleva DataFrame'i üle.

Funktsioonil "merge()" on mitu olulist parameetrit, näiteks:

  • lahkus ja õige: need on liidetavad andmeraamid.
  • on: veerg(id), mida tuleks kasutada DataFrame'ide ühendamiseks. See võib olla ühe veeru nimi või veerunimede loend, kui liitute mitme veeruga.
  • kuidas: see määrab teostatava liitumise tüübi. Valikud hõlmavad "vasak", "parem", "välimine" ja "sisemine". Vaikimisi on "sisemine".
  • järelliited: see on rida stringi järelliiteid, mida rakendatakse kattuvatele veergudele. Vaikimisi järelliide on vasakpoolse DataFrame'i jaoks _x ja parempoolse DataFrame'i jaoks _y.

Neid parameetreid saab kohandada vastavalt teie vajadustele, et teha erinevat tüüpi liitmistoiminguid ja kohandada väljundit.

Sarnased funktsioonid Pandas

Lisaks funktsioonile "merge()", pakuvad pandad ka muid funktsioone DataFrame'ide erinevatel viisidel kombineerimiseks, näiteks:

  • sidur (): seda funktsiooni kasutatakse andmeraamide ühendamiseks mööda kindlat telge. Konkatenatsiooni saate juhtida, määrates erinevaid parameetreid, nagu telg, liitmine ja võtmed.
  • liitu (): see on mugav meetod, mis on DataFrame'i objektidel saadaval liitmistoimingute tegemiseks. See on sisuliselt ümbris funktsiooni merge() ümber, kusjuures vasakpoolset DataFrame'i peetakse helistajaks DataFrame.

Kokkuvõtteks võib öelda, et panda funktsiooni "merge()" abil saate DataFrame'idega hõlpsasti ühendada mitteunikaalsete võtmetega. Funktsioonis "merge()" saadaolev rikkalik parameetrite komplekt pakub täielikku kontrolli liitumisprotsessi üle, rahuldades erinevaid andmetega manipuleerimise nõudeid. Pandateek on jätkuvalt andmeanalüütikute jaoks asendamatu tööriist ning pakub mitmeid muid funktsioone DataFrame'ide tõhusaks kombineerimiseks ja töötlemiseks.

Seonduvad postitused:

Jäta kommentaar