Pandas on laajalti käytetty Python-kirjasto tietojen käsittelyssä ja analysoinnissa. Se tarjoaa tietorakenteita ja toimintoja, joita tarvitaan strukturoidun tiedon saumattomaan käsittelyyn. Yksi sen tarjoamista monista ominaisuuksista on kyky yhdistää taulukoita ei-yksilöllisillä avaimilla, mikä voi olla yleinen vaatimus käytännön sovelluksissa. Tässä artikkelissa perehdymme tämän ongelman ratkaisuun, tutkimme vaiheittaista selitystä koodista, jota käytetään pandan DataFrame-objektien yhdistämiseen ei-yksilöllisillä avaimilla, ja keskustelemme tähän prosessiin liittyvistä kirjastoista ja toiminnoista.
esittely
Taulukoiden yhdistäminen on perustoiminto, joka suoritetaan tietojen käsittely- ja analysointitehtävissä. Tietyissä skenaarioissa meitä voidaan vaatia yhdistämään taulukoita ei-ainutlaatuisella avaimella, mikä voi aiheuttaa haasteita. Tehokkaan Python-kirjaston, pandan, kanssa työskentely antaa kuitenkin meille mahdollisuuden ratkaista tämä ongelma tyylikkäästi sen joustavan toiminnallisuuden avulla.
Pandas DataFrame -kehyksiin liittyminen ei-yksilöllisillä avaimilla
Liityksemme DataFrame-kehyksiin pandoissa voimme käyttää `merge()-funktiota, joka tukee yhdistämistä ei-yksilöllisillä avaimilla. On kuitenkin olennaista ymmärtää, että ei-yksilöllisten avainten yhdistämisen tulos voi olla erilainen kuin odotettiin, koska se voi johtaa karteesiseen tuloon, mikä saattaa johtaa merkittävään lisäykseen tuloksena olevan DataFramen rivien lukumäärässä.
Tässä on vaiheittaiset ohjeet `merge()-funktion käyttämisestä DataFrame-kehyksen liittämiseen ei-yksilöllisillä avaimilla:
import pandas as pd # Create sample DataFrames df1 = pd.DataFrame({"key": ["A", "B", "A", "C"], "value": [1, 2, 3, 4]}) df2 = pd.DataFrame({"key": ["A", "B", "A", "D"], "value2": [5, 6, 7, 8]}) # Perform the merge operation result = df1.merge(df2, on="key", how="inner")
Yllä olevassa esimerkissä tuomme ensin pandakirjaston ja luomme kaksi esimerkkitietokehystä (df1 ja df2). Sitten yhdistämme funktion "merge()" DataFrame-kehykset "avain"-sarakkeeseen, joka sisältää ei-yksilöllisiä arvoja (A ja B toistuvat). "how"-parametrin arvoksi on asetettu "inner", koska haluamme säilyttää vain rivit, joilla on vastaavat avaimet molemmissa DataFrame-kehyksessä.
Pandan yhdistämisfunktion ymmärtäminen
Pandan `merge()`-funktio on erittäin tehokas ja joustava työkalu taulukoiden yhdistämistoimintojen suorittamiseen. Sen lisäksi, että se yhdistää DataFrame-kehykset ei-yksilöllisillä avaimilla, se tukee useita mukauttamistasoja, jolloin voit hallita täysin tuloksena olevaa DataFramea.
"merge()"-funktiolla on useita tärkeitä parametreja, kuten:
- vasemmalle ja oikein: Nämä ovat yhdistettävät DataFrame-kehykset.
- on: Sarakkeet, joita tulee käyttää DataFrame-kehysten yhdistämiseen. Tämä voi olla yhden sarakkeen nimi tai luettelo sarakkeiden nimistä, kun liitetään useita sarakkeita.
- miten: Se määrittää suoritettavan liitoksen tyypin. Vaihtoehdot sisältävät 'vasen', 'oikea', 'ulompi' ja 'sisäinen'. Oletusarvo on "sisäinen".
- jälkiliitteet: Tämä on sarja merkkijonoliitteitä, joita käytetään päällekkäisissä sarakkeissa. Oletusliite on _x vasemmalle DataFramelle ja _y oikealle DataFramelle.
Näitä parametreja voidaan säätää tarpeidesi mukaan suorittaaksesi erilaisia liitostoimintoja ja mukauttaaksesi tulosta.
Samanlaisia toimintoja Pandasissa
"merge()"-funktion lisäksi pandat tarjoavat myös muita toimintoja datakehysten yhdistämiseen eri tavoilla, kuten:
- concat(): Tätä toimintoa käytetään datakehysten ketjuttamiseen tiettyä akselia pitkin. Voit hallita ketjutusta määrittämällä erilaisia parametreja, kuten akselin, liitoksen ja avaimet.
- liittyä seuraan(): Tämä on kätevä tapa käyttää DataFrame-objekteja liitostoimintojen suorittamiseen. Se on pohjimmiltaan kääre merge()-funktion ympärille, ja vasen DataFrame oletetaan kutsuvana DataFrame-kehyksenä.
Yhteenvetona voidaan todeta, että käyttämällä pandan "merge()"-toimintoa voit helposti liittää DataFrame-kehykset ei-yksilöllisillä avaimilla. "merge()"-funktiossa käytettävissä oleva runsas parametrijoukko tarjoaa täyden hallinnan liitosprosessiin ja vastaa erilaisiin tiedonkäsittelyvaatimuksiin. Pandaskirjasto on edelleen korvaamaton työkalu data-analyytikoille, ja se tarjoaa monia muita toimintoja DataFrame-kehysten tehokkaaseen yhdistämiseen ja käsittelyyn.