Ym myd trin a dadansoddi data, mae trin gwerthoedd coll yn dasg hollbwysig. pandas, llyfrgell Python a ddefnyddir yn eang, yn ein galluogi i reoli data coll yn effeithlon. Un dull cyffredin o ymdrin â gwerthoedd coll yw defnyddio geiriaduron i fapio a disodli'r gwerthoedd hyn. Yn yr erthygl hon, byddwn yn trafod sut i drosoli pŵer Pandas a Python i ddefnyddio geiriaduron ar gyfer disodli gwerthoedd coll mewn set ddata.
Cynnwys
Ateb
Y prif ateb y byddwn yn ei archwilio yw defnyddio'r llenwi () gweithredu ar y cyd â geiriaduron. Bydd y dull hwn yn ein galluogi i ddisodli gwerthoedd coll gyda gwerthoedd cyfatebol o eiriadur penodol.
Esboniad cam wrth gam o'r cod
I ddangos y broses hon, gadewch i ni dybio bod gennym set ddata sy'n cynnwys gwybodaeth am wahanol arddulliau ffasiwn, gan gynnwys dillad, lliwiau, a chyd-destun hanesyddol. Mewn rhai achosion, efallai y bydd gwerthoedd coll yn y set ddata hon.
Yn gyntaf, mewnforiwch y llyfrgelloedd angenrheidiol a chreu sampl DataFrame:
import pandas as pd data = { 'style': ['Grunge', 'Bohemian', 'Preppy', None, 'Punk', 'Casual'], 'garments': ['Plaid shirt', None, 'Blazer', 'Maxi dress', 'Leather jacket', 'T-shirt'], 'colors': ['Black', 'Faded', 'Light', 'Earthy', None, None] } df = pd.DataFrame(data)
Nawr bod gennym DataFrame yn dangos y broblem, sylwch fod rhai gwerthoedd ar goll (a ddynodir gan Dim). I ddisodli'r gwerthoedd hyn, crëwch eiriaduron sy'n cynnwys mapiau priodol:
style_dict = {None: 'Unknown'} garments_dict = {None: 'Other'} colors_dict = {None: 'Various'} # Combine dictionaries replacement_dict = {'style': style_dict, 'garments': garments_dict, 'colors': colors_dict}
Yn olaf, defnyddiwch y llenwi () swyddogaeth i ddisodli gwerthoedd coll gan ddefnyddio'r geiriadur cyfun:
df_filled = df.fillna(replacement_dict)
Deall llyfrgell y Pandas
pandas yn llyfrgell amlbwrpas yn Python sydd wedi'i chynllunio ar gyfer trin a dadansoddi data. Mae'n cynnig strwythurau data hyblyg a phwerus fel Cyfres a DataFrame. Mae'r strwythurau hyn yn hanfodol ar gyfer gweithio'n effeithlon gyda data tablau strwythuredig.
Mae Pandas yn darparu casgliad cyfoethog o swyddogaethau, megis llenwi (), a ddefnyddir ar gyfer trin data coll. Gellir cyflawni gweithrediadau eraill, megis cyfuno data, data pivoting, a dadansoddiad cyfres amser, yn ddi-dor gyda Pandas.
Swyddogaethau ar gyfer trin data coll
Yn ychwanegol at y llenwi () swyddogaeth, mae Pandas yn cynnig nifer o swyddogaethau a dulliau eraill ar gyfer delio â data coll, megis:
- dropna(): Dileu rhesi neu golofnau gyda data coll.
- isna(): Penderfynwch pa elfennau DataFrame neu Gyfres sydd ar goll neu'n null.
- notna(): Penderfynwch pa elfennau DataFrame neu Gyfres nad ydynt ar goll neu'n null.
- rhyngosod(): Llenwch y gwerthoedd coll gan ddefnyddio rhyngosodiad llinol.
Mae'r dulliau hyn, ynghyd â llenwi (), darparu cyfres gynhwysfawr o offer ar gyfer trin data coll mewn amrywiaeth o gyd-destunau.
I gloi, mae'r erthygl hon wedi dangos sut i ddefnyddio dict i ddisodli gwerthoedd coll mewn Fframiau Data Pandas. Y swyddogaeth allweddol a ddefnyddiwyd gennym, llenwi (), yn arf pwerus yn y llyfrgell Pandas sy'n ein galluogi i drin data coll yn effeithlon. Trwy drosoli geiriaduron, gallwn fapio gwerthoedd coll i amnewidiadau priodol a sicrhau bod ein set ddata yn gyflawn ac yn ystyrlon. Trwy ddealltwriaeth ddyfnach o lyfrgell y Pandas a'i swyddogaethau cynhwysedig, gallwn weithio gyda setiau data mawr yn effeithiol a chael mewnwelediadau gwerthfawr o'n data.