Išspręsta: kaip rasti vidutinę laikmeną ir režimą

Vidurkio, medianos ir režimo radimas „Python“: išsamus duomenų analizės vadovas

Duomenų analizė yra esminė duomenų rinkinių supratimo ir interpretavimo dalis. Vienas iš pagrindinių duomenų analizės aspektų yra duomenų vidurkio, medianos ir režimo apskaičiavimas. Šios trys priemonės atspindi pagrindines tendencijas ir yra naudingos nustatant duomenų tendencijas ir modelius. Šiame straipsnyje išnagrinėsime vidurkio, medianos ir režimo sąvokas bei kaip jas apskaičiuoti naudojant Python. Taip pat aptarsime įvairias bibliotekas ir funkcijas, susijusias su panašių problemų sprendimu.

**Vidurkis** yra vidutinė duomenų rinkinio vertė, apskaičiuojama reikšmių sumą padalijus iš duomenų rinkinio reikšmių skaičiaus. **Mediana** yra vidutinė duomenų rinkinio reikšmė, kai jis rūšiuojamas didėjančia arba mažėjančia tvarka. Jei duomenų rinkinyje yra nelyginis reikšmių skaičius, mediana yra vertė, kuri yra tiksliai viduryje, o lyginio skaičiaus verčių mediana yra dviejų vidurinių verčių vidurkis. **Režimas** nurodo reikšmę (-es), kurios duomenų rinkinyje pasitaiko dažniausiai.

Norėdami apskaičiuoti šiuos matmenis, parašysime Python programą, kuri kaip įvestį paima skaičių sąrašą ir grąžina vidurkį, medianą ir režimą. Norėdami įgyvendinti šį sprendimą, vadovaukitės nuosekliu metodu.

# Step 1: Define a function to calculate the mean
def calculate_mean(numbers):
    return sum(numbers) / len(numbers)

# Step 2: Define a function to calculate the median
def calculate_median(numbers):
    sorted_numbers = sorted(numbers)
    length = len(numbers)
    mid_index = length // 2

    if length % 2 == 0:
        median = (sorted_numbers[mid_index - 1] + sorted_numbers[mid_index]) / 2
    else:
        median = sorted_numbers[mid_index]

    return median

# Step 3: Define a function to calculate the mode
def calculate_mode(numbers):
    from collections import Counter
    count = Counter(numbers)
    mode = count.most_common(1)[0][0]
    return mode

# Step 4: Implement the main function
def main():
    numbers = [int(x) for x in input("Enter numbers separated by spaces: ").split()]
    mean = calculate_mean(numbers)
    median = calculate_median(numbers)
    mode = calculate_mode(numbers)

    print("Mean:", mean)
    print("Median:", median)
    print("Mode:", mode)

if __name__ == "__main__":
    main()

Aukščiau pateiktas kodas susideda iš keturių žingsnių. Pirmiausia apibrėžiame funkciją, skirtą skaičių sąrašo vidurkiui apskaičiuoti. Antrame žingsnyje apibrėžiame kitą funkciją medianai apskaičiuoti. Ši funkcija surūšiuoja įvesties sąrašą ir suranda vidurinę reikšmę pagal sąrašo ilgį. Trečiame žingsnyje sukuriame funkciją, skirtą apskaičiuoti režimą, naudodami skaitiklio klasę iš kolekcijų modulio. Paskutiniame etape apibrėžiama pagrindinė funkcija, kuri paima vartotojo įvestį, iškviečia anksčiau apibrėžtas funkcijas ir išveda įvesties duomenų vidurkį, medianą ir režimą.

Python bibliotekos statistikai ir duomenų analizei

Python siūlo kelios bibliotekos kurie padeda atlikti statistinę analizę ir manipuliuoti duomenimis. Kai kurios populiarios bibliotekos apima:

  • Nešvankus - Galinga biblioteka skaitiniams skaičiavimams, masyvų manipuliavimui ir tiesinei algebrai.
  • Pandas – Lanksti biblioteka, teikianti duomenų apdorojimo ir analizės galimybes naudojant DataFrame struktūras.
  • SciPy – Biblioteka, susijusi su moksliniu skaičiavimu, įskaitant optimizavimą, integravimą, interpoliavimą ir daug daugiau.

Numpy ir Pandas naudojimas skaičiuojant vidurkį, medianą ir režimą

Be pagrindinio Python diegimo, galime naudoti Numpy ir Pandas bibliotekas, kad efektyviai apskaičiuotume vidurkį, medianą ir režimą.

Toliau pateikiamas pavyzdys, kaip naudoti „Numpy“ ir „Pandas“, kad būtų galima apskaičiuoti šias pagrindines duomenų rinkinio tendencijas:

import numpy as np
import pandas as pd

data = [4, 2, 7, 3, 9, 1, 6, 5, 8]

# Using Numpy
mean_numpy = np.mean(data)
median_numpy = np.median(data)

# Using Pandas
data_series = pd.Series(data)
mode_pandas = data_series.mode().tolist()

print("Mean (Numpy):", mean_numpy)
print("Median (Numpy):", median_numpy)
print("Mode (Pandas):", mode_pandas)

Anksčiau pateiktame pavyzdyje mes naudojame „Numpy“ funkcijas „mean()“ ir „median()“, kad apskaičiuotume atitinkamai vidurkį ir medianą. Režimui konvertuojame duomenis į Pandas seriją ir naudojame funkciją „mode()“, kuri pateikia režimų sąrašą.

Šiame straipsnyje išsamiai suprantamos vidurkio, medianos ir režimo sąvokos ir kaip jas apskaičiuoti naudojant pagrindines Python ir populiariąsias Python bibliotekas. Naudodamiesi šiais metodais, duomenų analitikai gali efektyviai analizuoti ir interpretuoti duomenų rinkinius, kad padarytų prasmingas išvadas ir nustatytų duomenų tendencijas.

Susijusios naujienos:

Palikite komentarą