Halo semuanya! Pada postingan blog kali ini, kita akan membahas tentang bagaimana cara mempersiapkan data dan melakukan visualisasi data dengan menggunakan Google Colab. Google Colab adalah platform yang bagus untuk eksplorasi data dan pembuatan visualisasi karena menyediakan akses ke perangkat keras yang kuat dan berbagai pustaka yang berguna. Mari kita mulai!
Mempersiapkan Data
Data preparation adalah langkah pertama dalam analisis data.
Ini mencakup pembersihan data, transformasi data, dan penanganan data yang
hilang atau tidak akurat. Berikut adalah langkah-langkah umum dalam persiapan
data:
Load Data: Kita akan mulai dengan memuat data dari sumber
yang berbeda. Google Colab memungkinkan kita untuk mengakses data dari Google
Drive, lokal, atau URL.
contohnya :
from google.colab import drive
drive.mount('/content/drive')
df_transkip = pd.read_excel('/content/drive/MyDrive/SEMESTER 6/DATA MINING/df_transkip_nilai.xlsx')
Eksplorasi Data: Mengeksplorasi data adalah langkah penting
untuk memahami struktur dan informasi yang terkandung di dalamnya.
contohnya :
print(df_transkip.head) # Menampilkan 5 baris pertama
print(df_transkip.info()) # Menampilkan informasi tentang dataset
Pembersihan Data: Pembersihan data melibatkan penanganan
nilai yang hilang, duplikasi, dan kesalahan dalam data.
contohnya :
# Cek Data Missing
missing_values = df_transkip.isnull().sum()
print("Jumlah nilai yang hilang di setiap kolom:")
print(missing_values)
# Pembersihan data
df_transkip.dropna(inplace=True)
Transformasi Data: Transformasi data termasuk normalisasi,
encoding kategori, dan pembagian data.
contohnya :
df = pd.DataFrame(df_transkip)
# Filter data untuk mata kuliah "Data Mining"
df_data_mining = df[df['nama_mk'].str.lower() == 'data mining']
# Grupkan data berdasarkan 'nim' dan 'semester', lalu hitung jumlah nilai_total
grouped_data = df_data_mining.groupby(['nim', 'semester']).agg({'nilai_total': 'sum'}).reset_index()
# Buat pivot table dengan nim sebagai indeks dan semester sebagai kolom
pivot_table = grouped_data.pivot_table(index='nim', columns='semester', values='nilai_total', fill_value=0)
# Ubah nama kolom menjadi sesuai dengan format yang diinginkan (semseter 1, semseter 2, semseter 3, semseter 4, semseter 5)
pivot_table.columns = [f"semester {col}" for col in pivot_table.columns]
# Cetak hasil pivot table
print(pivot_table)
Gambar: Contoh Tranformasi Nilai Matakuliah Data Mining
Visualisasi Data
Visualisasi data membantu kita memahami data dengan cara yang lebih intuitif dan visual. Google Colab menawarkan berbagai pustaka visualisasi seperti Matplotlib, Seaborn, dan Plotly.
contohnya
No comments: