recent posts

Pre-prosesing Data dalam Analisis Data

Pre-prosesing data adalah langkah penting dalam analisis data yang mencakup pembersihan, pengumpulan, transformasi, dan pengurangan data. Tahap ini membantu memastikan data yang digunakan dalam analisis bersih, terstruktur, dan relevan dengan tujuan analisis. Dalam postingan ini, kita akan menjelajahi tahap-tahap pre-prosesing data dan memberikan contoh kode di Google Colab.


Data Collection (Pengumpulan Data)

Data collection melibatkan pengumpulan data dari berbagai sumber, baik itu data eksternal (misalnya, data dari URL atau API) maupun data internal (misalnya, data dari database lokal). Berikut adalah contoh pengumpulan data dari URL di Google Colab:

Contoh Data Collection

df_mslulusan = pd.read_excel('//content/drive/MyDrive/SEMESTER 6/DATA MINING/df_ms_lulusan.xlsx')

 

Data Cleaning (Pembersihan Data)

Data cleaning melibatkan pengidentifikasian dan penanganan masalah dalam data, seperti nilai yang hilang, duplikasi, dan nilai yang tidak valid. Berikut adalah contoh data cleaning di Google Colab:

Contoh Data Cleaning

#Cek Data Missing

missing_values = df_mslulusan.isnull().sum()

print(missing_values)

data = df_mslulusan

# Mengatasi nilai yang hilang di kolom 'predikat'

data['predikat'].fillna('Tidak Diketahui', inplace=True)

# Mengatasi nilai yang hilang di kolom 'tanggal_lulus'

data['tanggal_lulus'].fillna('Tidak Lulus', inplace=True)

# Mengatasi nilai yang hilang di kolom 'status_pegawai'

data['status_pegawai'].fillna('Tidak Diketahui', inplace=True)


Data Transform (Transformasi Data)

Data transform melibatkan mengubah data menjadi format yang lebih sesuai atau menggabungkan/memisahkan kolom. Berikut adalah contoh data transform di Google Colab:

Contoh Data Transform

# Mengubah kolom 'jenis_kelamin' menjadi numerik (misalnya, 0 untuk perempuan, 1 untuk laki-laki)

data['jenis_kelamin'] = data['jenis_kelamin'].map({'Perempuan': 0, 'Laki-laki': 1})

# Mengubah kolom 'tanggal_lulus' menjadi tipe data datetime

data['tanggal_lulus'] = pd.to_datetime(data['tanggal_lulus'], errors='coerce')


Data Reduction (Pengurangan Data)

Data reduction adalah proses mengurangi ukuran data untuk mempercepat analisis dan meminimalkan kompleksitas. Ini dapat dilakukan dengan cara memilih subset data, menghapus kolom yang tidak relevan, atau menggunakan teknik kompresi. Berikut adalah contoh data reduction di Google Colab:

Contoh Data Reduction

# Menghapus kolom yang tidak relevan (misalnya, 'status_masuk')

data = data.drop('status_masuk', axis=1)

# Memilih subset data yang hanya mencakup kolom yang relevan

reduced_data = data[['nim', 'prodi', 'predikat', 'tanggal_lulus', 'jenis_kelamin', 'tahun_lahir']]

# Menampilkan data yang direduksi

print(reduced_data.head())

Kesimpulan

Pre-prosesing data adalah langkah penting dalam analisis data yang mencakup pembersihan data, pengumpulan data, transformasi data, dan pengurangan data. Contoh kode di atas menunjukkan bagaimana Anda dapat melakukan pre-prosesing data di Google Colab. Dengan data yang telah diproses dengan baik, Anda dapat melakukan analisis data dengan lebih efisien dan efektif. Selamat mencoba!

Pre-prosesing Data dalam Analisis Data  Pre-prosesing Data dalam Analisis Data Reviewed by Vikha Trivicika on May 04, 2024 Rating: 5

No comments:

Powered by Blogger.