Rangkuman BAB 2 Aigle Shaquille Wibowo 8D/4
BAB 2: PENGELOLAHAN DATA AWAL (Aigle Shaquille Wibowo 8D/4)
Pendahuluan
Pengelolahan data awal adalah tahapan penting dalam siklus
analisis data. Sebelum data dapat digunakan untuk membuat keputusan, data
tersebut harus melalui serangkaian proses yang memastikan bahwa informasi yang
dihasilkan akurat, relevan, dan siap digunakan. Tahapan ini mencakup mulai dari
pengumpulan data, pengimporan data ke sistem, pengorganisasian, pembersihan
(data cleansing), hingga pengolahan data menjadi informasi yang dapat dipakai
untuk pengambilan keputusan.
Data mentah yang diperoleh dari berbagai sumber biasanya
masih dalam bentuk yang berantakan, tidak terstruktur, atau mengandung
kesalahan. Misalnya, data siswa yang diambil dari formulir pendaftaran mungkin
memiliki kolom yang kosong, penulisan nama yang tidak konsisten, atau format
tanggal yang berbeda-beda. Jika data tersebut langsung digunakan tanpa
pengolahan awal, hasil analisis bisa menyesatkan.
Proses pengelolahan data awal memastikan bahwa semua
permasalahan tersebut diatasi sebelum data masuk ke tahap analisis lebih
lanjut. Dalam bab ini, kita akan membahas delapan poin utama:
- Analisis
Data
- Pengelolahan
Data Awal
- Impor
Data
- Organisir
Data
- Data
Cleansing
- Pengelolahan
Data untuk Keputusan
- Identifikasi
Data
- Analisis
dan Keputusan Data
Setiap bagian akan dijelaskan secara detail, disertai dengan
manfaat, langkah-langkah, tantangan, dan contoh nyata dari berbagai bidang.
1. Analisis Data
Pengertian
Analisis data adalah proses memeriksa, mengubah, dan
memodelkan data untuk menemukan informasi yang berguna, menarik kesimpulan, dan
mendukung pengambilan keputusan. Pada tahap awal pengelolahan data, analisis
digunakan untuk memahami kondisi data mentah, mengidentifikasi kekurangan,
serta menentukan langkah pengolahan yang diperlukan.
Tujuan Analisis Awal
- Mengetahui
kualitas data: apakah data lengkap, konsisten, dan valid.
- Mengidentifikasi
variabel penting yang dibutuhkan untuk analisis.
- Menentukan
metode pengolahan yang tepat.
- Memahami
pola awal yang ada dalam data.
Tahapan Analisis Awal
- Exploratory
Data Analysis (EDA)
Menggunakan teknik statistik sederhana atau visualisasi untuk memahami struktur data. - Pemeriksaan
distribusi data
Mengetahui apakah data berdistribusi normal atau tidak, sehingga mempengaruhi metode analisis yang digunakan. - Identifikasi
outlier
Mendeteksi data yang terlalu ekstrem sehingga bisa mempengaruhi hasil.
Contoh Kasus
Contoh 1:
Sebuah sekolah mengumpulkan nilai ujian matematika seluruh siswa kelas 8.
Analisis awal menunjukkan bahwa beberapa siswa memiliki nilai "0".
Setelah ditelusuri, ternyata angka tersebut bukan nilai ujian, melainkan tanda
bahwa siswa tersebut tidak hadir. Dari sini, data "0" harus diganti
dengan keterangan "tidak mengikuti ujian" agar tidak mempengaruhi
perhitungan rata-rata.
Contoh 2:
Perusahaan e-commerce menganalisis data transaksi awal dan menemukan bahwa
banyak transaksi memiliki tanggal 01/01/1900. Setelah diselidiki, ternyata ini
adalah nilai default yang muncul saat data tanggal kosong di sistem lama.
2. Pengelolahan Data Awal
Pengertian
Pengelolahan data awal mencakup semua langkah awal yang
dilakukan setelah data dikumpulkan. Tahap ini menjadi fondasi bagi seluruh
proses analisis, karena kualitas pengelolahan awal sangat mempengaruhi akurasi
hasil akhir.
Langkah-Langkah
- Pemeriksaan
kelengkapan: memastikan semua variabel yang dibutuhkan ada.
- Pemeriksaan
format: memastikan format sesuai (misalnya tanggal, angka, teks).
- Penggabungan
sumber data: jika data berasal dari beberapa sumber, dilakukan
merging.
- Pembersihan
kesalahan dasar: seperti salah ketik atau data duplikat.
Manfaat
- Menghindari
kesalahan analisis.
- Menghemat
waktu di tahap selanjutnya.
- Memastikan
data siap diproses lebih lanjut.
Contoh Kasus
Contoh 1:
Data kehadiran karyawan yang dikumpulkan dari mesin absensi perlu diolah
terlebih dahulu agar format tanggal sama, jam kerja dihitung otomatis, dan
ketidakhadiran terdeteksi.
Contoh 2:
Data survei pelanggan yang dikumpulkan melalui formulir online dan kertas perlu
digabungkan, sehingga semua responden berada dalam satu tabel.
3. Impor Data
Pengertian
Impor data adalah proses memindahkan data dari sumber
eksternal ke dalam sistem pengolahan data, seperti spreadsheet, database, atau
software analisis.
Tahapan Impor
- Menentukan
format file: CSV, Excel, JSON, atau lainnya.
- Menentukan
sumber data: file lokal, server, API, atau cloud.
- Melakukan
konversi jika perlu: misalnya dari format TXT ke CSV.
- Memastikan
integritas data: memastikan tidak ada data yang hilang selama proses
impor.
Tantangan
- Perbedaan
format antar sumber.
- Data
yang rusak saat proses transfer.
- Perbedaan
encoding teks.
Contoh Kasus
Contoh 1:
Guru mengimpor nilai siswa dari Google Form (format CSV) ke Microsoft Excel
untuk diolah lebih lanjut.
Contoh 2:
Analis keuangan mengimpor data harga saham dari API Yahoo Finance langsung ke
Python untuk analisis.
4. Organisir Data
Pengertian
Organisir data adalah proses menyusun data agar lebih mudah
diakses, dianalisis, dan dipahami. Setelah data diimpor, data mentah biasanya
masih belum rapi—bisa berantakan, berisi kolom yang tidak perlu, atau tidak
berurutan.
Langkah-Langkah Mengorganisir Data
- Penataan
kolom
Susun kolom berdasarkan urutan logis atau prioritas analisis. Misalnya, urutkan kolom berdasarkan tanggal, nama, kategori, dan nilai. - Penamaan
kolom yang konsisten
Gunakan nama kolom yang jelas dan mudah dipahami, misalnya gunakan tanggal_transaksi bukan hanya tgl yang ambigu. - Pengelompokan
data
Jika data sangat besar, bisa dikelompokkan berdasarkan kategori tertentu, misalnya data penjualan berdasarkan wilayah. - Pembuatan
indeks atau kunci utama
Memberikan label unik pada setiap baris, seperti id_transaksi agar data mudah diakses dan dihubungkan dengan tabel lain. - Normalisasi
dan denormalisasi data
- Normalisasi:
Memecah data ke tabel-tabel yang lebih kecil agar menghindari duplikasi
(contoh: tabel pelanggan, tabel produk, tabel transaksi).
- Denormalisasi:
Menggabungkan tabel agar memudahkan analisis (contoh: menggabungkan tabel
transaksi dan produk ke satu tabel ringkasan).
Manfaat
- Mempercepat
akses data dan proses analisis
- Memudahkan
pemahaman data oleh semua pihak
- Mengurangi
risiko kesalahan akibat data ganda atau tidak terstruktur
Contoh Kasus
Contoh 1:
Data transaksi toko online yang awalnya ada dalam 3 file terpisah (pelanggan.csv,
produk.csv, dan transaksi.csv) digabung menjadi satu tabel ringkasan transaksi
lengkap untuk analisis penjualan.
Contoh 2:
Data survei yang terdiri dari 100 kolom dikategorikan menjadi beberapa grup
seperti data demografi, data perilaku, dan data preferensi agar analisis
menjadi terfokus.
5. Data Cleansing (Pembersihan Data)
Pengertian
Data cleansing adalah proses membersihkan data dari
kesalahan, inkonsistensi, duplikasi, atau data yang hilang agar hasil analisis
akurat dan dapat dipercaya.
Langkah-Langkah Utama
5.1 Menangani Missing Values (Nilai Hilang)
- Hapus
baris/kolom: Jika data hilang terlalu banyak dan tidak bisa
diimputasi, baris atau kolom tersebut dihapus.
- Imputasi
sederhana: Mengganti missing dengan nilai rata-rata, median, modus,
atau nilai tetap.
- Imputasi
model: Menggunakan teknik statistik atau machine learning untuk
menebak nilai hilang berdasarkan variabel lain.
5.2 Menangani Data Duplikat
- Menghapus
baris data yang persis sama atau berdasarkan kolom tertentu (misal
duplikat nomor ID).
5.3 Menstandarisasi Format
- Contoh:
Menyatukan format tanggal menjadi YYYY-MM-DD, atau memastikan penulisan
nama kota konsisten (Jakarta bukan jkt atau JKT).
5.4 Mengoreksi Kesalahan Penulisan
- Memperbaiki
typo pada data teks yang dapat menyebabkan kesalahan pengelompokan.
5.5 Menangani Outlier
- Identifikasi
dan evaluasi data ekstrem yang mungkin kesalahan input atau memang data
valid tapi perlu perlakuan khusus.
Contoh Kasus
Contoh 1 (Missing Values):
Data nilai siswa ada yang kosong pada kolom nilai_ipa. Solusinya dengan
imputasi menggunakan nilai rata-rata kelas.
Contoh 2 (Duplikat):
Data pelanggan yang terdaftar dua kali akibat kesalahan input dihapus
menggunakan fungsi drop_duplicates().
Contoh 3 (Format dan Penulisan):
Tanggal transaksi yang tercatat dengan format campuran (DD/MM/YYYY dan
MM-DD-YYYY) diseragamkan menjadi satu format.
6. Pengelolahan Data untuk Keputusan
Pengertian
Tahap ini adalah mengolah data yang sudah bersih dan
terorganisir menjadi bentuk yang dapat digunakan untuk mendukung pengambilan
keputusan.
Metode yang Digunakan
- Statistik
Deskriptif: Rata-rata, median, modus, standar deviasi untuk memahami
data.
- Visualisasi:
Grafik batang, garis, pie chart, scatter plot untuk memudahkan
interpretasi data.
- Ringkasan
dan Laporan: Membuat laporan yang jelas dan informatif.
Manfaat
- Membantu
manajer atau pengambil keputusan memahami kondisi bisnis secara cepat.
- Memberikan
insight untuk strategi yang lebih baik.
Contoh Kasus
Contoh 1:
Restoran menggunakan data penjualan menu untuk menentukan menu yang paling laku
dan melakukan promosi pada menu tersebut.
Contoh 2:
Pemerintah kota menggunakan data tingkat kemacetan dari sensor lalu lintas
untuk merencanakan pembukaan jalur baru atau pengaturan lampu lalu lintas.
7. Identifikasi Data
Pengertian
Proses mengenali dan memahami karakteristik data sebelum
pengolahan lebih lanjut.
Aspek yang Diidentifikasi
- Jenis
data (numerik, kategorikal, teks, waktu)
- Sumber
data
- Skala
dan volume data
- Potensi
masalah dan kebutuhan khusus (privasi, missing value)
Manfaat
- Menentukan
metode pembersihan dan analisis yang tepat
- Menyusun
strategi pengolahan data sesuai kebutuhan
Contoh Kasus
Contoh 1:
Dalam data kesehatan, mengenali bahwa data berisi informasi sensitif pasien
membuat tim analisis harus mengamankan data dengan enkripsi.
Contoh 2:
Dalam survei kepuasan pelanggan, memahami bahwa data berupa teks komentar
memerlukan teknik pengolahan bahasa alami (NLP).
8. Analisis dan Keputusan Data
Pengertian
Tahap akhir di mana data yang sudah diproses dianalisis
untuk mendapatkan insight, kemudian hasilnya digunakan untuk mengambil
keputusan.
Langkah-Langkah
- Melakukan
analisis lanjutan sesuai tujuan.
- Membuat
visualisasi untuk komunikasi hasil.
- Menyusun
rekomendasi berdasarkan hasil analisis.
- Mengimplementasikan
keputusan dan monitoring dampaknya.
Contoh Kasus
Contoh 1:
Perusahaan menggunakan analisis data penjualan untuk memutuskan produk mana
yang akan diproduksi lebih banyak bulan depan.
Contoh 2:
Pemerintah kota mengimplementasikan rekayasa lalu lintas berdasarkan hasil
analisis data sensor dan memonitor apakah kemacetan berkurang.
Peta Konsep Pengelolahan Data Awal
nginx
CopyEdit
Pengelolahan Data Awal
│
├─ Analisis Data
│
├─ Pengelolahan Data Awal
│
├─ Impor Data
│
├─ Organisir Data
│
├─ Data Cleansing
│
├─ Pengelolahan Data untuk Keputusan
│
├─ Identifikasi Data
│
└─ Analisis dan Keputusan Data
aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku a kuaku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku
Keren
ReplyDeletekeren wibowo
ReplyDeletehmmm
ReplyDeleteKERENNN
ReplyDeleteKEREN BGT
ReplyDeletemasyaallah
ReplyDeleteKEREN PEGI SHAQUILE
ReplyDeletemantap
ReplyDeletekeren egi
ReplyDeleteWihh gilaa keren banget
ReplyDeletekeren
ReplyDelete