Rangkuman BAB 2 Aigle Shaquille Wibowo 8D/4

 


BAB 2: PENGELOLAHAN DATA AWAL (Aigle Shaquille Wibowo 8D/4)

Pendahuluan

Pengelolahan data awal adalah tahapan penting dalam siklus analisis data. Sebelum data dapat digunakan untuk membuat keputusan, data tersebut harus melalui serangkaian proses yang memastikan bahwa informasi yang dihasilkan akurat, relevan, dan siap digunakan. Tahapan ini mencakup mulai dari pengumpulan data, pengimporan data ke sistem, pengorganisasian, pembersihan (data cleansing), hingga pengolahan data menjadi informasi yang dapat dipakai untuk pengambilan keputusan.

Data mentah yang diperoleh dari berbagai sumber biasanya masih dalam bentuk yang berantakan, tidak terstruktur, atau mengandung kesalahan. Misalnya, data siswa yang diambil dari formulir pendaftaran mungkin memiliki kolom yang kosong, penulisan nama yang tidak konsisten, atau format tanggal yang berbeda-beda. Jika data tersebut langsung digunakan tanpa pengolahan awal, hasil analisis bisa menyesatkan.

Proses pengelolahan data awal memastikan bahwa semua permasalahan tersebut diatasi sebelum data masuk ke tahap analisis lebih lanjut. Dalam bab ini, kita akan membahas delapan poin utama:

  1. Analisis Data
  2. Pengelolahan Data Awal
  3. Impor Data
  4. Organisir Data
  5. Data Cleansing
  6. Pengelolahan Data untuk Keputusan
  7. Identifikasi Data
  8. Analisis dan Keputusan Data

Setiap bagian akan dijelaskan secara detail, disertai dengan manfaat, langkah-langkah, tantangan, dan contoh nyata dari berbagai bidang.


1. Analisis Data

Pengertian

Analisis data adalah proses memeriksa, mengubah, dan memodelkan data untuk menemukan informasi yang berguna, menarik kesimpulan, dan mendukung pengambilan keputusan. Pada tahap awal pengelolahan data, analisis digunakan untuk memahami kondisi data mentah, mengidentifikasi kekurangan, serta menentukan langkah pengolahan yang diperlukan.

Tujuan Analisis Awal

  • Mengetahui kualitas data: apakah data lengkap, konsisten, dan valid.
  • Mengidentifikasi variabel penting yang dibutuhkan untuk analisis.
  • Menentukan metode pengolahan yang tepat.
  • Memahami pola awal yang ada dalam data.

Tahapan Analisis Awal

  1. Exploratory Data Analysis (EDA)
    Menggunakan teknik statistik sederhana atau visualisasi untuk memahami struktur data.
  2. Pemeriksaan distribusi data
    Mengetahui apakah data berdistribusi normal atau tidak, sehingga mempengaruhi metode analisis yang digunakan.
  3. Identifikasi outlier
    Mendeteksi data yang terlalu ekstrem sehingga bisa mempengaruhi hasil.

Contoh Kasus

Contoh 1:
Sebuah sekolah mengumpulkan nilai ujian matematika seluruh siswa kelas 8. Analisis awal menunjukkan bahwa beberapa siswa memiliki nilai "0". Setelah ditelusuri, ternyata angka tersebut bukan nilai ujian, melainkan tanda bahwa siswa tersebut tidak hadir. Dari sini, data "0" harus diganti dengan keterangan "tidak mengikuti ujian" agar tidak mempengaruhi perhitungan rata-rata.

Contoh 2:
Perusahaan e-commerce menganalisis data transaksi awal dan menemukan bahwa banyak transaksi memiliki tanggal 01/01/1900. Setelah diselidiki, ternyata ini adalah nilai default yang muncul saat data tanggal kosong di sistem lama.


2. Pengelolahan Data Awal

Pengertian

Pengelolahan data awal mencakup semua langkah awal yang dilakukan setelah data dikumpulkan. Tahap ini menjadi fondasi bagi seluruh proses analisis, karena kualitas pengelolahan awal sangat mempengaruhi akurasi hasil akhir.

Langkah-Langkah

  1. Pemeriksaan kelengkapan: memastikan semua variabel yang dibutuhkan ada.
  2. Pemeriksaan format: memastikan format sesuai (misalnya tanggal, angka, teks).
  3. Penggabungan sumber data: jika data berasal dari beberapa sumber, dilakukan merging.
  4. Pembersihan kesalahan dasar: seperti salah ketik atau data duplikat.

Manfaat

  • Menghindari kesalahan analisis.
  • Menghemat waktu di tahap selanjutnya.
  • Memastikan data siap diproses lebih lanjut.

Contoh Kasus

Contoh 1:
Data kehadiran karyawan yang dikumpulkan dari mesin absensi perlu diolah terlebih dahulu agar format tanggal sama, jam kerja dihitung otomatis, dan ketidakhadiran terdeteksi.

Contoh 2:
Data survei pelanggan yang dikumpulkan melalui formulir online dan kertas perlu digabungkan, sehingga semua responden berada dalam satu tabel.


3. Impor Data

Pengertian

Impor data adalah proses memindahkan data dari sumber eksternal ke dalam sistem pengolahan data, seperti spreadsheet, database, atau software analisis.

Tahapan Impor

  1. Menentukan format file: CSV, Excel, JSON, atau lainnya.
  2. Menentukan sumber data: file lokal, server, API, atau cloud.
  3. Melakukan konversi jika perlu: misalnya dari format TXT ke CSV.
  4. Memastikan integritas data: memastikan tidak ada data yang hilang selama proses impor.

Tantangan

  • Perbedaan format antar sumber.
  • Data yang rusak saat proses transfer.
  • Perbedaan encoding teks.

Contoh Kasus

Contoh 1:
Guru mengimpor nilai siswa dari Google Form (format CSV) ke Microsoft Excel untuk diolah lebih lanjut.

Contoh 2:
Analis keuangan mengimpor data harga saham dari API Yahoo Finance langsung ke Python untuk analisis.


4. Organisir Data

Pengertian

Organisir data adalah proses menyusun data agar lebih mudah diakses, dianalisis, dan dipahami. Setelah data diimpor, data mentah biasanya masih belum rapi—bisa berantakan, berisi kolom yang tidak perlu, atau tidak berurutan.

Langkah-Langkah Mengorganisir Data

  1. Penataan kolom
    Susun kolom berdasarkan urutan logis atau prioritas analisis. Misalnya, urutkan kolom berdasarkan tanggal, nama, kategori, dan nilai.
  2. Penamaan kolom yang konsisten
    Gunakan nama kolom yang jelas dan mudah dipahami, misalnya gunakan tanggal_transaksi bukan hanya tgl yang ambigu.
  3. Pengelompokan data
    Jika data sangat besar, bisa dikelompokkan berdasarkan kategori tertentu, misalnya data penjualan berdasarkan wilayah.
  4. Pembuatan indeks atau kunci utama
    Memberikan label unik pada setiap baris, seperti id_transaksi agar data mudah diakses dan dihubungkan dengan tabel lain.
  5. Normalisasi dan denormalisasi data
    • Normalisasi: Memecah data ke tabel-tabel yang lebih kecil agar menghindari duplikasi (contoh: tabel pelanggan, tabel produk, tabel transaksi).
    • Denormalisasi: Menggabungkan tabel agar memudahkan analisis (contoh: menggabungkan tabel transaksi dan produk ke satu tabel ringkasan).

Manfaat

  • Mempercepat akses data dan proses analisis
  • Memudahkan pemahaman data oleh semua pihak
  • Mengurangi risiko kesalahan akibat data ganda atau tidak terstruktur

Contoh Kasus

Contoh 1:
Data transaksi toko online yang awalnya ada dalam 3 file terpisah (pelanggan.csv, produk.csv, dan transaksi.csv) digabung menjadi satu tabel ringkasan transaksi lengkap untuk analisis penjualan.

Contoh 2:
Data survei yang terdiri dari 100 kolom dikategorikan menjadi beberapa grup seperti data demografi, data perilaku, dan data preferensi agar analisis menjadi terfokus.


5. Data Cleansing (Pembersihan Data)

Pengertian

Data cleansing adalah proses membersihkan data dari kesalahan, inkonsistensi, duplikasi, atau data yang hilang agar hasil analisis akurat dan dapat dipercaya.

Langkah-Langkah Utama

5.1 Menangani Missing Values (Nilai Hilang)

  • Hapus baris/kolom: Jika data hilang terlalu banyak dan tidak bisa diimputasi, baris atau kolom tersebut dihapus.
  • Imputasi sederhana: Mengganti missing dengan nilai rata-rata, median, modus, atau nilai tetap.
  • Imputasi model: Menggunakan teknik statistik atau machine learning untuk menebak nilai hilang berdasarkan variabel lain.

5.2 Menangani Data Duplikat

  • Menghapus baris data yang persis sama atau berdasarkan kolom tertentu (misal duplikat nomor ID).

5.3 Menstandarisasi Format

  • Contoh: Menyatukan format tanggal menjadi YYYY-MM-DD, atau memastikan penulisan nama kota konsisten (Jakarta bukan jkt atau JKT).

5.4 Mengoreksi Kesalahan Penulisan

  • Memperbaiki typo pada data teks yang dapat menyebabkan kesalahan pengelompokan.

5.5 Menangani Outlier

  • Identifikasi dan evaluasi data ekstrem yang mungkin kesalahan input atau memang data valid tapi perlu perlakuan khusus.

Contoh Kasus

Contoh 1 (Missing Values):
Data nilai siswa ada yang kosong pada kolom nilai_ipa. Solusinya dengan imputasi menggunakan nilai rata-rata kelas.

Contoh 2 (Duplikat):
Data pelanggan yang terdaftar dua kali akibat kesalahan input dihapus menggunakan fungsi drop_duplicates().

Contoh 3 (Format dan Penulisan):
Tanggal transaksi yang tercatat dengan format campuran (DD/MM/YYYY dan MM-DD-YYYY) diseragamkan menjadi satu format.


6. Pengelolahan Data untuk Keputusan

Pengertian

Tahap ini adalah mengolah data yang sudah bersih dan terorganisir menjadi bentuk yang dapat digunakan untuk mendukung pengambilan keputusan.

Metode yang Digunakan

  • Statistik Deskriptif: Rata-rata, median, modus, standar deviasi untuk memahami data.
  • Visualisasi: Grafik batang, garis, pie chart, scatter plot untuk memudahkan interpretasi data.
  • Ringkasan dan Laporan: Membuat laporan yang jelas dan informatif.

Manfaat

  • Membantu manajer atau pengambil keputusan memahami kondisi bisnis secara cepat.
  • Memberikan insight untuk strategi yang lebih baik.

Contoh Kasus

Contoh 1:
Restoran menggunakan data penjualan menu untuk menentukan menu yang paling laku dan melakukan promosi pada menu tersebut.

Contoh 2:
Pemerintah kota menggunakan data tingkat kemacetan dari sensor lalu lintas untuk merencanakan pembukaan jalur baru atau pengaturan lampu lalu lintas.


7. Identifikasi Data

Pengertian

Proses mengenali dan memahami karakteristik data sebelum pengolahan lebih lanjut.

Aspek yang Diidentifikasi

  • Jenis data (numerik, kategorikal, teks, waktu)
  • Sumber data
  • Skala dan volume data
  • Potensi masalah dan kebutuhan khusus (privasi, missing value)

Manfaat

  • Menentukan metode pembersihan dan analisis yang tepat
  • Menyusun strategi pengolahan data sesuai kebutuhan

Contoh Kasus

Contoh 1:
Dalam data kesehatan, mengenali bahwa data berisi informasi sensitif pasien membuat tim analisis harus mengamankan data dengan enkripsi.

Contoh 2:
Dalam survei kepuasan pelanggan, memahami bahwa data berupa teks komentar memerlukan teknik pengolahan bahasa alami (NLP).


8. Analisis dan Keputusan Data

Pengertian

Tahap akhir di mana data yang sudah diproses dianalisis untuk mendapatkan insight, kemudian hasilnya digunakan untuk mengambil keputusan.

Langkah-Langkah

  1. Melakukan analisis lanjutan sesuai tujuan.
  2. Membuat visualisasi untuk komunikasi hasil.
  3. Menyusun rekomendasi berdasarkan hasil analisis.
  4. Mengimplementasikan keputusan dan monitoring dampaknya.

Contoh Kasus

Contoh 1:
Perusahaan menggunakan analisis data penjualan untuk memutuskan produk mana yang akan diproduksi lebih banyak bulan depan.

Contoh 2:
Pemerintah kota mengimplementasikan rekayasa lalu lintas berdasarkan hasil analisis data sensor dan memonitor apakah kemacetan berkurang.


Peta Konsep Pengelolahan Data Awal

nginx

CopyEdit

Pengelolahan Data Awal

Analisis Data

Pengelolahan Data Awal

Impor Data

Organisir Data

Data Cleansing

Pengelolahan Data untuk Keputusan

Identifikasi Data

└─ Analisis dan Keputusan Data

 

aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku a kuaku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku aku

 

Comments

Post a Comment

Popular posts from this blog

BAB 1 Jaringan Komputer dan Internet

Koding dan Kecerdasan Buatan: Peluang Teknologi Masa Depan untuk Siswa SMP