Cara Melakukan Review Dataset untuk Toy Store E-commerce Power BI Dashboard

Cara Melakukan Review Dataset untuk Toy Store E-commerce Power BI Dashboard

Dalam membangun sebuah dashboard e-commerce, langkah pertama yang sering diabaikan adalah review dataset. Padahal, kualitas dan pemahaman terhadap dataset akan sangat menentukan akurasi insight yang dihasilkan. Artikel ini akan membahas secara mendalam mengapa review dataset penting, bagaimana ukuran dataset memengaruhi manipulasi data, serta bagaimana memanfaatkan PostgreSQL dan Power BI untuk mengolah dataset besar seperti Toy Store E-commerce Database dari Maven Analytics.

Kenapa Penting Melakukan Review Dataset?

Review dataset adalah proses meninjau, memahami, dan mengevaluasi data sebelum digunakan dalam analisis. Ada beberapa alasan utama:

  • Validasi Kualitas Data: Memastikan data bebas dari duplikasi, missing values, atau format yang tidak konsisten.
  • Pemahaman Struktur: Mengetahui relasi antar tabel, variabel, dan definisi parameter agar analisis tidak salah arah.
  • Efisiensi Analisis: Dataset yang sudah direview akan lebih mudah dimanipulasi, sehingga mempercepat proses pembuatan dashboard.
  • Mengurangi Bias: Analisis manual tanpa review sering menimbulkan bias operasional. Dengan review, kita bisa memastikan data benar-benar representatif.

Pengaruh Ukuran Dataset terhadap Proses Manipulasi Data

Ukuran dataset sangat memengaruhi performa analisis.

  • Dataset Kecil (≤100 ribu baris): Bisa ditangani dengan Excel atau Power BI langsung. Cocok untuk UMKM dengan data sederhana.
  • Dataset Menengah (100 ribu–1 juta baris): Membutuhkan database seperti PostgreSQL untuk efisiensi query.
  • Dataset Besar (≥1 juta baris): Harus menggunakan sistem database yang kuat, optimasi query, dan teknik ETL agar tidak menghambat performa dashboard.

Contoh nyata: file website_sessions memiliki lebih dari 400 ribu baris. Jika langsung dibuka di Excel, performa akan menurun drastis. PostgreSQL menjadi solusi untuk mengekstrak dan merapikan data sebelum diimpor ke Power BI.

Dataset Toy Store E-commerce dari Maven Analytics

Dataset yang akan digunakan berasal dari link berikut:

https://mavenanalytics.io/data-playground/toy-store-e-commerce-database

 

Dataset ini terdiri dari beberapa file utama:

  1. Website_pageviews
  • Lebih dari 1 juta baris.
  • Berisi data interaksi pengguna dengan halaman website.
  • Satu session bisa memiliki banyak pageviews.
  • Penting untuk analisis perilaku pengguna dan identifikasi halaman populer.
  1. Website_sessions
  • Lebih dari 400 ribu baris.
  • Mencatat setiap sesi pengguna dengan timestamp, user_id, device_type, dan utm_campaign.
  • Digunakan untuk analisis traffic, repeat session, dan efektivitas kampanye marketing.
  1. Order
  • Data pemesanan dengan unique order_id.
  • Memuat informasi user_id, session_id, timestamp, dan jumlah pesanan.
  • Penting untuk analisis volume order dan tren penjualan.
  1. Orders_items
  • Detail setiap item dalam order.
  • Memuat harga dan biaya COGS (Cost of Goods Sold).
  • Digunakan untuk menghitung revenue dan gross profit.
  1. Order_items_refunds
  • Data permintaan refund dari customer.
  • Penting untuk analisis kualitas produk dan kepuasan pelanggan.
  1. Products
  • Informasi produk yang dijual.
  • Digunakan untuk analisis kategori produk terlaris.
  1. Data_dictionary
  • Deskripsi setiap variabel dalam dataset.
  • Membantu memahami definisi parameter agar tidak salah interpretasi.

Proses Review Dataset

Langkah-langkah review dataset meliputi:

  1. Memahami Data Dictionary: Pastikan setiap variabel jelas definisinya.
  2. Meninjau Struktur Relasi: Identifikasi primary key dan foreign key antar tabel.
  3. Menilai Kualitas Data: Cari missing values, duplikasi, dan format yang tidak konsisten.
  4. Menentukan KPI: Tentukan indikator utama yang akan dimonitor (conversion rate, revenue, gross margin).
  5. Membuat Skema Database: Rancang tabel di PostgreSQL agar data lebih terstruktur.

Dalam meninjau struktur relasi, penting untuk membedakan primary key dan foreign key. Primary Key adalah kolom (atau kombinasi kolom) yang secara unik mengidentifikasi setiap baris dalam sebuah tabel. Primary Key ini harus unik untuk setiap baris dan tidak boleh bernilai NULL, sehingga setiap baris dapat direferensikan secara jelas.

Berikutnya tentang Foreign Key yang merupakan suatu identifikasi yang merujuk ke Primary Key tabel lain. Sehingga nilainya bisa saja berulang karena beberapa baris dapat merujuk kepada primary key yang sama. Dan nilainya bisa NULL jika relasi bersifat opsional.

Perbandingan Primary Key vs Foreign Key

Aspek

Primary Key

Foreign Key

Keunikan

Harus unik untuk setiap baris

Bisa berulang di beberapa baris

Nilai NULL

Tidak diperbolehkan

Diperbolehkan (jika relasi opsional)

Lingkup

Berlaku dalam satu tabel

Menghubungkan dua atau lebih tabel

Tujuan

Mengidentifikasi baris secara unik

Menghubungkan data antar tabel

Contoh

website_sessions id pada tabel website_sessions

Website_sessions di tabel website_pageviews merujuk ke website session tertentu

Penggunaan PostgreSQL untuk Ekstraksi Data

Karena ukuran file website_sessions dan website_pageviews sangat besar, PostgreSQL digunakan untuk:

  • Data Cleaning: Menghapus duplikasi, memperbaiki format tanggal, dan menormalkan kategori produk.
  • Data Transformation: Menggabungkan tabel orders dengan order_items untuk menghitung revenue.
  • Data Reduction: Mengekstrak subset data agar lebih ringan saat diimpor ke Power BI.

PgAdmin sebagai GUI memudahkan query SQL tanpa harus menggunakan command line.

Perbedaan Format Data yang sering ditemui

  1. CSV (Comma-Separated Values)
  • Karakteristik: Data disimpan dalam bentuk teks dengan pemisah koma (atau delimiter lain seperti titik koma).
  • Kelebihan:
    • Ringan dan mudah dibaca oleh hampir semua software analisis (Power BI, PostgreSQL, Python, R).
    • Cocok untuk dataset besar karena tidak menyimpan formatting.
  • Kekurangan:
    • Tidak mendukung formula, grafik, atau formatting seperti Excel.
    • Jika delimiter tidak konsisten, bisa menimbulkan error parsing.
  1. Excel (.xlsx / .xls)
  • Karakteristik: Format spreadsheet dengan dukungan formula, grafik, dan formatting.
  • Kelebihan:
    • User-friendly, mudah digunakan untuk analisis sederhana.
    • Mendukung pivot table, conditional formatting, dan visualisasi dasar.
  • Kekurangan:
    • Tidak cocok untuk dataset sangat besar (lebih dari 1 juta baris).
    • Bisa lebih berat dibanding CSV.
  • Contoh Penggunaan: Cocok untuk UMKM atau analisis cepat sebelum data dipindahkan ke database.
  1. . TXT (Plain Text)
  • Karakteristik: File teks polos, bisa berisi data dengan delimiter tertentu (tab, koma, spasi).
  • Kelebihan:
    • Sangat ringan, mudah diproses oleh sistem database.
    • Fleksibel untuk menyimpan log atau data mentah.
  • Kekurangan:
    • Tidak ada struktur tabel bawaan.
    • Butuh parsing manual untuk dipakai dalam analisis.

Korelasi Antar Format Data

  1. CSV ↔ PostgreSQL: CSV paling sering digunakan untuk import ke database karena strukturnya sederhana.
  2. Excel ↔ Power BI: Excel mudah dihubungkan ke Power BI untuk analisis cepat, tetapi untuk dataset besar lebih baik diubah ke CSV/SQL.
  3. TXT ↔ Log Data: TXT sering digunakan untuk menyimpan log website atau transaksi, lalu diproses ke CSV/SQL sebelum dianalisis.

Insight Praktis untuk Dashboard

  • Jika dataset kecil (misalnya <100 ribu baris), Excel cukup untuk eksplorasi awal.
  • Jika dataset menengah hingga besar, gunakan CSV lalu import ke PostgreSQL untuk cleaning dan query.
  • Jika data berasal dari sistem log atau API, biasanya dalam format TXT atau JSON, lalu dikonversi ke CSV/SQL sebelum masuk ke Power BI.

Langkah-langkah Integrasi ke Power BI

Setelah data dibersihkan di PostgreSQL:

  1. Import ke Power BI: Hubungkan database PostgreSQL dengan Power BI.
  2. Data Modeling: Tentukan relasi antar tabel (orders ↔ order_items ↔ products).
  3. Visualisasi KPI: Buat grafik penjualan, tren traffic, conversion rate, dan gross margin.
  4. Deployment: Publikasikan ke Power BI Service agar tim bisa mengakses secara online.

Tantangan dalam Melakukan Review Dataset

  1. Integrasi Multi-Kanal

Masalah:

Data berasal dari berbagai sumber: website (sessions, pageviews), marketplace (Tokopedia, Shopee), dan POS offline. Formatnya bisa berbeda (CSV, Excel, JSON, TXT), sehingga sulit digabungkan.

Contoh:

  • Website sessions dalam CSV.
  • Marketplace export dalam Excel.
  • POS offline dalam TXT/log file.

Solusi:

  • Gunakan ETL (Extract-Transform-Load) tools atau SQL untuk menyatukan format.
  • Normalisasi variabel (misalnya customer_id harus konsisten di semua sumber).
  • Buat data warehouse di PostgreSQL agar semua data terpusat sebelum masuk ke Power BI.
  1. Kualitas Data

Masalah:

Dataset sering mengandung missing values, duplikasi, atau format tidak konsisten. Hal ini bisa menyebabkan insight yang salah.

Contoh:

  • order_id duplikat.
  • price kosong atau salah format (misalnya teks “Rp 100.000” bukan angka).
  • device_type tidak konsisten (kadang “mobile”, kadang “hp”).

Solusi:

  • Gunakan query SQL untuk cleaning:
    • DELETE untuk duplikasi.
    • COALESCE untuk mengganti missing values.
    • CASE WHEN untuk standarisasi kategori.
  • Terapkan data validation rules sebelum data diimpor ke Power BI.
  1. Kompleksitas Visualisasi

Masalah:

Dashboard bisa overload jika terlalu banyak KPI ditampilkan. Pengguna jadi bingung dan sulit fokus pada insight utama.

Contoh:

  • Menampilkan semua metrik sekaligus: traffic, conversion, revenue, refund, gross margin, AOV, dll.
  • Dashboard penuh grafik tanpa hierarki informasi.

Solusi:

  • Tentukan KPI utama (misalnya conversion rate, revenue, gross margin).
  • Gunakan prinsip layered dashboard:
    • Halaman utama → KPI inti.
    • Halaman detail → breakdown per kategori.
  • Terapkan visualisasi sederhana (bar chart, line chart) sebelum menambahkan grafik kompleks.
  1. Performa Sistem

Masalah:

Dataset besar (ratusan ribu baris) membuat Power BI lambat saat loading atau refresh.

Contoh:

  • File website_sessions dengan 400 ribu baris.
  • File website_pageviews lebih dari 1 juta baris.

Solusi:

  • Gunakan PostgreSQL preprocessing untuk mengurangi size data sebelum masuk ke Power BI.
  • Terapkan DirectQuery agar Power BI tidak menyimpan semua data di memori.
  • Gunakan aggregated tables (misalnya summary per bulan, bukan per timestamp atau per jam).
  • Pastikan perangkat memiliki RAM cukup (≥8 GB, ideal 16 GB).

Best Practices Review Dataset

  • Gunakan SQL untuk dataset besar.
  • Selalu mulai dengan data dictionary.
  • Fokus pada KPI utama.
  • Lakukan iterasi bertahap: mulai dari subset data, lalu kembangkan.
  • Pastikan keamanan data pelanggan.

Mengapa Keamanan Data Pelanggan Penting?

  • Data pribadi seperti nama, email, alamat, nomor telepon, bahkan riwayat pembelian bisa disalahgunakan jika bocor.
  • Risiko hukum: Di Indonesia, ada regulasi perlindungan data pribadi (UU PDP 2022) yang mewajibkan perusahaan menjaga data pelanggan.
  • Kepercayaan pelanggan: Kebocoran data bisa merusak reputasi toko dan menurunkan loyalitas pelanggan.

Tantangan Keamanan Data

  1. Akses Tidak Sah: Database bisa diakses oleh pihak yang tidak berwenang.
  2. Data Sharing Tanpa Proteksi: File CSV/Excel yang berisi data pelanggan sering dibagikan tanpa enkripsi.
  3. Integrasi Multi-Kanal: Data dari marketplace, website, dan POS bisa tersebar di banyak sistem, meningkatkan risiko kebocoran.
  4. Human Error: Kesalahan staf (misalnya salah kirim file) bisa menyebabkan data bocor.

Solusi praktis untuk memastikan keamanan data lebih baik:

  1. Kontrol Akses (Access Control):
    • Batasi siapa saja yang bisa mengakses database PostgreSQL.
    • Gunakan role-based access (misalnya admin, analyst, viewer).
  2. Enkripsi Data:
    • Simpan data sensitif (email, alamat) dalam bentuk terenkripsi.
    • Gunakan SSL/TLS untuk koneksi antara PostgreSQL dan Power BI.
  3. Masking Data:
    • Saat membuat dashboard, tampilkan data agregat (misalnya jumlah pelanggan) tanpa menampilkan detail pribadi.
    • Gunakan anonymization untuk data training atau demo.
  4. Audit & Logging:
    • Catat setiap aktivitas akses database.
    • Gunakan log untuk mendeteksi aktivitas mencurigakan.
  5. Backup & Recovery:
    • Simpan backup terenkripsi secara berkala.
    • Pastikan ada rencana recovery jika terjadi serangan atau kerusakan sistem.

Insight untuk Tampilan Dashboard

  • Jangan tampilkan data pribadi pelanggan di dashboard (misalnya nama lengkap atau email).
  • Fokus pada data analitik seperti jumlah order, kategori produk, conversion rate.
  • Jika perlu analisis customer segmentation, gunakan ID anonim atau hash, bukan data asli.

Kesimpulan

Review dataset adalah fondasi penting dalam membangun Toy Store E-commerce Dashboard. Dengan memahami struktur data, membersihkan dataset, dan menggunakan PostgreSQL untuk ekstraksi, kita bisa memastikan dashboard Power BI berjalan efisien dan menghasilkan insight yang akurat.

Tonton tutorial Toy Store E-commerce Dashboard di sini.

Download template dashboard gratis.

Berlangganan untuk mendapatkan insight gratis setiap minggu.

Author: Hibrah Lukman

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *