Skip to content

Data Mining

Pendahuluan

Ada baiknya untuk sedikit mengulas materi aljabar linear, kalkulus, dan statistika Anda sebelum memulai kuliah ini. Silakan lihat crib sheet yang disediakan oleh Iain Murray. Untuk pemahaman lebih lanjut, Anda juga bisa melihat materi probabilitas untuk ilmu komputer yang sangat menarik di kuliah Stanford CS109: Probability for Computer Scientists.

Referensi

Kuliah ini banyak mengadaptasi materi dari Harvard CS109: Data Science.

Karena kuliah ini akan menggunakan Python sebagai bahasa pengantarnya, silakan cek tutorial singkat untuk Python dan Numpy. Anda juga akan menggunakan Jupyter notebook ke depannya. Silakan lihat petunjuk instalasinya di sini.

Anda dapat membuat clone dari repositori mata kuliah ini di sini.

Konsep Data Mining

Salindia minggu ke-1: Pendahuluan

Apa yang menjadi hubungan antara data mining dengan big data? Apa saja yang menjadi bagian dari data mining? Pertanyaan seperti ini mungkin sering muncul dalam kehidupan kita sehari-hari. Kuliah ini membahas betapa dekatnya data dengan kehidupan kita sehari-hari dan bagaimana proses pencarian pola dalam data tersebut dapat menjadi hal yang sangat menyenangkan untuk dilakukan.

Salindia minggu ke-2: Tipe dan Jenis Data

Apakah ada hubungannya antara kebiasaan menambahkan kecap dan kacang pada preferensi untuk mengaduk bubur ayam? Lalu, bagaimana gambar dapat direpresentasikan sebagai data yang dapat diolah oleh algoritma machine learning? Materi di minggu ini membahas tipe dan jenis data serta bagaimana merepresentasikannya. Kasus-kasus seperti imbalanced dataset juga akan menjadi poin penting dari kuliah ini.

Eksplorasi Data

Salindia minggu ke-3: Jarak Antardata

Rumus Minkowski distance saat r (atau dalam rumus di bawah ini p) mendekati tak hingga adalah selisih antara dua titik terjauh dalam bidang cartesian. Perhitungan jarak ini juga dikenal dengan nama Chebyshev distance. Dengan kata lain, rumusnya menjadi:

Chebyshev distance

Intuisi yang lebih baik untuk Mahalanobis distance bisa dibaca di sini. Penjelasan tersebut memberikan gambaran bahwa Mahalanobis distance bekerja seperti Euclidean distance, tetapi sumbu-sumbunya disusun berdasarkan sebaran dari datanya. Kita akan mencari arah sumbu baru beserta panjangnya. Dalam kuliah reduksi dimensi nanti, kita akan melihat hubungan Mahalanobis distance dengan Principal Component Analysis.

Salindia minggu ke-4: Scraping

Terkadang, kita perlu untuk mengambil sendiri data dari laman web. Beberapa web yang tidak menyediakan API mengharuskan kita untuk membuka sendiri laman tersebut lalu mengekstraksi informasinya satu per satu. Dengan melakukan scraping, kita bisa mengotomasi proses tersebut. Python mempunyai pustaka untuk melakukan hal tersebut dengan cukup mudah: Requests dan Beautiful Soup. Namun, ingat bahwa scraping sejatinya sering berada di posisi abu-abu - antara boleh atau tidak. Jadi, be responsible!

Tugas 1

Deskripsi Tugas 1

Dalam tugas ini, Anda diminta untuk melakukan scraping dan membuat tabel dari hasilnya. Tugas ini dibuat dalam satu file Jupyter notebook dan diberi nama tugas1_NIM.ipynb. Catatan: Tabel yang dimaksud dalam soal adalah pandas.DataFrame.

Tenggat

Jumat, 11 Oktober 2019, pukul 23.55 WIB

Visualisasi Data dan Storytelling

Salindia minggu ke-5: Visualisasi

Praktikum 1: Eksplorasi dan Visualisasi

Visualisasikan data Anda! Visualisasi data dapat membantu dalam memahami tren dan pola-pola menarik dari data Anda. Anda mungkin perlu melihat salindia ini untuk membantu merancang tabel dan grafik dengan lebih baik. Materi kali ini juga dilengkapi dengan praktikum yang diharapkan dapat memberikan gambaran tentang penggunaan konsep-konsep yang disampaikan di minggu ini.

Salindia minggu ke-6: Storytelling with Data

Meski analisis yang Anda lakukan sudah sangat mendalam, audiens bisa jadi menganggap itu tidak penting kalau Anda tidak bisa menyusun ceritanya dengan baik. Pertemuan minggu ini membahas tentang poin-poin yang perlu diperhatikan dalam bercerita dengan data. Akan ada banyak video yang dapat disaksikan dalam salindia minggu ini.