Postingan

SUPERVISED LEARNING (PREDIKSI) DAN ALGORITMA-ALGORITMANYA

Supervised Learning (Prediksi) dan Algoritma-algoritmanya Supervised learning adalah salah satu teknik dalam machine learning di mana model dilatih menggunakan dataset yang sudah diberi label. Ini berarti setiap input dalam dataset memiliki output atau target yang telah diketahui. Tujuan dari supervised learning adalah untuk memprediksi output dari data baru yang belum pernah dilihat model sebelumnya, berdasarkan pola yang telah dipelajari dari data berlabel. Supervised learning sering digunakan dalam berbagai aplikasi seperti klasifikasi (misalnya, mengidentifikasi apakah email adalah spam atau tidak) dan regresi (misalnya, memprediksi harga rumah berdasarkan fitur-fitur tertentu).  Langkah-langkah dalam Supervised Learning 1. Pengumpulan Data : Mengumpulkan dataset yang relevan dan memiliki label yang jelas. 2. Pra-pemrosesan Data : Membersihkan dan mempersiapkan data, termasuk normalisasi dan penanganan data yang hilang. 3. Pemilihan Model : Memilih algoritma yang sesuai untuk masal

Quiz Data Mining Pertemuan 5

Gambar
1. Prepare Data Persiapan data, atau yang sering disebut sebagai "data preparation," adalah proses mempersiapkan data mentah menjadi format yang cocok dan relevan untuk analisis atau penggunaan selanjutnya. Ini melibatkan serangkaian langkah, seperti membersihkan data dari nilai yang hilang atau tidak valid, mengubah format data, menggabungkan data dari sumber yang berbeda, dan menormalisasi atau mengubah skala data agar konsisten. Tujuan utamanya adalah untuk memastikan bahwa data yang digunakan dalam analisis atau pemodelan berkualitas tinggi dan dapat diandalkan. Sebelum memulai pemrosesan data, langkah awalnya adalah mengimpor dataframe ke dalam platform pemrosesan data  seperti Google Colab. 1.   Integrasi dan Pembersihan Data. ·         Cari IPS setiap semester permahasiswa. ini bisa memudahkan untuk normalisasi data ·         Gabungkan IPS permahasiswa dengan dataset yang lainya ("ms_lulusan")

Data Cleaning

Gambar
  Data cleaning (pembersihan data) adalah proses mengidentifikasi, memperbaiki, dan menghilangkan kesalahan, inkonsistensi, atau anomali dalam dataset. Tujuannya adalah untuk memastikan bahwa data yang digunakan dalam analisis atau pemodelan adalah akurat, lengkap, dan konsisten. Tahap pembersihan data merupakan bagian penting dari proses data mining karena kualitas data yang baik menjadi dasar untuk hasil analisis yang akurat. Beberapa langkah umum dalam pembersihan data meliputi: 1. Identifikasi Kesalahan Data: Melakukan audit dan pengujian awal untuk mengidentifikasi kesalahan atau ketidaksesuaian dalam data, seperti nilai yang hilang, duplikat, atau inkonsistensi. 2. Penanganan Nilai yang Hilang: Mengatasi nilai yang hilang dengan mengisi nilai yang hilang, menghapus baris atau kolom yang memiliki banyak nilai yang hilang, atau menggunakan teknik imputasi seperti rata-rata atau median. 3. Deteksi dan Penanganan Duplikat: Mengidentifikasi dan menghapus baris yang duplikat atau redun

Data Collection

Gambar
Data collection (pengumpulan data) merupakan tahap awal dalam proses data mining di mana data yang diperlukan untuk analisis atau pemodelan dikumpulkan dari berbagai sumber. Tahap ini memainkan peran kunci dalam menentukan kualitas dan relevansi data yang akan digunakan dalam proses selanjutnya. Beberapa langkah yang umum dilakukan dalam tahap pengumpulan data dalam data mining meliputi: 1. Identifikasi Sumber Data: Mengidentifikasi sumber-sumber data potensial yang relevan dengan tujuan analisis atau pemodelan yang ingin dilakukan. Sumber data ini bisa berupa database internal perusahaan, data daring, data sensor, atau data publik dari berbagai platform. 2. Penentuan Jenis Data: Menentukan jenis data yang diperlukan untuk mencapai tujuan analisis atau pemodelan, seperti data numerik, kategorikal, temporal, spasial, atau teks. 3. Perencanaan Pengumpulan Data: Merencanakan strategi pengumpulan data yang mencakup parameter seperti waktu, metode pengumpulan, alat yang digunakan, dan ukura

Data Transform

Gambar
  Transformasi data adalah proses mengubah format, skala, atau representasi data dari bentuk awalnya menjadi bentuk yang lebih sesuai atau lebih mudah untuk diproses, dianalisis, atau dimodelkan. Tujuannya adalah untuk meningkatkan kualitas data, mengurangi kekacauan, atau menyesuaikan data agar cocok dengan kebutuhan analisis atau pemodelan yang akan dilakukan. Beberapa teknik transformasi data umum meliputi: 1. Normalisasi: Mengubah nilai-nilai dalam dataset ke skala yang relatif, sering kali antara 0 dan 1, untuk memastikan bahwa semua variabel memiliki pengaruh yang seimbang dalam analisis. 2. Standardisasi: Mengubah nilai-nilai dalam dataset sehingga memiliki mean 0 dan deviasi standar 1, sehingga mendukung perbandingan antar variabel yang memiliki unit yang berbeda. 3. Transformasi Logaritmik: Menggunakan logaritma alami atau logaritma lainnya untuk mengubah distribusi data yang tidak normal atau cenderung mendekati distribusi normal. 4. Transformasi Box-Cox: Menggunakan transfor

Data Reduction

Gambar
  Reduksi data adalah proses pengurangan jumlah data yang tidak relevan, redundan, atau tidak perlu dalam sebuah dataset. Tujuannya adalah untuk menghasilkan dataset yang lebih kecil tetapi tetap mempertahankan informasi yang signifikan dan relevan. Reduksi data dapat dilakukan dengan berbagai metode, termasuk: 1. Sampling: Memilih subset acak atau sistematis dari data asli untuk mewakili keseluruhan dataset. 2. Dimensionality Reduction: Mengurangi jumlah dimensi atau atribut dalam dataset dengan teknik seperti Analisis Komponen Utama (Principal Component Analysis/PCA) atau Dekomposisi Nilai Singular (Singular Value Decomposition/SVD). 3. Feature Selection: Memilih subset dari fitur atau atribut yang paling relevan dan berpengaruh terhadap analisis atau model yang ingin dibangun. 4. Aggregation: Menggabungkan data menjadi bentuk yang lebih ringkas, misalnya dengan menghitung rata-rata, total, atau nilai statistik lainnya dari subset data. 5. Clustering: Mengelompokkan data ke dalam kel

Data Visualization

Gambar
  Visualisasi data adalah representasi informasi dan data dalam format visual. Tujuan dari visualisasi data adalah menyajikan informasi yang kompleks secara jelas, mudah dimengerti, dan seringkali dalam bentuk grafis, sehingga memudahkan individu untuk menginterpretasi dan mendapatkan wawasan. Dengan menggunakan grafik, diagram, peta, dan elemen visual lainnya, visualisasi data meningkatkan kemampuan untuk mengidentifikasi pola, tren, dan korelasi dalam data. Aspek-aspek kunci dari visualisasi data melibatkan: Jenis Visualisasi: - Grafik Batang: Digunakan untuk membandingkan nilai di berbagai kategori atau kelompok data. - Grafik Garis: Menampilkan perubahan data seiring waktu atau urutan tertentu. - Grafik Pie: Menunjukkan proporsi atau persentase dari keseluruhan data dalam bentuk lingkaran. - Histogram: Menggambarkan distribusi frekuensi data menggunakan batang. - Peta: Memvisualisasikan data berdasarkan lokasi geografis. - Scatter Plot: Mengilustrasikan hubungan antara dua set data