SinauQ: Belajar Bias dan Variance dalam Machine Learning

Ketika model machine learning tidak akurat maka dapat menimbulkan kesalahan prediksi. kesalahan prediksi tersebut biasa disebut dengan Bias dan Variance. Dalam pembelajaran mesin, kesalahan ini akan muncul karena selalu ada perbedaan antara prediksi model dan prediksi sebenarnya.

Jadi, sebenarnya apa itu bias dan variance dalam machine learning?

https://docs.aws.amazon.com/id_id/machine-learning/latest/dg/images/mlconcepts_image5.png

Bias

Bias dikenal sebagai perbedaan antara nilai hasil prediksi oleh model Machine Learning dengan nilai yang sebenarnya. Bias terjadi pada model machine learning karena asumsi yang salah dalam proses pemodelannya.

Bias yang tinggi dikarenakan terlalu sederhana (oversimplified) dalam Pembangunan model ML. Faktor penyebab lain dikarenakan model ML tidak terlalu memahami training data, dengan kata lain model tidak dapat menangkap tren data dengan tepat. Model dengan bias yang tinggi juga tidak dapat bekerja dengan baik pada data baru. Oleh karena itu model dengan bias yang tinggi menghasilkan prediksi yang tidak akurat.

Algoritma dengan bias yang tinggi memiliki kinerja prediktif yang lebih rendah untuk data yang kompleks. Pada umumnya, algoritma linier memiliki bias tinggi yang membuatnya lebih cepat dipelajari dan lebih mudah dipahami tetapi kurang fleksibel.

Model dengan bias yang tinggi tidak akan mampu menangkap tren kumpulan data. Model ini dianggap sebagai model underfitting. Beberapa algoritma machine learning dengan bias yang tinggi di antaranya Linear Regression, Logistic Regression, dan Linear Discriminant Analysis. Sedangkan contoh algoritma machine learning dengan bias yang rendah di antaranya Decision Tree, K-Nearest Neighbors (KNN), dan Support Vector Machine (SVM).

Cara mengurangi Bias Tinggi:

Tingkatkan jumlah fitur.

Kurangi Regularisasi model.

Gunakan model yang lebih kompleks.

Variance

Varians adalah jumlah perubahan performa model prediktif pada subkumpulan data baru, atau varians adalah jumlah perbedaan hasil prediksi model terhadap data baru dibandingkan dengan data pelatihan. Variance yang tinggi terjadi ketika model bekerja terlalu baik pada data pelatihan namun tidak bekerja dengan baik pada data pengujian atau data validasi. Model belajar dengan baik hanya untuk data pelatihan. Model dengan variance yang tinggi akan menghasilkan akurasi yang baik pada data latih, sedangkan pada data uji atau data validasi hasil akurasinya kurang baik.

Model dengan variance yang tinggi akan menangkap sebagian besar pola dalam data, namun juga akan belajar dari data yang tidak diperlukan, seperti noise dan akan menyebabkan model menganggap fitur-fitur sepele sebagai hal yang penting. Model dengan variance yang tinggi akan menyebabkan overfitting, hal ini biasanya disebabkan karena kompleksnya data latih dan terdiri dari banyak sekali fitur.

Contoh algoritma machine learning dengan low variance di antaranya adalah Linear Regression, Logistic Regression, dan Linear Discriminant Analysis. Contoh algoritma machine learning dengan high variance di antaranya Decision Tree, K-Nearest Neighbors (KNN), dan Support Vector Machine (SVM).

Cara mengurangi Variance yang tinggi:

Lakukan pemilihan fitur (Feature selection)

Jangan gunakan model yang terlalu rumit.

Tingkatkan jumlah data pelatihan.

Tingkatkan Regularisasi.

Cross-validation

Early stopping

SinauQ

Project

Selasa, 19 Desember 2023

Belajar Bias dan Variance dalam Machine Learning

Tidak ada komentar: