Ketika model machine learning tidak akurat maka dapat menimbulkan kesalahan prediksi. kesalahan prediksi tersebut biasa disebut dengan Bias dan Variance. Dalam pembelajaran mesin, kesalahan ini akan muncul karena selalu ada perbedaan antara prediksi model dan prediksi sebenarnya.
Jadi, sebenarnya apa itu bias dan variance dalam machine learning?
![]() |
https://docs.aws.amazon.com/id_id/machine-learning/latest/dg/images/mlconcepts_image5.png |
Bias
Bias dikenal sebagai perbedaan antara nilai hasil
prediksi oleh model Machine Learning dengan nilai yang sebenarnya. Bias terjadi
pada model machine learning karena asumsi yang salah dalam proses
pemodelannya.
Bias yang tinggi
dikarenakan terlalu sederhana (oversimplified) dalam Pembangunan model ML.
Faktor penyebab lain dikarenakan model ML tidak terlalu memahami training data,
dengan kata lain model tidak dapat menangkap tren data dengan tepat. Model dengan
bias yang tinggi juga tidak dapat bekerja dengan baik pada data baru. Oleh karena
itu model dengan bias yang tinggi menghasilkan prediksi yang tidak akurat.
Algoritma dengan bias yang
tinggi memiliki kinerja prediktif yang lebih rendah untuk data yang kompleks. Pada
umumnya, algoritma linier memiliki bias tinggi yang membuatnya lebih cepat
dipelajari dan lebih mudah dipahami tetapi kurang fleksibel.
Model dengan bias yang tinggi
tidak akan mampu menangkap tren kumpulan data. Model ini dianggap sebagai model
underfitting. Beberapa algoritma machine learning dengan bias yang tinggi di
antaranya Linear Regression, Logistic Regression, dan Linear Discriminant
Analysis. Sedangkan contoh algoritma machine learning dengan bias yang rendah di
antaranya Decision Tree, K-Nearest Neighbors (KNN), dan Support Vector Machine
(SVM).
Cara mengurangi Bias
Tinggi:
Tingkatkan jumlah fitur.
Kurangi Regularisasi
model.
Gunakan model yang lebih
kompleks.
Variance
Varians adalah jumlah
perubahan performa model prediktif pada subkumpulan data baru, atau varians
adalah jumlah perbedaan hasil prediksi model terhadap data baru dibandingkan
dengan data pelatihan. Variance yang tinggi terjadi ketika model bekerja
terlalu baik pada data pelatihan namun tidak bekerja dengan baik pada data
pengujian atau data validasi. Model belajar dengan baik hanya untuk data pelatihan.
Model dengan variance yang tinggi akan menghasilkan akurasi yang baik pada data
latih, sedangkan pada data uji atau data validasi hasil akurasinya kurang baik.
Model dengan variance
yang tinggi akan menangkap sebagian besar pola dalam data, namun juga akan
belajar dari data yang tidak diperlukan, seperti noise dan akan menyebabkan
model menganggap fitur-fitur sepele sebagai hal yang penting. Model dengan variance
yang tinggi akan menyebabkan overfitting, hal ini biasanya disebabkan karena
kompleksnya data latih dan terdiri dari banyak sekali fitur.
Contoh algoritma machine
learning dengan low variance di antaranya adalah Linear Regression, Logistic
Regression, dan Linear Discriminant Analysis. Contoh algoritma machine learning
dengan high variance di antaranya Decision Tree, K-Nearest Neighbors (KNN), dan
Support Vector Machine (SVM).
Cara mengurangi Variance
yang tinggi:
Lakukan pemilihan fitur (Feature
selection)
Jangan gunakan model yang
terlalu rumit.
Tingkatkan jumlah data
pelatihan.
Tingkatkan Regularisasi.
Cross-validation
Early stopping
0 Komentar