Supervise Learning - 30 Algoritma Prediksi

Di antara subbidang pembelajaran mesin yang paling dasar adalah pembelajaran terawasi. Dalam pembelajaran terawasi, model belajar untuk memprediksi atau mengkategorikan output tergantung pada input baru dengan menggunakan set data yang telah diberi label. Kami akan membahas tiga puluh algoritma populer yang digunakan secara luas dalam makalah ini, yang sering digunakan dalam pembelajaran terawasi.

1. Regresi Linear

Di antara metode yang paling mudah dalam pembelajaran mesin adalah regresi linier. Memasang garis lurus pada data akan membantu mereplikasi hubungan antara variabel dependen (tujuan) dan variabel independen (fitur).

Kelebihan: cepat dalam penghitungan, mudah diterapkan.

Kekurangan : Kurang berhasil dengan data non-linear.

2. Regresi Logistik

Kategorisasi biner melibatkan regresi logistik. Biasanya menggunakan fungsi sigmoid, memproyeksikan kemungkinan kelas target tergantung pada variabel input.

Kelebihan : Baik untuk masalah klasifikasi biner, kelebihannya adalah kesederhanaan interpretasi.

Kekurangan : Tidak cocok untuk data dengan hubungan non-linear yang rumit.

3. K-Nearest Neighbors (KNN)

Bersifat sederhana, KNN menggunakan kemiripan dengan data terdekat dalam ruang fitur untuk mengklasifikasikan data.

Kelebihan : Salah satu keuntungannya adalah kesederhanaan dalam pemahaman dan aplikasi.

Kekurangan : Kekurangannya adalah tidak efektif secara komputasi dan lambat untuk dataset yang besar.

4. Decision Tree

Untuk memandu klasifikasi atau regresi, Pohon Keputusan membagi data menjadi subset sesuai dengan aturan yang dihasilkan dari fitur.

Kelebihan : menangani data non-linear secara efektif, jelas dan mudah dipahami.

Kekurangan : rentan terhadap kecocokan yang berlebihan.

5. Random Forest

Sebuah ansambel dari banyak pohon keputusan adalah Random Forest. Setiap pohon dilatih menggunakan subset data dan karakteristik yang terpisah; hasil akhirnya adalah gabungan dari semua keputusan pohon.

Kelebihan : bekerja secara efektif pada dataset yang besar dan mengurangi overfitting.

Kekurangan : agak lambat dan membutuhkan RAM tambahan.

6. Support Vector Machine (SVM)

SVM mencari hyperplane dalam ruang fitur yang memisahkan kelas-kelas dengan margin terbesar.

Kelebihan : baik untuk data berdimensi tinggi, efisien dalam situasi ketika jumlah dimensi melebihi jumlah sampel.

Kekurangan : kurang efisien secara komputasi pada dataset yang besar.

7. Naive Bayes

Berdasarkan penerapan teorema Bayes dengan asumsi independensi di seluruh fitur, naive bayes adalah metode probabilistik.

Kelebihan : Untuk set data yang besar, kelebihannya meliputi kecepatan dan efisiensi yang tinggi.

Kekurangan : Asumsi independensi fitur jarang ditemukan dalam kehidupan nyata.

8. Gradient Boosting

Biasanya menggunakan pohon keputusan, gradient boosting adalah metode ansambel di mana kekuatan dari berbagai model yang lemah digabungkan secara berurutan untuk secara progresif menurunkan kesalahan.

Kelebihan: menangani data non-linear dengan baik dan cukup efektif untuk set data yang rumit.

Kekurangan : kecepatan pelatihan yang lambat dan penyesuaian parameter yang ekstensif.

9. AdaBoost

AdaBoost memodifikasi bobot sampel tergantung pada kesalahan pada iterasi sebelumnya, sehingga meningkatkan kinerja model yang lemah.

Kelebihan : Dataset biner termasuk kinerja yang lebih baik dari model yang lemah.

Kekurangan : Rentan terhadap pencilan; membutuhkan instruksi yang cermat.

10. XGBoost

Salah satu variasi peningkatan gradien yang sangat efisien dan berorientasi pada kinerja adalah XGBoost. Dalam kontes pembelajaran mesin, ini adalah pilihan yang umum.

Kelebihan : cepat dan efektif, mengelola nilai yang hilang dalam data.

Kekurangan : Penyesuaian parameter yang lebih sulit dan lebih kompleks.

11. LightGBM

Dirancang untuk mengelola jumlah yang sangat besar dengan lebih efektif, Microsoft menciptakan algoritma penguat LightGBM.

Kelebihan : agak cepat; memproses data dalam jumlah besar secara efektif.

Kekurangan : sensitif terhadap data yang berisik dan diperlukan pemrosesan data yang cermat.

12. Catboost

Mengatasi beberapa kekurangan dari boosting konvensional, seperti menangani fitur kategorikal dengan lebih baik, CatBoost adalah metode boosting.

Kelebihan : secara efektif menangani aspek kategori; berkinerja kuat.

Kekurangan : memerlukan penyetelan parameter dan pemrosesan data secara menyeluruh.

13. Neural Networks

Terinspirasi oleh otak manusia, jaringan saraf menganalisis input dan menghasilkan output menggunakan lapisan node (neuron), oleh karena itu meniru perilakunya.

Kelebihan : Fleksibilitas yang tinggi untuk menangani data yang tidak terstruktur dan canggih.

Kekurangan : Banyaknya data dan sumber daya komputasi yang dibutuhkan serta kesulitan dalam melatih dan menafsirkan.

14. Convolutional Neural Networks (CNN)

Untuk pemrosesan data gambar, CNN-suatu jenis jaringan saraf tertentu-cukup berhasil. CNN melakukan ekstraksi fitur dari foto input menggunakan lapisan convolutional.

Kelebihan : cukup berhasil untuk tugas-tugas pengenalan gambar.

Kekurangan : relatif rumit dalam arsitektur, membutuhkan banyak data dan kapasitas pemrosesan.

15. Recurrent Neural Networks (RNN)

RNN adalah kelas jaringan syaraf yang sesuai untuk data yang berurutan secara temporal, seperti teks atau deret waktu.

Kelebihan : Untuk data berurutan dan aktivitas seperti prediksi urutan waktu, banyak sekali kelebihannya.

Kekurangan : Sulit untuk diajarkan karena masalah gradien yang menghilang.

16. LSTM (Long Short-Term Memory)

Long Short-Term Memory (LSTM) adalah sejenis RNN yang dibuat untuk menyimpan data dalam jangka waktu yang lebih lama sehingga dapat mengatasi masalah gradien yang menghilang.

Kelebihan : Untuk pekerjaan dengan urutan yang luas dan hubungan temporal yang rumit, pro berlimpah.

Kekurangan : membutuhkan waktu pelatihan dan kemampuan komputer yang lebih besar.

17. GRU (Gated Recurrent Unit)

Sebuah bentuk LSTM yang disederhanakan, GRU menurunkan jumlah parameter yang diperlukan untuk pelatihan.

Kelebihan: menangani data urutan secara efektif, lebih cepat dan tidak terlalu rumit daripada LSTM.

Kekurangan : Meskipun lebih mudah, terkadang tidak sekuat LSTM dalam mengelola urutan yang sangat panjang.

18. ElasticNet

ElasticNet sesuai untuk dataset yang memiliki banyak karakteristik yang saling berkorelasi karena menggabungkan hukuman L1 dan L2 dalam regresi.

Kelebihan : memilih fitur secara efektif dan mengatasi multikolinieritas.

Kekurangan : Pemilihan parameter Lambda membutuhkan validasi silang.

19. Ridge Regression

Jenis regresi linier yang disebut regresi ridge termasuk penalti L2 untuk menghentikan overfitting.

Kelebihan : Menangani multikolinearitas secara efektif, menurunkan varians model.

Kekurangan : tidak memilih fitur.

20. Lasso Regression

Regresi Lasso menambahkan penalti L1, yang dapat menghasilkan pemilihan fitur dan solusi yang jarang.

Kelebihan : Mengurangi jumlah karakteristik menghasilkan model yang lebih sederhana.

Kekurangan : Tidak boleh diatur dengan benar, dapat kehilangan fitur yang benar-benar signifikan.

21. Kernel Ridge Regression

Ridge for Kernel Menggabungkan regresi ridge dengan teknik kernel, regresi memungkinkan seseorang memodelkan hubungan non-linear.

Kelebihan : Sempurna untuk data non-linear.

Kekurangan : Memerlukan pemilihan kernel dan penyesuaian parameter yang cermat.

22. Bagging

Melatih beberapa model pada berbagai subset data dan menggabungkan hasilnya membantu meningkatkan kinerja dalam agregasi bagging-bootstrap.

Kelebihan : Mengurangi varians model dan overfitting di antara hal-hal lainnya.

Kekurangan : Salah satu kekurangannya adalah peningkatan sumber daya pemrosesan yang dibutuhkan.

23. Stacking

Stacking menggabungkan beberapa model menggunakan model meta-learner untuk meramalkan hasil akhir berdasarkan ramalan dari model lainnya.

Kelebihan : Menggunakan kekuatan dari beberapa model akan membantu meningkatkan kinerja.

Kekurangan : lebih sulit dan rumit untuk diterapkan dengan benar.

24. Gaussian Processes

Model non-parametrik yang disebut Proses Gaussian meramalkan distribusi probabilitas dari sebuah fungsi yang sesuai dengan data.

Kelebihan : menawarkan prakiraan probabilistik dan cukup mudah beradaptasi.

Kekurangan : kurang efektif untuk basis data yang besar.

25. Bayesian Regression

Regresi Bayesian mengestimasi distribusi parameter model dengan menerapkan ide-ide statistik Bayesian.

Kelebihan : menghasilkan ambiguitas dalam prakiraan.

Kekurangan : lebih rumit dan membutuhkan pengetahuan statistik yang menyeluruh.

26. Polynomial Regression

Memperluas regresi linier untuk memasukkan hubungan polinomial antara variabel independen dan dependen dilakukan melalui regresi poisson.

Kelebihan : Salah satu keuntungannya adalah menangani data non-linear dasar.

Kekurangan : Salah satunya adalah overfitting untuk derajat polinomial yang tinggi.

27. Partial Least Squares Regression (PLS)

PLS memaksimalkan varians yang dijelaskan dalam prediksi dan fitur sambil menurunkan dimensi data.

Kelebihan : cocok untuk data yang mencakup beberapa fitur yang sangat terkait.

Kekurangan : lebih rumit daripada regresi linier sederhana, ada beberapa kelemahan di sini.

28. Quadratic Discriminant Analysis (QDA)

Lebih mudah beradaptasi daripada LDA, QDA membagi kelas menggunakan fungsi diskriminan kuadratik.

Kelebihan : Untuk set data dengan kelas yang dibagi secara non-linear, kelebihannya berlimpah.

Kekurangan : Estimasi parameter yang lebih sulit dan kecenderungan overfitting pada set data yang terbatas.

29. Linear Discriminant Analysis (LDA)

LDA mencari dua atau lebih kelas yang memisahkan kombinasi linear dari fitur-fitur.

Kelebihan : baik untuk masalah kategorisasi berbasis fitur yang tersebar secara umum.

Kekurangan : Tidak efisien jika asumsi distribusi normal tidak terpenuhi.

30. Stochastic Gradient Descent (SGD)

Cukup berhasil untuk kumpulan data yang besar, SGD adalah metode berulang untuk memaksimalkan fungsi objektif.

Kelebihan : untuk pembelajaran online dan dataset besar adalah efisiensi.

Kekurangan : Biasanya membutuhkan modifikasi yang hati-hati; rentan terhadap penyesuaian parameter.

Pembelajaran terawasi menyajikan berbagai teknik yang cocok untuk berbagai jenis data dan aplikasi. Memilih metode yang tepat membutuhkan kesadaran yang kuat akan tujuan prediksi dan fitur data. Menggunakan fitur terbaik dari setiap algoritme ini dapat membantu Anda membuat model prediktif yang lebih tepat dan efektif.

recent posts

Supervise Learning - 30 Algoritma Prediksi

You May Also Like

Post Comments

No comments:

Recent Posts

Popular Posts

Categories

Post Unggulan

Supervise Learning - 30 Algoritma Klasifikasi

About Me

Random Posts

Tags