Daftar Isi
LancangKuning - Decision Tree adalah alat pendukung keputusan yang menggunakan model keputusan seperti pohon dan kemungkinan konsekuensinya, termasuk hasil peristiwa kebetulan, biaya sumber daya, dan utilitas. Ini adalah salah satu cara untuk menampilkan algoritma yang hanya berisi pernyataan kontrol bersyarat.
Decision Trees adalah jenis Supervised Machine Learning (yaitu Anda menjelaskan apa itu input dan apa output yang sesuai dalam data pelatihan) di mana data terus-menerus dipisahkan menurut parameter tertentu. Pohon dapat dijelaskan oleh dua entitas, yaitu simpul keputusan dan daun. Daun adalah keputusan atau hasil akhir. Dan node keputusan adalah tempat data dipecah.
Katakanlah Anda ingin memprediksi apakah seseorang bugar berdasarkan informasi seperti usia, kebiasaan makan, dan aktivitas fisik, dll. Simpul keputusan di sini adalah pertanyaan seperti 'Berapa usia?', 'Apakah dia berolahraga?', 'Apakah dia makan banyak pizza? Dan daun, yang hasil seperti 'cocok', atau 'tidak cocok'. Dalam kasus ini, ini adalah masalah klasifikasi biner (masalah tipe ya tidak).
Ada dua jenis utama Pohon Keputusan :
- Pohon klasifikasi (tipe Ya / Tidak)
Apa yang kita lihat di atas adalah contoh pohon klasifikasi, di mana hasilnya adalah variabel seperti 'fit' atau 'unfit'. Di sini variabel keputusan adalah Kategorikal.
- Pohon regresi (tipe data kontinu)
Di sini keputusan atau variabel hasil adalah Berkelanjutan, mis. angka seperti 123. Setelah kita mengetahui apa itu Pohon Keputusan, kita akan melihat cara kerjanya secara internal. Ada banyak algoritma di luar sana yang membangun Pohon Keputusan, tetapi salah satu yang terbaik disebut Algoritma ID3. ID3 Singkatan dari Iterative Dichotomiser 3. Sebelum membahas algoritma ID3, kita akan membahas beberapa definisi. Entropi Entropi, juga disebut sebagai Shannon Entropi dilambangkan dengan H (S) untuk himpunan hingga S, adalah ukuran jumlah ketidakpastian atau keacakan dalam data.
Terminologi Penting terkait Pohon Keputusan
- Root Node: Ini mewakili seluruh populasi atau sampel dan ini selanjutnya dibagi menjadi dua atau lebih set homogen.
- Pemisahan: Ini adalah proses membagi node menjadi dua atau lebih sub-node.
- Decision Node: Ketika sub-node terpecah menjadi sub-node lebih lanjut, maka itu disebut node keputusan.
- Leaf / Terminal Node: Node tidak terpecah disebut Leaf atau Terminal node.
- Pemangkasan: Saat kami menghapus sub-node dari node keputusan, proses ini disebut pemangkasan. Anda dapat mengatakan proses pemisahan yang berlawanan.
- Cabang / Sub-Pohon: Sebuah sub-bagian dari seluruh pohon disebut cabang atau sub-pohon.
- Node Induk dan Anak: Node, yang dibagi menjadi beberapa sub-node disebut node induk dari sub-node sedangkan sub-node adalah anak dari node induk
Bagaimana cara kerja Pohon Keputusan?
Keputusan untuk membuat pemisahan strategis sangat memengaruhi keakuratan pohon. Kriteria keputusan berbeda untuk pohon klasifikasi dan regresi.
Pohon keputusan menggunakan beberapa algoritme untuk memutuskan untuk membagi node menjadi dua atau lebih sub-node. Pembuatan sub-node meningkatkan homogenitas sub-node yang dihasilkan. Dengan kata lain, kita dapat mengatakan bahwa kemurnian node meningkat sehubungan dengan variabel target. Pohon keputusan membagi node pada semua variabel yang tersedia dan kemudian memilih pemisahan yang menghasilkan sub-node yang paling homogen.
Katakanlah kita memiliki masalah untuk memprediksi apakah pelanggan akan membayar premi perpanjangannya dengan perusahaan asuransi (ya / tidak). Disini diketahui bahwa pendapatan nasabah merupakan variabel yang signifikan tetapi perusahaan asuransi tidak memiliki rincian pendapatan untuk semua nasabah. Nah, seperti yang kita ketahui ini adalah variabel penting, maka kita bisa membangun pohon keputusan untuk memprediksi pendapatan pelanggan berdasarkan pekerjaan, produk, dan berbagai variabel lainnya. Dalam hal ini, kami memprediksi nilai untuk variabel kontinu.(Edrian)
Komentar