085865141296

cs@scundip.org

Pohon Regresi

F6.large

Metode pohon regresi merupakan salah satu metode non parametrik yang digunakan untuk memeriksa variabel respon oleh penggantian aturan conventional splitting dengan aturan dasar The Tarone-Ware atau Harrington-Fleming classes dari two-sample statistics. Strategi pemangkasan baru untuk menentukan ukuran pohon yang diinginkan.

Pembentukan pohon regresi

Misalkan terdapat sejumlah p variabel prediktor x1, x2, …. xp dan sebuah variabel y yang bersifat kontinu. Untuk membentuk sebuah pohon regresi terdapat empat komponen yang dibutuhkan, yaitu :

Apakah x ∈ A ? dimana x merupakan suatu amatan dan A ⊂ X merupakan ruang variabel prediktor. Jawaban dari pertanyaan tersebut mengandung penyekatan atau pemilahan dari ruang variabel prediktor. Apabila x amatan tersebut mengandung jawaban “Ya” maka x merupakan bagian dari wilayah A. Jika tidak maka x merupakan bagian dari complement wilayah A. Subsamples yang terbentuk disebut dengan nodes.

Kriteria Goodness-of-split ∅(s,t) dapat digunakan untuk mengevaluasi pemilahan s dari simpul t.

Kriteria/cara untuk menentukan ukuran pohon yang optimal

Kesimpulan statistik untuk simpul terminal dari pohon yang dipilih.

Pasangan pemilahan

Dalam melakukan pemilahan, terdapat aturan sebagai berikut :

Setiap pemilahan bergantung pada nilai dari variabel prediktor

Untuk variabel prediktor kontinu Xj, hanya pemilahan dari pertanyaan apakah “Xj ≤ c?” untuk c ∈ X, dimana nilai c merupakan median dari nilai Xj yang berurutan. Apabila terdapat n pengamatan Xj maka terdapat n-1 pemilahan.

Untuk variabel prediktorkategorik Xj,pemilahan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint)

Pertumbuhan pohon regresi mengikuti aturan sebagai berikut :

Memeriksa setiap kemungkinan pemilahan pada setiap variabel prediktor.

Memilih dan menentukan pemilahan terbaik

Kriteria goodness-of split

Memilih pemilahan terbaik menggunakan metode goodness-of split.

Misal t merupakan sebuah simpul dari pohon regresi, dimana t mengandung subsample {(xn, yn)}. Dan N(t) merupakan total amatan pada simpul t. Maka:

(y ) ̅(t) merupakan rata-rata amatan pada simpul t. Kemudian jumlah kuadrat galat didefinisikan sbb :

Apabila sebuah pemilahan s yang memilah simpul anak kiri (tL) dan simpul anak kanan (tR), maka least square criterion nya adalah

Dan pemilahan terbaik s* adalah

least square pada pohon regresi dibentuk dari pemilahan simpul yang memaksimumkan fungsi ∅ sampai tercipta kehomogenan pada simpul terminal.

Penentuan pohon regresi maksimal

Jika sebuah simpul menjadi sangat kecil atau dihasilkan nilai improvement ∅(s*,t) dari pemilahan terbaik tidak cukup untuk melebihi nilai threshold, maka simpul ini disebut simpul terminal (akhir). Pohon regresi yang terlalu besar akan menghasilkan nilai keragaman yang kecil, akan tetapi dapat berisiko terjadinya overfitting. Sehingga diperlukan pruning untuk menghasilkan pohon yang optimal.

Artikel Lainnya

Leave a Comment