085865141296

cs@scundip.org

REGRESI NON-PARAMETRIK: SPLINE DENGAN DATA LONGITUDINAL

Regresi nonparametrik merupakan suatu metode dalam analisis regresi untuk memodelkan pola data yang tidak mengikuti pola tertentu.

Pendugaan kurva regresi digunakan untuk menjelaskan hubungan antara peubah penjelas dengan peubah terikat. Pendekatan pendugaan yang paling sering digunakan adalah pendekatan parametrik. Asumsi yang mendasari pendekatan ini adalah kurvaregresi dapat diwakili oleh suatu model parametrik (Hardle, 1990). Dalam regresi parametrik, diasumsikan bahwa bentuk kurva regresi diketahui berdasarkan teori, informasi sebelumnya, atau sumber- sumber lain yang dapat memberi pengetahuan secara terperinci. Apabila  model  dari  pendekatan  parametrik  diasumsikan benar,  maka  pendugaan  parametrik  akan  sangat  efisien. Tetapi jika tidak, menyebabkan interpretasi data yang menyesatkan. Selain itu, model parametrik mempunyai keterbatasan untuk menduga pola data yang tidak diharapkan. Jika asumsi bentuk kurva parametrik ini tidak terpenuhi,  maka  kurva  regresi  dapat  diduga  menggunakan  model regresi dari pendekatan nonparametrik.

Pendekatan  nonparametrik  merupakan  metode  pendugaan model  yang  dilakukan  berdasarkan  pendekatan  yang  tidak  terikat asumsi  bentuk  kurva  regresi  tertentu.  Kurva  regresi  berdasarkan pendekatan  nonparametrik  ini,  diwakili  oleh  model  yang  disebut model regresi nonparametrik. Karena sebelumnya tidak ada asumsi mengenai  bentuk  kurva  regresi,  model  regresi  nonparametrik  dapat berbentuk  fungsi  apa  saja,  baik  linier  ataupun  nonlinier.  Semua fungsi  dapat  digunakan  untuk  pendugaan  dalam  model  regresi. Komputasi  atau  perhitungan  dalam  menduga  model,  merupakan kendala  utama  dalam  regresi  nonparametrik.  Seiring  dengan perkembangan media komputer yang sangat pesat dewasa ini, regresi nonparametrik  turut  berkembang  pula.  Ada  beberapa  teknik pendugaan nilai peubah respons dalam regresi nonparametrik, yakni penduga kernel, regresi spline, regresi lokal, dll.

Dalam update jurnal kali ini, kita akan fokus pada Regresi Spline dengan data Longitudinal.

Data Longitudinal 

Data longitudinal didefinisikan sebagai data yang diperoleh dari pengukuran berulang (repeated measures) pada setiap subjek dengan kurun waktu yang berbeda. Secara umum himpunan data longitudinal dituliskan sebagai berikut:

(yi:j,ti:j,xi:j) , i= 1, 2,….,m dan j=1, 2,….,n.

dengan menyatakan banyaknya subjek dan menyatakan banyaknya pengamatan. yi:j menyatakan waktu pengamatan untuk subyek ke-pada  waktu  ke-j, ti:j  menyatakan variabel respon yang  diamati  pada  waktu  dan  xi:j  menyatakan pengamatan pada waktu.

Regresi Spline dengan Metode Penalized Spline pada Data longitudinal 

Regresi spline merupakan suatu pendekatan ke arah pencocokan data dengan tetap memperhitungkan kemulusan kurva. Spline ini merupakan potongan polinomial tersegmen yang dihubungkan oleh titik-titik knot yang dapat menjelaskan karakteristik dari data. Penjelasan dari knot sendiri adalah titik perpaduan bersama yang menjelaskan terjadinya perubahan perilaku dari fungsi spline pada interval- interval yang berbeda.

Regresi Spline dengan metode Penalized Spline merupakan salah satu  jenis dari bentuk regresi spline. Dalam regresi penalized spline ini modelnya diperoleh dengan meminimumkan fungsi Penalized Least Square (PLS). Penalized Least Square (PLS) adalah fungsi pendugaan yang menggabungkan antara fungsi least square dan kemulusan kurva (smooth). Model regresi nonparametrik untuk data longitudinal adalah sebagai berikut:

1

misalkan x merupakan observasi yang ditentukan dimana fungsi 24 akan diestimasi dengan Fungsi Penalized Least Squares (PLS). Penalized  spline  adalah  salah  satu  teknik  pemulusan  (smoothing)  yang berpengaruh besar pada data yang tidak berkorelasi dan independen.  Penalized spline menjadi  salah  satu  alternatif  untuk  memecahkan  masalah  dalam  regresi  spline. Fungsi  Penalized  Least Square  untuk data longitudinal adalah sebagai berikut:

2

dengan matriks D adalah sebagai berikut:

3

Sehingga diperoleh:

4

dengan fungsi truncated sebagai berikut:

5

dengan  i= 1, 2, ….,m ; j=1, 2,….,n dan nilai q= 1, 2,…, r. Oleh karena itu diperoleh model regresi nonparametrik spline truncated untuk data longitudinal untuk orde kep adalah sebagai berikut:

6

Persamaan di atas dapat ditulis sebagai berikut:

7

dengan vektor responnya adalah sebagai berikut:

8

matriks prediktornya dijabarkan sebagai berikut:

9

dengan ukuran matriks desain Xi adalah n x ( p + r +1). Vektor parameternya adalah sebagai berikut:

10

dengan ukuran dengan demikian persamaan regresi spline dengan metode penalized spline pada data longitudinal dapat dinyatakan dalam notasi matriks sebagai berikut:

y = XSS + e 

dimana  y: vektor respon berukuran, X: matrikss prediktor dengan ukuran, mn x m(p+r+1), ß:  vektor  berukuran mn x m(p+r+1), ß, e: vektor  galat random  berukuran  mn x 1

Ketika  dilakukan  estimasi  terhadap  y,  maka diperoleh persamaan berikut:

11

atau  bila  dijabarkan  model  estimasi  regresi  spline  dengan  metode  penalized  spline dapat ditulis sebagai berikut:

12

Persamaan  matriks  fungsi  penalized  least  square  pada  persamaan  di atas  dapat ditulis sebagai berikut

Q = || y – X ß ||2 + λ ßTD ß

dimana D = diag(0p+1,1r)

Dengan metode OLS diperoleh estimasi parameter  13 maka 

14
Sehingga kelayakan  15 pada  semua  desain  waktu  dapat  diekspresikan  menjadi

16

dengan matriks Ap adalah matriks penghalus.

Pemilihan Knot 

Pendugaan fungsi  penalized spline  bergantung pada banyaknya titik knot (r). Letak titik knot ke-  k dalam  penalized spline  terdapat pada sampel kuantil ke-j dari nilai  unique  (tunggal)  variabel  independen  dengan  j=  17 . Maksudnya adalah letak titik knot ini membagi sekumpulan pengamatan menjadi (1+r) bagian yang sama.

Parameter Pemilihan Smoothing λ  

Metode yang digunakan untuk memilih parameter smoothing λ adalah menggunakan Generalized Cross Validation (GCV). Parameter penghalus yang optimal akan diperoleh berdasarkan nilai GCV yang minimum. Fungsi GCV dapat dinyatakan sebagai berikut:
18
dimana GCV adalah nilai GCV dengan N adalah banyaknya pengamatan sebanyak m subjek   x n pengamatan, yi:j adalah data aktual subyek ke-i pada pengamatan ke-j dan  20 adalah hasil dari subyek ke-i pada pengamatan ke-j dengan tr(A λ)= tr[X(XTX+ λD)-1XT]

Metode Pemilihan Terbaik untuk 

Untuk mengetahui seberapa akurat peramalan yang dihasilkan dapat digunakan nilai koefisien determinasi (R2). Koefisien determinasi adalah koefisien yang mengukur seberapa jauh kemampuan sebuah model dalam menerangkan variasi variabel dependen. Nilai R2 dapat dinyatakan sebagai berikut:

19
Dimana R2 adalah koefisien determinasi, Yi:j adalah data  aktual  subjek  ke-i  dan pengamatan ke-j,  20 adalah data prediksi subjek ke-i dan pengamatan ke-j dan  21 adalah rata-rata data aktual. Salah satu cara untuk mengetahui ketepatan peramalan sebuah model dapat menggunakan nilai Mean Absolute Percentage Error (MAPE). Rumus MAPE dituliskan sebagai berikut:

22
dengan  adalah data aktual  subjek  ke-i  pada  pengamatan ke-j,  23 adalah hasil estimasi  subjek  ke-i  pada  pengamatan  ke-j  dan N adalah  banyaknya  pengamatan ( subjek pengamatan). Semakin kecil nilai MAPE semakin akurat peramalan sebuah model. Untuk MAPE < 10% maka kemampuan peramalan sangat baik, 10% ≤ MAPE < 20% artinya bahwa kemampuan peramalan baik, 20% ≤ MAPE < 50% artinya bahwa kemampuan peramalan cukup dan bila MAPE ≥ 50% maka artinya bahwa kemampuan peramalan buruk.

 

Sumber:
Pemodelan Regresi Spline Menggunakan Metode Penalized Spline Pada Data Longitudinal (Studi Kasus: Harga Penutupan LQ45 Sektor Keuangan Dengan Kurs Usd Terhadap Rupiah Periode Januari 2011-Januari 2016)
http://www.statistics.its.ac.id/?page_id = 1858
https://sugiartounsoed.wordpress.com/2011/06/07/perbedaan-regresi-parametrik-dan-regresi-nonparametrik/