ANALISIS REGRESI TERAPAN DIAGNOSTIK SISAAN MODEL REGRESI

1. Regresi Linier Sederhana

    Regresi linier adalah metode statistika yang digunakan untuk membentuk model hubungan antara variabel terikat (dependen, respon, Y) dengan satu atau lebih variabel bebas (independen, predictor, X). Bila hanya terdapat satu variabel bebas maka dinamakan regresi linear sederhana sedangkan jika memiliki lebih dari satu variabel bebas maka dinamakan regresi linear berganda. Adapun model regresi linier sederhana adalah sebagai berikut:



Koefisien-koefisien regresi linier sebenarnya adalah nilai duga dari parameter model regresi. Parameter merupakan keadaan sesungguhnya untuk kasus yang kita amati. Parameter regresi diduga melalui teknik perhitungan yang disebut Ordinary Least Square (OLS). Tentu saja, yang namanya menduga, kita tidak mungkin terlepas dari kesalahan, baik itu sedikit maupun banyak. Namun dengan OLS, kesalahan pendugaan dijamin yang terkecil (dan merupakan yang terbaik) asal memenuhi beberapa asumsi. Asumsi-asumsi tersebut adalah yang memenuhi kondisi Gauss Markov yang akan dijelaskan lebih lanjut dalam diagnostik model regresi.

2. Diagnostik Model Regresi

  Ketika dihadapkan dengan analisis regresi, kita semua tahu bahwa pada analisis ini dilakukan pendugaan model, pengujian, dan penentuan selang kepercayaan untuk koefisien regresi maupun penduga modelnya. Untuk memperoleh model yang layak, perlu juga dilakukan eksplorasi terhadap data sebelum pendugaan model dan diagnostik terhadap penduga model (Mattjik, 2013).

Diagnostik penduga model dilakukan melalui analisis sisaan untuk memeriksa apakah asumsi-asumsi yang mendasari model regresi terpenuhi. Analisis dari sisaan merupakan hal yang penting untuk dilakukan. Kenapa hal ini penting untuk dilakukan? Secara sederhana dapat dikatakan bahwa error merepresentasikan keacakan dan ketidakpastian yang merupakan komponen krusial dalam model regresi. Model regresi yang kita bangun tidak akan valid jika kita tidak menyertakan error. Penjelasan ini akan lebih mudah dipahami jika kita menuliskannya sebagai berikut:

Respon = (Konstanta + Prediktor) + error

Persamaan tersebut juga dapat dituliskan sebagai berikut:

Respon = Deterministik + Stokastik

Bagian deterministik dalam model merupakan suatu kepastian yang menyatakan bahwa peubah respon dapat dijelaskan oleh peubah prediksi (predictor variable). Nilai ekspektasi dari respon merupakan fungsi dari suatu set peubah prediksi. Semua informasi yang dapat dijelaskan oleh peubah prediksi terdapat dalam bagian ini.

Stokastik merupakan suatu keacakan dan ketidakpastian yang tidak dapat kita jelaskan dalam model yang kita bangun. Error dapat didefinisikan sebagai selisih/perbedaan dari nilai dugaan terhadap nilai sebenarnya dari peubah respon. Jika kita tarik kesimpuland dari kedua pernyataan tersebut, perbedaan/sisaan dari nilai duga terhadap nilai sebenarnya ini haruslah tidak dapat diprediksi. Dengan kata lain, bagian deterministik dari model yang kita bangun tidak boleh tercakup dalam error.

Selain diagnostik penduga model melalui sisaan, diagnostik juga digunakan untuk memeriksa apakah terdapat data pencilan (outlier) dan data yang berpengaruh (influential observation).

A. Diagnosis Sisaan 

     Model regresi linear dapat dikatakan sebagai model yang baik jika memenuhi kriteria BLUE (Best Linear Unbiased estimator). Pengujian asumsi untuk memperoleh model yang BLUE dapat dilakukan dengan diagnosis nilai-nilai sisaan.

Setelah memeriksa sisaan-sisaan tersebut kita mampu menyimpulan bahwa (a) asumsi tersebut tampaknya dilanggar, atau (b) asumsi tersebut tampaknya tidak dilanggar. Perhatikan bahwa pernyataan (b) tidak menyimpulkan bahwa asumsi tersebut benar, namun hanya menyatakan bahwa berdasarkan data yang ada, tidak ada alasan untuk mengatakan bahwa asumsi tersebut tidak benar (Draper & Smith, 1992).
Selain itu, pemeriksaan melalui sisaan dapat memberikan informasi sebagai berikut:
  1. Mengetahui pola sebaran peubah acak Y (peubah respon)
  2. Mengetahui apakah asumsi-asumsi yang disyaratkan pada pendugaan dengan Metode Kuadrat Terkecil dipenuhi atau tidak
  3. Menguji parameter regresi
  4. Melihat apakah model yang kita pilih pas atau tidak
  5. Melihat apakah sebuah pengamatan merupakan pencilan atau bukan
  6. Melihat apakah sebuah pengamatan merupakan pengamatan berpengaruh atau bukan.
Mattjik (2013) menjelaskan bahwa asumsi-asumsi yang mendasari model regresi yang diperoleh melalui sisaan antara lain: kenormalan (normality), kehomogenan ragam (homoscedasticity), keacakan (randomness), dan kebebasan (independence).

a. Pemeriksaan Ketaknormalan

    Regresi linear normal klasik mengamsumsikan bahwa tiap ei didistribusikan secara normal dengan rata-rata E (ei) = 0, varians E (ei2) = 𝜎2, cov (ei , ej): E (ei , ej) = 0, i ≠ j. Asumsi ini secara ringkas bisa di nyatakan sebagai ei ~ N(0, 𝜎2). Setidaknya ada dua cara yang dapat dilakukan untuk memeriksa ketaknormalan, yaitu dengan menggunakan statistik uji dan dengan grafis.
P Plot.
Grafik normal P Plot yang membandingkan kumulatif dari distribusi normal, di mana normalitas dapat dideteksi dengan melihat penyebaran data (titik) pada sumbu diagonal dari grafik normal. Dasar pengambilan keputusannya adalah: 
            (1) Jika data menyebar di sekitar garis diagonal dan mengikuti arah garis diagonalnya, maka                      model regresi memenuhi asumsi normalitas,
            (2) Jika data menyebar jauh dari garis diagonal dan tidak mengikuti arah garis diagonal, maka                   model regresi tidak memenuhi asumsi normalitas. Langkah-langkah pengujian dengan                          Minitab     adalah sebagai berikut:
  • Pilih Graphs → Probability Plot → OK


  • Pilih Resi lalu pindahkan ke form Graph Variable

  • Pilih OK
b. Histogram

     Data yang mempunyai distribusi yang normal berarti mempunyai sebaran yang normal pula. Dengan profil data semacam ini maka data tersebut dianggap bisa mewakili populasi. Untuk mengetahui apakah data yang kita miliki normal atau tidak, secara kasat mata kita bisa melihat histogram dari data yang dimaksud, apakah membentuk kurva normal atau tidak. Langkah-langkah pengujian dengan Minitab adalah sebagai berikut:
  • Pilih Graphs → Histogram → With Fit


  • Pilih OK
  • Pilih RESI lalu pindahkan ke form Graph Variable → OK


c. Skewness dan Kurtosis 

  Skewness dan kurtosis memberikan kelebihan tersendiri, yaitu bahwa akan diketahui grafik normalitas menceng ke kanan atau ke kiri, terlalu datar atau mengumpul di tengah. Oleh karena itu, uji normalitas dengan skewness dan kurtosis juga sering disebut dengan ukuran kemencengan data. Data yang normal akan menyerupai bentuk lonceng. Kemungkinan yang ada adalah menceng ke kiri, jika nilai Zskew positif dan di atas 1,96; atau menceng ke kanan jika Zskew bernilai negatif dan di bawah 1,96. Berdasarkan nilai Kurtosis maka dapat ditentukan bahwa data mempunyai nilai puncak yang terlalu tinggi jika Zkurt bernilai positif dan di atas 1,96; jika nilai puncak tidak ada atau data relatif datar maka nilai Zkurt adalah negatif dan di bawah 1,96.
Penggunaan metode grafis berakibat pada adanya subjektifitas peneliti terhadap kesimpulan yang diambil, sehingga perlu dilakukan uji statistik. Pengujian yang paling sering digunakan adalah Kolmogorov Smirnov. 

Konsep dasar dari uji normalitas Kolmogorov Smirnov adalah membandingkan distribusi data (yang akan diuji normalitasnya) dengan distribusi normal baku. Distribusi normal baku adalah data yang telah ditransformasikan ke dalam bentuk Z-Score dan diasumsikan normal. Jadi sebenarnya uji Kolmogorov Smirnov adalah uji beda antara data yang diuji normalitasnya dengan data normal baku. Jika signifikansi di bawah 0,05 berarti data yang akan diuji mempunyai perbedaan yang signifikan dengan data normal baku, berarti data tersebut tidak normal.

B. Pemeriksaan Autokorelasi

     Uji ini bertujuan untuk menguji apakah dalam model regresi linear terdapat korelasi antara sisaan pada periode t dengan sisaan pada peiode t-1. Autokorelasi timbul karena observasi yang berurutan sepanjang waktu berkaitan satu sama lainnya. Masalah ini timbul karena residual tidak bebas dari satu observasi ke observasi lainnya. Hal ini seirng muncul pada data runtut waktu/ time series.

Berikut beberapa pola yang mungkin dari plot antara sisaan (𝑒𝑖) dan waktu (𝑡).



Pada pola seperti ini, sisaan dari pengamatan pada waktu tertentu cenderung untuk berkorelasi dengan sisaan yang berdekatan. Kelemahan dalam metode grafik ini yaitu mudah atau tidaknya menginterpretasikan pola dari grafik sangat tergantung pada banyaknya data. Semakin sedikit data, pada umumnya sulit untuk mengetahui pola yang terbentuk. Selain itu, subjektifitas dari peneliti juga sangat mempengaruhi kesimpulan yang akan diambil mengenai pelanggaran asumsi ini. Oleh karena itu, untuk mengatasi hal tersebut, dilakukan pengujian dengan Durbin-Watson.

Mekanisme pengujiannya adalah sebagai berikut:

  • Lakukan regresi linier dengan metode kuadrat terkecil dan dapatkan sisaan 𝑒𝑖.
  • Hitung 𝑑
  • Untuk ukuran contoh tertentu dan banyaknya variabel yang menjelaskan tertentu, dapatkan nilai kritis 𝑑𝐿 dan 𝑑𝑈.
  • Jika hipotesis yang diuji adalah 𝐻0 : tidak ada autokorelasi positif (ada autokorelasi negatif), maka jika:
𝑑<𝑑𝐿 : 𝐻0 ditolak
𝑑>𝑑𝑈 : 𝐻0 diterima
𝑑𝐿≤𝑑<𝑑𝑈 : pengujian tidak meyakinkan
  • Jika hipotesis yang diuji adalah 𝐻0 : tidak ada autokorelasi negatif (ada autokorelasi positif), maka jika:
𝑑>4−𝑑𝐿 : 𝐻0 ditolak
𝑑<4−𝑑𝑈 : 𝐻0 diterima
4−𝑑𝑈≤𝑑≤4−𝑑𝐿 : pengujian tidak meyakinkan
  • Jika hipotesis yang diuji adalah pengujian hipoteses dua arah yaitu 𝐻0 : tidak ada autokorelasi baik positif atau negatif, maka jika:
𝑑<𝑑𝐿 : 𝐻0 ditolak
𝑑>4−𝑑𝐿 : 𝐻0 ditolak
𝑑𝑈<𝑑<4−𝑑𝑈 : 𝐻0 diterima
𝑑𝐿≤𝑑<𝑑𝑈 atau 4−𝑑𝑈≤𝑑≤4−𝑑𝐿 : pengujian tidak meyakinkan



C. Pemeriksaan Heteroskedastisitas

     Pada analisis regresi, metode ordinary least square (OLS) mengasumsikan keragaman galat yang konstan. Heteroskedastisitas berarti situasi dimana keragaman variabel independen bervariasi pada data yang kita miliki, sehingga menyebabkan pendugaan OLS yang seharusnya bersifat BLUE menjadi tidak efisien atau bahkan tidak dapat digunakan. Beberapa asumsi dalam model regresi yang terkait dengan heterokedastisitas antara lain adalah galat atau galat memiliki rata-rata nol, memiliki keragaman yang konstan, dan galat pada model tidak saling berhubungan. Kebanyakan data cross section mengandung situasi heteroskesdastistis karena data ini menghimpun data yang mewakili berbagai ukuran (kecil, sedang dan besar).

Asumsi kehomogenan/kesamaan ragam memainkan peranan yang sangat penting di dalam pendugaan dengan metode kuadrat terkecil. Asumsi ini berimplikasi bahwa setiap pengamatan pada peubah respon mengandung informasi yang sama penting sehingga seluruh pengamatan di dalam metode kuadrat terkecil mendapatkan bobot yang sama. Ketidakhomogenan ragam mengakibatkan beberapa pengamatan mengandung informasi yang lebih dibandingkan yang lain. Dengan demikian, pengamatan tersebut seharusnya mendapatkan bobot yang lebih besar dibandingkan pengamatan yang lain (Rawlings, Pantula dan Dickey 1998).

Jika semua asumsi dalam model regresi linier dipenuhi, kecuali masalah heteroskedastisitas, maka akibatnya adalah dugaan parameter koefisien regresi dengan metode OLS tetap tak bias, dan masih konsisten, tapi standar errornya bias ke bawah, dan penduga OLS tidak efisien lagi.

Manurung et al. (2005) menjelaskan bahwa ada dua cara untuk mendeteksi keberadaan heteroskedastisitas, yaitu metode informal dan metode formal. Metode informal biasanya dilakukan dengan melihat grafik plot dari nilai prediksi variabel independen (ZPRED) dengan residualnya (SRESID). Variabel dinyatakan tidak terjadi heteroskedastisitas jika tidak terdapat pola yang jelas dan titik-titik menyebar di atas dan di bawah angka nol pada sumbu Y. Metode formal untuk mendeksi keberadaan heteroskedastisitas antara lain dengan uji Park, uji Glejser, uji Golfeld-Quandt, uji Breusch-Pagan, uji White.

D. Pencilan dan Amatan Berpengaruh

   Pencilan merupakan data yang tidak mengikuti pola umum atau pola data secara keseluruhan (Weisberg, 2005). Pencilan biasanya terletak pada tiga atau empat simpangan baku atau lebih jauh dari rata-rata sisaanya. Keberadaan pencilan patut diperiksa dengan seksama, apakah pencilan itu merupakan kesalahan dalam pencatatan amatan atau pencilan tersebut muncul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu ditelusuri lebih jauh. Adakalanya pencilan memberikan informasi yang tidak bisa diberikan oleh titik data lainnya (Draper and Smith, 1992). Jika adanya pencilan tersebut disebabkan karena kesalahan dalam mencatat amatan atau kesalahan menyiapkan peralatan, maka pencilan tersebut dapat diabaikan atau dibuang sebelum dilakukan analisis data. Namun, jika sebaliknya maka pencilan tersebut tidak bisa diabaikan.

Pada analisis regresi linier sederhana, umumnya penduga yang dihasilkan MKT akan bersifat tak bias dan efisien (Best Linier Unbiased Estimator/BLUE) jika komponen sisaan atau galat memenuhi beberapa asumsi klasik, yaitu : kenormalan, kehomogenan ragam, dan tidak terjadi autokorelasi (Myers, 1990). Namun, adanya pencilan akan menyebabkan terjadinya pelanggaran asumsi tersebut, sehingga penduga yang diperoleh melalui MKT bersifat bias dan tidak efisien sehingga model regresi yang diperoleh tidak cocok (fit) terhadap data yang dimodelkan.

Terdapat beberapa cara yang dapat digunakan untuk mengidentifikasi pencilan, antara
lain dengan Standardized residual dan Cook’s distance:

a. Standardized residual
    Berikut adalah langkah-langkah mendeteksi pencilan melalui sisaan terbakukan:
    - Hitung nilai 𝑟𝑖

 
     - Jika nilai |ri|>2, maka amatan tersebut dapat dikatakan sebagai pencilan.

b. Metode Cook’s distance, selain dapat digunakan untuk mendeteksi pencilan, metode ini
    juga dapat mendeteksi amatan berpengaruh.
    Andaikan regresi 𝑌 (𝑥1, 𝑥2, … . 𝑥𝑘 ) menggunakan data set (𝑦𝑗 , 𝑥1𝑗 , … . , 𝑥𝑘𝑗 , 𝑗 = 1, … , 𝑛
    sebagai berikut, dimana:


    Sehingga Cook’s Distance adalah :
   
 
 
    Selanjutnya 𝐷𝑖 dibandingkan dengan 𝐹(𝑝, 𝑛 − 𝑝, 1 − 𝛼) untuk α yang ditentukan, 𝐷𝑖 yang besar           menandakan bahwa amatan merupakan pencilan dan amatan berpengaruh.

Pengamatan berpengaruh lebih berkaitan dengan besarnya perubahan yang terjadi pada koefisie regresi jika pengamatan tersebut disisihkan. Secara umum, pencilan tidak selalu berarti pengamatan berpengaruh ataupun sebaliknya. Ada atau tidaknya pengamatan berpengaruh dalam analisis tidak hanya merubah nilai koefisien regresi tapi juga akan merubah penafsiran atau kesimpulan. Pendekatan eksploratif mungkin dianggap kurang efisien dan berkesan mencoba-coba, sehingga dibutuhkan pendekatan yang lebih sistematik. Prosedur yang dapat ditempuh dalam hai ini adalah pemeriksaan sisaan.

Penentuan pengamatan berpengaruh didasarkan pada nilai coverage/cakupan yang disimbolkan dengan h. Secara umum 0 ≤ h ≤ 1 dan Σ h = p, dengan p adalah banyaknya parameter dalam model. Sehingga secara rata-rata besarnya h adalah p/n. Hoaglin dan Welsch (1978) menyebutkan bahwa h > 2√𝑝/𝑛 dapat dianggap cukup besar untuk menyatakan pengamatan tersebut berpotensi sebagai pengamatan berpengaruh. Sedangkan Huber (1981) membayangkan 1/h sebagai besaran yang setara dengan banyaknya pengamatan yang ikut menentukan pendugaan 𝑌,^ sehingga nilai h > 0,5 dianggap besar dan kritis, dan h > 0,2 sebagai petunjuk peringatan. Pada dasarnya nilai h yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh, yang kemudian dapat diketahui setelah analisis dengan penyisihan pengamatan tersebut.

Df FITS dan jarak Cook (Cook’s Distance) digunakan untuk mengukur amatan berpengaruh:


Ilustrasi. Pola hubungan data yang mengandung pencilan Gambar Scaterplot WRI
Januari dan Luas Panen Periode I.



Gambar tersebut menunjukkan contoh pola hubungan Weighted Rainfall Index Januari (WRI Jan) terhadap luas panen padi periode I (LP I). Diketahui pada pengamatan ke15 terletak lebih jauh dari pola pengamatan-pengamatan lainnya pada umumnya. Melalui perbandingan nilai DfFITS dapat dikatakan pengamatan tersebut sebagai outlier dikarenakan memiliki nilai DfFITS = 5.74699 lebih dari batas DfFITS yaitu 2√2/15 = 0.730297. Pengamatan ke-11 juga merupakan outlier.

(Terimakasih teman - teman yang sudah membantu: Triyani Oktaria Rahmatullah Dimas Ali Abdul Aziz Yohanes Purnama Lili Hariningrum Maulina Oktaviana)

Komentar

Mau Cari Apa?

UJI ASUMSI PADA REGRESI LINIER SEDERHANA

Cara Pengecekan Asumsi REGRESI SEDERHANA