Cara Mengatasi uji normalitas yang tidak normal dengan Eviews

Data terdistribusi secara normal adalah konsep umum yang sering salah paham oleh beberapa orang. Beberapa orang percaya bahwa semua data yang dikumpulkan dan digunakan untuk analisis harus didistribusikan secara normal. Tapi distribusi normal tidak terjadi sesering orang pikirkan , dan itu bukan tujuan utama . Distribusi normal adalah sarana untuk mencapai tujuan , bukan tujuan itu sendiri . Data terdistribusi secara normal diperlukan untuk menggunakan sejumlah alat statistik , seperti analisis regresi, analisis Cp / Cpk , uji-t, analisis varians ( ANOVA ) dan masih banyak lagi. Jika seorang praktisi tidak menggunakan alat khusus seperti itu, bagaimanapun , tidak penting apakah data terdistribusi secara normal . Distribusi menjadi masalah hanya ketika praktisi mencapai suatu titik dalam sebuah proyek di mana mereka ingin menggunakan alat statistik yang memerlukan data terdistribusi normal dan mereka tidak memilikinya .

Probabilitas plot pada Gambar di atas adalah contoh dari uji normalitas. Dalam hal ini , asumsi normalitas jelas tidak dapat terpenuhi, nilai p kurang dari 0,05 dan lebih dari 5 persen dari titik data berada di luar interval kepercayaan 95 persen .

Mengidentifikasi dan, jika mungkin, menentukan alasan data tidak normal dan mengatasinya atau
Gunakan alat yang tidak memerlukan asumsi normalitas

Baca Juga : Cara Menghitung indeks nilai tukar petani

Ketika data tidak terdistribusi normal , penyebab non - normalitas harus ditentukan dan tindakan perbaikan yang tepat harus diambil . Ada enam alasan yang sering dialami untuk data tidak normal .
Terlalu banyak nilai-nilai ekstrim dalam satu set data yang akan menghasilkan distribusi skewness(miring). Normalitas data dapat dicapai dengan menghilangkan data tersebut. Hal ini kemungkinan terjadi karena kesalahan menentukan pengukuran, kesalahan data-entry dan outlier dan untuk mengatasinya dengan menghapus data tersebut dari data yang digunakan untuk alasan yang masuk akal. sangatlah penting bahwa outlier diidentifikasi sebagai penyebab yang benar-benar membuat data tidak normal sebelum mereka dieliminasi . Jangan lupa : Sifat data terdistribusi normal adalah bahwa kecil persentase dari nilai-nilai ekstrim yang diharapkan, tidak setiap outlier disebabkan oleh alasan khusus. Data tidak dapat terdistribusi secara normal karena sebenarnya berasal dari lebih dari satu proses , penjumlahan atau pergeseran, atau dari sebuah proses yang sering bergeser . Jika dua atau lebih set data yang terdistribusi secara normal yang tumpang tindih, data mungkin terlihat bimodal atau multimodal - itu akan memiliki dua atau lebih nilai yang paling sering terjadi. Tindakan perbaikan untuk situasi ini adalah untuk menentukan X penyebab bimodal atau distribusi multimodal dan kemudian stratifikasi data . Data harus diperiksa lagi untuk normalitas dan setelah proses stratified dapat bekerja secara terpisah . Gambar berikut menunjukkan data waktu akses website yang memiliki data tidak normal pada sebuah website.

Setelah stratifikasi waktu akses website antara akhir pekan dibandingkan Data hari kerja, menunjukkan kedua kelompok berdistribusi normal. sehingga bisa dijadikan perimbangan dalam analisis data yang akan.

Round- off error atau perangkat pengukuran dengan resolusi rendah dapat membuat benar-benar data continues dan data terdistribusi normal terlihat diskrit dan tidak normal . Kurangnya data diskriminasi dan karena terbatasnya jumlah nilai yang berbeda - dapat diatasi dengan menggunakan sistem pengukuran yang lebih akurat atau dengan mengumpulkan lebih banyak data.
Data yang dikumpulkan tidak mungkin terdistribusi normal jika itu merupakan hanya bagian dari seluruh data dalam suatu proses. Hal ini dapat terjadi jika data dikumpulkan dan dianalisis setelah penyortiran. Data pada Gambar dibawah diperoleh dari proses produksi botol di mana target adalah untuk menghasilkan botol dengan volume 100 ml . Spesifikasi minimal dan maksimal yang dapat diterima adalah 97,5 ml dan 102,5 ml dan di luar spesifikasi tersebut dihapus dari proses analisis. Sehingga terlihat pada gambar dibawah ini. Dari data tersebut tentunya data tidak terdistribusi normal karena hanya sebagian yang dimasukkan yaitu yang masuk dalam spesifikasi.

Jika proses memiliki banyak nilai mendekati nol, distribusi data akan miring (skewness) ke kanan atau kiri. Dalam hal ini, transformasi seperti tenaga transformasi Box - Cox, dapat membantu membuat data normal. Dalam metode ini , semua data dinaikkan , atau diubah , dengan eksponen tertentu , ditunjukkan dengan nilai Lambda . Ketika melakukan transformasi, semua data harus dilakukan perlakuan (diubah) yang sama. Gambar di bawah ini menggambarkan contoh dari konsep ini. Gambar menunjukkan satu set data siklus - waktu;

menunjukkan data yang sama diubah setelah dilakukan transformasi dengan logaritma natural.

Untuk bahasan transformasi box cox silahkan ke link "transormasi box cox" Perhatikan : Metode transformasi tidak memberikan jaminan distribusi normal . Selalu periksa dengan uji normalitas untuk menentukan apakah distribusi normal dapat diterpenuhi setelah transformasi . Ada banyak tipe data yang mengikuti distribusi non-normal. Contoh berikut:

Distribusi Weibull , ditemukan dengan data survival seperti waktu kelangsungan hidup suatu produk
Distribusi log - normal, ditemukan dengan panjang data seperti ketinggian
Distribusi Largest-extreme-value, ditemukan dengan data seperti waktu terpanjang down setiap hari
Distribusi eksponensial, ditemukan dengan data pertumbuhan seperti pertumbuhan bakteri
Distribusi Poisson, ditemukan dengan peristiwa langka seperti jumlah kecelakaan
Distribusi binomial, ditemukan dengan " proporsi " data seperti persen barang cacat

Jika data berikut salah satu distribusi yang berbeda , harus ditangani dengan menggunakan alat dengan menggunakan disribusi yang sama.
Beberapa alat statistik tidak memerlukan data terdistribusi normal . Untuk membantu para praktisi memahami kapan dan bagaimana alat ini dapat digunakan , tabel di bawah ini menunjukkan perbandingan alat yang tidak memerlukan distribusi normal dengan setara - distribusi normal.

Perbandingan alat analisis untuk data berdistribusi normal dan tidak normal
Alat analisis yang menggunakan data normal	Alat analisis untuk data tidak normal	Distribusi yang diperlukan
T-test	Mann-Whitney test; Mood’s median test; Kruskal-Wallis test	Any
ANOVA	Mood’s median test; Kruskal-Wallis test	Any
uji t berpasangan	One-sample sign test	Any
F-test; Bartlett’s test	Levene’s test	Any
Analisis regresi	analisis regresi non parametrik	Any
Cp/Cpk analysis	Cp/Cpk analysis	Weibull; log-normal; largest extreme value; Poisson; exponential; binomial

Sumber : Dealing with Non-normal Data: Strategies and Tools

Ketika kita hendak melakukan analisis statistik parametrik, seperti melakukan uji korelasi product moment, salah satu asumsi yang harus dipenuhi adalah distribusi data kita normal. Oleh karena itu sebelum melakukan analisis statistik parametrik, terlebih dahulu kita harus melihat apakah data kita terdistribusi normal atau tidak. Bagaimana cara untuk melihat data kita normal atau tidak? Berikut akan diberikan contoh penelitian fiktif tentang “Hubungan antara IQ dengan prestasi”. Data fiktif dapat didownload di sini

Uji Normalitas di SPSS

Sebelum menguji hipotesis kita yakni “ada hubungan antara IQ dengan prestasi”, maka kita uji terlebih dahulu normalitas data IQ dan prestasi kita. Ada berbagai cara untuk menguji normalitas di SPSS, seperti dengan melihat histogram dan nilai skewness dan kurtosis serta dengan uji kolmogorov-smirnov. Contoh kali ini kita akan menggunakan uji kolmogorov-smirnov. Uji normalitas dengan kolmogorov-smirnov dilakukan dengan membandingkan distribusi empirik data kita dengan distribusi normal yang diharapkan. Karena merupakan uji beda, maka nilai p yang diharapkan adalah yang tidak signifikan, yakni p>0,05. Hal ini menunjukkan bahwa tidak ada perbedaan antara kedua distribusi itu, yang berarti distribusi data empirik kita adalah normal. Untuk menguji normalitas di SPSS dapat dilakukan dengan cara

1. Klik analyze – descriptive statistics – explore

2. Masukkan variabel IQ dan prestasi ke dependent list

3. Klik plots, lalu centang histogram dan normality plots with tests

4. Klik continue lalu OK

Dari output tersebut dapat kita lihat, variabel IQ memiliki nilai kolmogorov-smirnov sebesar 0,53 dan p=0,200 [p>0,05], dengan demikian tidak ada perbedaan antara distribusi empirik data kita dengan distribusi normal ideal, oleh karena itu distribusi data variabel IQ normal. Sedangkan pada variabel prestasi memiliki nilai kolmogorov-smirnov sebesar 0,105 dan p=0,027 [p<0,05], dengan demikian ada perbedaan antara distribusi empirik data kita dengan distribusi normal ideal, oleh karena itu distribusi data variabel prestasi tidak normal. Lalu bagaimana kita memperlakukan data yang tidak normal kita? Ada beberapa cara yang bisa dilakukan untuk mengatasi data yang tidak normal tersebut.

Membuang outliers

Salah satu alasan mengapa data kita tidak normal adalah adanya outliers. Outliers adalah data yang memiliki skor ekstrem, baik ekstrem tinggi maupun ekstrem rendah. Adanya outliers dapat membuat distribusi skor condong ke kiri atau ke kanan. Beberapa ahli menilai data outliers ini lebih baik kita buang, karena ada kemungkinan subjek mengerjakan dengan asal-asalan, selain itu adanya data outliers juga mengacaukan pengujian statistik. Namun beberapa ahli tetap mendukung bahwa data outliers tetap harus dimasukkan dalam analisis karena memang fakta di lapangan adalah demikian. Dalam kasus ini, kita akan membuang outliers yang dapat mengacaukan data kita, sehingga diperoleh distribusi yang normal.

Untuk melihat data outliers, kita dapat melakukannya di output kita tadi pada bagian Boxplot. Hasil output boxplot data kita dapat dilihat pada gambar di bawah.

Gambar tersebut mengindikasikan data-data mana saja yang terindikasi merupakan data ekstrem atau outliers. Jika data berada di atas kotak, menunjukkan data ekstrem tinggi, sedangkan jika berada di bawah kotak menunjukkan data ekstrem rendah. Semakin jauh dari kotak, semakin ekstrem data tersebut. Dari output di atas kita dapat melihat bahwa subjek nomer 2 terindikasi sebagai outliers. Untuk menghapus data subjek, klik kanan pada nomer subjek, lalu pilih clear.

Jika outliers tersebut telah kita hapus, maka kita uji kembali normalitas data kita dengan kolmogorov-smirnov.

Hasil uji kolmogorov-smirnov yang baru ditunjukkan gambar di bawah.

Hasil uji kolmogov-smirnov yang baru pada variabel prestasi ternyata menghasilkan nilai kolmogorov-smirnov sebesar 0,097 dan p=0,61 [p>0,05]. Dengan demikian distribusi data variabel prestasi normal. Begitu juga pada variabel IQ yang memiliki p>0,05, sehingga variabel IQ juga terdistribusi normal. Dengan demikian masalah ketidaknormalan data kita sudah teratasi.

Transformasi Data

Jika beberapa ahli tidak setuju dengan cara menghapus data-data ekstrem, cara lain yang bisa ditempuh adalah dengan transformasi data. Transformasi data dilakukan dengan mengubah data kita dengan formula tertentu tergantung dari bentuk grafik kita. Sebelum melakukan transformasi data, kita harus tahu terlebih dahulu bagaimana bentuk grafik kita. Cara melihat grafik data kita adalah dengan cara

1. Klik analyze – descriptive statistics – frequencies

2. Masukkan variabel prestasi dan pilih menu chart, pilih histogram dan centang show normal curve on histogram.

3. Klik continue dan OK, maka akan diperoleh output seperti berikut.

Grafik tersebut menggambarkan kurve kita condong ke kanan. Beberapa kemungkinan grafik yang akan muncul adalah sebagai berikut.

Sumber gambar: //i-codee.blogspot.co.id

Panduan transformasi data berdasarkan bentuk grafik dapat dilihat di tabel di bawah.

Bentuk Grafik Histogram	Bentuk Transformasi Data
Moderate positive skewness	SQRT[x]
Substansial positive skewness	LG10[x]
Severe positive skewness	1/x
Moderate negative skewness	SQRT[k-x]
Substansial negative skewness	LG10[k-x]
Severe negative skewness	1/[k-x]

k = nilai tertinggi dari data mentah x

Jika kita kembali ke data kita dan melihat grafik histogram kita, maka bentuk grafik kita adalah moderate negative skewness, sehingga transformasi data yang kita pakai adalah SQRT[k-x]. K adalah nilai tertinggi dari data mentah variabel prestasu, yakni 86. Untuk mentransformasi data, kita dapat melakukan langkah berikut

1. Klik transform – compute variable.

2. Pada kotak target variable, kita ketik nama variabel baru kita, misal trans_prestasi

3. Pada numeric expression, masukkan formula kita yakni SQRT[86-prestasi]

4. klik OK

Kembali lagi ke data kita, maka kita sudah memiliki variabel baru bernama trans_prestasi yang tidak lain adalah transformasi data dari variabel prestasi.

Untuk melihat apakah transformasi data kita berhasil atau tidak, kita uji kembali normalitas data kita dengan kolmogorov smirnov.

Dari hasil uji kolmogorov-smirnov, diperoleh p>0,05, sehingga dapat dikatakan bahwa variabel transformasi prestasi ini terdistribusi secara normal.

Catatan mengenai transformasi data:

· Transformasi data tidak hanya dapat digunakan untuk mengatasi ketidaknormalan data, tapi juga dapat digunakan untuk mengatasi pelanggaran asumsi lainnya, seperti lineraritas dan homogentitas varians pada uji beda. Meskipun umum digunakan, namun penggunaan transformasi data sendiri juga tidak lepas dari pro dan kontra. Beberapa diskusi terkait dapat dilihat di sini

· Jika transformasi data dilakukan, maka data yang ditampilkan dalam laporan kita tetaplah data asli. Namun data yang digunakan untuk uji statistik parametrik menggunakan data transformasi.

· Jika uji statistik dilakukan untuk mengkorelasikan dua atau lebih variabel, maka setiap variabel juga harus ditransformasikan dalam bentuk yang sama. Artinya, dalam contoh di atas, variabel IQ juga harus ditransformasi ke bentuk SQRT[k-IQ].

Mengubah Analisis ke Non-Parametrik

Cara terakhir jika dengan menghapus outliers dan mentransformasi data kita belum berhasil adalah dengan mengubah teknik analisis kita ke analisis non-parametrik. Analisis non-parametrik tidak memerlukan asumsi normalitas seperti yang diperlukan pada analisis parametrik. Meskipun demikian, power test analisis non-parametrik ini tentu lebih lemah jika dibandingkan dengan analisis parametrik. Beberapa teknik analisis pengganti analisis parametrik disajikan dalam tabel di bawah ini.

Analisis Parametrik	Analisis Non Parametrik	Fungsi
Paired sample t-test	Uji tanda Uji Wilcoxon	Meneliti perbedaan dalam suatu kelompok
Independent sample t-test	Uji Mann-Whitney U;	Membandingkan dua sample bebas
Anava satu jalur	Kruskal-Wallis	Membandingkan tiga kelompok atau lebih
Anava dua jalur	Anava dua jalur Friedman	Membandingkan tiga kelompok atau lebih dengan menggunakan dua faktor yang berbeda
Korelasi Pearson	Korelasi peringkat Spearman	Mengetahui hubungan korelasi linier antara dua perubah