Cara menghitung korelasi ganda dengan excel

Korelasi digunakan untuk mengetahui seberapa kuat hubungan keterkaitan antara dua variabel

Table of Contents Show

Jenis regresi
Menggunakan kemampuan spreadsheet "Excel"
Analisis hasil regresi untuk R-square
Analisis rasio
Regresi Berganda
Estimasi Parameter
Soal menggunakan persamaan regresi linier
Analisis hasil
Masalah kelayakan membeli satu blok saham
Solusi menggunakan spreadsheet Excel
Pemeriksaan hasil dan kesimpulan
Koefisien determinasi
Bagaimana cara menghitung korelasi di excel?
Rumus apa yang kita gunakan untuk menghitung nilai korelasi?
Apa itu koefisien korelasi ganda?

Melanjutkan panduan pemula seputar Excel sebelumnya, hari ini kita akan membahas cara menghitung nilai korelasi antara dua variabel menggunakan Microsoft Excel 2010. Yap, saya sudah upgrade ke Office 2010, jadi ke depan tutorial seputar Office baik Word, PowerPoint dan juga Excel akan menggunakan versi 2010.

Sedikit mengingat pelajaran kuliah dulu, untuk mencari nilai korelasi kita akan menggunakan rumus Correl, tujuannya adalah mencari nilai hubungan antara dua variabel, apakah keduanya mempunyai keterkaitan atau tidak.

Di bawah ini ada sebuah berkas Jam Kerja (X) dan Target (Y), kita akan mencari nilai korelasi kedua variabel (X dan Y) untuk mengetahui adakah keterkaitan antara jam kerja dan target yang telah dicapai oleh karyawan.

Berdasarkan pada berkas di atas, letakkan kursor pada kolom D12, kemudian ketikkan rumus =CORREL(array1;array2). Array1 adalah seluruh data di kolom X (jam kerja), dan array2 adalah seluruh data di kolom Y (Target)
Urutannya, ketikkan rumusnya dulu, =CORREL(, kemudian tandai seluruh data di kolom jam kerja dengan kursor. Kemudian tekan ; dan tandai seluruh data di kolom Target, juga dengan kursor. Lalu tekan tombol tutup kurung dan tekan Enter.

Hasilnya adalah 0,9.

Untuk membuat kesimpulan hubungan antara dua variabel di atas, perlu memenuhi kriteria sebagai berikut, apabila:

0,00 – 0,199 : Hubungan korelasinya sangat lemah
0,20 – 0,399 : Hubungan korelasinya lemah
0,40 – 0,599 : Hubungan korelasinya sedang
0,60 – 0,799 : Hubungan korelasi kuat
0,80 – 1,0 : Hubungan korelasinya sangat kuat

Maka, kesimpulannya untuk nilai korelasi antara jam kerja dan pencapaian target di data yang kita hitung adalah sangat kuat korelasinya.

Sumber gambar header Shutterstock.

Analisis regresi adalah metode penelitian statistik yang memungkinkan Anda untuk menunjukkan ketergantungan suatu parameter pada satu atau lebih variabel bebas. Di era pra komputer, penggunaannya cukup sulit, terutama jika menyangkut data dalam jumlah besar. Hari ini, setelah mempelajari cara membuat regresi di Excel, Anda dapat memecahkan masalah statistik yang rumit hanya dalam beberapa menit. Di bawah ini adalah contoh spesifik dari bidang ekonomi.

Jenis regresi

Konsep itu sendiri diperkenalkan ke dalam matematika pada tahun 1886. Regresi terjadi:

linier;
parabola;
kekuatan;
eksponensial;
hiperbolis;
demonstratif;
logaritma.

Pertimbangkan masalah menentukan ketergantungan jumlah anggota tim pensiunan pada gaji rata-rata di 6 perusahaan industri.

Sebuah tugas. Di enam perusahaan, kami menganalisis gaji bulanan rata-rata dan jumlah karyawan yang keluar atas kemauan sendiri. Dalam bentuk tabel kita memiliki:


		Jumlah orang yang pergi	Gaji
		30000 rubel
			35000 rubel
			40000 rubel
			45000 rubel
			50000 rubel
			55000 rubel
			60000 rubel

Untuk masalah menentukan ketergantungan jumlah pensiunan terhadap gaji rata-rata di 6 perusahaan, model regresi berbentuk persamaan Y = a 0 + a 1 x 1 +…+akxk , dimana xi adalah variabel yang mempengaruhi , ai adalah koefisien regresi, ak adalah jumlah faktor.

Untuk tugas ini, Y adalah indikator karyawan yang keluar, dan faktor yang mempengaruhinya adalah gaji, yang dilambangkan dengan X.

Menggunakan kemampuan spreadsheet "Excel"

Analisis regresi di Excel harus didahului dengan penerapan fungsi bawaan pada data tabular yang tersedia. Namun, untuk tujuan ini, lebih baik menggunakan add-in "Analysis Toolkit" yang sangat berguna. Untuk mengaktifkannya Anda perlu:

dari tab "File", buka bagian "Opsi";
di jendela yang terbuka, pilih baris "Add-on";
klik tombol "Pergi" yang terletak di bagian bawah, di sebelah kanan baris "Manajemen";
centang kotak di sebelah nama "Paket Analisis" dan konfirmasi tindakan Anda dengan mengklik "OK".

Jika semuanya dilakukan dengan benar, tombol yang diinginkan akan muncul di sisi kanan tab Data, yang terletak di atas lembar kerja Excel.

di excel

Sekarang kita memiliki semua alat virtual yang diperlukan untuk melakukan perhitungan ekonometrik, kita dapat mulai memecahkan masalah kita. Untuk ini:

klik tombol "Analisis Data";
di jendela yang terbuka, klik tombol "Regresi";
di tab yang muncul, masukkan rentang nilai untuk Y (jumlah karyawan yang berhenti) dan untuk X (gaji mereka);
Kami mengkonfirmasi tindakan kami dengan menekan tombol "Ok".

Akibatnya, program akan secara otomatis mengisi lembar baru spreadsheet dengan data analisis regresi. Catatan! Excel memiliki kemampuan untuk secara manual mengatur lokasi yang Anda inginkan untuk tujuan ini. Misalnya, itu bisa berupa lembar yang sama di mana nilai Y dan X berada, atau bahkan buku kerja baru yang dirancang khusus untuk menyimpan data tersebut.

Analisis hasil regresi untuk R-square

Di Excel, data yang diperoleh selama pemrosesan data dari contoh yang dipertimbangkan terlihat seperti ini:

Pertama-tama, Anda harus memperhatikan nilai R-square. Ini adalah koefisien determinasi. Dalam contoh ini, R-square = 0,755 (75,5%), yaitu, parameter yang dihitung dari model menjelaskan hubungan antara parameter yang dipertimbangkan sebesar 75,5%. Semakin tinggi nilai koefisien determinasi, semakin dapat diterapkan model yang dipilih untuk tugas tertentu. Diyakini bahwa itu benar menggambarkan situasi nyata dengan nilai R-kuadrat di atas 0,8. Jika R-kuadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisis rasio

Angka 64.1428 menunjukkan berapa nilai Y jika semua variabel xi dalam model yang kita pertimbangkan diset ke nol. Dengan kata lain, dapat dikatakan bahwa nilai parameter yang dianalisis juga dipengaruhi oleh faktor lain yang tidak dijelaskan dalam model tertentu.

Koefisien berikutnya -0,16285, terletak di sel B18, menunjukkan bobot pengaruh variabel X terhadap Y. Ini berarti bahwa gaji bulanan rata-rata karyawan dalam model yang dipertimbangkan mempengaruhi jumlah berhenti dengan bobot -0,16285, yaitu. tingkat pengaruhnya sama sekali kecil. Tanda "-" menunjukkan bahwa koefisien tersebut bernilai negatif. Ini jelas, karena semua orang tahu bahwa semakin tinggi gaji di perusahaan, semakin sedikit orang yang ingin memutuskan kontrak kerja atau berhenti.

Regresi Berganda

Istilah ini mengacu pada persamaan koneksi dengan beberapa variabel independen yang berbentuk:

y \u003d f (x 1 + x 2 + ... x m) + , di mana y adalah fitur efektif (variabel dependen), dan x 1 , x 2 , ... x m adalah faktor faktor (variabel independen).

Estimasi Parameter

Untuk regresi berganda (MR) dilakukan dengan menggunakan metode kuadrat terkecil (OLS). Untuk persamaan linier berbentuk Y = a + b 1 x 1 +…+b m x m + , kita membangun sistem persamaan normal (lihat di bawah)

Untuk memahami prinsip metode, pertimbangkan kasus dua faktor. Kemudian kita memiliki situasi yang dijelaskan oleh rumus

Dari sini kita mendapatkan:

di mana adalah varians dari fitur terkait yang tercermin dalam indeks.

LSM dapat diterapkan pada persamaan MP pada skala yang dapat distandarisasi. Dalam hal ini, kita mendapatkan persamaan:

di mana t y , t x 1, … t xm adalah variabel standar yang nilai rata-ratanya adalah 0; i adalah koefisien regresi standar, dan simpangan bakunya adalah 1.

Harap dicatat bahwa semua i dalam hal ini disetel sebagai normal dan terpusat, sehingga perbandingannya satu sama lain dianggap benar dan dapat diterima. Selain itu, merupakan kebiasaan untuk menyaring faktor, membuang yang memiliki nilai i terkecil.

Soal menggunakan persamaan regresi linier

Misalkan ada tabel dinamika harga produk N tertentu selama 8 bulan terakhir. Penting untuk membuat keputusan tentang kelayakan membeli batchnya dengan harga 1850 rubel/t.


nomor bulan	nama bulan	harga barang N
		1750 rubel per ton
		1755 rubel per ton
		1767 rubel per ton
		1760 rubel per ton
		1770 rubel per ton
		1790 rubel per ton
		1810 rubel per ton
		1840 rubel per ton

Untuk mengatasi masalah ini di spreadsheet Excel, Anda perlu menggunakan alat Analisis Data yang sudah diketahui dari contoh di atas. Selanjutnya, pilih bagian "Regresi" dan atur parameternya. Harus diingat bahwa di bidang "Input Y interval", rentang nilai untuk variabel dependen (dalam hal ini, harga suatu produk pada bulan-bulan tertentu dalam setahun) harus dimasukkan, dan di kolom "Input Interval X" - untuk variabel independen (nomor bulan). Konfirmasikan tindakan dengan mengklik "Ok". Pada lembar baru (jika diindikasikan demikian), kami mendapatkan data untuk regresi.

Berdasarkan mereka, kami membangun persamaan linier dalam bentuk y=ax+b, di mana parameter a dan b adalah koefisien baris dengan nama nomor bulan dan koefisien dan baris "Y-persimpangan" dari lembar dengan hasil analisis regresi. Dengan demikian, persamaan regresi linier (LE) untuk masalah 3 ditulis sebagai:

Harga produk N = 11.714* nomor bulan + 1727.54.

atau dalam notasi aljabar

y = 11,714 x + 1727,54

Analisis hasil

Untuk memutuskan apakah persamaan regresi linier yang dihasilkan memadai, koefisien korelasi ganda (MCC) dan koefisien determinasi digunakan, serta uji Fisher dan uji Student. Dalam tabel Excel dengan hasil regresi, mereka muncul di bawah nama beberapa R, R-kuadrat, F-statistik dan t-statistik, masing-masing.

KMC R memungkinkan untuk menilai ketatnya hubungan probabilistik antara variabel independen dan dependen. Nilainya yang tinggi menunjukkan hubungan yang cukup kuat antara variabel "Jumlah bulan" dan "Harga barang N dalam rubel per 1 ton". Namun, sifat hubungan ini masih belum diketahui.

Kuadrat koefisien determinasi R 2 (RI) adalah karakteristik numerik dari bagian hamburan total dan menunjukkan hamburan bagian mana dari data eksperimen, yaitu. nilai variabel terikat sesuai dengan persamaan regresi linier. Dalam masalah yang dipertimbangkan, nilai ini sama dengan 84,8%, yaitu, data statistik dijelaskan dengan tingkat akurasi yang tinggi dengan SD yang diperoleh.

F-statistik, juga disebut uji Fisher, digunakan untuk menilai signifikansi hubungan linier, menyangkal atau mengkonfirmasi hipotesis keberadaannya.

(Kriteria siswa) membantu mengevaluasi signifikansi koefisien dengan suku bebas dari hubungan linier yang tidak diketahui atau bebas. Jika nilai t-kriteria > t cr, maka hipotesis insignifikansi suku bebas persamaan linier ditolak.

Dalam masalah yang dipertimbangkan untuk anggota bebas, dengan menggunakan alat Excel, diperoleh bahwa t = 169.20903, dan p = 2.89E-12, yaitu, kita memiliki probabilitas nol bahwa hipotesis yang benar tentang tidak signifikannya anggota bebas akan ditolak. Untuk koefisien pada diketahui t=5.79405, dan p=0.001158. Dengan kata lain, probabilitas bahwa hipotesis yang benar tentang tidak signifikannya koefisien untuk yang tidak diketahui akan ditolak adalah 0,12%.

Dengan demikian, dapat dikatakan bahwa persamaan regresi linier yang dihasilkan adalah memadai.

Masalah kelayakan membeli satu blok saham

Regresi berganda di Excel dilakukan dengan menggunakan alat Analisis Data yang sama. Pertimbangkan masalah khusus yang diterapkan.

Manajemen NNN harus mengambil keputusan tentang layak tidaknya membeli 20% saham MMM SA. Biaya paket (JV) adalah 70 juta dolar AS. Spesialis NNN mengumpulkan data tentang transaksi serupa. Diputuskan untuk mengevaluasi nilai blok saham sesuai dengan parameter tersebut, dinyatakan dalam jutaan dolar AS, sebagai:

hutang usaha (VK);
omset tahunan (VO);
piutang (VD);
biaya aset tetap (SOF).

Selain itu, parameter tunggakan penggajian perusahaan (V3 P) digunakan dalam ribuan dolar AS.

Solusi menggunakan spreadsheet Excel

Pertama-tama, Anda perlu membuat tabel data awal. Ini terlihat seperti ini:

panggil jendela "Analisis Data";
pilih bagian "Regresi";
pada kotak "Input interval Y" masukkan range nilai variabel dependen dari kolom G;
klik ikon dengan panah merah di sebelah kanan jendela "Input interval X" dan pilih rentang semua nilai dari kolom B, C, D, F pada lembar.

Pilih "Lembar Kerja Baru" dan klik "Ok".

Dapatkan analisis regresi untuk masalah yang diberikan.

Pemeriksaan hasil dan kesimpulan

"Kami mengumpulkan" dari data bulat yang disajikan di atas pada lembar spreadsheet Excel, persamaan regresi:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265.844.

Dalam bentuk matematika yang lebih akrab, dapat ditulis sebagai:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265.844

Data untuk JSC "MMM" disajikan dalam tabel:

Menggantinya ke dalam persamaan regresi, mereka mendapatkan angka 64,72 juta dolar AS. Artinya, saham JSC MMM tidak boleh dibeli, karena nilainya 70 juta dolar AS agak berlebihan.

Seperti yang Anda lihat, penggunaan spreadsheet Excel dan persamaan regresi memungkinkan untuk membuat keputusan yang tepat mengenai kelayakan transaksi yang sangat spesifik.

Sekarang Anda tahu apa itu regresi. Contoh-contoh di Excel yang dibahas di atas akan membantu Anda memecahkan masalah praktis dari bidang ekonometrika.

HASIL

Tabel 8.3a. Statistik regresi

Statistik regresi
Beberapa R	0,998364
R-kuadrat	0,99673
R-kuadrat yang dinormalisasi	0,996321
kesalahan standar	0,42405
Pengamatan	10

Mari kita lihat bagian atas dari perhitungan yang disajikan pada Tabel 8.3a, statistik regresi.

Nilai R-kuadrat, juga disebut ukuran kepastian, mencirikan kualitas garis regresi yang dihasilkan. Kualitas ini dinyatakan dengan derajat kesesuaian antara data asli dan model regresi (data yang dihitung). Ukuran kepastian selalu dalam interval.

Dalam kebanyakan kasus, nilai R-kuadrat berada di antara nilai-nilai ini, yang disebut ekstrem, yaitu. antara nol dan satu.

Jika nilai R-square mendekati satu, ini berarti model yang dibangun menjelaskan hampir semua variabilitas dari variabel yang bersesuaian. Sebaliknya, nilai R-kuadrat mendekati nol berarti kualitas model yang dibangun buruk.

Dalam contoh kita, ukuran kepastian adalah 0,99673, yang menunjukkan kecocokan yang sangat baik dari garis regresi dengan data asli.

Beberapa R- koefisien korelasi ganda R - menyatakan derajat ketergantungan variabel bebas (X) dan variabel terikat (Y).

Kelipatan R sama dengan akar kuadrat dari koefisien determinasi, nilai ini mengambil nilai dalam kisaran dari nol hingga satu.

Dalam analisis regresi linier sederhana, kelipatan R sama dengan koefisien korelasi Pearson. Memang, kelipatan R dalam kasus kami sama dengan koefisien korelasi Pearson dari contoh sebelumnya (0,998364).

Tabel 8.3b. Koefisien regresi

	Kemungkinan	kesalahan standar	t-statistik
persimpangan-Y	2,694545455	0,33176878	8,121757129
Variabel X 1	2,305454545	0,04668634	49,38177965
* Versi perhitungan yang terpotong diberikan

Sekarang perhatikan bagian tengah dari perhitungan yang disajikan pada tabel 8.3b. Di sini, koefisien regresi b (2.305454545) dan offset sepanjang sumbu y diberikan, yaitu. konstanta a (2.694545455).

Berdasarkan perhitungan tersebut, kita dapat menulis persamaan regresi sebagai berikut:

Y= x*2.305454545+2.694545455

Arah hubungan antar variabel ditentukan berdasarkan tanda-tandanya (negatif atau positif) koefisien regresi(koefisien b).

Jika tanda di koefisien regresi- positif, hubungan variabel dependen dengan independen akan positif. Dalam kasus kami, tanda koefisien regresi adalah positif, oleh karena itu, hubungannya juga positif.

Jika tanda di koefisien regresi- negatif, hubungan antara variabel terikat dan variabel bebas bersifat negatif (berbalik).

Pada tabel 8.3c. hasil output dari residual disajikan. Agar hasil ini muncul dalam laporan, Anda harus mengaktifkan kotak centang "Residual" saat memulai alat "Regresi".

SISA PENARIKAN

Tabel 8.3c. Tetap

Pengamatan	Prediksi Y	Tetap	Saldo standar
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

Dengan menggunakan bagian laporan ini, kita dapat melihat penyimpangan setiap titik dari garis regresi yang dibangun. Nilai mutlak terbesar

PADA statistik regresi koefisien korelasi ganda ditunjukkan (Kelipatan R) dan tekad (R-kuadrat) antara Y dan larik fitur faktor (yang bertepatan dengan nilai yang diperoleh sebelumnya dalam analisis korelasi)

Bagian tengah meja (ANOVA) diperlukan untuk menguji signifikansi persamaan regresi.

Bagian bawah tabel adalah

Estimasi bi dari koefisien regresi umum i, periksa signifikansinya dan estimasi intervalnya.

Estimasi vektor koefisien b (kolom Kemungkinan):

Maka estimasi persamaan regresi berbentuk:

Penting untuk memeriksa signifikansi persamaan regresi dan koefisien regresi yang dihasilkan.

Mari kita periksa pada tingkat b=0,05 signifikansi persamaan regresi, yaitu. hipotesis H0: 1=в2=в3=…=вk=0. Untuk melakukan ini, nilai yang diamati dari F-statistik dihitung:

Excel memberikan ini dalam hasil analisis varians:

QR=527.4296; Qres=1109.8673 =>

Di kolom F nilai ditunjukkan Fobs.

Dari tabel distribusi-F atau menggunakan statistik bawaan FDISTRIBUSI untuk tingkat signifikansi b=0,05 dan jumlah derajat kebebasan pembilang n1=k=4 dan penyebut n2=n-k-1=45, kami menemukan nilai kritis dari F-statistik sama dengan

Fcr = 2.578739184

Karena nilai F-statistik yang diamati melebihi nilai kritisnya 8,1957 > 2,7587, hipotesis tentang persamaan vektor koefisien ditolak dengan probabilitas kesalahan sebesar 0,05. Oleh karena itu, setidaknya satu elemen dari vektor =(в1,в2,в3,в4)T berbeda nyata dengan nol.

Mari kita periksa signifikansi koefisien individu dari persamaan regresi, yaitu. hipotesa

Pengujian signifikansi koefisien regresi dilakukan berdasarkan t-statistik untuk tingkat signifikansi .

Nilai t-statistik yang diamati ditunjukkan pada tabel hasil di kolom T-statistik.

	Koefisien (bi)	t-statistik (tobs)
persimpangan-Y
Variabel X5
Variabel X7
Variabel X10
Variabel X15

Mereka harus dibandingkan dengan nilai kritis tcr yang ditemukan untuk tingkat signifikansi b = 0,05 dan jumlah derajat kebebasan n = n - k - 1.

Untuk melakukan ini, kami menggunakan fungsi statistik bawaan Excel. STUDRASPOBR, dengan masuk ke menu yang diusulkan probabilitas b=0,05 dan jumlah derajat kebebasan n= n–k-1=50-4-1=45. (Anda dapat menemukan nilai tcr dari tabel statistik matematika.

Kami mendapatkan tcr = 2.014103359.

Untuk nilai t-statistik yang teramati lebih kecil dari nilai kritis pada modulo 2.0141>|-0.0872|, 2.0141>|0.2630|, 2.0141>|0.7300|, 2.0141>|-1.6629 |.

Akibatnya, hipotesis bahwa koefisien ini sama dengan nol tidak ditolak dengan probabilitas kesalahan sama dengan 0,05, yaitu. koefisien yang sesuai tidak signifikan.

Untuk nilai t-statistik teramati lebih besar dari nilai kritis modulo |3.7658|>2.0141, oleh karena itu hipotesis H0 ditolak yaitu. - penting.

Signifikansi koefisien regresi juga diperiksa oleh kolom berikut dari tabel yang dihasilkan:

Kolom P-berarti menunjukkan signifikansi parameter model dengan batas tingkat 5%, yaitu. jika p≤0,05, maka koefisien yang sesuai dianggap signifikan, jika p>0,05, maka tidak signifikan.

Dan kolom terakhir - bawah 95% Dan 95% teratas Dan bawah 98% Dan 98% teratas - ini adalah perkiraan interval koefisien regresi dengan tingkat keandalan yang diberikan untuk r=0,95 (selalu dikeluarkan) dan r=0,98 (diterbitkan ketika keandalan tambahan yang sesuai ditetapkan).

Jika batas bawah dan batas atas memiliki tanda yang sama (nol tidak termasuk dalam interval kepercayaan), maka koefisien regresi yang sesuai dianggap signifikan, jika tidak maka tidak signifikan.

Seperti dapat dilihat dari tabel, untuk koefisien pada 3 p-value p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Menurut algoritma analisis regresi bertahap dengan mengecualikan regresi tidak signifikan, pada tahap berikutnya perlu untuk mengecualikan variabel yang memiliki koefisien regresi tidak signifikan dari pertimbangan.

Dalam kasus ketika beberapa koefisien yang tidak signifikan diidentifikasi selama evaluasi regresi, regresi yang nilai t-statistik () minimal dikeluarkan dari persamaan regresi terlebih dahulu. Menurut prinsip ini, pada tahap selanjutnya perlu dikeluarkan variabel X5 yang memiliki koefisien regresi tidak signifikan sebesar 2

II TAHAP ANALISIS REGRESI.

Model termasuk faktor tanda X7, X10, X15, X5 tidak termasuk.

HASIL

Statistik regresi

Beberapa R

R-kuadrat

R-kuadrat yang dinormalisasi

kesalahan standar

Pengamatan

Analisis varians

(jumlah derajat kebebasan n)

(jumlah deviasi kuadrat Q)

(rata-rata kuadrat MS=SS/n)

(Fobs = MSR/MSres)

Signifikansi F

Regresi

Koefisien

kesalahan standar

t-statistik

Nilai-P

95% teratas (bimax)

Lebih rendah 98% (wimin)

persimpangan-Y

Variabel X7

Variabel X10

Variabel X15

Koefisien korelasi berganda mencirikan ketatnya hubungan linier antara satu variabel dan himpunan variabel lain yang sedang dipertimbangkan.
Yang paling penting adalah perhitungan koefisien korelasi berganda fitur yang dihasilkan y dengan faktor x 1 , x 2 ,…, x m , rumus untuk menentukan yang dalam kasus umum memiliki bentuk

di mana r adalah determinan dari matriks korelasi; 11 adalah komplemen aljabar dari elemen r yy dari matriks korelasi.
Jika hanya dua tanda faktor yang dipertimbangkan, maka rumus berikut dapat digunakan untuk menghitung koefisien korelasi berganda:

Konstruksi koefisien korelasi berganda disarankan hanya dalam kasus ketika koefisien korelasi parsial ternyata signifikan, dan hubungan antara fitur yang dihasilkan dan faktor-faktor yang termasuk dalam model benar-benar ada.

Koefisien determinasi

Rumus umum: R 2 = RSS/TSS=1-ESS/TSS
di mana RSS - jumlah deviasi kuadrat yang dijelaskan, ESS - jumlah deviasi kuadrat yang tidak dapat dijelaskan (sisa), TSS - jumlah total deviasi kuadrat (TSS=RSS+ESS)

,
dimana r ij - pair koefisien korelasi antara regressor x i dan x j , a r i 0 - pair koefisien korelasi antara regressor x i dan y ;
- koefisien determinasi yang dikoreksi (dinormalisasi).

Kuadrat dari koefisien korelasi berganda

ditelepon beberapa koefisien determinasi; itu menunjukkan berapa proporsi varians dari atribut yang dihasilkan kamu dijelaskan oleh pengaruh tanda faktor x 1 , x 2 , …, x m . Perhatikan bahwa rumus untuk menghitung koefisien determinasi melalui rasio residual dan varians total dari atribut yang dihasilkan akan memberikan hasil yang sama.
Koefisien korelasi berganda dan koefisien determinasi bervariasi dari 0 hingga 1. Semakin mendekati 1, semakin kuat hubungannya dan, karenanya, semakin akurat persamaan regresi yang dibangun di bawah ini akan menggambarkan ketergantungan kamu dari x 1 , x 2 , …,x m . Jika nilai koefisien korelasi berganda kecil (kurang dari 0,3), ini berarti kumpulan fitur faktor yang dipilih tidak cukup menggambarkan variasi fitur yang dihasilkan, atau hubungan antara faktor dan variabel hasil tidak linier.

Koefisien korelasi ganda dihitung menggunakan kalkulator. Signifikansi Koefisien Korelasi Berganda dan Koefisien Determinasi diperiksa menggunakan uji Fisher.

Manakah dari bilangan berikut yang dapat menjadi nilai koefisien determinasi berganda:
a) 0,4;
b) -1;
c) -2,7;
d) 2.7.

Koefisien korelasi linier berganda adalah 0,75. Berapa persentase variasi variabel terikat y yang diperhitungkan dalam model dan disebabkan oleh pengaruh faktor x 1 dan x 2.
a) 56,2 (R2 =0,752 =0,5625);

Koefisien korelasi berganda digunakan sebagai ukuran derajat keeratan hubungan statistik antara indikator yang dihasilkan (variabel terikat) kamu dan satu set variabel penjelas (independen) atau, dengan kata lain, memperkirakan kedekatan pengaruh gabungan faktor-faktor pada hasil.

Koefisien korelasi berganda dapat dihitung dari sejumlah rumus 5 , antara lain:

menggunakan matriks koefisien korelasi berpasangan

, (3.18)

dimana R- penentu matriks koefisien korelasi berpasangan kamu,

R 11 - penentu matriks korelasi interfaktorial

;

. (3.19)

Untuk model yang memiliki dua variabel bebas, rumus (3.18) disederhanakan

. (3.20)

Kuadrat dari koefisien korelasi berganda adalah koefisien determinasi R 2. Seperti dalam kasus regresi berpasangan, R 2 menunjukkan kualitas model regresi dan mencerminkan proporsi variasi total dari sifat yang dihasilkan kamu dijelaskan dengan mengubah fungsi regresi f(x) (lihat 2.4). Selain itu, koefisien determinasi dapat ditemukan dengan rumus

. (3.21)

Namun, penggunaan R 2 dalam kasus regresi berganda tidak sepenuhnya benar, karena koefisien determinasi meningkat ketika regresi ditambahkan ke model. Ini karena varians residual berkurang ketika variabel tambahan diperkenalkan. Dan jika jumlah faktor mendekati jumlah pengamatan, maka varians residual akan menjadi nol, dan koefisien korelasi ganda, dan karenanya koefisien determinasi, akan mendekati kesatuan, meskipun dalam kenyataannya hubungan antara faktor dan hasil dan kekuatan penjelas dari persamaan regresi bisa jauh lebih rendah.

Untuk mendapatkan penilaian yang memadai tentang seberapa baik variasi sifat yang dihasilkan dijelaskan oleh variasi beberapa sifat faktor, berlaku koefisien determinasi yang disesuaikan

(3.22)

Koefisien determinasi yang disesuaikan selalu lebih kecil R 2. Selain itu, tidak seperti R 2 yang selalu positif,

juga dapat mengambil nilai negatif.

Contoh (lanjutan dari contoh 1). Mari kita hitung koefisien korelasi berganda, sesuai dengan rumus (3.20):

Nilai koefisien korelasi berganda sebesar 0,8601 menunjukkan adanya hubungan yang kuat antara biaya pengangkutan dengan berat muatan dengan jarak yang diangkut.

Koefisien determinasi sama dengan: R 2 =0,7399.

Koefisien determinasi yang disesuaikan dihitung dengan rumus (3.22):

=0,7092.

Perhatikan bahwa nilai koefisien determinasi yang disesuaikan berbeda dari nilai koefisien determinasi.

Dengan demikian, 70,9% variasi variabel dependen (biaya transportasi) dijelaskan oleh variasi variabel independen (berat kargo dan jarak transportasi). Sisanya 29,1% dari variasi variabel dependen dijelaskan oleh faktor-faktor yang tidak diperhitungkan dalam model.

Nilai koefisien determinasi yang disesuaikan cukup besar, oleh karena itu, kami dapat memperhitungkan dalam model faktor-faktor paling signifikan yang menentukan biaya transportasi.

Langkah

Menurut Hasanah (2016), langkah-langkah untuk melakukan analisis korelasi ganda yaitu:.

Buatlah H1 dan H0 dalam bentuk kalimat..

Buatlah H1 dan H0 dalam bentuk statistik..

Buatlah tabel penolong untuk menghitung nilai korelasi ganda..

Masukkan angka-angka statistik dari tabel penolong dengan rumus:.

Bagaimana cara menghitung korelasi di excel?

Caranya cukup masuk ke menu Data, kemudian pilih Data Analysis di grup Analysis. Setelah terbuka dialog box Data Analysis, maka pilih Correlation dan klik OK. Setelah itu, pilih range data yang akan dilakukan korelasi, jika ingin dimasukkan dengan headernya, maka centang "Labels in first row" dan klik OK.

Rumus apa yang kita gunakan untuk menghitung nilai korelasi?

Koefisien korelasi (r) dapat dihitung dari data yang sama digunakan untuk menghasilkan persamaan garis lurus (y = ax + b).

Apa itu koefisien korelasi ganda?

Korelasi berganda merupakan salah satu metode yang digunakan untuk melihat hubungan dari tiga variabel atau bahkan lebih, dimana 2 variabel merupakan variabel independen dan satu lagi merupakan variabel dependen. Bedanya dengan analisis korelasi parsial, dalam metode ini tidak ada variabel independen yang dijadikan ...