.: Tajuk 396: 5 jenis data hilang / outlier

Saturday, October 20, 2012

Tajuk 396: 5 jenis data hilang / outlier

Kajian bukan sesuatu yang ideal. Acapkali anda mendapat data mentah yang perlu diperkemaskan supaya memenuhi keperluan analisis data. Paling mudah apabila anda mendapat data yang tidak lengkap, ditinggalkan kosong oleh responden atau data yang diperolehi kelihatan pelik.,. dan tak logik.

Ada SV akan tanya…. Dah “clean”kan data ke belum sebelum analisis? Apakah maksudnya?

Saya akan cuba menulis secara mudah berkaitan tajuk ini.

Terdapat banyak event yang memerlukan anda meneliti dan membersihkan data anda sebelum analisis. Tulisan ini hanya akan membincangkan lima situasi tersebut secara ringkas supaya istilah yang digunakan tidak menjadi sesuatu yang asing bagi anda.

1. Data hilang secara random (missing at random, MAR)

Anda mengukur tinggi 300 pelajar Tingkatan 4 sebagai satu variable, dan anda dapati 10 pelajar gagal memberikan ketinggian mereka. Ruang yang sepatutnya diisi dibiarkan kosong. Data ketinggian yang hilang dianggap berlaku secara random dan tidak berlaku bias kerana tiada sebab pelajar merahsiakan ketinggian mereka.

Contohnya:

Katakan purata ketinggian dari 290 pelajar lain, adalah 1.1 meter. Maka nilai purata ini “boleh” mewakili 10 data ketinggian yang hilang kerana nilai purata ini tidak akan mendatangkan bias... sebab ketinggian pelajar mestilah berada disekitar nilai tersebut.

2. Data hilang secara bukan random (missing not at random, MNAR)

Lain oula halnya jika anda mengambil pendapatan keluarga 300 pelajar Tingkatan 4 sebagai satu variable, maka kehilangan 10 data ini boleh bersifat bukan random... kata lain berlaku "dengan niat" dengan bias kepada sekumpulan pelajar. Berkemungkinan 10 pelajar yang tidak mengisi data tersebut datang dari keluarga miskin berpendapatan kurang RM1500 yang “malu” utk menyatakan pendapatan keluarga mereka.

Oleh itu, anda misalnya “tidak boleh” mengambil purata pendapatan keseluruhan, katakan RM2500 menggantikan nilai yang hilang kerana terdapat bias dan tidak menggambarkan data pendapatan sebenar yang hilang... iaitu <RM1500.

3. Data hilang secara random sepenuhnya (missing completely at random, MCAR)

Terdapat responden yang gagal mengisi data dengan lengkap kerana tiba-tiba ada kecemasan atau seumpamanya, ini adalah data hilang secara random sepenuhnya kerana sesiapapun tidak menjangka boleh menghadapi situasi ini.

Katakan terdapat 10 pelajar tingkatan 4 yang tiba2 terpaksa meninggalkan sesi mengisi soal selidik kerana dipanggil ke bilik Pengetua dan tidak sempat mengisi ketinggian ataupun pendapatan keluarga masing-masing. Kehilangan data ini jika diketahui sebabnya adalah dianggap berlaku secara random sepenuhnya dan tidak bersifat bias kepada mana-mana kumpulan kerana apa yang berlaku tidak diduga oleh pelajar tersebut malah tidak bias kepada mana-mana kumpulan.

4. Data outlier univariate

Katakan anda mengukur satu variable (univariate) iaitu ketinggian pelajar tingkatan 4 dan anda dapati ada 5 data dengan ketinggian melebihi 2.1 m dan 5 data lagi dengan ketinggian < 0.1 m sedangkan ketinggian purata adalah 1.1 m.

Ini adalah data random dengan outlier univariate yang ekstrem yang tersimpang jauh melebihi atau berkurang jauh dari nilai purata ketinggian. Jgn bimbang, SPSS dgn mudah boleh mengesan nilai ekstrem / outlier ini.

5. Data outlier multivariate

Katakan anda mengukur lebih dari satu variable yang berkaitan iaitu skor CGPA dan skor Matematik. Tiba-tiba anda dapati ada beberapa nilai yang pelik, iaitu pelajar yang mendapat CGPA > 3.5 tetapi skor matematik 50, dan pelajar yang mendapat CGPA < 2.5 mendapat skor matematik 90. Anda syak berlaku outlier pada skor matematik. Nilai ini tidak semestinya dapat dikesan oleh SPSS jika julat skor matematik adalah antara 50 - 90. Tapi anda boleh teliti dari nilai maksima dan minima menggunakan SPSS.

Abih camno nak buat kalau dapat kes spt di atas? Kita jumpa lagi di tajuk akan datang... takleh concentrate bila Kelantan dan ATM draw 2-2 dan perlawanan sambung ke masa tambahan!!

.

Statistik

SPSS - STATISTIK PENYELIDIKAN SECARA SANTAI

Saya klik Follow dan BANGGA menjadi follower drotspss...

Saturday, October 20, 2012

Tajuk 396: 5 jenis data hilang / outlier

No comments:

Post a Comment