Kajian bukan sesuatu yang ideal. Acapkali anda mendapat data
mentah yang perlu diperkemaskan supaya memenuhi keperluan analisis data. Paling
mudah apabila anda mendapat data yang tidak lengkap, ditinggalkan kosong oleh
responden atau data yang diperolehi kelihatan pelik.,. dan tak logik.
Ada SV akan tanya…. Dah “clean”kan data ke belum sebelum
analisis? Apakah maksudnya?
Saya akan cuba menulis secara mudah berkaitan tajuk ini.
Saya akan cuba menulis secara mudah berkaitan tajuk ini.
Terdapat banyak event yang memerlukan anda meneliti dan
membersihkan data anda sebelum analisis. Tulisan ini hanya akan membincangkan lima
situasi tersebut secara ringkas supaya istilah yang digunakan tidak menjadi
sesuatu yang asing bagi anda.
1. Data hilang secara random (missing at random, MAR)
Anda mengukur tinggi 300 pelajar Tingkatan 4 sebagai satu
variable, dan anda dapati 10 pelajar gagal memberikan ketinggian mereka. Ruang yang sepatutnya diisi dibiarkan kosong. Data ketinggian
yang hilang dianggap berlaku secara random dan tidak berlaku bias kerana tiada sebab
pelajar merahsiakan ketinggian mereka.
Contohnya:
Katakan purata ketinggian dari 290 pelajar lain, adalah 1.1
meter. Maka nilai purata ini “boleh” mewakili 10 data ketinggian yang hilang kerana nilai
purata ini tidak akan mendatangkan bias... sebab ketinggian pelajar mestilah berada disekitar nilai tersebut.
2. Data hilang secara bukan random (missing not at random, MNAR)
Lain oula halnya jika anda mengambil pendapatan keluarga 300 pelajar Tingkatan
4 sebagai satu variable, maka kehilangan 10 data ini boleh bersifat bukan random... kata lain berlaku "dengan niat" dengan bias kepada sekumpulan pelajar. Berkemungkinan 10 pelajar yang tidak mengisi data tersebut datang dari keluarga
miskin berpendapatan kurang RM1500 yang “malu” utk menyatakan pendapatan
keluarga mereka.
Oleh itu, anda misalnya “tidak boleh” mengambil purata pendapatan keseluruhan, katakan RM2500 menggantikan nilai yang hilang kerana terdapat bias dan tidak menggambarkan data pendapatan sebenar yang hilang... iaitu <RM1500.
Oleh itu, anda misalnya “tidak boleh” mengambil purata pendapatan keseluruhan, katakan RM2500 menggantikan nilai yang hilang kerana terdapat bias dan tidak menggambarkan data pendapatan sebenar yang hilang... iaitu <RM1500.
3. Data hilang secara random sepenuhnya (missing completely
at random, MCAR)
Terdapat responden yang gagal mengisi data dengan lengkap
kerana tiba-tiba ada kecemasan atau seumpamanya, ini adalah data hilang secara
random sepenuhnya kerana sesiapapun tidak menjangka boleh menghadapi situasi ini.
Katakan terdapat 10 pelajar tingkatan 4
yang tiba2 terpaksa meninggalkan sesi mengisi soal selidik kerana dipanggil ke
bilik Pengetua dan tidak sempat mengisi ketinggian ataupun pendapatan keluarga masing-masing. Kehilangan
data ini jika diketahui sebabnya adalah dianggap berlaku secara random sepenuhnya dan tidak bersifat bias kepada mana-mana kumpulan kerana apa yang berlaku tidak diduga oleh pelajar tersebut malah tidak bias kepada mana-mana kumpulan.
4. Data outlier univariate
Katakan anda mengukur satu variable (univariate) iaitu ketinggian pelajar tingkatan 4 dan
anda dapati ada 5 data dengan ketinggian melebihi 2.1 m dan 5 data lagi dengan ketinggian < 0.1
m sedangkan ketinggian purata adalah 1.1 m.
Ini adalah data random dengan outlier univariate yang ekstrem yang tersimpang jauh melebihi atau berkurang jauh dari nilai purata ketinggian. Jgn bimbang, SPSS dgn mudah boleh mengesan nilai ekstrem / outlier ini.
Ini adalah data random dengan outlier univariate yang ekstrem yang tersimpang jauh melebihi atau berkurang jauh dari nilai purata ketinggian. Jgn bimbang, SPSS dgn mudah boleh mengesan nilai ekstrem / outlier ini.
5. Data outlier multivariate
Katakan anda mengukur lebih dari satu variable yang berkaitan iaitu skor CGPA dan skor Matematik.
Tiba-tiba anda dapati ada beberapa nilai yang pelik, iaitu pelajar yang
mendapat CGPA > 3.5 tetapi skor matematik 50, dan pelajar yang mendapat
CGPA < 2.5 mendapat skor matematik 90. Anda syak berlaku outlier pada skor matematik. Nilai ini tidak semestinya dapat dikesan oleh SPSS jika julat skor matematik adalah antara 50 - 90. Tapi anda boleh teliti dari nilai maksima dan minima menggunakan SPSS.
Abih camno nak buat kalau dapat kes spt di atas? Kita jumpa
lagi di tajuk akan datang... takleh concentrate bila Kelantan dan ATM draw 2-2 dan perlawanan sambung ke masa tambahan!!
OT
No comments:
Post a Comment