A. Validitas
1. Pengertian Validitas
1. Pengertian Validitas
Menurut Azwar (1986) Validitas berasal dari kata
validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat
ukur dalam melakukan fungsi ukurnya.
Suatu
skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi
apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil
ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes
yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan
tujuan pengukuran.
Terkandung
di sini pengertian bahwa ketepatan validitas pada suatu alat ukur tergantung
pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang dikehendaki
dengan tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A dan kemudian
memberikan hasil pengukuran mengenai variabel A, dikatakan sebagai alat ukur
yang memiliki validitas tinggi. Suatu tes yang dimaksudkan mengukur variabel A
akan tetapi menghasilkan data mengenai variabel A’ atau bahkan B, dikatakan
sebagai alat ukur yang memiliki validitas rendah untuk mengukur variabel A dan
tinggi validitasnya untuk mengukur variabel A’ atau B (Azwar 1986).
Sisi
lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu alat
ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga
harus memberikan gambaran yang cermat mengenai data tersebut.
Cermat
berarti bahwa pengukuran itu dapat memberikan gambran mengenai perbedaan yang
sekecil-kecilnya mengenai perbedaan yang satu dengan yang lain. Sebagai contoh,
dalam bidang pengukuran aspek fisik, bila kita hendak mengetahui berat sebuah
cincin emas maka kita harus menggunakan alat penimbang berat emas agar hasil
penimbangannya valid, yaitu tepat dan cermat. Sebuah alat penimbang badan
memang mengukur berat, akan tetapi tidaklah cukup cermat guna menimbang berat
cincin emas karena perbedaan berat yang sangat kecil pada berat emas itu tidak
akan terlihat pada alat ukur berat badan.
Menggunakan
alat ukur yang dimaksudkan untuk mengukur suatu aspek tertentu akan tetapi
tidak dapat memberikan hasil ukur yang cermat dan teliti akan menimbulkan
kesalahan atau eror. Alat ukur yang valid akan memiliki tingkat kesalahan yang
kecil sehingga angka yang dihasilkannya dapat dipercaya sebagai angka yang
sebenarnya atau angka yang mendekati keadaan yang sebenarnya (Azwar 1986).
Pengertian
validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh karena itu,
tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat
ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang
spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam “alat ukur
ini valid” adalah kurang lengkap. Pernyataan valid tersebut harus diikuti oleh
keterangan yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta
valid bagi kelompok subjek yang mana? (Azwar 1986). Pengertian validitas
menurut Walizer (1987) adalah tingkaat kesesuaian antara suatu batasan
konseptual yang diberikan dengan bantuan operasional yang telah dikembangkan.
Menurut
Aritonang R. (2007) validitas suatu instrumen berkaitan dengan kemampuan
instrument itu untuk mengukur atu mengungkap karakteristik dari variabel yang
dimaksudkan untuk diukur. Instrumen yang dimaksudkan untuk mengukur sikap
konsumen terhadap suatu iklan, misalnya, harus dapat menghasilkan skor sikap
yang memang menunjukkan sikap konsumen terhadap iklan tersebut. Jadi, jangan
sampai hasil yang diperoleh adalah skor yang menunjukkan minat konsumen
terhadap iklan itu.
Validitas
suatu instrumen banyak dijelaskan dalam konteks penelitian sosial yang
variabelnya tidak dapat diamati secara langsung, seperti sikap, minat,
persepsi, motivasi, dan lain sebagainya. Untuk mengukur variabel yang demikian
sulit, untuk mengembangkan instrumen yang memiliki validitas yang tinggi karena
karakteristik yang akan diukur dari variabel yang demikian tidak dapat
diobservasi secara langsung, tetapi hanya melalui indikator (petunjuk tak
langsung) tertentu. (Aritonang R. 2007).
Menurut
Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat pengukur itu
mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat suatu
benda, maka dia harus menggunakan timbangan. Timbangan adalah alat pengukur
yang valid bila dipakai untuk mengukur berat, karena timbangan memang mengukur
berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus menggunakan
meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk mengukur
panjang, karena memang meteran mengukur panjang. Tetapi timbangan bukanlah alat
pengukur yang valid bilamana digunakan untuk mengukur panjang.
Sekiranya
penelliti menggunakan kuesioner di dalam pengumpulan data penelitian, maka
kuesioner yang disusunnya harus mengukur apa yang ingin diukurnya. Setelah
kuesioner tersebut tersusun dan teruji validitasnya, dalam praktek belum tentu
data yang dikumpulkan adalah data yang valid. Banyak hal-hal lain yang akan
mengurangi validitas data; misalnya apakah si pewawancara yang mengumpulkan
data betul-betul mengikuti petunjuk yang telah ditetapkan dalam kuesioner.
(Masri Singarimbun).
Menurut
Suharsimi Arikunto, validitas adalah keadaan yang menggambarkan tingkat
instrumen bersangkutan yang mampu mengukur apa yang akan diukur.Menurut Soetarlinah
Sukadji, validitas adalah derajat yang menyatakan suatu tes mengukur apa yang
seharusnya diukur. Validitas suatu tes tidak begitu saja melekat pada tes itu
sendiri, tapi tergantung penggunaan dan subyeknya.
2. Jenis-jenis Validitas
Ebel
(dalam Nazirz 1988) membagi validitas menjadi :
a. Concurrent
Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan
kinerja.
b. Construct
Validity adalah validitas yang berkenaan dengan kualitas aspek psikologis apa
yang diukur oleh suatu pengukuran serta terdapat evaluasi bahwa suatu konstruk
tertentu dapat menyebabkan kinerja yang baik dalam pengukuran.
c. Face Validity
adalah validitas yang berhuubungan apa yang nampak dalam mengukur sesuatu dan
bukan terhadap apa yang seharusnya hendak diukur.
d. Factorial
Validity dari sebuah alat ukur adalah korelasi antara alat ukur dengan
faktor-faktor yang bersamaan dalam suatu kelompok atau ukuran-ukuran perilaku
lainnya, di mana validitas ini diperoleh dengan menggunakan teknik analisis
faktor.
e. Empirical
Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan
suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan langsung dengan
apa yang ingin diramalkan oleh pengukuran.
f. Intrinsic
Validity adalah validitas yang berkenaan dengan penggunaan teknik uji coba
untuk memperoleh bukti kuantitatif dan objektif untuk mendukung bhwa suatu alat
ukur benar-benar mengukur apa yang seharusny diukur.
g. Predictive
Validity adalah validitas yang berkenaan dengan hubungan antara skor suatu alat
ukur dengan kinerj seorang di msa mendatang.
h. Content
Validity adalah validitas yang berkenaan dengan baik buruknya sampling dari
suatu populasi.
i. Curricular
Validity adalah validitas yang ditentukan dengan cara menilik isi dari
pengukuran dan menilai seberapa jauh pungukuran tersebut merupakan alat ukur
yang benar-benar mengukur aspek-aspek sesuai dengan tujuan instruksional.
Sementara
itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu:
a. Content
validity (Validitas isi) adalah validitas yang diperhitungkan melalui pengujian
terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang dicari
jawabannya dalam validitas ini adalah “sejauh mana item-item dalam suatu alat
ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur
yang bersangkutan?” atau berhubungan dengan representasi dari keseluruhan
kawasan.
Validitas
isi suatu instrumen berkaitan dengan kesesuaian antara karakteristik dari
variaabel yang dirumuskan pada definisi konseptual dan operasionalnya. Apabila
semua karakteristik variabel yang dirumuskan pada definisi konseptualnya dapat
diungkap melalui butir-butir suatu instrument, maka instrument itu dinyatakan
memiliki validitas isi yang baik. Sayangnya, hal itu mungkin tidak akan pernah
tercapai karena sulitnya untuk mendefinisikan keseluruhan karakteristik itu.
Selain itu, dari seluruh karakteristik yang dirumuskan pada definisi konseptual
suatu variabel seringkali sulit untuk mengembangkan butir-butir yang valid untuk
mengungkap atau mengukurnya.
Validitas
isi dapat dianalisis dengan cara memperhatikan penampakan luar dari instrument
dan dengan menganalisis kesesuaian butir-butirnya dengan karakteristik yang
dirumuskan pada definisi konseptual variabel yang diukur. Validitas yang
dianalisis dengan memperhatikan penampilan luar instrument itu disebut
validitas tampang (face validity). Validitas tampang dievaluasi dengan membaca
dan menyelidiki butir-butir instrument serta sekaligus membandingkannya dengan
definisi konseptual mengenai variabel yang akan diukur. Validitas yang dianalisis
dengan memperhatikan kerepresentativan butir-butir instrument disebut validitas
penyampelan (sampling validity) atau kuikulum (curriculum validity). Validitas
tampang maupun penyampelan disebut juga sebagai validitas teoritis karena
penganalisisannya lazim dilakukan tanpa didasarkan pada data empiris. Alat yang
digunakan untuk menganalisis validitas itu adalah logika dari orang yang
menganalisisnya.
Menurut
Saifuddin Azwar, validitas isi merupakan validitas yang diestimasi lewat
pengujian terhadap isi tes dengan analisis rasional atau lewat professional
judgement. Pertanyaan yang dicari jawabannya dalam validitas ini adalah ”sejauh
mana item-item dalam tes mencakup keseluruhan kawasan ini (dengan catatan tidak
keluar dari batasan tujuan ukur) objek yang hendak diukur” atau ”sejauh mana
isi tes mencerminkan ciri atribut yang hendak diukur”.
Selanjutnya,
validitas isi terbagi lagi menjadi dua tipe (Saifuddin Azwar), yaitu:
a. Face Validity
(Validitas Muka) adalah tipe validitas yang paling rendah signifikansinya
karena hanya didasarkan pada penilaian selintas mengenai isi alat ukur. Apabila
isi alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat
dikatakan maka validitas muka telah terpenuhi.
b. Logical
Validity (Validitas Logis) disebut juga sebagai Validitas Sampling (Sampling
Validity) adalah validitas yang menunjuk pada sejauh mana isi alat ukur
merupakan representasi dari aspek yang hendak diukur. Validitas logis sangat
penting peranannya dalam penyusunan prestasi dan penyusunan skala, yaitu dengan
memanfaatkan blue-print atu table spesifikasi.
c. Construct
validity (Validitas konstruk) adalah tipe validitas yang menunjukkan sejauh
mana alat ukur mengungkap suatu trait atau konstruk teoritis yang hendak
diukurnya. (Allen & Yen, dalam Azwar 1986).
Pengujian validitas konstruk merupakan prosesyang
terus berlanjut sejalan dengan perkembangan konsep mengenai trait yang diukur.
Menurut
Saifuddin Azwar, validitas konstruk adalah seberapa besar derajat tes mengukur
hipotesis yang dikehendaki untuk diukur. Konstruk adalah perangai yang tidak
dapat diamati, yang menjelaskan perilaku. Menguji validitas konstruk mencakup
uji hipotesis yang dideduksi dari suatu teori yang mengajukan konstruk
tersebut. Criterion-related validity (Validitas berdasar kriteria). Validitas
ini menghendaki tersedianya criteria eksternal yang dapat dijadikan dasar
pengujian skor alat ukur. Suatu kriteria adalah variabel perilaku yang akan diprediksi
oleh skor alat ukur.
Dilihat
dari segi waktu untuk memperoleh skor kriterianya, prosedur validasi berdasar
kriteria menghasilkan dua macam validitas (Saifuddinn Azwar), yaitu:
a. Validitas
Prediktif. Validitas Prediktif sangat penting artinya bila alat ukur
dimaksudkan untuk berfungsi sebagai predictor bagi kinerja di masa yang akan
datang. Contoh situasi yang menghendaki adanya prediksi kinerja ini antara lain
adalah dalam bimbingan karir; seleksi mahasiswa baru, penempatan karyawan, dan
semacamnya. Menurut Saifuddin Azwar, validitas prediktif adalah seberapa besar
derajat tes berhasil memprediksi kesuksesan seseorang pada situasi yang akan
datang. Validitas prediktif ditentukan dengan mengungkapkan hubungan antara
skor tes dengan hasil tes atau ukuran lain kesuksesan dalam satu situasi
sasaran.
b. Validitas
Konkuren. Apabila skor alat ukur dan skor kriterianya dapat diperoleh dalam
waktu yang sama, maka korelasi antara kedua skor termaksud merupakan koefisien
validitas konkuren.
Menurut
Saifuddin Azwar, validitas ini menunjukkan seberapa besar derajat skor tes
berkorelasi dengan skor yang diperoleh dari tes lain yang sudah mantap, bila
disajikan pada saat yang sama, atau dibandingkan dengan criteria lain yang
valid yang diperoleh pada saat yang sama.
Asosiasi
Psikologi Amerika (APA) (1974; dalam Anastasia, 1982) membedakan tiga tipe
validitas, yaitu validitas isi, yang dikaitkan dengan criteria, dan konnstrak.
Ketiga tipe validitas tersebut dapat diuji dengan dan atau tanpa menggunakan
instrument yang telah teruji validitas maupun reabilitasnya.
B. Reliabilitas
1. Pengertian Reliabilitas
Walizer (1987) menyebutkan pengertian
Reliability (Reliabilitas) adalah keajegan pengukuran. Menurut John M. Echols
dan Hasan Shadily (2003: 475) reliabilitas adalah hal yang dapat dipercaya.
Popham (1995: 21) menyatakan bahwa reliabilitas adalah "...the degree of
which test score are free from error measurement"
Menurut Masri Singarimbun, realibilitas
adalah indeks yang menunjukkan sejauh mana suatu alat ukur dapat dipercaya atau
dapat diandalkan. Bila suatu alat pengukur dipakai dua kali – untuk mengukur
gejala yang sama dan hasil pengukuran yang diperoleh relative konsisten, maka
alat pengukur tersebut reliable. Dengan kata lain, realibitas menunjukkan
konsistensi suatu alat pengukur di dalam pengukur gejala yang sama.
Menurut Brennan (2001: 295)
reliabilitas merupakan karakteristik skor, bukan tentang tes ataupun bentuk
tes. Menurut Sumadi Suryabrata (2004: 28) reliabilitas menunjukkan sejauhmana
hasil pengukuran dengan alat tersebut dapat dipercaya. Hasil pengukuran harus
reliabel dalam artian harus memiliki tingkat konsistensi dan kemantapan.
Dalam pandangan Aiken (1987: 42) sebuah
tes dikatakan reliabel jika skor yang diperoleh oleh peserta relatif sama
meskipun dilakukan pengukuran berulang-ulang. Dengan demikian, keandalan sebuah
alat ukur dapat dilihat dari dua petunjuk yaitu kesalahan baku pengukuran dan
koefisien reliabilitas. Kedua statistik tersebut masing-masing memiliki
kelebihan dan keterbatasan (Feldt & Brennan, 1989: 105)
Reliabilitas, atau keandalan, adalah konsistensi dari serangkaian pengukuran atau serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang) akan memberikan hasil yang sama, atau untuk pengukuran yang lebih subjektif, apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar penilai). Reliabilitas tidak sama dengan validitas. Artinya pengukuran yang dapat diandalkan akan mengukur secara konsisten, tapi belum tentu mengukur apa yang seharusnya diukur.
Reliabilitas, atau keandalan, adalah konsistensi dari serangkaian pengukuran atau serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang) akan memberikan hasil yang sama, atau untuk pengukuran yang lebih subjektif, apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar penilai). Reliabilitas tidak sama dengan validitas. Artinya pengukuran yang dapat diandalkan akan mengukur secara konsisten, tapi belum tentu mengukur apa yang seharusnya diukur.
Dalam penelitian, reliabilitas adalah
sejauh mana pengukuran dari suatu tes tetap konsisten setelah dilakukan
berulang-ulang terhadap subjek dan dalam kondisi yang sama. Penelitian dianggap
dapat diandalkan bila memberikan hasil yang konsisten untuk pengukuran yang
sama. Tidak bisa diandalkan bila pengukuran yang berulang itu memberikan hasil
yang berbeda-beda.
Pengukuran reliabilitas dapat dilakukan
dengan menggunakan berbagai alat statistik (Feldt & Brennan, 1989: 105). Berdasarkan
sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua cara yaitu
kesalahan baku pengukuran dan koefisien reliabilitas (Feldt & Brennan:
105). Kedua statistik di atas memiliki keterbatasannya masing-masing. Kesalahan
pengukuran merupakan rangkuman inkonsistensi peserta tes dalam unit-unit skala
skor sedangkan koefisien reliabilitas merupakan kuantifikasi reliabilitas
dengan merangkum konsistensi (atau inkonsistensi) diantara beberapa kesalahan
pengukuran.
Dalam kerangka teori tes klasik, suatu
tes dapat dikatakan memiliki reliabilitas yang tinggi apabila skor tampak tes
tersebut berkorelasi tinggi dengan skor murninya sendiri. Interpretasi lainnya
adalah seberapa tinggi korelasi antara skor tampak pada dua tes yang pararel.
(Saifuddin Azwar, 2006: 29). Reliabilitas menurut Ross E. Traub (1994: 38) yang
disimbolkan oleh dapat didefinisikan sebagai rasio antara varian skor murni dan
varian skor tampak.
Secara
matematis teori di atas dapat ditulis:
Reliabilitas alat ukur tidak dapat
diketahui dengan pasti tetapi dapat diperkirakan. Dalam mengestimasi
reliabilitas alat ukur, ada tiga cara yang sering digunakan yaitu (1)
pendekatan tes ulang, (2) pendekatan dengan tes pararel dan (3) pendekatan satu
kali pengukuran.
Pendekatan tes ulang merupakan
pemberian perangkat tes yang sama terhadap sekelompok subjek sebanyak dua kali dengan
selang waktu yang berbeda. Asumsinya adalah bahwa skor yang dihasilkan oleh tes
yang sama akan menghasilkan skor tampak yang relatif sama. Estimasi dengan
pendekatan tes ulang akan menghasilkan koefisien stabilitas. Untuk memperoleh
koefisien reliabilitas melalui pendekatan tes ulang dapat dilakukan dengan
menghitung koefisien korelasi linear antara distribusi skor subyek pada
pemberian tes pertama dengan skor subyek pada pemberian tes kedua. Pendekatan
tes ulang sangat sesuai untuk mengukur ketrampilan terutama ketrampilan fisik.
Misalnya seorang guru hendak melihat reliabilitas tes yang telah dibuatnya. Setelah melakukan dua kali pengukuran didapatkan skor tes sebagai berikut:
Misalnya seorang guru hendak melihat reliabilitas tes yang telah dibuatnya. Setelah melakukan dua kali pengukuran didapatkan skor tes sebagai berikut:
Koefisien
reliabilitas test di atas dapat dihitung dengan menggunakan formula korelasi
produk momen dari Pearson sebagai berikut:
Dengan
demikian, korelasi sebesar 0,954 menggambarkan bahwa reliabilitas tes cukup
tinggi.
Salah satu
kelemahan mendasar dari teknik test-retest adalah carry-over effect. Masalah
ini disebabkan oleh adanya kemungkinan pada test yang kedua dipengaruhi oleh
test pertama. Misalnya, jika peserta tes masih ingat dengan soal-soal dan
bahkan jawaban ketika dilakukan test pertama. Hal ini dapat meningkatkan
korelasi serta overestimasi terhadap PXX’. Ross E. Traub (1994: 38)
2.
Jenis-jenis Reliabilitas
Walizer (1987) menyebutkan bahwa ada
dua cara umum untuk mengukur reliabilitas, yaitu:
a. Relibilitas
stabilitas. Menyangkut usaha memperoleh nilai yang sama atau serupa untuk
setiap orang atau setiap unit yang diukur setiap saat anda mengukurnya.
Reliabilitas ini menyangkut penggunaan indicator yang sama, definisi
operasional, dan prosedur pengumpulan data setiap saat, dan mengukurnya pada
waktu yang berbeda. Untuk dapat memperoleh reliabilitas stabilitas setiap kali
unit diukur skornya haruslah sama atau hampir sama.
b. Reliabilitas
ekivalen. Menyangkut usaha memperoleh nilai relatif yang sama dengan jenis
ukuran yang berbeda pada waktu yang sama. Definisi konseptual yang dipakai sama
tetapi dengan satu atau lebih indicator yang berbeda, batasan-batasan
operasional, paeralatan pengumpulan data, dan / atau pengamat-pengamat.
Menguji reliabilitas dengan menggunakan
ukuran ekivalen pada waktu yang sama bias menempuh beberapa bentuk. Bentuk yang
paling umum disebut teknik belah-tengah. Cara ini seringkali dipakai dalam
survai.Apabila satu rangkaian pertanyaan yang mengukur satu variable dimasukkan
dalam kuesioner, maka pertanyaan-pertanyaan tersebut dibagi dua bagian persis
lewat cara tertentu. (Pengacakan atau pengubahan sering digunakan untuk teknik
belah tengah ini.) Hasil masing-masing bagian pertanyaan diringkas ke dalam
skor, lalu skor masing-masing bagian tersebiut dibandingkan. Apabila dalam skor
kemudian skor masing-masing bagian tersebut dibandingkan. Apabila kedua skor
itu relatif sama, dicapailah reliabilitas belah tengah.
Reliabilitas ekivalen dapat juga diukur
dengan menggunakan teknik pengukuan yang berbeda. Kecemasan misalnya, telah
diukur dengan laporan pulsa. Skor-skor relatif dari satu indikator macam ini
haruslah sesuai dengan skor yang lain. Jadi bila seorang subyek nampak cemas
pada ”ukuran gelisah” orang tersebut haruslah menunjukkan tingkatan kecermatan
relatif yang sama bila tekanan darahnya yang diukur.
3. Metode
pengujian reliabilitas
Tiga tehnik pengujian realibilitas
instrument antara lain :
a. Teknik
Paralel (Paralel Form atau Alternate Form)
Teknik paralel disebut juga tenik ”double test double
trial”. Sejak awal peneliti harus sudah menyusun dua perangkat instrument yang
parallel (ekuivalen), yaitu dua buah instrument yang disusun berdasarkan satu
buah kisi-kisi. Setiap butir soal dari instrument yang satu selalu harus dapat
dicarikan pasangannya dari instrumen kedua. Kedua instrumen tersebut
diujicobakan semua. Sesudah kedua uji coba terlaksana, maka hasil instrumen
tersebut dihitung korelasinya dengan menggunakan rumus product moment (korelasi
Pearson).
b. Teknik Ulang
(Test Re-test).
Disebut juga teknik ”single test double trial”.
Menggunakan sebuah instrument, namun dites dua kali. Hasil atau skor pertama
dan kedua kemudian dikorelasikan untuk mengetahui besarnya indeks
reliabilitas.Teknik perhitungan yang digunakan sama dengan yang digunakan pada
teknik pertama yaitu rumus korelasi Pearson. Menurut Saifuddin Azwar,
realibilitas tes-retest adalah seberapa besat derajat skor tes konsisten dari
waktu ke waktu. Realibilitas diukur dengan menentukan hubungan antara skor
hasil penyajian tes yang sama kepada kelompok yang sama, pada waktu yang
berbeda.
Metode
pengujian reliabilitas stabilitas yang paling umum dipakai adalah metode
pengujian tes-kembali (test-retest). Metode test-retest menggunakan ukuran atau
“test” yang sama untuk variable tertentu pada satu saat pengukuran yang diulang
lagi pada saat yang lain. Cara lain untuk menunjukkan reliabilitas stabilitas,
bila kita menggunakan survai, adalah memasukkan pertanyaan yang sama di dua
bagian yang berbeda dari kuesioner atau wawancara. Misalnya the Minnesota
Multiphasic Personality Inventory (MPPI) mengecek reliabilitas test-retest
dalam satu kuesionernya dengan mengulang pertanyaan tertentu di bagian-bagian
yang berbeda dari kuesioner yang panjang.
Kesulitan
terbesar untuk menunjukkan reliabilitas stabilitas adalah membuat asumsi bahwa
sifat/ variable yang akan diukur memang benar-benar bersifat stabil sepanjang
waktu. Karena kemungkinan besar tidak ada ukuran yang andal dan sahih yang
tersedia. Satu-satunya faktor yang dapat membuat asumsi-asumsi ini adalah
pengalaman, teori dan/atau putusdan terbaik. Dalam setiap kejadian, asumsi ini
selalu ditantang dan sulit rasanya mempertahankan asumsi tersebut atas dasar
pijakan yang obyektif.
c. Teknik Belah
Dua (Split Halve Method).
Disebut juga tenik “single test single trial”.
Peneliti boleh hanya memiliki seperangkat instrument saja dan hanya diujicobakan
satu kali, kemudian hasilnya dianalisis, yaitu dengan cara membelah seluruh
instrument menjadi dua sama besar. Cara yang diambil untuk membelah soal bisa
dengan membelah atas dasar nomor ganjil-genap, atas dasar nomor awal-akhir, dan
dengan cara undian.
Menurut Saifuddin Azwar, realibilitas ini diukur dengan menentukan hubungan antara skor dua paruh yang ekuivalen suatu tes, yang disajikan kepada seluruh kelompok pada suatu saat. Karena reliabilitas belah dua mewakili reliabilitas hanya separuh tes yang sebenarnya, rumus Spearman-Brown dapat digunakan untuk mengoreksi koefisien yang didapat.
Menurut Saifuddin Azwar, realibilitas ini diukur dengan menentukan hubungan antara skor dua paruh yang ekuivalen suatu tes, yang disajikan kepada seluruh kelompok pada suatu saat. Karena reliabilitas belah dua mewakili reliabilitas hanya separuh tes yang sebenarnya, rumus Spearman-Brown dapat digunakan untuk mengoreksi koefisien yang didapat.
Apa penyebab ketidakandalan? Ada beberapa sumber ketidakandalan
(unreliability), beberapa di antaranya telah dituangkan. Satu sumber
ketidakandalan yang terbesar adalah ketidaksahihan (invalidity). Berikut ini
adalah daftar periksa (check list) sumber-sumber yang menyebabkannya (Walizer
,1987) :
a. Orang atau
unit yang diukur mungkin telah berubah sejak pengukuran pertama dan kedua.
(Tentu saja perubahan dalam skor, haruslah ditafsirkan bukan sebagai
ketidakandalan).
b. Selama
wawancara unit yang sedang diukur berubah, karena:
1. Pewawancara
memperoleh pengalaman.
2. Kelelahan
pewawancara.
3. Subyek
mengalami hal-hal yang menyebabkan penafsiran mereka terhadap
pertanyaan-pertanyaan berubah (sebagai kebalikan dari perubahan seharusnya dari
apa yang sedang diukur).
4. Kesalahan-kesalahan
diperbuat.
c. Aspek situasi
tempat pengukuran berlangsung mungkin berubah sejak pengukuran pertama dan yang
kedua. Hal-hal seperti waktu (pagi, siang, sore), tempat berlangsungnya
pengukuran, orang-orang yang berada dekat di sekitar yang mungkin mempengaruhi
respon mereka dan sebagainya mungkin berbeda.
d. Pertanyaan-pertanyaan
mungkin mendua artinya, sehingga ditafsirkan secara berbeda pada saat pengisian
kuesioner yang berbeda.
e. Pengkode
dan/atau pengamat mungkin membuat penafsiran sendiri-sendiri.
f. Apa yang
nampak sebagai satu teknik ekivalen sebenarnya tidaklah demikian karena
pemilihan pembandingan yang kurang baik.
g. Terjadi
kekeliruan dalam mencatat hasil pengamatan atau memberi kode-kodenya.
h. Atau mungkin
kombinasi penyebab-penyebab terdahulu.
Reliabel :
Haruskah Ajeg? (Feldt & Brennan, 1989: 105). Sering kita dengar baik dalam
kuliah atau dalam ruang ujian, jawaban mahasiswa terhadap pertanyaan "Apa
yang dimaksud reliabilitas?" seperti ini : "Taraf Kepercayaan, yaitu
seberapa besar tes dapat dipercaya. Tes yang reliabel akan menghasilkan skor
yang relatif sama jika diteskan beberapa kali pada subjek yang sama . Dengan
kata lain seberapa ajeg sebuah tes jika diteskan beberapa kali pada subjek yang
sama di waktu yang berbeda."
Jika demikian adanya, maka secara logis, satu-satunya cara untuk mengestimasi reliabilitas adalah dengan melakukan pengetesan paling tidak dua kali pada sekelompok subjek yang sama. Tapi benarkah begitu?
Jika demikian adanya, maka secara logis, satu-satunya cara untuk mengestimasi reliabilitas adalah dengan melakukan pengetesan paling tidak dua kali pada sekelompok subjek yang sama. Tapi benarkah begitu?
Pada
prakteknya kita mengenal paling tidak ada 3 pendekatan terhadap estimasi
reliabilitas. Dan orang yang memberikan jawaban seperti di atas juga memilih
metode estimasi reliabilitas yang hanya melakukan 1 kali administrasi tes. Jadi
mana tingkat keajegannya?
Baiklah,
mungkin beberapa orang tidak terlalu peduli dengan hal ini. Yang penting ada
angka reliabilitasnya, habis perkara. Tapi ijinkan kami mencoba berbagi
pemikiran mengenai hal ini.Kita mulai dari konsep reliabilitas dulu. Reliabilitas
seperti yang sering diucapkan atau ditulis di buku, memiliki arti tingkat
kepercayaan. Kita coba pilah kata ini menjadi Rely dan Ability atau dapat
dipercaya. Tapi apa maksud dari dapat dipercaya ini? Yang dimaksud dapat
dipercaya disini adalah seberapa besar kita bisa mempercayai hasil tes yang
kita dapatkan, atau juga seberapa besar tingkat kesalahan yang muncul ketika
seseorang mengerjakan suatu tes. Semakin besar tingkat kesalahan yang muncul
ketika seseorang mengerjakan suatu tes, hasil yang diperoleh dari tes tersebut
makin tidak dapat dipercaya, makin tidak reliabel.
Misalnya:
seseorang dites (tes apa saja, karena reliabilitas tidak terlalu peduli dengan
isu materi yang diteskan) kemudian memperoleh hasil sebesar 100. Nah jika tes
tersebut reliabel, maka kita bisa yakin bahwa kapasitas orang tersebut memang
100. Atau dengan kata lain, angka 100 itu diperoleh bukan karena faktor lain
selain kapasitas orang tersebut. Jika angka 100 ini diperoleh lebih banyak
karena faktor lain (faktor lain ini yang disebut error), maka kita akan berkata
bahwa tes tersebut tidak reliabel.
Konsep reliabilitas didasarkan pada asumsi bahwa dalam tiap pengetesan selalu ada
Konsep reliabilitas didasarkan pada asumsi bahwa dalam tiap pengetesan selalu ada
·
X, skor yang kita peroleh dari hasil pengetesan (skor
Tampak)
·
T, skor yang menggambarkan kapasitas seseorang yang
sesungguhnya (skor Murni)
·
e, faktor lain selain kapasitas yang juga menyumbang
terhadap perolehan X yang disebut juga error.
Dan ketiganya terkait satu sama lain dalam persamaan
seperti ini :
X = T + e
Ini dapat
dibaca seperti berikut : dalam setiap pengetesan, hasil tes yang kita peroleh
merupakan fungsi penjumlahan dari skor Murni dan error. Tes dapat dikatakan
reliabel jika Tes menghasilkan error yang kecil, sehingga hasil tes makin
mencerminkan kapasitas yang sebenarnya (atau X = T ).
Lalu dari
mana ide "keajegan" muncul? Diasumsikan bahwa nilai T memiliki sifat
ajeg dalam beberapa kali pengukuran pada subjek yang sama. Tapi keajegan ini
hanya ada dalam abstraksi teoretik saja, karena keajegan yang dimaksud di sini
adalah keajegan T jika memenuhi syarat tertentu :
·
Tiap pengetesan bersifat saling independen, pengukuran
pertama tidak mempengaruhi pengukuran berikutnya. Jadi anggaplah seseorang
dites lalu dihipnotis untuk membuatnya lupa dengan jawaban dan soal yang telah
diberikan.
·
Kapasitas orang itu sendiri belum berubah. Jadi
keajegan ini hanya mungkin jika setelah dites, orang ini dimasukkan dalam mesin
waktu dan dikembalikan ke keadaannya saat dites pertama kali.
Mustahil? Ya
jelas! maka dari itu ide mengenai keajegan ini hanya ada dalam abstraksi
teoretik. Namun demikian tentu saja kita tetap dapat mengestimasi reliabilitas
dengan cara melakukan tes berulang lalu mengkorelasikan hasil tes pertama
dengan tes kedua. Dengan mempertimbangkan beberapa kelemahan dan persyaratannya.
Pendekatan-Pendekatan Estimasi
Reliabilitas (Feldt & Brennan, 1989: 105). Dari beberapa asumsi yang
mendasari pemikiran mengenai reliabilitas, kemudian diturunkanlah beberapa
pendekatan untuk mengestimasi reliabilitas.
a. Pendekatan
Tes-Retes. Pendekatan ini mengestimasi reliabilitas tes dengan melakukan tes
ulang, kemudian mengkorelasikan hasil tes pertama dengan hasil tes kedua. Hasil
korelasi ini yang merupakan estimasi reliabilitasnya, sering juga disebut
sebagai koefisien stabilitas atau keajegan. Jadi definisi reliabilitas
=keajegan hanya berlaku untuk pendekatan ini. Tapi tentu saja karena tidak
mungkin memenuhi persyaratan di atas, pendekatan ini memiliki beberapa
kelemahan.
a) Hanya dapat
diterapkan pada tes yang mengukur konstruk yang bersifat cenderung ajeg,
misalnya kepribadian.
b) Estimasi
reliabilitas akan dipengaruhi oleh adanya carry over effect. Maksudnya, jika
jarak pengetesan pertama dan kedua sangat dekat, maka subyek akan cenderung
mengingat jawaban yang diberikan pada pengetesan pertama. Ini membuat makin
besarnya kemungkinan subyek akan memberikan jawaban pada pengetesan kedua yang
cenderung sama dengan jawaban yang diberikan pada pengetesan pertama.Hal ini
akan menyebabkan overestimasi reliabilitas, tes terkesan/ terlihat lebih reliabel
daripada yang sebenarnya.
c) Estimasi
reliabilitas juga dipengaruhi adanya practice effect. Ini terjadi ketika
subyek, dalam rentang waktu antara tes pertama dan kedua, belajar atau berlatih
untuk meningkatkan kapasitasnya, ini terjadi khususnya dalam estimasi reliabilitas
tes performansi maksimal seperti tes prestasi. Practice effect akan menyebabkan
underestimasi reliabilitas, tes terkesan tidak ajeg karena adanya pembelajaran,
sehingga hasil tes kedua akan cenderung lebih baik dari hasil tes pertama.
b. Pendekatan
Tes Paralel, pendekatan ini mengestimasi reliabilitas dengan menggunakan dua
tes paralel, dua tes yang mengukur hal /konstruk yang sama, kemudian
mengkorelasikan hasil pengetesan dari tes pertama dengan hasil tes paralelnya.
Koefisien korelasi yang didapatkan disebut juga koefisien ekuivalensi. Namun
demikian pendekatan ini sangat jarang (kalaupun ada) dilakukan karena sulitnya
menghasilkan dua tes yang benar-benar paralel.
c. Pendekatan
Konsistensi Internal, pendekatan ini mengestimasi reliabilitas dengan membelah
tes menjadi beberapa bagian, lalu "mengkorelasikan" bagian-bagian
tersebut. "Korelasi" di sini sebenarnya tidak benar-benar
mengkorelasikan bagian-bagian secara harafiah, tapi menggunakan formula-formula
yang dikembangkan untuk mengestimasi reliabilitasnya. Koefisien yang diperoleh
dinamai juga koefisien konsistensi internal. Pendekatan inilah yang paling
sering digunakan selama ini karena lebih praktis dan ekonomis. Meskipun
demikian pendekatan ini tidak dapat mengestimasi error yang diakibatkan oleh
keadaan temporer karena hanya dilakukan satu kali. Jadi pendekatan ini memang
bukan "jawaban terhadap segala masalah" dalam hal mengestimasi
reliabilitas.
C. Kesimpulan
Jadi,
reliabilitas apakah sama dengan keajegan?
Jika kita melihat permasalahan ini dari kacamata asumsi yang mendasari pemikiran reliabilitas di atas, maka reliabel = ajeg. tentu saja dengan persyaratan yang mustahil untuk dipenuhi tadi. Tapi jika dilihat dalam konteks aplikasinya, reliabilitas tidak selalu sama dengan keajegan, tergantung dari pendekatan mana yang digunakan untuk mengestimasinya. Mungkin akan lebih aman jika kita menyebut reliabilitas sebagai "tingkat kepercayaan, seberapa jauh error yang dihasilkan dari tes, dan seberapa jauh hasil tes dapat dipercaya". (Feldt & Brennan, 1989: 105)
Jika kita melihat permasalahan ini dari kacamata asumsi yang mendasari pemikiran reliabilitas di atas, maka reliabel = ajeg. tentu saja dengan persyaratan yang mustahil untuk dipenuhi tadi. Tapi jika dilihat dalam konteks aplikasinya, reliabilitas tidak selalu sama dengan keajegan, tergantung dari pendekatan mana yang digunakan untuk mengestimasinya. Mungkin akan lebih aman jika kita menyebut reliabilitas sebagai "tingkat kepercayaan, seberapa jauh error yang dihasilkan dari tes, dan seberapa jauh hasil tes dapat dipercaya". (Feldt & Brennan, 1989: 105)
Tidak ada komentar:
Posting Komentar