MENGHITUNG VALIDITAS DAN RELIABILITAS HASIL PENILAIAN
ASESMEN PEMBELAJARAN MATEMATIKA
DOSEN PENGGAMPUH :
1.
Dr. H. Mustamin Idris, M.Si
2.
Dr. Sukayasa, M.Pd
3.
Dr. H. Baso Amri, M.Si
DISUSUN OLEH :
Kelompok 10
Kelas C
1.
Nur Adha A 231 13 087
2.
Elfa Susanti A
231 14 088
3.
Eka Surnyadewi A
231 13 162
PROGRAM
STUDI PENDIDIKAN MATEMATIKA
JURUSAN
PENDIDIKAN MIPA
FAKULTAS
KEGURUAN DAN ILMU PENDIDIKAN
UNIVERSITAS
TADULAKO
MARET
2016
DAFTAR ISI
Halaman Judul
KATA
PENGANTAR.............................................................................................. i
DAFTAR
ISI............................................................................................................ ii
BAB I
PENDAHULUAN
1.1 Latar
Belakang.................................................................................................... 1
1.2
Rumusan Masalah............................................................................................... 2
1.3
Tujuan................................................................................................................. 2
BAB II PEMBAHSAN
2.1
Pengertian Validitas............................................................................................ 3
2.2
Pengertian Reliabilitas ........................................................................................ 5
2.3
Macam-macam Validitas .................................................................................... 6
2.4
Mengukur Validitas ........................................................................................... 9
2.5 Macam-macam
Validitas ................................................................................... 16
BAB III PENUTUP
3.1
Kesimpulan........................................................................................................ 32
3.2 Pengertian Korelasi............................................................................................ 32
DAFTAR PUSTAKA
BAB
I
PENDAHULUAN
1.1 LATAR BELAKANG
Dua prinsip dasar
permasalahan dalam penilaian adalah menentukan apakah sebuah tes telah mengukur
apa yang hendak diukur dan apakah sebuah tes telah tepat digunakan untuk
membuat suatu keputusan tentang pengambilan tes. Mungkin saja para pengembang
tes berpendapat bahwa tes matematika misalnya dapat memperkirakan kemampuan
seseorang dalam fisika. Seorang guru dapat berpendapat bahwa kemampuan
seseorang dalam membaca misalnya akan berpengaruh terhadap semua nilai kenaikan
kelas. Tentu saja, pendapat tersebut harus dibuktikan dengan data-data yang
mendukung. Sebagai contoh apabila skor fisika berkorelasi positif dengan skor
matematika, atau skor kemampuan membaca berkorelasi dengan semua hasil skor
kenaikan kelas, maka sangat masuk akal untuk membuat kesimpulan bahwa tes
matematika atau tes kemampuan membaca merupakan prediktor yang valid yang dapat
digunakan untuk memprediksi kemampuan seseorang.
Evaluasi pendidikan
melibatkan banyak kegiatan teknis dalam menentukan metode dan format penilaian
yang dapat digunakan untuk mendapatkan informasi yang dibutuhkan. Informasi
tersebut diperlukan dalam menafsir dan menetapkan keputusan untuk kepentingan
pendidikan. Penilai membutuhkan keterampilan dalam mengidentifikasi dan
memahami berbagai macam perspektif penilaian, baik penilaian kontekstual dan
proses maupun penilaian hasil. Karena penilaian merupakan pusat kontrol
keberhasilan program pendidikan, maka terdapat dua syarat utama yang harus dipenuhi
oleh suatu instrumen penilaian, yaitu validitas dan reliabilitas.
Dalam diskusi tentang
penilaian berbasis kelas senantiasa berkaitan dengan validitas dan reabilitas.
Reabilitas berkaitan dengan sejauhmana tes yang diberikan ajeg dari waktu ke
waktu. Artinya, reabilitas berkaitan dengan keajegan suatu tes. Suatu tes
dikatakan ajeg apabila dari waktu ke waktu menghaslkan skor yang sama atau
relatif sama.
Validitas adalah
suatu konsep yang berkaitan dengan sejauhmana tes telah mengukur apa yang seharusnya
diukur. Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan
kesesuaian skor tes. Validitas merupakan karakteristik suatu tes ketika
diujikan pada suatu kelompok peserta tes. Validasi suatu instrumen mencakup
pengumpulan data empiris dan argumentasi logis untuk menunjukkan bahwa
kesimpulan tertentu adalah tepat. Sedangkan reliabilitas yang berarti
konsistensi adalah ciri umum dari suatu instrumen pengukuran dan penilaian
pendidikan. Konsistensi tinggi skor instrumen dari suatu pengukuran ke
pengukuran berikutnya merupakan ciri terpenting dari instrumen yang berkualitas
tinggi.
Reabilitas suatu skor
adalah hal yang sangat penting dalam menentukan apakah tes telah menyajikan
pengukuran yang baik. Hal yang paling penting dalam reabilitas skor adalah
adanya pengambilan keputusan tentang peserta tes. Sebagai contoh misalnya
sekolah mengaharuskan peserta didiknya untuk lulus sebelum mereka menamatkan
pendidikannya. Bayangkan apa yang akan terjadi apabila skor yang diperoleh
ternyata tidak ajeg, misalnya memperoleh skor yang rendah pada tes pertama dan
memperoleh skor yang tinggi pada tes yang yang kedua, padahal tes yang
diberikan itu adalah sama. Pemberian tanda kelulusan mungkin sangat bergantung
kepada tes yang diberikan, yitu ajeg atau tidak.
Dalam makalah ini
akan membahas tentang validitas dan jenis-jenis validitas serta cara menghitung
validitas.kemudian akan membahas tentang reabilitas dan jenis-jenis reliabilitas
serta cara menghitung reliabilitas.
1.2
RUMUSAN MASALAH
1.
Apa
pengertian validitas dan reliabilitas?
2.
Apa
macam-macam dari validitas dan reliabilitas?
3.
Bagaimana
cara mengukur validitas?
1.3
TUJUAN
2. Untuk
mengetahui pengertian validitas dan reliabilitas.
3. Untuk
mengetahui macam-macam validitas dan reliabilitas.
4. Untuk
mengetahui cara mengukur validitas.
BAB
II
PEMBAHASAAN
2.1
PENGERTIAN VALIDITAS
Pada tahun 1940-an dan awal tahun 1950
para ahli pengukuran pendidikan telah melakukan berbagai macam pengkajian
terhadap bagaimana menentukan dan menilai validitas. Pada tahun 1954 misalnya The American Psychological Assosiation (
APA) melalui Technical Reommendation for Psychological Test and
Diagnostic Techniques mengusulkan
empat pendekatan yang sering dinamakan epat uka validitas.
Validitas berhubungan dengan kemampuan
untuk mengukur secara tepat sesuatu yang
diinginkan diukur. Menurut Anastasi dan Urbina dalam ( Purwanto, 2007:
123), validitas berhubungan dengan apakah tes mengukur apa yang mesti diukurnya
dan seberapa baik dia melakukanya. Validitas merupakan derajad sejauh mana tes
mengukur apa yang inggin diukur.instrumen yang valid adalah instrumen yang
mengukur dengan tepat keadaan yang ingin diukur. Sebaliknya, instrumen
dikatakan tidak valid bila digunakan untuk mengukur suatu keadaan yang tidak
dapat diukur dengan instrumen tersebut. Misalnya: mistar bukan alat ukur yang
valid untuk mengukur bera, timbangan emas bukan alat ukur yang valid untuk
menimbang beras, tes tertulis bukan alat ukur yang valid untuk keterampilan
gayaberenang, dan sebagainya.
Sebelum instrumen digunakan untuk
mengumpilkan data, terlebih dahuluharus diperiksa bahwa instrumen telah valid.
Hal itu diperlukan untuk menjamin adanya kesesuaian antara alat ukur dengan
keadaan yang inggin diukur. Pengumpulan data menggunakan instrumen yang tidak
valid menghasilkan data dan kesimpulan penelitian yang tidak valid.
Menurut Azwar (1986) Validitas berasal
dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan
suatu alat ukur dalam melakukan fungsi ukurnya. Suatu skala atau instrumen
pengukur dapat dikatakan mempunyai validitas yang tinggi apabila instrumen
tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai
dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki
validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan
pengukuran. Terkandung di sini pengertian bahwa ketepatan validitas pada suatu
alat ukur tergantung pada kemampuan alat ukur tersebut mencapai tujuan
pengukuran yang dikehendaki dengan tepat. Suatu tes yang dimaksudkan untuk
mengukur variabel A dan kemudian memberikan hasil pengukuran mengenai variabel
A, dikatakan sebagai alat ukur yang memiliki validitas tinggi. Suatu tes yang
dimaksudkan mengukur variabel A akan tetapi menghasilkan data mengenai variabel
A’ atau bahkan B, dikatakan sebagai alat ukur yang memiliki validitas rendah
untuk mengukur variabel A dan tinggi validitasnya untuk mengukur variabel A’
atau B (Azwar 1986). Sisi lain dari pengertian validitas adalah aspek
kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu
menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang
cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat
memberikan gambran mengenai perbedaan yang sekecil-kecilnya mengenai perbedaan
yang satu dengan yang lain. Sebagai contoh, dalam bidang pengukuran aspek fisik,
bila kita hendak mengetahui berat sebuah cincin emas maka kita harus
menggunakan alat penimbang berat emas agar hasil penimbangannya valid, yaitu
tepat dan cermat. Sebuah alat penimbang badan memang mengukur berat, akan
tetapi tidaklah cukup cermat guna menimbang berat cincin emas karena perbedaan
berat yang sangat kecil pada berat emas itu tidak akan terlihat pada alat ukur
berat badan.
Pengertian validitas juga sangat erat
berkaitan dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku
umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan
ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, anggapan
valid seperti dinyatakan dalam “alat ukur ini valid” adalah kurang lengkap.
Pengertian validitas menurut Walizer (1987) adalah tingkaat kesesuaian antara
suatu batasan konseptual yang diberikan dengan bantuan operasional yang telah
dikembangkan. Menurut Aritonang R. (2007) validitas suatu instrumen berkaitan
dengan kemampuan instrument itu untuk mengukur atu mengungkap karakteristik
dari variabel yang dimaksudkan untuk diukur. Instrumen yang dimaksudkan untuk
mengukur sikap konsumen terhadap suatu iklan, misalnya, harus dapat
menghasilkan skor sikap yang memang menunjukkan sikap konsumen terhadap iklan
tersebut. Jadi, jangan sampai hasil yang diperoleh adalah skor yang menunjukkan
minat konsumen terhadap iklan itu.
Validitas suatu instrumen banyak
dijelaskan dalam konteks penelitian sosial yang variabelnya tidak dapat diamati
secara langsung, seperti sikap, minat, persepsi, motivasi, dan lain sebagainya.
Untuk mengukur variabel yang demikian sulit, untuk mengembangkan instrumen yang
memiliki validitas yang tinggi karena karakteristik yang akan diukur dari
variabel yang demikian tidak dapat diobservasi secara langsung, tetapi hanya
melalui indikator (petunjuk tak langsung) tertentu. (Aritonang R. 2007). Menurut
Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat pengukur itu
mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat suatu
benda, maka dia harus menggunakan timbangan. Timbangan adalah alat pengukur
yang valid bila dipakai untuk mengukur berat, karena timbangan memang mengukur
berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus menggunakan
meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk mengukur
panjang, karena memang meteran mengukur panjang. Tetapi timbangan bukanlah alat
pengukur yang valid bilamana digunakan untuk mengukur panjang.
2.2 PENGERTIAN RELIABILITAS
Reliaabilitas
berasal dari kata dalam bahasa inggris rely,
yang berarti percaya, dan reliable yang
artinya dapat dipercaya. Keterpercayaan
berhubungan dengan ketetapan dan konsistensi. Instrumen dikatakan dapat
dipercaya atau reabel apabila memberikan hasil pengukuran yang relatif
konsisten.
Beberapa
ahli telah memberikan batasan reliabilitas. Menurut Thorndike dan Hagen dalam ( Purwanto, 2007: 161),
reliabilitas berhubungan dengan akurasi instrumen dalam mengukur apa yang
diukur, kecermatan hasil ukur, dan seberapa akurat seandainya dilakukan
pengukuran ulang. Hopkins dan Antes dalam
( Purwanto, 2007: 161) menyatakan reliabilitas sebagai konsistensi
pengamatan yang diperoleh daro pencatatan berulang, baik pada satu subjek
maupan sejumlah subjek. Kerlinger dalam (
Purwanto, 2007: 161) menyampaikan beberapa batasan tentang reliabilitas sebagai
berikut: (1) reliabilitas dicapai apabila kita mengukur himpunan objek yang
sama berulang kali dengan instrumen yang sama atau serupa dan memberikan hasil
yang sama atau serupa, (2) reliabiltas dicapai apabila ukuran yang diperoleh
dari suatu instrumen pegukura adalah ukuran “yang sebenarnya”untuk sifat yang
diukur, dan (3) reliabilias dicapai dengan meminimalkan alat pengukuran yang
terdapat dalam suatu instrumen pengukur.
Instrumen
harus memenuhi persyaratan reliabilitas. Instrumen yang tidak reliabel tidak
dapat digunakan untuk mengumpulkan data karena tidak memberikan informasi apa
pun. Benda yang sama ditimbang beratnya menggunakan alat timbang yang sama
beberapa kali harus memberikan hasil penimbangan yang sama. Apabila hasil
penimbangan berubah-ubah maka alat timbangnya tidak reliabel dan datanya tidak
dapat dipercaya. Hal yang sama berlaku dalam pengukuran dalam ilmu sosial dan
pendidikan. Responden yang sama yang diukur menggunakan instrumen yang sama
harus menghasilkan hasil pengukuran yang relatif sama. Dengan begitu data yang
dihasilkan dari proses pengukuran memang dapat dipercaya.
2.3 MACAM-MACAM
VALIDITAS
1.
validitas Isi
Validitas isi
sering pula dinamakan validitas kurikulum yang mengandug arti bahwa suatu alat
ukur dipandang valid apabila sesuai dengan isi kurikulum yang hendak diukur.
Salah satu cara yang digunakan untuk membentuk validitas adalah dengan mengkaji
isi tes itu. Sebuah tes misalnya terdiri atas 25 soal penjumlahan dan
pengurangan sangat baik digunakan untuk mengukur kemampuan matematika
dibandingkan dengan tes yang terdiri atas 10 soal tentang olahraga tetapi tidak
ada hal-hal yang berkaitan dengan penjumlahan dan pengurangan. Validitas isi
ditentukan denga melihat apakah soal-soal yang digunakan telah menunjukkan
sampel artribut yang diukur. Dengan demikian menurut Guino dalam (Surapranata S, 2004:
52) validitas isi sangat bergantung
kepada dua hal yaitu tes itu sendiri dan proses yang mempengaruhi dalam
merespon tes. Sebagai contoh misalnya tes tertulis yang dipersiapkan untuk
pekerjaan mungkin tidak menyajikan pengukuran yang valid untuk kemampuan
pegawai melakukan pekerjaan mungkin tidak menyajikan pengukuran yang valid
untuk kemampuan pegawai melakukan pekerjaan, sekalipun mungkin saja tes itu sudah merupakan alat yang valid untuk
mengukur pengetahuan tentang apa yang harus dikerjakan.
Salah satu cara
untuk memperoleh validitas isi adalah dengan melihat soal-soal yang membentuk tes itu. Jika keseluruhan soal
nampak mengukur apa yang seharusnya tes itu digunakan, tidak diragukan lagi
bahwa validitas isi sudah terpenuhi. Dalam dunia pendidikan, sebuah tes
dikatakan memiliki isi apabila mengukur sesuai dengan domain dan tujuan khusus
tertentu yang sama dengan isi pelajaran yang telah diberikan di kelas. Soal
matematika dikatakan valid apabila hanya mengukur kemampuan matematika,
bukannya mengukur kemampuan bahasa. Ketika kita mengatakan akan mengukur
kemampuan X peserta tes, kita harus mengukur artribut atau karakteristik khusus
yang berkaitan dengan X peserta tes yang akan diukur. Sebagai contoh, sebuah
tes dirancang untuk mengukur kemampuan bermain bola basket dalam mata pelajaran
penjaskes misalnya, tentunya hal yang diukur haruslah antara lain berkaitan
dengan kemampuan berlari, membawa bola, menembakan bola, dan mendrebel bola.
Hal-hal yang diukur mungkin sangat luas seperti untuk kemampuan membaca
misalnya, atau bahkan sangat sempit seperti untuk kemampuan penjumlahan. Tabel
dibawah berikut ini menunjukkan domain yang diukur dalam pengetahuan alam
terpadu. Tentu saja, tidak semua domain yang akan diukur dalam tes harus sama
dengan tabel berikut.
Tabel
Deskripsi domain
yang hendak diukur dalam tes IPA terpadu
Kemampuan yang diukur |
Fisika |
Biologi |
Kimia |
Bumi Antarriksa |
Jumlah |
Mengamati |
1 |
1 |
- |
- |
2 |
Mengukur |
1 |
- |
1 |
1 |
3 |
Membaca Tabel |
- |
1 |
1 |
1 |
3 |
Membaca Diagram |
1 |
1 |
- |
1 |
3 |
Membaca grafik |
1 |
1 |
- |
- |
2 |
Membaca/Interpretasi |
1 |
- |
1 |
1 |
3 |
Mengklasifikasi |
1 |
- |
1 |
- |
2 |
Menginfering |
1 |
1 |
1 |
- |
3 |
Memprediksi |
- |
1 |
- |
1 |
2 |
Menyimpulkan |
- |
1 |
1 |
1 |
3 |
Merancang percobaan |
- |
1 |
1 |
1 |
3 |
Reasoning |
1 |
1 |
1 |
1 |
4 |
Problem solving |
1 |
1 |
1 |
1 |
4 |
Berpikir kritis |
1 |
1 |
1 |
1 |
3 |
Jumlah |
10 |
10 |
10 |
10 |
40 |
Sebagian ahli tes
berpendapat bahwa tidak ada satupun pendekatan statistik yang dapat digunakan
untuk menentukan validitas isi suatu tes. Menurut Guion dalam (Surapranata S, 2004: 52) validitas isi hanya dapat
ditentukan berdasarkan judgmen para ahli. Prosedur yang dapat digunakan antara
lain:
1.
Mendefinisikan domain yang hendak diukur
2.
Menentukan domain yang akan diukur oleh masing-masing soal .
3.
Membandingkan masing-masing
soal dengan domain yang sudah ditetapkan.
Sekalipun prosedur ini nampak sederhana tetapi dalam praktek
terkadang sulit dilakukan. Kesulitan utama dalam prosedur ini adalah
mendefinisikan domain yang hendak diukur. Dalam buku tentang pedoman penulisan
tes tertulis, domain ini sama halnya dengan kisi-kisi. Sebagai contoh misalnya
dalam menentukan soal fisika yang berkaitan dengan problem solving atau
reasoning. Hal yang paling penting adalah, adanya kesepakatan antara beberapa
penulis tentang kemampuan yang diukur antara suatu soal.
2.
Validitas Konstruk
Konstruk adalah
suatu yang berkaitan dengan fenomena atau objek yang abstrak, tetapi gejalanya
dapat diamati dan diukur. Gravitasi,
massa, kemampuan matematika, kemampuan bahasa Inggris, kebahagiaan, dan
kesedihan antara lain termasuk konstruk. Gravitasi misalnya dapat dijadikan
sebagai contoh bagaimana memahami konstruk. Ketika buah apel jatuh ketanah,
konstruk tentang gravitasi dapat
digunakan untuk menjelaskan dan memperkirakan prilaku (jatuhnya buah apel
misalnya) yang diamati. Namun, demikian kita tidak dapat melihat yang dimaksud
dengan konstruk gravitasi itu sendiri. Hal yang dapat kita lihat hanyalah apel
itu jatuh. Kita dpat mengukur gravitasi dan mengembangkan teori tentang
gravitasi.
Validitas konstruk
mengandung arti bahwa suatu alat ukur dikatakan valid apabila telah cocok
dengan konstruksi teoritik dimana tes itu dibuat. Dengan kata lain sebuah tes
dikatakan memiliki validitas konstruksi apabila soal-soalnya mengukur setiap
aspek berpikir seperti yang diuraikaan dalam standar kompetensi, kompetensi
dasar, maupu indikator yang terdapat dalam kurikulum. Soal yang dapat
dikembangkan dari kisi-kisi seperti nampak pada tabel dibawah haruslah berupa
soal yang sesuai dengan kemampuan mendeskripsikan
berbagai bentuk pasar menurut struktur, mengidentifikasi kebaikan dan keburukan
bentuk-bentuk pasar, serta memberi contoh berbagai bentuk pasar.
Konstruksi yang
dimaksud pada validitas ini bukanlah merupakan konstruksi seperti bangunan atau
susunan, tetapi berupa rekaa psikologis yang berkaitan dengan aspek-aspek
ingatan, pemahaman, aplikasi, analisis, sintesis, dan evaluasi. Konstruksi
sebagaimana nampak pada tabel dibawah merupakan contoh kompetensi dasar, hasil
belajar , dan indikator yang terdapat dalam kurikulum 2004.
Tabel
Kisi-kisi kompetisi
Ekonomi SMA kelas X
KOMPETENSI
DASAR |
MATERI POKOK |
INDIKATOR |
PENILAIAN |
|
JENIS |
BENTUK |
|||
Mendeskripsikan berbagai bentuk pasar menurut struktur. |
Bentuk-bentuk pasar |
·
Mendeskripsikan berbagai bentuk pasar menurut struktur. ·
Mengidentifikasi ciri-ciri berbagai bentuk pasar. ·
Mengidentifikasi kebaikan dan keburukan bentuk-bentuk pasar. ·
Memberi contoh berbagai bentuk pasar. |
Tertulis
Tertulis
Tertulis
Tertulis |
Uraian
Uraian
Uraian
Uraian |
3.Validitas Prediksi
Validitas prediksi menunjukkan kepada hubungan antara tes skor
yang diperoleh peserta tes dengan keadaan yang akan terjadi diwaktu yang akan
datang. Sebuah tes dikatakan memiliki
validitas prediksi apabila mempunyai kemampuan untuk memprediksikan apa yang
akan terjadi dimasa yang akan datang.
Contohsederhana
misalnya apa yang terjadi pada penerimaan peserta tes berdasarkan hasil tes
seleksi setelah mereka lulus SMA. Peserta tes yang memiliki nilai yang bagus di
tes seleksi tersebut lalu diterima di perguruan tinggi, diperkirakan akan berhasil
ketika mereka belajar diperguruan tinggi. Apabila hal itu terjadi, maka tes
masuk perguruan tinggi tersebut dikatakan memiliki validitas prediksi bagus.
Sebaliknya, apabila hasil diperguruan tinggi kurang baik, maka tes seleksi
dimaksud tidak memiliki validitas yang bagus.
4.
Validitas Konkruen
Validitas kunkruen memunjukkan pada hubungan antara tes skor
dengan yang dicapai dengan keadaan sekarang. Validitas ini dikenal sebagai
validitas emperis. Sebuah tes dikatakan memiliki validitas konkruen apabila hasilnya
sesuai dengan pengalaman. Tabel dibawah berokut ini menunjukkan validitas
konkruen untuk berbagai macam penilaian berbasis kelas.
Tabel
Validitas konkruen untuk beberapa penilaian berbasis kelas
Perbandingan |
Korelasi |
Ujian akhir
nasional dan kuis dikelas |
0,56 |
Ujian akhir nasional dan tugas |
0,20 |
Soal benar dan
pilihan ganda |
0,31 |
Soal uraian dan
benar salah |
0,48 |
Soal pilihan
ganda dan uraian |
0,29-0,38 |
Teori dan praktek |
0,35 |
4 buah soal
uraian |
0,13-0,62 |
Ujuan dan studi
kasus |
0,41 |
Soal uraian dan
studi kasus |
0,61 |
Soal uraian dan
tugas |
0,54 |
Soal uraian dan
partisipasi di kelas |
0,10 |
Partisipasi di
kelas dan studi kasus |
0,72 |
2.4 MENGUKUR VALIDITAS
Dalam situasi yang
sagat sederhana untuk menentukan valid tidaknya penggaris yang kita buat adalah
dengn membawanys ke pusat standarisasi alat ukur. Di pusat standarisasi alat
ukur tersebut penggaris yang kita buat ditera dan dibandingkan dengan metran
standar. Strategi ini tentunya tidak akan berlaku dalam menetukan validitas
tes. Untuk menentukanapakah tes yang digunakan untuk menggukur introvert,
intelegensi, kemampan membaca, kemampuan matematika, atau kemampuan fisika
misalnya tidak ada satupun lembaga standarisasi tes yang dapat membandingkan
tes yang dibuat tersebut. Dengan kata lain, apabila kita mengukur intelegensi
Camera misalnya diperoleh IQ 112, kita tidak dapat membandingkan IQ 112
tersebut kelembaga tersebut untuk menentukan apakah yang kita lakukan itu sudah
tepat. Tentu saja, tidak ada satupun lembaga yang dapat mengkaji IQ seseorang
dibandingkan dengan para psikolog lainnya. Sama halnya, apabila kita mengukur
kemampuan matematika melati, dengan memberikan tes matematika kepadanya
misalnya, maka hasilnya tidak bisa kita bandingkan ke lembaga tes tertentu
untuk melihat valid tidaknya tes yang kita digunakan. Dari pada kita
membandingkan alat ukur yang digunakan ke lembaga eksternal untuk mencari valid
tidaknya alat yang digunakan, para ahli pengukuran pendidikan lebih menyarankan
untuk menggunakan beberapa metode yang berasal dari fakta yang terdapat dari
tes itu sendiri setelah digunakan.
Salah satu cara
untuk menentukan validitas alat ukur adalah dengan menggunakan korelasi product moment dengan simpangan yang dikemukakan oleh Person
sebagai berikut :
Ket:
= koefisien korelasi antara
variabel x dan variabel y, dua variabel lain yang berkorelasikan (
dan
)
= jumlah
perkalian antara x dengan y
= kuadrat dari x
= kuadra dari y
Untuk mencari validitas tes fisika(X) di perguruan tinggi dengan
kriterium nilai fisiska hasil tes masuk (Y) dapat digunakan tabel berikut:
Tabel
Validasi nilai tes fisikadi
perguruan tinggi dengan skor simpangan
No |
Pesetra tes |
X |
Y |
x |
y |
|
|
xy |
1 |
Waru |
8 |
6 |
0,533 |
-0,067 |
0,284 |
0,004 |
-0,036 |
2 |
Dadap |
7 |
6 |
-0,467 |
-0,067 |
0,218 |
0,004 |
0,031 |
3 |
Mahoni |
6 |
4 |
-1,467 |
-2,067 |
2,151 |
4,271 |
3,031 |
4 |
Jati |
7 |
6 |
-0,467 |
-0,067 |
0,218 |
0,004 |
0,031 |
5 |
Albasia |
8 |
7 |
0,533 |
0,933 |
0,284 |
0,871 |
0,498 |
6 |
Meranti |
7 |
5 |
-0,467 |
-1,067 |
0,218 |
1,138 |
0,498 |
7 |
Rasamala |
6 |
5 |
-1,467 |
-1,067 |
2,151 |
1,138 |
1,564 |
8 |
Anggrek |
8 |
7 |
0,533 |
0,933 |
0,284 |
0,871 |
0,498 |
9 |
Kamboja |
7 |
7 |
-0,467 |
0,933 |
0,218 |
0,871 |
-0,436 |
10 |
Kemuning |
8 |
7 |
0,533 |
0,933 |
0,284 |
0,871 |
0,498 |
11 |
Ros |
8 |
7 |
0,533 |
0,933 |
0,284 |
0,871 |
0,498 |
12 |
Mawar |
8 |
5 |
0,533 |
-1,067 |
0,284 |
1,138 |
-0,569 |
13 |
Melati |
9 |
7 |
1,533 |
0,933 |
2,351 |
0,871 |
1,431 |
14 |
Cempaka |
8 |
7 |
0,533 |
0,933 |
0,284 |
0,871 |
0,498 |
15 |
Dahlia |
7 |
5 |
-0,467 |
-1,067 |
0,218 |
1,138 |
0,498 |
|
Jumlah |
112 |
91 |
0 |
0 |
9,733 |
14,933 |
8,533 |
Angka 0,708 ini menunjukkan bahwa
nilai fisika di perguruan tinggi berkorelasi dengan nilai fisika tes masuk.
Bentuk lain dari korelasi product moment adalah dengan
menggunakan angka kasar yaitu:
Data dari tabel diatas digunakan kembali sebagai alat untuk
mencari korelasi product moment dengan skor kasar seperti nampak pada tabel
dibawah ini:
Tabel
Validasi nilai tes fisikadi
perguruan tinggi dengan skor simpangan
No |
Pesetra tes |
X |
Y |
|
|
XY |
1 |
Waru |
8 |
6 |
64 |
36 |
48 |
2 |
Dadap |
7 |
6 |
49 |
36 |
42 |
3 |
Mahoni |
6 |
4 |
36 |
16 |
24 |
4 |
Jati |
7 |
6 |
49 |
36 |
42 |
5 |
Albasia |
8 |
7 |
64 |
49 |
56 |
6 |
Meranti |
7 |
5 |
49 |
25 |
35 |
7 |
Rasamala |
6 |
5 |
36 |
25 |
30 |
8 |
Anggrek |
8 |
7 |
64 |
49 |
56 |
9 |
Kamboja |
7 |
7 |
49 |
49 |
49 |
10 |
Kemuning |
8 |
7 |
64 |
49 |
56 |
11 |
Ros |
8 |
7 |
64 |
49 |
56 |
12 |
Mawar |
8 |
5 |
64 |
25 |
40 |
13 |
Melati |
9 |
7 |
81 |
49 |
63 |
14 |
Cempaka |
8 |
7 |
64 |
49 |
56 |
15 |
Dahlia |
7 |
5 |
49 |
25 |
35 |
|
Jumlah |
112 |
91 |
846 |
567 |
688 |
Korelasi product momentdengan skor kasar dan skor simpangan
seperti pada perhitungan kedua contoh di atas menghasilkan angka yang sama
yaitu 0,708. Bisa saja karena perhitungan, kedua teknik tersebut menghasilkan
angka yang relatif berbeda. Namun perbedaan tersebut umumnya tidak terlalu
signifikan.
Angka 0,708 sudah cukup tinggi sebagai angka korelasi. Koefisien
korelasi umumnya dibagi kedalam lima bagian seperti tampak pada tabel berikut:
Tabel
Makna koefisien korelasi
product moment
Angka korelasi |
Makna |
0,800-1,000 |
Sangat tinggi |
0,600-0,800 |
Tinggi |
0,400-0,600 |
Cukup |
0,200-0,400 |
Rendah |
0,000-0,002 |
Sangat rendah |
Ø
Validitas Soal
Tujuan validitas soal adalah menentukan dapat tidaknya suatu
soal tersebut membedakan kelompok dalam aspek yang diukur sesuai dengan
perbedan yang ada dalam kelompok itu. Validitas soal adalah indeks diskriminasi
soal-soal yang ditetapkan dari selisih proporsi yang menjawab dari
masing-masing kelompok. Indeks ini menunjukkan kesesuaian antara fungsi tes
secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda
soal yaitu daya dalam membedakan antara peserta tes yang berkemampuan
tinggidengan peserta tes yang berkemampuan rendah.
Angka yang menunjukkan besarnya validitas soal disebut indeks
validitas soal yang besarnya berkisar antara -1 sampai dengan +1. Tanda negatif
menunjukkan bahwa peserta tes yang kemampuan rendah dapat menjawab benar sedangkan
peserta tes yang kemampuannya tinggi menjawab salah. Dengan demikian soal yang
validitasnya negatif menunjukkan terbaliknya kualitas peserta tes. Setiap soal
dapat dipandang sebagai bagian yang terpisah dari sebuah tes. Sebuah soal dapat
membedakan klompok peserta tes secara baik. Sebuah soal mungkin juga tidak
dapat membedakan kelompok peserta tes (misalnya soal dengan p = 0 atau p = 1).
Sebuah soal juga mungkin membedakan kelompok secara terbalik, yaitu peserta tes
yang tidak mampu dapat menjawab soal dengan benar sedangkan peserta tes yang
mampu menjwab salah. Salah satu tujuan analisis soal adalah untuk mencari
soal-soal yang dapat mengukur kemammpuan secara tepat.
Jika tes atau soal mengukur hal yang sama, dapat diharapkan
bahwa setiap peserta tes yang mampu dapat menjawab soal dengan benar, dan
peserta tes yang tidak mampu akan menjawab salah. Dengan kata lain, soal-soal
tersebut membedakan antara peserta tes yang tidak mampu. Dalam bagian ini akan
dibahas berbagai teknik menentukan indeks validitas.
Terdapat berbagai cara yang digunakan untuk menentukan validitas
diantaranya dengan menggunakan 1). Indeks diskriminasi. 2). Indeks korelasi,
3). Indeks keselarasan. Sebagaimana alat ukur lainnya, korelasi didalam
validitas soal yang memiliki prediktor dan kriterium. Prediktor dalam validitas
soal adalh skor soal sedangkan kriteriumnya adalah skor total tes.
Korelasi biserial maupun korelasi point biseral adalah korelasi
product moment yang diterapkan pada data, dimana variabel-variabel yang dikorelasikan
sifatnya masing-masing berbeda satu sama lain. Variabel butir soal bersifat
dikotomi sedangkan variabel skor total atau sub skor total bersifat
kontinum.variabel butir soal dinamakan dikotomi karena skor-skor yang terdapat
pada butir soal hanya ada satu nol. Seperti halnya pada bentuk soal pilihan
ganda, soal yang benar diberi angka satu (1) dan yang salah diberi angka nol
(0). Variabel skor total atau sub skor total peserta tes bersifat kontinum atau
nondikotomi yang ditentukan dengan menggunakan persamaan :
= koefisien
korelasi
= rerata
skor pada tes dari peserta tes yang
memiliki jawaban benar
rerata skor
total
P = proporsi peserta
tes yang jawabannya benar pada soal (tingkat kesukaran)
Q = 1-p
Untuk menentukan korelasi biseral tersebut dengan persamaan
diatas perhatikan contoh tabel 1 dan tabel 2 berikut ini. Untuk menentukan
korelasi biserial soal nomor 1 dicari dengan langkah-langkah sebagai berikut:
Tabel 1
Perhitungan korelasi biserial
Tabel 2
Perhitungan korelasi biserial soal nomor 1
No |
Peserta |
Soal 1 |
Total (X) |
1. |
Waru |
1 |
8 |
2 |
Dadap |
1 |
8 |
3 |
Mahoni |
1 |
7 |
4 |
Jati |
1 |
7 |
5 |
Albasia |
1 |
7 |
6 |
Meranti |
1 |
5 |
7 |
Rasamala |
1 |
6 |
8 |
Cendana |
0 |
5 |
9 |
Cemara |
0 |
5 |
10 |
Anggrek |
1 |
4 |
|
|
8 |
62 |
|
P |
0,8 |
|
|
Q |
0,2 |
|
|
SD |
|
1,398 |
Langkah
pertama :
Menentukan proporsi menjawab benar (p) dengan persamaan
Langkah
kedua :
Menentukan nilai q yang merupakan selisih bilangan 1 dengan p
yaitu:
= 0,2
Langkah
ketiga:
Menentukan rerata skor total dengan persamaan:
Langkah
keempat :
Menentukan rerata skor peserta tes yang menjawab benar, yaitu 8
orang, kecuali cemara dan Anggrek
Langkah kelima:
Menentukan standar deviasi dengan persamaan
SD = atau
persamaan SD =
untuk skor
kasar SD = 1,398
Langkah keenam:
Menentukan reliabilitas dengan persamaan :
Dengan menggunakan cara yang sama seluruh soal sebagai berikut:
Ada batas-batas tertentu untuk menentukan seberapa jauh
validitas atau daya pembeda suatu butir tes atau sub tes. Butir tes yang
memiliki korelasi tinggi dan positif dengan total menunjukkan validitas yang
tinggi pula. Butir-butir yang memilikimkorelasi nol dengan total perlu diteliti
lebih jauh validitasnya. Mungkin butir tersebut terlalu mudah atau terlalu
sukar, meragukan , atau bahkan tidak berhubungan dengan tujuannya. Butir-butir
yang memiliki korelasi negatif dengan total skornya dikatakan memiliki tujuan
yang bertentangan dengan tujuan pengukuran dan merupakan butir-butir yang tidak
baik.
Tes seperti tes prestasi belajar, butir tes atau subtes jarang
berkorelasi negatif dengan skor total. Nunnally dalam (Surapranata S,
2004: 64) menyatakan bahwa kalau berkorelasi negatif maka hal itu terjadi
karena kesalahan dalam pencuplikan. Korelasi diatas 0,30 dipandang sebagai
butir tes yang baik. Karena korelasi rata-rata butir dengan butir lainnya
berhubungan dengan korelasi butir dengan skor total, maka yang memiliki
korelasi tinggi dengan total adalah butir-butir yang memiliki korelasi rendah
dengan skor total maka butir-butir dengan korelasi tinggi terhadap skot total
memiliki lebih banyak varian dengan faktor keberhasilan dalam butir memberikan
sumbangan terhadap keterandalan tes.
2.5 MACAM-MACAM RELIABILITAS
A. Sumber Kesenjangan dan Ketidaksenjangan
Untuk
memahami faktor-faktor yang menyebabkan terjadinya ketidakajegan, ada baiknya
ditanyakan beberapa hal antara lain,
“mengapa skor tes berbeda?” sebagai contoh jika kita brikan tes Fisika kepada
peserta didik kelas X SMA, faktor-faktor apa yang akan berpengaruh terhadap
perolehan skor peserta didik? Faktor utama yang berpengaruh terhadap
reliabilitas adalah adanya perbedaan individual. Terkadang reliabilitas
dipengaruhi oleh faktor yang permanen ataupun faktor yang terjadi karena faktor
sementara seperti karena kelelahan atau pengaruh latihan.
Thorndika
dalam (Surapranata S, 2004: 89)
menyajikan enam faktor penyebab terjadinya perbedaann skor sebagaimana
ditunjukkan dalam tabel berikut:
Tabel
Faktor yang mempengaruhi skor
I |
Karakteristik umum yang permanen peserta tes ·
Kemampuan yang dimiliki peserta didik dalam menghadapi tes ·
Kemampuan umum dan teknik yang digunakan ketika mengambil tes ·
Kemampuan umum untuk memahami petunjuk tes
|
II |
Karakteristik khusus yang permanen peserta tes ·
Khusus yang berkaitan dengan tes secara keseluruhan o
Kemampuan peserta didik yang berkaitan dengan artribut yang
diukur dalam sebuah tes. o
Pengetahuan dan kemampuan khusus yang berkaitan dengan soal. o
Keajegan respon peserta didik terhadap pilihan
jawaban(misalnya mereka cendrung memberi jawaban A dari empat alternatif yang disediakan atau cendrung memilih B dari
soal benar salah yang disajikan. ·
Khusus yang berkaitan dengan soal o
Pengetahuan khusus yang
berkaitan dengan fakta atau konsep
khusus o
Pengetahuan dan kemampuan khusus yang berkaitan dengan soal
|
III |
Karekteristik umum yang temporer seperti ·
Kesehatan ·
Kelelahan ·
Motivasi ·
Gangguan emosi ·
Kemampuan umum dan teknik yang digunakan ketika mengambil tes ·
Pemahaman mekanisme tes ·
Faktor panas, cahaya,
ventilasi, dan lain sebagainya
|
IV |
Karakteristik khusus yang temporer seperti: ·
Khusus yang berkaitan dengan tes secara keseluruhan o
Pemahaman terhadap petunjuk khusus o
Trik atau teknik-teknik mengatasi tes o
Pengalaman/latihan menghadapi tes terlebih lagi dalam tes
psikomotor o
Kebiasaan menghadapi sebuah tes ·
Khusus yang berkaitan dengan soal o
Fluktuasi ingatan yang dimiliki peserta didik o
Hal-hal yang berkaitan dengan perhatian dan keakuratan |
V |
Faktor penyelenggaraan ·
Waktu, bebas dari gangguan, dan pertunjuk yang jelas ·
Pengawasan ·
Penskoran |
VI |
Faktor yang tidak pernah diperhitungkan ·
Keberuntungan karena faktor menebak ·
Mengingat soal yang telah dilihatnya. |
B. Model Umum
Reliabilitas
Pengukuran
yang baik tentunya akan ajeg membedakan
keamampuan peserta didik. Misalnya saja Cemara mestinya lebih pintar dari pada
Melati, skor yang diperoleh Cemara mestinya tinggi dibandingkan dengan melati.
Dalam kenyataannya, pengukuran kita tidak pernah sempurna. Teori reliabilitas
dikembangkan untuk menentukan ketidakajegan tersebut. Setiap pengukuran, baik
dalam penilaian kelas selalu mengandung kesalahan pengukuran. Pengukuran
meteran dengan skala mm misalnya memiliki kesalahan pengukuran sebesar 0,01mm. Pengukuran dengan skala cm
memiliki kesalahan pengukuran sebesar 0,1cm. Konsep dasar reliabilitas juga
menggunakan kesalahan pengukuran tersebut. Setiap skor yang diperoleh seorang
peserta tes terdiri atas tiga hal ; skor amatayang sering pula disebut sebagai
skor perolehan ( observed test score),
skor yang sebenarnya (true skor) yaitu
skor yang sesuai dengan kemampuan peserta tes yang sebenarnya, dan kesalahan
pengukuran, yaitu faktor-faktor yang mempengaruhi ketidakajegan suatu
pengukuran adalah situasi yang mempengaruhi proleh skor. Secara umum konsep
dasar tersebut dinyatakan dalam persamaan matematis sebagai berikut:
Skor
perolehan = skor sebenarnya + kesalahan pengukuran X = T + e. Kesalahan pengukuran merupakan
selisih antara skor amatan (perolehan) dengan skor sebenarnya. . Atas dasar konsep ini reliabilitas tes
dikembangkan. Berbagai hasil telah diturunkan dari teori ini yang pada akhirnya
mengandung bebrapa implikasi terhadap pengukuran (penilaian berbasis kelas
khususnya). Tabel sebelum seperti yang telah kita bahas
menunjukkansumber-sumber kesalahan perolehan skor yang boleh jadi memberikan
kontribusi terhdap ketidakajegan skor. Teori reliabilitas ditentukan
berdasarkan varian antara skor prolehan yang merupakan penjumlahan dari varian
skor sebenarnya dengan varian kesalahan pengukuran yaitu:
Persamaan
ini menunjukkan bahwa skor tes ditentukan oleh dua hal, yaitu variabilitas skor
sebenarnya dan variabilitas kesalahan pengukuran. Jika kesalahan pengukuran itu
memberikan kontribusi yang siginifikan, maka tes menjadi tidak ajeg. Dengan
katalain, apabila varian kesalahan pengukuran relatif tidak berarti, maka
pengukuran menjadi ajeg.
Koefisien
reliabilitas () menyajikan indeks relatif pengaruh skor
sebenarnya dan skor kesalahan pengukuran terhadap skor yang diperoleh. Persamaan
umum reliabilitas diturunkan dari perbandingan antara varian skor sebenarnya
dengan varian skor perolehan:
C. Metode Sederhana Mengestimasi Reliablitas
Tujuan
utama mengestimasi reliabilitas adalah untuk menentukan seberapa besar
variabilitas yang terjadi akibat adanya kesalahan pengukuran dan seberapa besar
variabilitas skor tes sebenarnya. Menurut teori klasik, sebagaimana telah
diuraikan diatas, reliabilitas dihubungkan dengan pengertian adanya ketetapan
suatu tes dalam pengukurannya. Nunnaly dalam
(Surapranata S, 2004: 89) menyatakan bahwa reabilitas adalah kestabilan skor
yang diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada
situasi yang berbeda atau dari satu pengukuran ke pengukuran lainnya.jadi
reabilitas dapat dinyatakan sebagai tingkat keajegan atau kemantapan hasil dari
dua pengukuran terhadap hal yang sama. Hasil pengukuran itu diharapkan akan
sama apabila pengukuran itu diulangi.
Reliabilitas
memiliki dua keajegan. Keajegan yang pertama adalh keajegan internal, yakni
tingkat sejauh mana butir soal itu homogen baik dari segi tingkat kesukaran
maupun bentuk soalnya. Keajegan yang kedua yaitu keajegan eksternal yakni
tingkat sejauhman skor dihasilkan tetap sama sepanjang kemampuan orang yang
diukur belum berubah.
Perbedaan skor dari satu pengukuran ke pengukuran lainnya dapat
saja terjadi. Menurut Allen dan Yen dalam
(Surapranata S, 2004: 90), perbedaan skor dari satu pengukuran ke pengukuran
lain ini terjadi karena adanya standard
error measurement atau standar kesalahan pengukuran. Oleh
karena itu koefisien reliabilitas harus benar-benar diperhitungkan lebih dahulu
standar kesalahan pengukurannya itu. Untuk itu dalam perlu di identifikasi
sumber-sumber utama yang menyebabkan terjadinya kesalahan pengukuran tersebut.
Nunnly dalam (Surapranata S, 2004:
90) menyebutkan bahwa sumber kesalahan pengukuran itu antara lain (1) variasi
dalam tes itu sendiri, (2) struktur sampel yang dipilih, (3)variasi di antara
tes yang sedang digunakan. Menurut Crocker dan Algina dalam (Surapranata S, 2004: 90)sumber utama kesalahan pengukuran
disebabkan oleh peruubahan dalam kelebihan waktu yang diuji, (1) isi bentuk ke
bentuk, dan (2) sampel isi atau soal yang cacat. Sumber kesalahan pengukuran
bisa juga terjadi karena pengaruh teknik pemilihan sampel dan situasi yang ada
pada masing-masing individu yang dijadikan sampel.
Perbedaaan pengertian reliabilitas sangat bergantung kepada
bagaimana indeks reliabilitas yaitu (1)paralel atau ekuivalen, (2) test-retest ataau stabilitas, (3) split-half
atau belah dua dan (4) internal consistency. Sebagian orang berpendapatb
bahwa metude split-half atau belah
dua merupakan bagian dari metode
keajegan internal sehingga pembagian metode menjadi 3 bagian yaitu: (1)
ekuivalen, (2) stabilitas, dan (3) internal consistency. Kedua teknik ini pada
prinsipnya sama. Tabel 3 berikut ini menunjukkan bahwa reabilitas dan prosedur
untuk memperolehnya.
Tabel 3
Metode untuk menentukan reliabilitas
Bentuk reliablitas |
Prosedur untuk memperoleh |
Test-retest
methods(stabilitas) Produk momen dan korelasi intra kelas |
Sajian
tes yang sama sebanyak dua kali kepada peserta tes yang sama dalam waktu yang
berbeda dan tentukan korelasi |
Paralel
(Ekuivalen) Produk momen dan
korelasi intra kelas |
Sajikan
dua tes yang sama kepada peserta tes yang sama dalam waktu yang relatif tidak
lama (misalnya dua minggu). Korelasikan kedua skor tersebut untuk mencari
reliabilitas. |
Split-half
methods (belah dua) Persamaan split-half dan spearman-brown) |
Sajikan
satu kali tes lalu belah dua, gunakan persamaan untuk mengkorelasikan kedua
belahan. |
Internal
consistency Koefisien alpha Kuder-richardson (KR-20) Kuder-richardson (KR-21) |
Berikan sekali tes, gunakan persamaan Berikan sekali nes, gunakan persamaan Berikan sekali tes, gunakan persamaan |
Apabila
hasil skor tes pertama sama dengan hasil skor tes kedua, maka tes dikatakan
memiliki realibilitas yang tinggi atau terdapat korelasi yang tinggi antara
hasil tes pertama dengan hasil tes kedua tidak terdapat hubungan atau
hubungannya rendah, maka tes itu dikatakan tidak reliabel.
Besar
kecinya reliabelitas suatu tes ditentukan oleh besar kecilnya nilai korelasi
hasil tes yang dinamakan indeks
reliabilitas. Untuk mengestimasi reliabilitas banyak formula yang dapat
digunakan. Crocker dan Algina dalam
(Surapranata S, 2004: 91) memberikan pendekatan untuk mengestimasi reliabilitas
dengan memperhatikan sumber kesalahan utama melalui penggunaan koefisien
reliabilitas, ekuivalensi, dan keajegan internal. Guilford dalam (Surapranata S, 2004: 91) memberikan beberapa modifikasi yang
dilakukan oleh Tucker untuk memperbaiki dan menyerdahanakan ketidakakuratan
formula Kuder-Richardson dan penggunaan analisis varian serta formula khusus.
Pada umumnya untuk menentukan astimasi reliabilitas khususnya dalam bidang
pengukuran prestasi belajar digunkan internal keajegan seperti formula Cronbch
alpha ataupun Kuder-Richardson. Akan tetapi dalam prakteknya penggunaan formula
itu memungkinkan adanya usaha-usaha tertentu untuk meninggikan koefisien
reliabilitasnya dengan cara mengubah pola susunan skor, sehingga untuk
menghindari hal itu maka penggunaan analisis varian lebih dapat dipertanggung
jawabkan.
Koefisien
reliabilitas soal pilihan ganda lebih mudah dimanfaatkan dalam pengambilan
keputusan prestasi belajar. Gronlund dalam
(Surapranata S, 2004: 91) menyebutkan bahwa untuk pengambilan keputusan
individu, koefisien reliabilitas harus tinggi.
Tinggu
rendahnya koefisien reliabilitas dipengaruhi oleh beberapa faktor. Crocker dan
Algina dalam (Surapranata S, 2004:
92) menyebutkan bahwa faktor itu antara lain panjang suatu tes, kecepatan,
homogenitas, belahan, dan tingkat kesukaran soal. Semakin sukar soal-soal dalam
pangkat tes akan semakin besar pula variasi skor yangdiperoleh belahan. Dengan
demikian maka akan semakin besar pula reliabilitas tes tersebut. Sebaliknya,
semakin rendah tingkat kesukaran suatu soal semakin kecil pula
reliabilitasnnya. Untuk itu harrus dihindari banyaknya rekaan yang dilakukan
peserta tes dengan materi tes yang akan diujikan kepada mereka. Penambahan
panjang tes akan menaikkan koefisien reliabilitas sepanjang soal yang digunakan
untuk menambah tes itu memiliki kualitas yang sama baik dengan soal-soal
lainnya.
C. Metode Tes Ulang
Metode tes ulang atau test-retest method sering pula dinamakan
metode stabilitas merupakan pendekatan
yang paling tua yang digunkkan untuk mengestimasi reliabilitas. Pendekatan
stabilitas sering pula dinamakan single-test-doubel-trislmethod.
Pelaksanaan metode ini adalah dengan cara sebagai berikut:
1.
Pada bulan mei sajikan satu bentuk tes misalnya saja tes Bahasa
Inggris kepada peserta didik kelas XII SMA
2.
Setelah beberapa waktu, misalnya pada bulan Juni sajikan kembali
tes Bahasa Inggris tersebut kepada peserta didik kelas XIISMA yang sama.
3.
Skor perolehan kedua kali tes tersebut dikorelasikan. Korelasi
skor tes yang pertama dengan skor tes yang kedua digunkan untuk mengestimasi
reliabilitas tes. Korelasi yang digunakan adalah korelasi prodek momen. Jika
koefisien korelasinya ingg, maka reabilitas tesnya juga tinggi. Tabel 4 berikut
ini menunjukkan skor yang diperoleh 36 orang peserta didik yang mengerjakan dua
kali tes Bahasa Inggris kelas XII SMA.
Langkah pertama:
Menentukan jumlah skor masing-masing tes dan kuadrat dari jumlah
skor masing-masing tes sebagai berikut:
Langkah kedua:
Menentukan korelasi antara tes I dan tes II sebagai berikut:
Tabel 4
Perhitungan reliabilitas dengan test-retest metods
No |
Peserta |
Tes pertama (X1) |
Tes kedua (X2) |
|
|
|
1 |
Puspa |
31 |
36 |
961 |
1296 |
1116 |
2 |
Dadap |
30 |
35 |
900 |
1225 |
1050 |
3 |
Mahoni |
30 |
34 |
900 |
1156 |
1020 |
4 |
Jati |
30 |
35 |
900 |
1225 |
1050 |
5 |
Albasia |
31 |
33 |
961 |
1089 |
1023 |
6 |
Meranti |
29 |
35 |
841 |
1225 |
1015 |
7 |
Rasamala |
30 |
36 |
900 |
1296 |
1080 |
8 |
Cendana |
16 |
40 |
256 |
1600 |
640 |
9 |
Randu |
14 |
32 |
196 |
1024 |
448 |
10 |
Kamper |
16 |
33 |
256 |
1089 |
528 |
11 |
Pinus |
18 |
31 |
324 |
961 |
558 |
12 |
Cempaka |
12 |
36 |
144 |
1296 |
432 |
13 |
Dahlia |
13 |
21 |
169 |
441 |
273 |
14 |
Bougenvile |
15 |
26 |
225 |
676 |
390 |
15 |
Kamboja |
11 |
25 |
121 |
625 |
275 |
16 |
kemuning |
13 |
27 |
169 |
729 |
351 |
17 |
Ros |
12 |
15 |
144 |
225 |
180 |
18 |
Mawar |
9 |
14 |
81 |
196 |
126 |
19 |
Tanjung |
11 |
16 |
121 |
256 |
176 |
20 |
Lili |
13 |
18 |
169 |
324 |
234 |
21 |
Melati |
12 |
15 |
144 |
225 |
180 |
22 |
Anggrek |
21 |
18 |
441 |
324 |
378 |
23 |
Kecubung |
15 |
9 |
225 |
81 |
135 |
24 |
Aster |
15 |
7 |
225 |
49 |
105 |
25 |
Krisan |
9 |
12 |
81 |
144 |
108 |
26 |
Kenanga |
10 |
8 |
100 |
64 |
80 |
27 |
Tulip |
10 |
8 |
100 |
64 |
80 |
28 |
Kana |
16 |
11 |
256 |
121 |
176 |
29 |
Kantil |
13 |
11 |
169 |
121 |
143 |
30 |
Cemara |
11 |
11 |
121 |
121 |
121 |
31 |
Kacapiring |
13 |
16 |
169 |
256 |
208 |
32 |
Anyelir |
15 |
18 |
225 |
324 |
270 |
33 |
Asoka |
9 |
8 |
81 |
64 |
72 |
34 |
Teratai |
6 |
8 |
36 |
64 |
48 |
35 |
Bakung |
3 |
4 |
9 |
16 |
12 |
36 |
Anggrek |
4 |
5 |
16 |
25 |
20 |
|
|
566 |
747 |
11136 |
20017 |
1401 |
Reabilitas hasil perhitungan adalah . angka ini
menunjukkan bahwa tes pertama dengan tes kedua cukup ajeg.
Ketika sebuah tes diberikan dua kali,
tentunya perbedaan antara skor tes pertama dengan skor tes kedua terjadi hanya
karena adanya kesalahan pengukuran. Sebagai gambaran, apabila kita megukur
panjang sebuah meja, lalu seminggu kemudian panjang meja tersebut diukur
kembali, perbedaan panjang yang terjadi sesungguhnya karena kesalahan
pengukuran. Tentu saja, argumen semacam ini agak kurang berlaku untuk hal-hal
psikologis seperti mengukur kemampuan bahasa inggris, IQ, atau kemampuan
lainnya.
Terdapat bebrapa faktor yang
mempengaruhi perbedaan antara skor pertama dengan skor kedua. Skor hasil tes
kedua mugkin saja sangat berbeda skor tes pertama.
a.
Pertama karakteristik yang diukur telah berubah dari tes pertama
ke tes kedua. Sebagai contoh misalnnya
tes kemampuan membaca, menulis, dan berhitung kelas III SD diadakan pada bulan
Agustus. Tes kedua, yaitu tes yang sama, diberikan kepada peserta didik yang
sama pada bulan Oktober. Kita mengharapkan terdapat perubahan kemampuan
membaca, menulis, dan berhitung pada periode dua bulan tersebut. Indeks
reliabilitas yang rendah kita harapkan sebagai akibat perubahan tersebut.
b.
Kedua, pengalaman peserta didik dalam mengambil tes yang sama
akan cukup berpengaruh terhadap perolehan skor sebenarnya. Hal ini dinamakan
sebagai reactivity. Sebagai contoh
misalnya peserta didik yang mengikuti ujian akhir nasional bahasa Indonesia,
lalu ia memperoleh skor 3.9. menurut standar kelulusan tahun 2004, ia tidak
lulus dan harus ikut ujian ulangan. Apabila soal yang diberikan pada ujian
ulangan sama dengan ujian utama, maka dapat dipastikan bahwa skor yang
diperoleh peserta didik akan meningkat. Peningkatkan ini terjadi salah satu
sebabnya karena i telah berpengalaman melihat soal sebelumnya. Untuk mengatasi
supaya hal ini tidak terjadi, biasanya soal yang digunakan pada ujian susulan
berbeda dengan soal yang diberikan pada ujian utama, namun masih mengukur
kemampuan yang sama.
c.
Ketiga, kita harus memperhatikan apa yang disebut practice-effect atau carry-over effect yaitu pengaruh
pengalaman atau ingatan siswa terhadap peroleh skor pada tes kedua. Peserta
didik bisa saja tidak dapat menjawab pada tes pertama, tetapi mereka dapat menjawab
pada tes kedua karena adannya faktor ingatan (mengingat soal atau materi) yang
telah mereka lihat pada tes pertama.
d.
Keempat, bisa saja sebelum melakukan tes yang kedua, peserta
didik sudah memiliki pengalaman melalui belajar atau latihan soal. Oleh karena
itu, tenggang waktu pelaksanaan tes pertama dan kedua sebaliknya tidak terlalu
lama.
Metode
tes ulang sangat berguna untuk melihat kestabilan pengukuran. Oleh karena itu,
metode ini biasa juga disebut sebagai metode kestabilan tes.
E.
Ekuivalen
Metode ekuivalen sering pula
dinamakan alternatif-forms methods atau double test-double-trial methods. Metode ini berkaitan dengan
penggunaan dua buah tes yang sama atau relatif sama kepada peserta didik yang
sama. Kesamaan yang dimaksudkan pada tes adalah kesamaan tujuan, tingkat
kesukaran, dan susunan. Pelaksanaan metode ini adalah dengan cara sebagai
berikut:
1)
Sajikan
satu bentuk tes misalnya saja tes Fisika seri pertama kepada peserta didik
kelas XII SMA.
2)
Setelah
beberapa waktu, sajikan satu bentuk tes Fisika seri kedua kepada peserta didik
kelas XII SMA yang sama.
Skor
perolehan kedua tes itu lalu dikorelasikan. Koefisien korelasi dari kedua tes
tersebut digunakan untuk mengestimasi koefisien reliabilitas tes. Korelasi yang
digunakan adalah korelasi produk momen. Jika koefisien relasinya tinggi maka
reliabilitas tesnya juga tinggi. Tabel 3.4 berikut ini menunjukkan skor yang
diperoleh 36 orang peserta didik yang mengerjakan dua tes Fisika I dan II yang
masing-masing jumlahnya 40 soal.
TABEL 3.4
Perhitungan reliabilitas dengan
metode ekuivalen
No. |
Peserta |
Tes I |
Tes II |
|
|
|
X1 |
X2 |
X12 |
X22 |
X1 . X2 |
||
1 |
Puspa |
40 |
31 |
1600 |
961 |
1240 |
2 |
Dadap |
39 |
30 |
1521 |
900 |
1170 |
3 |
Mahoni |
38 |
29 |
1521 |
841 |
1102 |
4 |
Jati |
37 |
25 |
1369 |
625 |
925 |
5 |
Albasia |
25 |
31 |
625 |
961 |
775 |
6 |
Meranti |
21 |
32 |
441 |
1024 |
672 |
7 |
Rasamala |
26 |
33 |
676 |
1089 |
858 |
8 |
Cendana |
21 |
34 |
441 |
1156 |
714 |
9 |
Randu |
25 |
29 |
625 |
841 |
725 |
10 |
Kamper |
21 |
35 |
441 |
1225 |
735 |
11 |
Pinus |
31 |
36 |
961 |
1296 |
1116 |
12 |
Cempaka |
36 |
30 |
1296 |
900 |
1080 |
13 |
Dahlia |
21 |
28 |
441 |
784 |
588 |
14 |
Bougenvile |
26 |
21 |
676 |
441 |
546 |
15 |
Kemboja |
25 |
15 |
625 |
225 |
375 |
16 |
Kemuning |
27 |
26 |
729 |
676 |
702 |
17 |
Ros |
15 |
20 |
225 |
400 |
300 |
18 |
Mawar |
14 |
13 |
196 |
169 |
182 |
19 |
Tanjung |
16 |
16 |
256 |
256 |
256 |
20 |
Lili |
18 |
19 |
324 |
361 |
342 |
21 |
Melati |
15 |
16 |
225 |
256 |
240 |
22 |
Anggrek |
18 |
17 |
324 |
289 |
306 |
23 |
Kecubung |
12 |
9 |
144 |
81 |
108 |
24 |
Aster |
16 |
12 |
256 |
144 |
192 |
25 |
Krisan |
16 |
12 |
256 |
144 |
192 |
26 |
Kenanga |
15 |
14 |
225 |
196 |
210 |
27 |
Tulip |
34 |
24 |
1156 |
576 |
816 |
28 |
Kana |
33 |
25 |
1089 |
625 |
825 |
29 |
Kantil |
32 |
29 |
1024 |
841 |
928 |
30 |
Cemara |
31 |
21 |
961 |
441 |
651 |
31 |
Kacapiring |
30 |
26 |
900 |
676 |
780 |
32 |
Anyelir |
8 |
11 |
64 |
121 |
88 |
33 |
Asoka |
7 |
12 |
49 |
144 |
84 |
34 |
Teratai |
8 |
10 |
64 |
100 |
80 |
35 |
Bakung |
9 |
11 |
81 |
121 |
99 |
36 |
Anggun |
10 |
6 |
100 |
36 |
60 |
Σ |
816 |
788 |
21830 |
19922 |
20062 |
Langkah pertama:
Menentukkan
jumlah skor masing-masing tes dan kuadrat dari jumlah skor masing-masing tes
sebagai berikut:
ΣX1 =
816
ΣX2 =
788
ΣX12 =
21830
ΣX22 =
19988
ΣX1X2 =
20062
Langkah
kedua:
Menentukkan
korelasi antara tes I dan tes II sebagai berikut:
=
=
=
0,7413
Indeks reliabilitas sebesar 0,7371
menunjukkan bahwa untuk mengatasi dua tes Fisika yang digunakan untuk ulangan
umum pada contoh ini merupakan tes yang reliabel. Dengan nilai reliabilitas
yang cukup tinggi ini dapat diinterpretasikan bahwa kedua tes tersebut relatif
homogen.
Metode ekuivalen atau paralel
digunakan untuk mengatasi kelemahan yang terjadi pada metode tes ulang seperti
pada bagian E. Ketika dua tes yang digunakan ternyata berbeda, maka faktor carry-over effect tidak menjadi masalah lagi, walaupun bisa saja faktor
mengingat pada jawaban tes pertama sedikit berpengaruh pada tes kedua,
khususnya apabila ditemukan soal yang benar-benar mirip ayau bahkan sama.
Pengaruh reaktivitas sebagai mana pada tes ulang juga kurang ditemukan pada
bentuk ini sekalipun pengaruh tes pertama mungkin saja ada pada tes kedua.
Namun sekali lagi, hal itu akan terjadi karena kemungkinandanya soal-soal yang
mirip sehingga peserta tes akan mudah mengingat jawaban tanpa memikirkannya
terlebih dahulu.
Sekalipun bentuk paralel ini dapat
mengatasi hampir semua metode tes ulang, namun demikian masih saja memiliki
beberapa kelemahan. Penggunaan tes paralele lebih mahal dan tidak praktis
dibandingkan dengan metode tes ulang. Kelemahan berikutnya adalah sangat sukar
membuat dua buah tes yang benar-benar homogen. Hal yang paling utama adalah
tidak adanya jaminan apakah kedua tes yang digunakan benar-benar mengukur hal
yang sama. Dengan demikian, dua tes yang dirancang kurang baik akan menghasilkan
reliabilitas yang rendah.
F. Belah
Dua (split half methods)
Dua metode yang diperkenalkan
dalam bagian E dan F yaitu tes ulang dan
tes paralel memiliki beberapa kelemahan. Pada bentuk double test-double-trial methode misalnya, guru harus engembangkan
lebih dari satu tes paralel kemudian mencari reliabilitas dari tes paralele
tersebut. Metode ini mengandung kelemahan yaitu tes yang paralel belum tentu
benar-benar menguki hal yang sama (homogen). Pendekatan kedua, yaitu single-test-double-trial methode
kelemahan yang muncul adalah adanya kemungkinana peserta tes ”telah mengingat” soal-soal yang
diteskan. Kesukaran pertama penggunaan metode tes ulang dan tes paralel adalah
(1) kesulitan mengembangkan dua tes yang benar-benar homogen dan mengukur hal
yang sama, (2) keharusan menyelenggarakan tes dalam dua waktu yang berbeda.
Untuk mengatasi kelemahan tersebut para ahli cenderung untuk menentukan
reliabilitas dari satu tes dan satu kali pelaksanaan tes saja. Metode ini
sering pula dinamakan sebagai single-test-single-trial
method. Metode ini merupakan metode yang sangat sederhana yaitu (1)
menyelenggarakan satu kali tes (2) membagi tes tersebut menjadi dua bagian yang
sama (sama banyak soalnya), dan (3) mengkorelasikan sko kedua belahan ini untuk mengestimasi reliabilitas
tes.
Metode belah dua dapat mengatasi
semuak kelemahan yang terdapat pada metode tes ulang dan tes paralel. Metode
ini memungkinkan mengestimasi reliabilitas tanpa haris menyelenggarakan tes dua
kali. Dengan demikian beberapa kelemahan seperti carry-over-effect, reactivity
effect, dan khususnya pngaruh waktu peroleh skor sebenarnya dapat
diminimalisasi. Dengan demikian ketidakajegan prolek skor bukan karena
penyelenggaraan tes tetapi karena dalam
merespon tes itu sendiri.
Terdapat berbagai macam cara membagi
dua suatu tes.sebagai contoh 40 soal bahasa indonesia dibagi menjadi dua
bagian. Bagian pertama terdiri atas soal nomor 1 samapai dengan nomor 20.
Bagian kedua terdiri atas soal nomor 21 sampai dengan nomor 40. Mungkin saja, soal
pada belahan pertama sangat berbeda dengan skor pada belahan kedua, sehingga
kedua belahan ini menghasilkan reliabilitas yang sangat rendah. Misalnya saja
soal bahas indonesia nomor-nomor awal
merupakan soal yang relatif mudah dibandingkan nomor-nomor akhir. Hal lainnya
mungkin saja peserta tes mengalami kelelahan ketika mengerjakan soal-soal
belahan kedua.
Ø Persamaan produk momen
Tabel
3.6 berikut ini dapat digunakan untuk menentukan reliabilitas belah dua. Dari
sepuluh soal yang disajikan, pembagian dapat dilakukan dengan cara membagi dua
yaitu bagian awal dan bagian akhir.
Tabel
Perhitungan
reliabilitas awal dan akhir
Bagian
awal yang dimaksud pada tabel diatas adalah lima soal belahan pertama (1,2,3,4 dan
5) dan bagian akhir adalah soal belahan kedua (6,7,8,9 dan 10). Untuk
mengestimasi reliabilitas, dilakukan dengan beberapa langkah berikut ini.
Langkah pertama
Menentukan
jumlah skor total dari soal-soal bagian awal (1,2,3,4 dan 5)
ΣXt
= jumlah skor total bagian awal
ΣXt
= 109
Langkah kedua
Menentukan
jumlah skor total dari soal-soal bagian akhir (6,7,8,9 dan 10)
ΣYt =
jumlah skor total akhir
ΣYt =
73
Langkah ketiga
Menentukan
kuadrat jumlah skor total dari soal-soal bagian awal (1,2,3,4 dan 5)
(ΣXt = kuadrat dari jumlah skor total awal
(ΣXt =
345
Langkah keempat
Menentukan
kuadrat jumlah skor total dari soal-soal bagian akhir (6,7,8,9 dan 10)
(ΣXt = kuadrat dari jumlah skor total akhir
(ΣXt =
231
Langkah kelima
Menentukan jumlah perkalian skor bagian awal (X)
dengan skor bagian akhir (Y)
(ΣXY) = 223
Langkah keenam
Menentukan reliabilitas dengan persamaan produk
momen:
=
=
=
0,449
Langkah ketujuh
Reliabilitas pada langkah ke enam baru merupakan
reliabilitas setengah bagian tes. Untuk menentukan reliabilitas tes
sesungguhnya digunakan persamaan.
r11 =
r11 =
r11 =
0,6206
BAB III
PENUTUP
1.
KESIMPULAN
I.
Validitas berasal dari kata validity yang mempunyai arti sejauh
mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya.
Dan Reliaabilitas berasal dari kata dalam bahasa inggris rely, yang berarti percaya, dan reliable
yang artinya dapat dipercaya. Keterpercayaan
berhubungan dengan ketetapan dan konsistensi.
II.
Macam-macam validitas yaitu validitas Isi, Validitas Konstruk, Validitas
Prediksi, Validitas Konkruen. Dan Macam-macam reabilitas yaitu Model Umum
Reliabilitas, Metode Sederhana Mengestimasi Reliablitas, Metode Tes Ulang, Ekuivalen, Belah Dua (split half methods).
III.
Salah satu cara untuk menentukan validitas alat ukur adalah
dengan menggunakan korelasi product
moment dengan simpangan yang
dikemukakan oleh Person sebagai berikut :
2.
SARAN
Dengan selesainya
makalah ini, penyusun berharap kepada para pembaca agar dapat memberi masukan
baik berupa kritik atau saran yang sifatnya membangun agar pada perbaikan
makalah ini, pembaca mendapat manfaat yang lebih daripada sebelumnya.
DAFTAR PUSTAKA
http://asessmen/METODOLOGI%20PENELITIAN_%20VALIDITAS%20DAN%20RELIABILITAS.html
(diakses 07 februari 2016)
Purwanto. (2007). Instrumen Penelitian sosial dan Pendidikan:
Pengembangan dan Pemampaatan. Yogyakarta: Pustaka Pelajar.
Surapranata, S. (2004). Analisis, Validitas, Reliabilitas, dan
Interprestasi Hasil Tes: Implementasi Kurikulum 2004. Bandung: PT Remaja
Rosdakarya.
Tidak ada komentar:
Posting Komentar