Minggu, 28 Agustus 2022

MAKALAH ASSESMEN MENGHITUNG VALIDITAS DAN RELIABILITAS HASIL PENILAIAN

 

MENGHITUNG VALIDITAS DAN RELIABILITAS HASIL PENILAIAN

ASESMEN PEMBELAJARAN MATEMATIKA

 

DOSEN PENGGAMPUH :

1.      Dr. H. Mustamin Idris, M.Si

2.      Dr. Sukayasa, M.Pd

3.      Dr. H. Baso Amri, M.Si

 

DISUSUN OLEH :

Kelompok 10

Kelas C

 

1.      Nur Adha                         A 231 13 087

2.      Elfa Susanti                      A 231 14 088

3.      Eka Surnyadewi               A 231 13 162

 

PROGRAM STUDI PENDIDIKAN MATEMATIKA

JURUSAN PENDIDIKAN MIPA

FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN

UNIVERSITAS TADULAKO

MARET  2016




DAFTAR ISI

 

Halaman Judul

KATA PENGANTAR.............................................................................................. i

DAFTAR ISI............................................................................................................ ii

BAB I  PENDAHULUAN

1.1  Latar Belakang.................................................................................................... 1

1.2 Rumusan Masalah............................................................................................... 2

1.3 Tujuan................................................................................................................. 2

BAB II PEMBAHSAN

2.1 Pengertian Validitas............................................................................................ 3

2.2 Pengertian Reliabilitas ........................................................................................ 5

2.3 Macam-macam Validitas .................................................................................... 6

2.4 Mengukur Validitas ........................................................................................... 9

2.5 Macam-macam Validitas ................................................................................... 16

BAB III PENUTUP

3.1 Kesimpulan........................................................................................................ 32

3.2 Pengertian Korelasi............................................................................................ 32

DAFTAR PUSTAKA

 

BAB I

PENDAHULUAN

1.1  LATAR BELAKANG

Dua prinsip dasar permasalahan dalam penilaian adalah menentukan apakah sebuah tes telah mengukur apa yang hendak diukur dan apakah sebuah tes telah tepat digunakan untuk membuat suatu keputusan tentang pengambilan tes. Mungkin saja para pengembang tes berpendapat bahwa tes matematika misalnya dapat memperkirakan kemampuan seseorang dalam fisika. Seorang guru dapat berpendapat bahwa kemampuan seseorang dalam membaca misalnya akan berpengaruh terhadap semua nilai kenaikan kelas. Tentu saja, pendapat tersebut harus dibuktikan dengan data-data yang mendukung. Sebagai contoh apabila skor fisika berkorelasi positif dengan skor matematika, atau skor kemampuan membaca berkorelasi dengan semua hasil skor kenaikan kelas, maka sangat masuk akal untuk membuat kesimpulan bahwa tes matematika atau tes kemampuan membaca merupakan prediktor yang valid yang dapat digunakan untuk memprediksi kemampuan seseorang.

Evaluasi pendidikan melibatkan banyak kegiatan teknis dalam menentukan metode dan format penilaian yang dapat digunakan untuk mendapatkan informasi yang dibutuhkan. Informasi tersebut diperlukan dalam menafsir dan menetapkan keputusan untuk kepentingan pendidikan. Penilai membutuhkan keterampilan dalam mengidentifikasi dan memahami berbagai macam perspektif penilaian, baik penilaian kontekstual dan proses maupun penilaian hasil. Karena penilaian merupakan pusat kontrol keberhasilan program pendidikan, maka terdapat dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaitu validitas dan reliabilitas.

Dalam diskusi tentang penilaian berbasis kelas senantiasa berkaitan dengan validitas dan reabilitas. Reabilitas berkaitan dengan sejauhmana tes yang diberikan ajeg dari waktu ke waktu. Artinya, reabilitas berkaitan dengan keajegan suatu tes. Suatu tes dikatakan ajeg apabila dari waktu ke waktu menghaslkan skor yang sama atau relatif sama.

Validitas adalah suatu konsep yang berkaitan dengan sejauhmana tes telah mengukur apa yang seharusnya diukur. Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan kesesuaian skor tes. Validitas merupakan karakteristik suatu tes ketika diujikan pada suatu kelompok peserta tes. Validasi suatu instrumen mencakup pengumpulan data empiris dan argumentasi logis untuk menunjukkan bahwa kesimpulan tertentu adalah tepat. Sedangkan reliabilitas yang berarti konsistensi adalah ciri umum dari suatu instrumen pengukuran dan penilaian pendidikan. Konsistensi tinggi skor instrumen dari suatu pengukuran ke pengukuran berikutnya merupakan ciri terpenting dari instrumen yang berkualitas tinggi.

Reabilitas suatu skor adalah hal yang sangat penting dalam menentukan apakah tes telah menyajikan pengukuran yang baik. Hal yang paling penting dalam reabilitas skor adalah adanya pengambilan keputusan tentang peserta tes. Sebagai contoh misalnya sekolah mengaharuskan peserta didiknya untuk lulus sebelum mereka menamatkan pendidikannya. Bayangkan apa yang akan terjadi apabila skor yang diperoleh ternyata tidak ajeg, misalnya memperoleh skor yang rendah pada tes pertama dan memperoleh skor yang tinggi pada tes yang yang kedua, padahal tes yang diberikan itu adalah sama. Pemberian tanda kelulusan mungkin sangat bergantung kepada tes yang diberikan, yitu ajeg atau tidak.

Dalam makalah ini akan membahas tentang validitas dan jenis-jenis validitas serta cara menghitung validitas.kemudian akan membahas tentang reabilitas dan jenis-jenis reliabilitas serta cara menghitung reliabilitas.

1.2 RUMUSAN MASALAH

1.      Apa pengertian validitas dan reliabilitas?

2.      Apa macam-macam dari validitas dan reliabilitas?

3.      Bagaimana cara mengukur validitas?

 

1.3    TUJUAN

2.      Untuk mengetahui pengertian validitas dan reliabilitas.

3.      Untuk mengetahui macam-macam validitas dan reliabilitas.

4.      Untuk mengetahui cara mengukur validitas.

 

 

BAB II

PEMBAHASAAN

2.1 PENGERTIAN VALIDITAS

Pada tahun 1940-an dan awal tahun 1950 para ahli pengukuran pendidikan telah melakukan berbagai macam pengkajian terhadap bagaimana menentukan dan menilai validitas. Pada tahun 1954 misalnya The American Psychological Assosiation ( APA) melalui Technical  Reommendation for Psychological Test and Diagnostic Techniques  mengusulkan empat pendekatan yang sering dinamakan epat uka validitas.

Validitas berhubungan dengan kemampuan  untuk mengukur secara tepat sesuatu yang diinginkan diukur. Menurut Anastasi dan Urbina  dalam ( Purwanto, 2007: 123), validitas berhubungan dengan apakah tes mengukur apa yang mesti diukurnya dan seberapa baik dia melakukanya. Validitas merupakan derajad sejauh mana tes mengukur apa yang inggin diukur.instrumen yang valid adalah instrumen yang mengukur dengan tepat keadaan yang ingin diukur. Sebaliknya, instrumen dikatakan tidak valid bila digunakan untuk mengukur suatu keadaan yang tidak dapat diukur dengan instrumen tersebut. Misalnya: mistar bukan alat ukur yang valid untuk mengukur bera, timbangan emas bukan alat ukur yang valid untuk menimbang beras, tes tertulis bukan alat ukur yang valid untuk keterampilan gayaberenang, dan sebagainya.

Sebelum instrumen digunakan untuk mengumpilkan data, terlebih dahuluharus diperiksa bahwa instrumen telah valid. Hal itu diperlukan untuk menjamin adanya kesesuaian antara alat ukur dengan keadaan yang inggin diukur. Pengumpulan data menggunakan instrumen yang tidak valid menghasilkan data dan kesimpulan penelitian yang tidak valid.

  Menurut Azwar (1986) Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan pengukuran. Terkandung di sini pengertian bahwa ketepatan validitas pada suatu alat ukur tergantung pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang dikehendaki dengan tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A dan kemudian memberikan hasil pengukuran mengenai variabel A, dikatakan sebagai alat ukur yang memiliki validitas tinggi. Suatu tes yang dimaksudkan mengukur variabel A akan tetapi menghasilkan data mengenai variabel A’ atau bahkan B, dikatakan sebagai alat ukur yang memiliki validitas rendah untuk mengukur variabel A dan tinggi validitasnya untuk mengukur variabel A’ atau B (Azwar 1986). Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat memberikan gambran mengenai perbedaan yang sekecil-kecilnya mengenai perbedaan yang satu dengan yang lain. Sebagai contoh, dalam bidang pengukuran aspek fisik, bila kita hendak mengetahui berat sebuah cincin emas maka kita harus menggunakan alat penimbang berat emas agar hasil penimbangannya valid, yaitu tepat dan cermat. Sebuah alat penimbang badan memang mengukur berat, akan tetapi tidaklah cukup cermat guna menimbang berat cincin emas karena perbedaan berat yang sangat kecil pada berat emas itu tidak akan terlihat pada alat ukur berat badan.

Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam “alat ukur ini valid” adalah kurang lengkap. Pengertian validitas menurut Walizer (1987) adalah tingkaat kesesuaian antara suatu batasan konseptual yang diberikan dengan bantuan operasional yang telah dikembangkan. Menurut Aritonang R. (2007) validitas suatu instrumen berkaitan dengan kemampuan instrument itu untuk mengukur atu mengungkap karakteristik dari variabel yang dimaksudkan untuk diukur. Instrumen yang dimaksudkan untuk mengukur sikap konsumen terhadap suatu iklan, misalnya, harus dapat menghasilkan skor sikap yang memang menunjukkan sikap konsumen terhadap iklan tersebut. Jadi, jangan sampai hasil yang diperoleh adalah skor yang menunjukkan minat konsumen terhadap iklan itu.

Validitas suatu instrumen banyak dijelaskan dalam konteks penelitian sosial yang variabelnya tidak dapat diamati secara langsung, seperti sikap, minat, persepsi, motivasi, dan lain sebagainya. Untuk mengukur variabel yang demikian sulit, untuk mengembangkan instrumen yang memiliki validitas yang tinggi karena karakteristik yang akan diukur dari variabel yang demikian tidak dapat diobservasi secara langsung, tetapi hanya melalui indikator (petunjuk tak langsung) tertentu. (Aritonang R. 2007). Menurut Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat pengukur itu mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat suatu benda, maka dia harus menggunakan timbangan. Timbangan adalah alat pengukur yang valid bila dipakai untuk mengukur berat, karena timbangan memang mengukur berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus menggunakan meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk mengukur panjang, karena memang meteran mengukur panjang. Tetapi timbangan bukanlah alat pengukur yang valid bilamana digunakan untuk mengukur panjang.

2.2 PENGERTIAN RELIABILITAS

Reliaabilitas berasal dari kata dalam bahasa inggris rely, yang berarti percaya, dan reliable yang artinya dapat dipercaya. Keterpercayaan berhubungan dengan ketetapan dan konsistensi. Instrumen dikatakan dapat dipercaya atau reabel apabila memberikan hasil pengukuran yang relatif konsisten.

Beberapa ahli telah memberikan batasan reliabilitas. Menurut Thorndike dan Hagen dalam ( Purwanto, 2007: 161), reliabilitas berhubungan dengan akurasi instrumen dalam mengukur apa yang diukur, kecermatan hasil ukur, dan seberapa akurat seandainya dilakukan pengukuran ulang. Hopkins dan Antes dalam ( Purwanto, 2007: 161) menyatakan reliabilitas sebagai konsistensi pengamatan yang diperoleh daro pencatatan berulang, baik pada satu subjek maupan sejumlah subjek. Kerlinger dalam ( Purwanto, 2007: 161) menyampaikan beberapa batasan tentang reliabilitas sebagai berikut: (1) reliabilitas dicapai apabila kita mengukur himpunan objek yang sama berulang kali dengan instrumen yang sama atau serupa dan memberikan hasil yang sama atau serupa, (2) reliabiltas dicapai apabila ukuran yang diperoleh dari suatu instrumen pegukura adalah ukuran “yang sebenarnya”untuk sifat yang diukur, dan (3) reliabilias dicapai dengan meminimalkan alat pengukuran yang terdapat dalam suatu instrumen pengukur.

Instrumen harus memenuhi persyaratan reliabilitas. Instrumen yang tidak reliabel tidak dapat digunakan untuk mengumpulkan data karena tidak memberikan informasi apa pun. Benda yang sama ditimbang beratnya menggunakan alat timbang yang sama beberapa kali harus memberikan hasil penimbangan yang sama. Apabila hasil penimbangan berubah-ubah maka alat timbangnya tidak reliabel dan datanya tidak dapat dipercaya. Hal yang sama berlaku dalam pengukuran dalam ilmu sosial dan pendidikan. Responden yang sama yang diukur menggunakan instrumen yang sama harus menghasilkan hasil pengukuran yang relatif sama. Dengan begitu data yang dihasilkan dari proses pengukuran memang dapat dipercaya.

2.3 MACAM-MACAM VALIDITAS

1. validitas Isi

Validitas isi sering pula dinamakan validitas kurikulum yang mengandug arti bahwa suatu alat ukur dipandang valid apabila sesuai dengan isi kurikulum yang hendak diukur. Salah satu cara yang digunakan untuk membentuk validitas adalah dengan mengkaji isi tes itu. Sebuah tes misalnya terdiri atas 25 soal penjumlahan dan pengurangan sangat baik digunakan untuk mengukur kemampuan matematika dibandingkan dengan tes yang terdiri atas 10 soal tentang olahraga tetapi tidak ada hal-hal yang berkaitan dengan penjumlahan dan pengurangan. Validitas isi ditentukan denga melihat apakah soal-soal yang digunakan telah menunjukkan sampel artribut yang diukur. Dengan demikian menurut Guino  dalam (Surapranata S, 2004: 52) validitas isi sangat bergantung kepada dua hal yaitu tes itu sendiri dan proses yang mempengaruhi dalam merespon tes. Sebagai contoh misalnya tes tertulis yang dipersiapkan untuk pekerjaan mungkin tidak menyajikan pengukuran yang valid untuk kemampuan pegawai melakukan pekerjaan mungkin tidak menyajikan pengukuran yang valid untuk kemampuan pegawai melakukan pekerjaan, sekalipun mungkin saja tes  itu sudah merupakan alat yang valid untuk mengukur pengetahuan tentang apa yang harus dikerjakan.

Salah satu cara untuk memperoleh validitas isi adalah dengan melihat soal-soal yang  membentuk tes itu. Jika keseluruhan soal nampak mengukur apa yang seharusnya tes itu digunakan, tidak diragukan lagi bahwa validitas isi sudah terpenuhi. Dalam dunia pendidikan, sebuah tes dikatakan memiliki isi apabila mengukur sesuai dengan domain dan tujuan khusus tertentu yang sama dengan isi pelajaran yang telah diberikan di kelas. Soal matematika dikatakan valid apabila hanya mengukur kemampuan matematika, bukannya mengukur kemampuan bahasa. Ketika kita mengatakan akan mengukur kemampuan X peserta tes, kita harus mengukur artribut atau karakteristik khusus yang berkaitan dengan X peserta tes yang akan diukur. Sebagai contoh, sebuah tes dirancang untuk mengukur kemampuan bermain bola basket dalam mata pelajaran penjaskes misalnya, tentunya hal yang diukur haruslah antara lain berkaitan dengan kemampuan berlari, membawa bola, menembakan bola, dan mendrebel bola. Hal-hal yang diukur mungkin sangat luas seperti untuk kemampuan membaca misalnya, atau bahkan sangat sempit seperti untuk kemampuan penjumlahan. Tabel dibawah berikut ini menunjukkan domain yang diukur dalam pengetahuan alam terpadu. Tentu saja, tidak semua domain yang akan diukur dalam tes harus sama dengan tabel berikut.

 

 

Tabel

Deskripsi domain yang hendak diukur dalam tes IPA terpadu

Kemampuan yang diukur

Fisika

Biologi

Kimia

Bumi Antarriksa

Jumlah

Mengamati

1

1

-

-

2

Mengukur

1

-

1

1

3

Membaca Tabel

-

1

1

1

3

Membaca Diagram

1

1

-

1

3

Membaca grafik

1

1

-

-

2

Membaca/Interpretasi

1

-

1

1

3

 Mengklasifikasi

1

-

1

-

2

Menginfering

1

1

1

-

3

Memprediksi

-

1

-

1

2

Menyimpulkan

-

1

1

1

3

Merancang percobaan

-

1

1

1

3

Reasoning

1

1

1

1

4

Problem solving

1

1

1

1

4

Berpikir kritis

1

1

1

1

3

Jumlah

10

10

10

10

40

 

Sebagian ahli tes berpendapat bahwa tidak ada satupun pendekatan statistik yang dapat digunakan untuk menentukan validitas isi suatu tes. Menurut Guion dalam (Surapranata S, 2004: 52) validitas isi hanya dapat ditentukan berdasarkan judgmen para ahli. Prosedur yang dapat digunakan antara lain:

1.      Mendefinisikan domain yang hendak diukur

2.      Menentukan domain yang akan diukur oleh masing-masing soal .

3.      Membandingkan  masing-masing soal dengan domain yang sudah ditetapkan.

Sekalipun prosedur ini nampak sederhana tetapi dalam praktek terkadang sulit dilakukan. Kesulitan utama dalam prosedur ini adalah mendefinisikan domain yang hendak diukur. Dalam buku tentang pedoman penulisan tes tertulis, domain ini sama halnya dengan kisi-kisi. Sebagai contoh misalnya dalam menentukan soal fisika yang berkaitan dengan problem solving atau reasoning. Hal yang paling penting adalah, adanya kesepakatan antara beberapa penulis tentang kemampuan yang diukur antara suatu soal.

2. Validitas Konstruk

Konstruk adalah suatu yang berkaitan dengan fenomena atau objek yang abstrak, tetapi gejalanya dapat diamati dan diukur.  Gravitasi, massa, kemampuan matematika, kemampuan bahasa Inggris, kebahagiaan, dan kesedihan antara lain termasuk konstruk. Gravitasi misalnya dapat dijadikan sebagai contoh bagaimana memahami konstruk. Ketika buah apel jatuh ketanah, konstruk tentang gravitasi  dapat digunakan untuk menjelaskan dan memperkirakan prilaku (jatuhnya buah apel misalnya) yang diamati. Namun, demikian kita tidak dapat melihat yang dimaksud dengan konstruk gravitasi itu sendiri. Hal yang dapat kita lihat hanyalah apel itu jatuh. Kita dpat mengukur gravitasi dan mengembangkan teori tentang gravitasi.

Validitas konstruk mengandung arti bahwa suatu alat ukur dikatakan valid apabila telah cocok dengan konstruksi teoritik dimana tes itu dibuat. Dengan kata lain sebuah tes dikatakan memiliki validitas konstruksi apabila soal-soalnya mengukur setiap aspek berpikir seperti yang diuraikaan dalam standar kompetensi, kompetensi dasar, maupu indikator yang terdapat dalam kurikulum. Soal yang dapat dikembangkan dari kisi-kisi seperti nampak pada tabel dibawah haruslah berupa soal yang sesuai dengan kemampuan mendeskripsikan berbagai bentuk pasar menurut struktur, mengidentifikasi kebaikan dan keburukan bentuk-bentuk pasar, serta memberi contoh berbagai bentuk pasar.

Konstruksi yang dimaksud pada validitas ini bukanlah merupakan konstruksi seperti bangunan atau susunan, tetapi berupa rekaa psikologis yang berkaitan dengan aspek-aspek ingatan, pemahaman, aplikasi, analisis, sintesis, dan evaluasi. Konstruksi sebagaimana nampak pada tabel dibawah merupakan contoh kompetensi dasar, hasil belajar , dan indikator yang terdapat dalam kurikulum 2004.

Tabel

Kisi-kisi kompetisi Ekonomi SMA kelas X

KOMPETENSI DASAR

MATERI POKOK

INDIKATOR

PENILAIAN

JENIS

BENTUK

Mendeskripsikan berbagai bentuk pasar menurut struktur.

Bentuk-bentuk pasar

·         Mendeskripsikan berbagai bentuk pasar menurut struktur.

·         Mengidentifikasi ciri-ciri berbagai bentuk pasar.

·         Mengidentifikasi kebaikan dan keburukan bentuk-bentuk pasar.

·         Memberi contoh berbagai bentuk pasar.

Tertulis

 

 

 

Tertulis

 

 

Tertulis

 

 

 

Tertulis

Uraian

 

 

 

Uraian

 

 

Uraian

 

 

 

Uraian

 

3.Validitas Prediksi

Validitas prediksi menunjukkan kepada hubungan antara tes skor yang diperoleh peserta tes dengan keadaan yang akan terjadi diwaktu yang akan datang. Sebuah tes dikatakan  memiliki validitas prediksi apabila mempunyai kemampuan untuk memprediksikan apa yang akan terjadi dimasa yang akan datang.

Contohsederhana misalnya apa yang terjadi pada penerimaan peserta tes berdasarkan hasil tes seleksi setelah mereka lulus SMA. Peserta tes yang memiliki nilai yang bagus di tes seleksi tersebut lalu diterima di perguruan tinggi, diperkirakan akan berhasil ketika mereka belajar diperguruan tinggi. Apabila hal itu terjadi, maka tes masuk perguruan tinggi tersebut dikatakan memiliki validitas prediksi bagus. Sebaliknya, apabila hasil diperguruan tinggi kurang baik, maka tes seleksi dimaksud tidak memiliki validitas yang bagus.

4.    Validitas Konkruen

Validitas kunkruen memunjukkan pada hubungan antara tes skor dengan yang dicapai dengan keadaan sekarang. Validitas ini dikenal sebagai validitas emperis. Sebuah tes dikatakan memiliki validitas konkruen apabila hasilnya sesuai dengan pengalaman. Tabel dibawah berokut ini menunjukkan validitas konkruen untuk berbagai macam penilaian berbasis kelas.

Tabel

Validitas konkruen untuk beberapa penilaian berbasis kelas

Perbandingan

Korelasi

Ujian akhir nasional dan kuis dikelas

0,56

Ujian akhir  nasional dan tugas

0,20

Soal benar dan pilihan ganda

0,31

Soal uraian dan benar salah

0,48

Soal pilihan ganda dan uraian

0,29-0,38

Teori dan praktek

0,35

4 buah soal uraian

0,13-0,62

Ujuan dan studi kasus

0,41

Soal uraian dan studi kasus

0,61

Soal uraian dan tugas

0,54

Soal uraian dan partisipasi di kelas

0,10

Partisipasi di kelas dan studi kasus

0,72

 

2.4 MENGUKUR VALIDITAS

Dalam situasi yang sagat sederhana untuk menentukan valid tidaknya penggaris yang kita buat adalah dengn membawanys ke pusat standarisasi alat ukur. Di pusat standarisasi alat ukur tersebut penggaris yang kita buat ditera dan dibandingkan dengan metran standar. Strategi ini tentunya tidak akan berlaku dalam menetukan validitas tes. Untuk menentukanapakah tes yang digunakan untuk menggukur introvert, intelegensi, kemampan membaca, kemampuan matematika, atau kemampuan fisika misalnya tidak ada satupun lembaga standarisasi tes yang dapat membandingkan tes yang dibuat tersebut. Dengan kata lain, apabila kita mengukur intelegensi Camera misalnya diperoleh IQ 112, kita tidak dapat membandingkan IQ 112 tersebut kelembaga tersebut untuk menentukan apakah yang kita lakukan itu sudah tepat. Tentu saja, tidak ada satupun lembaga yang dapat mengkaji IQ seseorang dibandingkan dengan para psikolog lainnya. Sama halnya, apabila kita mengukur kemampuan matematika melati, dengan memberikan tes matematika kepadanya misalnya, maka hasilnya tidak bisa kita bandingkan ke lembaga tes tertentu untuk melihat valid tidaknya tes yang kita digunakan. Dari pada kita membandingkan alat ukur yang digunakan ke lembaga eksternal untuk mencari valid tidaknya alat yang digunakan, para ahli pengukuran pendidikan lebih menyarankan untuk menggunakan beberapa metode yang berasal dari fakta yang terdapat dari tes itu sendiri setelah digunakan.

Salah satu cara untuk menentukan validitas alat ukur adalah dengan menggunakan korelasi product moment  dengan simpangan yang dikemukakan oleh Person sebagai berikut :

 

Ket:

 = koefisien korelasi antara variabel x dan variabel y, dua variabel lain yang berkorelasikan ( dan )

 = jumlah perkalian antara x dengan y

 = kuadrat dari x

 = kuadra dari y

Untuk mencari validitas tes fisika(X) di perguruan tinggi dengan kriterium nilai fisiska hasil tes masuk (Y) dapat digunakan tabel berikut:

Tabel

Validasi nilai tes fisikadi perguruan tinggi dengan skor simpangan

No

Pesetra tes

X

Y

x

y

xy

1

Waru

8

6

0,533

-0,067

0,284

0,004

-0,036

2

Dadap

7

6

-0,467

-0,067

0,218

0,004

0,031

3

Mahoni

6

4

-1,467

-2,067

2,151

4,271

3,031

4

Jati

7

6

-0,467

-0,067

0,218

0,004

0,031

5

Albasia

8

7

0,533

0,933

0,284

0,871

0,498

6

Meranti

7

5

-0,467

-1,067

0,218

1,138

0,498

7

Rasamala

6

5

-1,467

-1,067

2,151

1,138

1,564

8

Anggrek

8

7

0,533

0,933

0,284

0,871

0,498

9

Kamboja

7

7

-0,467

0,933

0,218

0,871

-0,436

10

Kemuning

8

7

0,533

0,933

0,284

0,871

0,498

11

Ros

8

7

0,533

0,933

0,284

0,871

0,498

12

Mawar

8

5

0,533

-1,067

0,284

1,138

-0,569

13

Melati

9

7

1,533

0,933

2,351

0,871

1,431

14

Cempaka

8

7

0,533

0,933

0,284

0,871

0,498

15

Dahlia

7

5

-0,467

-1,067

0,218

1,138

0,498

 

Jumlah

112

91

0

0

9,733

14,933

8,533

 

 

 

 

 

 

 Angka 0,708 ini menunjukkan bahwa nilai fisika di perguruan tinggi berkorelasi dengan nilai fisika tes masuk.

Bentuk lain dari korelasi product moment adalah dengan menggunakan angka kasar yaitu:

 

Data dari tabel diatas digunakan kembali sebagai alat untuk mencari korelasi product moment dengan skor kasar seperti nampak pada tabel dibawah ini:

Tabel

Validasi nilai tes fisikadi perguruan tinggi dengan skor simpangan

No

Pesetra tes

X

Y

XY

1

Waru

8

6

64

36

48

2

Dadap

7

6

49

36

42

3

Mahoni

6

4

36

16

24

4

Jati

7

6

49

36

42

5

Albasia

8

7

64

49

56

6

Meranti

7

5

49

25

35

7

Rasamala

6

5

36

25

30

8

Anggrek

8

7

64

49

56

9

Kamboja

7

7

49

49

49

10

Kemuning

8

7

64

49

56

11

Ros

8

7

64

49

56

12

Mawar

8

5

64

25

40

13

Melati

9

7

81

49

63

14

Cempaka

8

7

64

49

56

15

Dahlia

7

5

49

25

35

 

Jumlah

112

91

846

567

688

 

 

 

 

 

Korelasi product momentdengan skor kasar dan skor simpangan seperti pada perhitungan kedua contoh di atas menghasilkan angka yang sama yaitu 0,708. Bisa saja karena perhitungan, kedua teknik tersebut menghasilkan angka yang relatif berbeda. Namun perbedaan tersebut umumnya tidak terlalu signifikan.

Angka 0,708 sudah cukup tinggi sebagai angka korelasi. Koefisien korelasi umumnya dibagi kedalam lima bagian seperti tampak pada tabel berikut:

Tabel

Makna koefisien korelasi product moment

Angka korelasi

Makna

0,800-1,000

Sangat tinggi

0,600-0,800

Tinggi

0,400-0,600

Cukup

0,200-0,400

Rendah

0,000-0,002

Sangat rendah

 

Ø Validitas Soal

Tujuan validitas soal adalah menentukan dapat tidaknya suatu soal tersebut membedakan kelompok dalam aspek yang diukur sesuai dengan perbedan yang ada dalam kelompok itu. Validitas soal adalah indeks diskriminasi soal-soal yang ditetapkan dari selisih proporsi yang menjawab dari masing-masing kelompok. Indeks ini menunjukkan kesesuaian antara fungsi tes secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda soal yaitu daya dalam membedakan antara peserta tes yang berkemampuan tinggidengan peserta tes yang berkemampuan rendah.

Angka yang menunjukkan besarnya validitas soal disebut indeks validitas soal yang besarnya berkisar antara -1 sampai dengan +1. Tanda negatif menunjukkan bahwa peserta tes yang kemampuan rendah dapat menjawab benar sedangkan peserta tes yang kemampuannya tinggi menjawab salah. Dengan demikian soal yang validitasnya negatif menunjukkan terbaliknya kualitas peserta tes. Setiap soal dapat dipandang sebagai bagian yang terpisah dari sebuah tes. Sebuah soal dapat membedakan klompok peserta tes secara baik. Sebuah soal mungkin juga tidak dapat membedakan kelompok peserta tes (misalnya soal dengan p = 0 atau p = 1). Sebuah soal juga mungkin membedakan kelompok secara terbalik, yaitu peserta tes yang tidak mampu dapat menjawab soal dengan benar sedangkan peserta tes yang mampu menjwab salah. Salah satu tujuan analisis soal adalah untuk mencari soal-soal yang dapat mengukur kemammpuan secara tepat.

Jika tes atau soal mengukur hal yang sama, dapat diharapkan bahwa setiap peserta tes yang mampu dapat menjawab soal dengan benar, dan peserta tes yang tidak mampu akan menjawab salah. Dengan kata lain, soal-soal tersebut membedakan antara peserta tes yang tidak mampu. Dalam bagian ini akan dibahas berbagai teknik menentukan indeks validitas.

Terdapat berbagai cara yang digunakan untuk menentukan validitas diantaranya dengan menggunakan 1). Indeks diskriminasi. 2). Indeks korelasi, 3). Indeks keselarasan. Sebagaimana alat ukur lainnya, korelasi didalam validitas soal yang memiliki prediktor dan kriterium. Prediktor dalam validitas soal adalh skor soal sedangkan kriteriumnya adalah skor total tes.

Korelasi biserial maupun korelasi point biseral adalah korelasi product moment yang diterapkan pada data, dimana variabel-variabel yang dikorelasikan sifatnya masing-masing berbeda satu sama lain. Variabel butir soal bersifat dikotomi sedangkan variabel skor total atau sub skor total bersifat kontinum.variabel butir soal dinamakan dikotomi karena skor-skor yang terdapat pada butir soal hanya ada satu nol. Seperti halnya pada bentuk soal pilihan ganda, soal yang benar diberi angka satu (1) dan yang salah diberi angka nol (0). Variabel skor total atau sub skor total peserta tes bersifat kontinum atau nondikotomi yang ditentukan dengan menggunakan persamaan :

 

 = koefisien korelasi

 = rerata skor pada  tes dari peserta tes yang memiliki jawaban benar

 rerata skor total

P    = proporsi peserta tes yang jawabannya benar pada soal (tingkat kesukaran)

 Q  = 1-p

Untuk menentukan korelasi biseral tersebut dengan persamaan diatas perhatikan contoh tabel 1 dan tabel 2 berikut ini. Untuk menentukan korelasi biserial soal nomor 1 dicari dengan langkah-langkah sebagai berikut:

 

 

 

 

 

 

 

 

Tabel 1

Perhitungan korelasi biserial

 

Tabel 2

Perhitungan korelasi biserial soal nomor 1

No

Peserta

Soal 1

Total (X)

1.

Waru

1

8

2

Dadap

1

8

3

Mahoni

1

7

4

Jati

1

7

5

Albasia

1

7

6

Meranti

1

5

7

Rasamala

1

6

8

Cendana

0

5

9

Cemara

0

5

10

Anggrek

1

4

 

 

8

62

 

P

0,8

 

 

Q

0,2

 

 

SD

 

1,398

 

Langkah pertama :

Menentukan proporsi menjawab benar (p) dengan persamaan

 

Langkah kedua :

Menentukan nilai q yang merupakan selisih bilangan 1 dengan p yaitu:

 

 = 0,2

Langkah ketiga:

Menentukan rerata skor total dengan persamaan:

 

Langkah keempat :

Menentukan rerata skor peserta tes yang menjawab benar, yaitu 8 orang, kecuali cemara dan Anggrek

 

Langkah kelima:

Menentukan standar deviasi dengan persamaan

SD =  atau persamaan  SD =  untuk skor kasar SD =  1,398

Langkah keenam:

Menentukan reliabilitas dengan persamaan :

 

 

 

 

Dengan menggunakan cara yang sama  seluruh soal sebagai berikut:

 

 

 

 

 

 

 

 

 

 

 

Ada batas-batas tertentu untuk menentukan seberapa jauh validitas atau daya pembeda suatu butir tes atau sub tes. Butir tes yang memiliki korelasi tinggi dan positif dengan total menunjukkan validitas yang tinggi pula. Butir-butir yang memilikimkorelasi nol dengan total perlu diteliti lebih jauh validitasnya. Mungkin butir tersebut terlalu mudah atau terlalu sukar, meragukan , atau bahkan tidak berhubungan dengan tujuannya. Butir-butir yang memiliki korelasi negatif dengan total skornya dikatakan memiliki tujuan yang bertentangan dengan tujuan pengukuran dan merupakan butir-butir yang tidak baik.

Tes seperti tes prestasi belajar, butir tes atau subtes jarang berkorelasi negatif dengan skor total. Nunnally dalam (Surapranata S, 2004: 64) menyatakan bahwa kalau berkorelasi negatif maka hal itu terjadi karena kesalahan dalam pencuplikan. Korelasi diatas 0,30 dipandang sebagai butir tes yang baik. Karena korelasi rata-rata butir dengan butir lainnya berhubungan dengan korelasi butir dengan skor total, maka yang memiliki korelasi tinggi dengan total adalah butir-butir yang memiliki korelasi rendah dengan skor total maka butir-butir dengan korelasi tinggi terhadap skot total memiliki lebih banyak varian dengan faktor keberhasilan dalam butir memberikan sumbangan terhadap keterandalan tes.

 

2.5 MACAM-MACAM RELIABILITAS

A. Sumber Kesenjangan dan Ketidaksenjangan

Untuk memahami faktor-faktor yang menyebabkan terjadinya ketidakajegan, ada baiknya ditanyakan beberapa hal  antara lain, “mengapa skor tes berbeda?” sebagai contoh jika kita brikan tes Fisika kepada peserta didik kelas X SMA, faktor-faktor apa yang akan berpengaruh terhadap perolehan skor peserta didik? Faktor utama yang berpengaruh terhadap reliabilitas adalah adanya perbedaan individual. Terkadang reliabilitas dipengaruhi oleh faktor yang permanen ataupun faktor yang terjadi karena faktor sementara seperti karena kelelahan atau pengaruh latihan.

Thorndika dalam (Surapranata S, 2004: 89) menyajikan enam faktor penyebab terjadinya perbedaann skor sebagaimana ditunjukkan dalam tabel berikut:

Tabel

Faktor yang mempengaruhi skor

 

 

 

I

Karakteristik umum yang permanen peserta tes

·         Kemampuan yang dimiliki peserta didik  dalam menghadapi tes

·         Kemampuan umum dan teknik yang digunakan ketika mengambil tes

·         Kemampuan umum untuk memahami petunjuk tes

 

 

 

 

 

 

 

 

 

II

Karakteristik khusus yang permanen peserta tes

·         Khusus yang berkaitan dengan tes secara keseluruhan

o   Kemampuan peserta didik yang berkaitan dengan artribut yang diukur dalam sebuah tes.

o   Pengetahuan dan kemampuan khusus yang berkaitan dengan soal.

o   Keajegan respon peserta didik terhadap pilihan jawaban(misalnya mereka cendrung memberi jawaban A dari empat alternatif  yang disediakan atau cendrung memilih B dari soal benar salah yang disajikan.

·         Khusus yang berkaitan dengan soal

o   Pengetahuan  khusus yang berkaitan dengan  fakta atau konsep khusus

o   Pengetahuan dan kemampuan khusus yang berkaitan dengan soal

 

 

 

 

 

 

III

Karekteristik umum yang temporer seperti

·         Kesehatan

·         Kelelahan

·         Motivasi

·         Gangguan emosi

·         Kemampuan umum dan teknik yang digunakan ketika mengambil tes

·         Pemahaman mekanisme tes

·         Faktor  panas, cahaya, ventilasi, dan lain sebagainya

 

 

 

 

IV

Karakteristik khusus yang temporer seperti:

·         Khusus yang berkaitan dengan tes secara keseluruhan

o   Pemahaman terhadap petunjuk khusus

o   Trik atau teknik-teknik mengatasi tes

o   Pengalaman/latihan menghadapi tes terlebih lagi dalam tes psikomotor

o   Kebiasaan menghadapi sebuah tes

·         Khusus yang berkaitan dengan soal

o   Fluktuasi ingatan yang dimiliki peserta didik

o   Hal-hal yang berkaitan dengan perhatian dan keakuratan

 

 

V

Faktor penyelenggaraan

·         Waktu, bebas dari gangguan, dan pertunjuk yang jelas

·         Pengawasan

·         Penskoran

 

VI

Faktor yang tidak pernah diperhitungkan

·         Keberuntungan karena faktor menebak

·         Mengingat soal yang telah dilihatnya.

 

 B. Model Umum Reliabilitas

Pengukuran yang baik tentunya akan ajeg  membedakan keamampuan peserta didik. Misalnya saja Cemara mestinya lebih pintar dari pada Melati, skor yang diperoleh Cemara mestinya tinggi dibandingkan dengan melati. Dalam kenyataannya, pengukuran kita tidak pernah sempurna. Teori reliabilitas dikembangkan untuk menentukan ketidakajegan tersebut. Setiap pengukuran, baik dalam penilaian kelas selalu mengandung kesalahan pengukuran. Pengukuran meteran dengan skala mm misalnya memiliki kesalahan pengukuran  sebesar 0,01mm. Pengukuran dengan skala cm memiliki kesalahan pengukuran sebesar 0,1cm. Konsep dasar reliabilitas juga menggunakan kesalahan pengukuran tersebut. Setiap skor yang diperoleh seorang peserta tes terdiri atas tiga hal ; skor amatayang sering pula disebut sebagai skor perolehan ( observed test score), skor yang sebenarnya (true skor) yaitu skor yang sesuai dengan kemampuan peserta tes yang sebenarnya, dan kesalahan pengukuran, yaitu faktor-faktor yang mempengaruhi ketidakajegan suatu pengukuran adalah situasi yang mempengaruhi proleh skor. Secara umum konsep dasar tersebut dinyatakan dalam persamaan matematis sebagai berikut:

Skor perolehan = skor sebenarnya + kesalahan pengukuran  X = T + e. Kesalahan pengukuran merupakan selisih antara skor amatan (perolehan) dengan skor sebenarnya.  . Atas dasar konsep ini reliabilitas tes dikembangkan. Berbagai hasil telah diturunkan dari teori ini yang pada akhirnya mengandung bebrapa implikasi terhadap pengukuran (penilaian berbasis kelas khususnya). Tabel sebelum seperti yang telah kita bahas menunjukkansumber-sumber kesalahan perolehan skor yang boleh jadi memberikan kontribusi terhdap ketidakajegan skor. Teori reliabilitas ditentukan berdasarkan varian antara skor prolehan yang merupakan penjumlahan dari varian skor sebenarnya dengan varian kesalahan pengukuran yaitu:

 

Persamaan ini menunjukkan bahwa skor tes ditentukan oleh dua hal, yaitu variabilitas skor sebenarnya dan variabilitas kesalahan pengukuran. Jika kesalahan pengukuran itu memberikan kontribusi yang siginifikan, maka tes menjadi tidak ajeg. Dengan katalain, apabila varian kesalahan pengukuran relatif tidak berarti, maka pengukuran menjadi ajeg.

Koefisien reliabilitas () menyajikan indeks relatif pengaruh skor sebenarnya dan skor kesalahan pengukuran terhadap skor yang diperoleh. Persamaan umum reliabilitas diturunkan dari perbandingan antara varian skor sebenarnya dengan varian skor perolehan:

 

 

C. Metode Sederhana Mengestimasi Reliablitas

Tujuan utama mengestimasi reliabilitas adalah untuk menentukan seberapa besar variabilitas yang terjadi akibat adanya kesalahan pengukuran dan seberapa besar variabilitas skor tes sebenarnya. Menurut teori klasik, sebagaimana telah diuraikan diatas, reliabilitas dihubungkan dengan pengertian adanya ketetapan suatu tes dalam pengukurannya. Nunnaly dalam (Surapranata S, 2004: 89) menyatakan bahwa reabilitas adalah kestabilan skor yang diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari satu pengukuran ke pengukuran lainnya.jadi reabilitas dapat dinyatakan sebagai tingkat keajegan atau kemantapan hasil dari dua pengukuran terhadap hal yang sama. Hasil pengukuran itu diharapkan akan sama apabila pengukuran itu diulangi.

Reliabilitas memiliki dua keajegan. Keajegan yang pertama adalh keajegan internal, yakni tingkat sejauh mana butir soal itu homogen baik dari segi tingkat kesukaran maupun bentuk soalnya. Keajegan yang kedua yaitu keajegan eksternal yakni tingkat sejauhman skor dihasilkan tetap sama sepanjang kemampuan orang yang diukur belum berubah.

Perbedaan skor dari satu pengukuran ke pengukuran lainnya dapat saja terjadi. Menurut Allen dan Yen dalam (Surapranata S, 2004: 90), perbedaan skor dari satu pengukuran ke pengukuran lain ini terjadi karena adanya standard error measurement  atau standar kesalahan pengukuran. Oleh karena itu koefisien reliabilitas harus benar-benar diperhitungkan lebih dahulu standar kesalahan pengukurannya itu. Untuk itu dalam perlu di identifikasi sumber-sumber utama yang menyebabkan terjadinya kesalahan pengukuran tersebut. Nunnly dalam (Surapranata S, 2004: 90) menyebutkan bahwa sumber kesalahan pengukuran itu antara lain (1) variasi dalam tes itu sendiri, (2) struktur sampel yang dipilih, (3)variasi di antara tes yang sedang digunakan. Menurut Crocker dan Algina dalam (Surapranata S, 2004: 90)sumber utama kesalahan pengukuran disebabkan oleh peruubahan dalam kelebihan waktu yang diuji, (1) isi bentuk ke bentuk, dan (2) sampel isi atau soal yang cacat. Sumber kesalahan pengukuran bisa juga terjadi karena pengaruh teknik pemilihan sampel dan situasi yang ada pada masing-masing individu yang dijadikan sampel.

Perbedaaan pengertian reliabilitas sangat bergantung kepada bagaimana indeks reliabilitas yaitu (1)paralel atau ekuivalen, (2) test-retest ataau stabilitas, (3) split-half atau belah dua dan (4) internal consistency. Sebagian orang berpendapatb bahwa metude split-half  atau belah dua  merupakan bagian dari metode keajegan internal sehingga pembagian metode menjadi 3 bagian yaitu: (1) ekuivalen, (2) stabilitas, dan (3) internal consistency. Kedua teknik ini pada prinsipnya sama. Tabel 3 berikut ini menunjukkan bahwa reabilitas dan prosedur untuk memperolehnya.

 

Tabel 3

Metode untuk menentukan reliabilitas

Bentuk reliablitas

Prosedur untuk memperoleh

Test-retest methods(stabilitas)

Produk momen dan korelasi intra kelas

Sajian tes yang sama sebanyak dua kali kepada peserta tes yang sama dalam waktu yang berbeda dan tentukan korelasi

Paralel (Ekuivalen)

 Produk momen dan korelasi intra kelas

Sajikan dua tes yang sama kepada peserta tes yang sama dalam waktu yang relatif tidak lama (misalnya dua minggu). Korelasikan kedua skor tersebut untuk mencari reliabilitas.

Split-half methods (belah dua)

Persamaan split-half dan spearman-brown)

Sajikan satu kali tes lalu belah dua, gunakan persamaan untuk mengkorelasikan kedua belahan.

Internal consistency

Koefisien alpha

Kuder-richardson (KR-20)

Kuder-richardson (KR-21)

Berikan sekali tes, gunakan persamaan

Berikan sekali nes, gunakan persamaan

Berikan sekali tes, gunakan persamaan

 

Apabila hasil skor tes pertama sama dengan hasil skor tes kedua, maka tes dikatakan memiliki realibilitas yang tinggi atau terdapat korelasi yang tinggi antara hasil tes pertama dengan hasil tes kedua tidak terdapat hubungan atau hubungannya rendah, maka tes itu dikatakan tidak reliabel.

Besar kecinya reliabelitas suatu tes ditentukan oleh besar kecilnya nilai korelasi hasil tes yang dinamakan indeks reliabilitas. Untuk mengestimasi reliabilitas banyak formula yang dapat digunakan. Crocker dan Algina dalam (Surapranata S, 2004: 91) memberikan pendekatan untuk mengestimasi reliabilitas dengan memperhatikan sumber kesalahan utama melalui penggunaan koefisien reliabilitas, ekuivalensi, dan keajegan internal. Guilford dalam (Surapranata S, 2004: 91) memberikan beberapa modifikasi yang dilakukan oleh Tucker untuk memperbaiki dan menyerdahanakan ketidakakuratan formula Kuder-Richardson dan penggunaan analisis varian serta formula khusus. Pada umumnya untuk menentukan astimasi reliabilitas khususnya dalam bidang pengukuran prestasi belajar digunkan internal keajegan seperti formula Cronbch alpha ataupun Kuder-Richardson. Akan tetapi dalam prakteknya penggunaan formula itu memungkinkan adanya usaha-usaha tertentu untuk meninggikan koefisien reliabilitasnya dengan cara mengubah pola susunan skor, sehingga untuk menghindari hal itu maka penggunaan analisis varian lebih dapat dipertanggung jawabkan.

Koefisien reliabilitas soal pilihan ganda lebih mudah dimanfaatkan dalam pengambilan keputusan prestasi belajar. Gronlund dalam (Surapranata S, 2004: 91) menyebutkan bahwa untuk pengambilan keputusan individu, koefisien reliabilitas harus tinggi.

Tinggu rendahnya koefisien reliabilitas dipengaruhi oleh beberapa faktor. Crocker dan Algina dalam (Surapranata S, 2004: 92) menyebutkan bahwa faktor itu antara lain panjang suatu tes, kecepatan, homogenitas, belahan, dan tingkat kesukaran soal. Semakin sukar soal-soal dalam pangkat tes akan semakin besar pula variasi skor yangdiperoleh belahan. Dengan demikian maka akan semakin besar pula reliabilitas tes tersebut. Sebaliknya, semakin rendah tingkat kesukaran suatu soal semakin kecil pula reliabilitasnnya. Untuk itu harrus dihindari banyaknya rekaan yang dilakukan peserta tes dengan materi tes yang akan diujikan kepada mereka. Penambahan panjang tes akan menaikkan koefisien reliabilitas sepanjang soal yang digunakan untuk menambah tes itu memiliki kualitas yang sama baik dengan soal-soal lainnya.

C. Metode Tes Ulang

            Metode tes ulang atau test-retest method sering pula dinamakan  metode stabilitas merupakan pendekatan yang paling tua yang digunkkan untuk mengestimasi reliabilitas. Pendekatan stabilitas sering pula dinamakan single-test-doubel-trislmethod. Pelaksanaan metode ini adalah dengan cara sebagai berikut:

1.      Pada bulan mei sajikan satu bentuk tes misalnya saja tes Bahasa Inggris kepada peserta didik kelas XII SMA

2.      Setelah beberapa waktu, misalnya pada bulan Juni sajikan kembali tes Bahasa Inggris tersebut kepada peserta didik kelas XIISMA yang sama.

3.      Skor perolehan kedua kali tes tersebut dikorelasikan. Korelasi skor tes yang pertama dengan skor tes yang kedua digunkan untuk mengestimasi reliabilitas tes. Korelasi yang digunakan adalah korelasi prodek momen. Jika koefisien korelasinya ingg, maka reabilitas tesnya juga tinggi. Tabel 4 berikut ini menunjukkan skor yang diperoleh 36 orang peserta didik yang mengerjakan dua kali tes Bahasa Inggris kelas XII SMA.

Langkah pertama:

Menentukan jumlah skor masing-masing tes dan kuadrat dari jumlah skor masing-masing tes sebagai berikut:

 

 

 

 

Langkah kedua:

Menentukan korelasi antara tes I dan tes II sebagai berikut:

  

 

 

Tabel 4

Perhitungan reliabilitas dengan test-retest metods

 

No

 

Peserta 

 

Tes pertama (X1)

 

Tes kedua (X2)

 

 

 

1

Puspa

31

36

961

1296

1116

2

Dadap

30

35

900

1225

1050

3

Mahoni

30

34

900

1156

1020

4

Jati

30

35

900

1225

1050

5

Albasia

31

33

961

1089

1023

6

Meranti

29

35

841

1225

1015

7

Rasamala

30

36

900

1296

1080

8

Cendana

16

40

256

1600

640

9

Randu

14

32

196

1024

448

10

Kamper

16

33

256

1089

528

11

Pinus

18

31

324

961

558

12

Cempaka

12

36

144

1296

432

13

Dahlia

13

21

169

441

273

14

Bougenvile

15

26

225

676

390

15

Kamboja

11

25

121

625

275

16

kemuning

13

27

169

729

351

17

Ros

12

15

144

225

180

18

Mawar

9

14

81

196

126

19

Tanjung

11

16

121

256

176

20

Lili

13

18

169

324

234

21

Melati

12

15

144

225

180

22

Anggrek

21

18

441

324

378

23

Kecubung

15

9

225

81

135

24

Aster

15

7

225

49

105

25

Krisan

9

12

81

144

108

26

Kenanga

10

8

100

64

80

27

Tulip

10

8

100

64

80

28

Kana

16

11

256

121

176

29

Kantil

13

11

169

121

143

30

Cemara

11

11

121

121

121

31

Kacapiring

13

16

169

256

208

32

Anyelir

15

18

225

324

270

33

Asoka

9

8

81

64

72

34

Teratai

6

8

36

64

48

35

Bakung

3

4

9

16

12

36

Anggrek

4

5

16

25

20

 

566

747

11136

20017

1401

 

Reabilitas hasil perhitungan adalah  . angka ini menunjukkan bahwa tes pertama dengan tes kedua cukup ajeg.

Ketika sebuah tes diberikan dua kali, tentunya perbedaan antara skor tes pertama dengan skor tes kedua terjadi hanya karena adanya kesalahan pengukuran. Sebagai gambaran, apabila kita megukur panjang sebuah meja, lalu seminggu kemudian panjang meja tersebut diukur kembali, perbedaan panjang yang terjadi sesungguhnya karena kesalahan pengukuran. Tentu saja, argumen semacam ini agak kurang berlaku untuk hal-hal psikologis seperti mengukur kemampuan bahasa inggris, IQ, atau kemampuan lainnya.

Terdapat bebrapa faktor yang mempengaruhi perbedaan antara skor pertama dengan skor kedua. Skor hasil tes kedua mugkin saja sangat berbeda skor tes pertama.

a.       Pertama karakteristik yang diukur telah berubah dari tes pertama ke tes kedua. Sebagai contoh  misalnnya tes kemampuan membaca, menulis, dan berhitung kelas III SD diadakan pada bulan Agustus. Tes kedua, yaitu tes yang sama, diberikan kepada peserta didik yang sama pada bulan Oktober. Kita mengharapkan terdapat perubahan kemampuan membaca, menulis, dan berhitung pada periode dua bulan tersebut. Indeks reliabilitas yang rendah kita harapkan sebagai akibat perubahan tersebut.

b.      Kedua, pengalaman peserta didik dalam mengambil tes yang sama akan cukup berpengaruh terhadap perolehan skor sebenarnya. Hal ini dinamakan sebagai reactivity. Sebagai contoh misalnya peserta didik yang mengikuti ujian akhir nasional bahasa Indonesia, lalu ia memperoleh skor 3.9. menurut standar kelulusan tahun 2004, ia tidak lulus dan harus ikut ujian ulangan. Apabila soal yang diberikan pada ujian ulangan sama dengan ujian utama, maka dapat dipastikan bahwa skor yang diperoleh peserta didik akan meningkat. Peningkatkan ini terjadi salah satu sebabnya karena i telah berpengalaman melihat soal sebelumnya. Untuk mengatasi supaya hal ini tidak terjadi, biasanya soal yang digunakan pada ujian susulan berbeda dengan soal yang diberikan pada ujian utama, namun masih mengukur kemampuan yang sama.

c.       Ketiga, kita harus memperhatikan apa yang disebut practice-effect atau carry-over effect yaitu pengaruh pengalaman atau ingatan siswa terhadap peroleh skor pada tes kedua. Peserta didik bisa saja tidak dapat menjawab pada tes pertama, tetapi mereka dapat menjawab pada tes kedua karena adannya faktor ingatan (mengingat soal atau materi) yang telah mereka lihat pada tes pertama.

d.      Keempat, bisa saja sebelum melakukan tes yang kedua, peserta didik sudah memiliki pengalaman melalui belajar atau latihan soal. Oleh karena itu, tenggang waktu pelaksanaan tes pertama dan kedua sebaliknya tidak terlalu lama.

Metode tes ulang sangat berguna untuk melihat kestabilan pengukuran. Oleh karena itu, metode ini biasa juga disebut sebagai metode kestabilan tes.

E.   Ekuivalen

Metode ekuivalen sering pula dinamakan alternatif-forms methods atau double test-double-trial methods. Metode ini berkaitan dengan penggunaan dua buah tes yang sama atau relatif sama kepada peserta didik yang sama. Kesamaan yang dimaksudkan pada tes adalah kesamaan tujuan, tingkat kesukaran, dan susunan. Pelaksanaan metode ini adalah dengan cara sebagai berikut:

1)        Sajikan satu bentuk tes misalnya saja tes Fisika seri pertama kepada peserta didik kelas XII SMA.

2)        Setelah beberapa waktu, sajikan satu bentuk tes Fisika seri kedua kepada peserta didik kelas XII SMA yang sama.

 

Skor perolehan kedua tes itu lalu dikorelasikan. Koefisien korelasi dari kedua tes tersebut digunakan untuk mengestimasi koefisien reliabilitas tes. Korelasi yang digunakan adalah korelasi produk momen. Jika koefisien relasinya tinggi maka reliabilitas tesnya juga tinggi. Tabel 3.4 berikut ini menunjukkan skor yang diperoleh 36 orang peserta didik yang mengerjakan dua tes Fisika I dan II yang masing-masing jumlahnya 40 soal.

 

TABEL 3.4

Perhitungan reliabilitas dengan metode ekuivalen

No.

Peserta

Tes I

Tes II

 

 

 

X1

X2

X12

X22

X1 . X2

1

Puspa

40

31

1600

961

1240

2

Dadap

39

30

1521

900

1170

3

Mahoni

38

29

1521

841

1102

4

Jati

37

25

1369

625

925

5

Albasia

25

31

625

961

775

6

Meranti

21

32

441

1024

672

7

Rasamala

26

33

676

1089

858

8

Cendana

21

34

441

1156

714

9

Randu

25

29

625

841

725

10

Kamper

21

35

441

1225

735

11

Pinus

31

36

961

1296

1116

12

Cempaka

36

30

1296

900

1080

13

Dahlia

21

28

441

784

588

14

Bougenvile

26

21

676

441

546

15

Kemboja

25

15

625

225

375

16

Kemuning

27

26

729

676

702

17

Ros

15

20

225

400

300

18

Mawar

14

13

196

169

182

19

Tanjung

16

16

256

256

256

20

Lili

18

19

324

361

342

21

Melati

15

16

225

256

240

22

Anggrek

18

17

324

289

306

23

Kecubung

12

9

144

81

108

24

Aster

16

12

256

144

192

25

Krisan

16

12

256

144

192

26

Kenanga

15

14

225

196

210

27

Tulip

34

24

1156

576

816

28

Kana

33

25

1089

625

825

29

Kantil

32

29

1024

841

928

30

Cemara

31

21

961

441

651

31

Kacapiring

30

26

900

676

780

32

Anyelir

8

11

64

121

88

33

Asoka

7

12

49

144

84

34

Teratai

8

10

64

100

80

35

Bakung

9

11

81

121

99

36

Anggun

10

6

100

36

60

Σ

816

788

21830

19922

20062

 

 

Langkah pertama:

Menentukkan jumlah skor masing-masing tes dan kuadrat dari jumlah skor masing-masing tes sebagai berikut:

ΣX1        =  816

ΣX2      =  788

ΣX12      =  21830

ΣX22      =  19988

ΣX1X=  20062

 

Langkah kedua:  

Menentukkan korelasi antara tes I dan tes II sebagai berikut:

  =

        =

  =  0,7413

 

            Indeks reliabilitas sebesar 0,7371 menunjukkan bahwa untuk mengatasi dua tes Fisika yang digunakan untuk ulangan umum pada contoh ini merupakan tes yang reliabel. Dengan nilai reliabilitas yang cukup tinggi ini dapat diinterpretasikan bahwa kedua tes tersebut relatif homogen.

            Metode ekuivalen atau paralel digunakan untuk mengatasi kelemahan yang terjadi pada metode tes ulang seperti pada bagian E. Ketika dua tes yang digunakan ternyata berbeda, maka faktor carry-over effect tidak menjadi masalah lagi, walaupun bisa saja faktor mengingat pada jawaban tes pertama sedikit berpengaruh pada tes kedua, khususnya apabila ditemukan soal yang benar-benar mirip ayau bahkan sama. Pengaruh reaktivitas sebagai mana pada tes ulang juga kurang ditemukan pada bentuk ini sekalipun pengaruh tes pertama mungkin saja ada pada tes kedua. Namun sekali lagi, hal itu akan terjadi karena kemungkinandanya soal-soal yang mirip sehingga peserta tes akan mudah mengingat jawaban tanpa memikirkannya terlebih dahulu.

            Sekalipun bentuk paralel ini dapat mengatasi hampir semua metode tes ulang, namun demikian masih saja memiliki beberapa kelemahan. Penggunaan tes paralele lebih mahal dan tidak praktis dibandingkan dengan metode tes ulang. Kelemahan berikutnya adalah sangat sukar membuat dua buah tes yang benar-benar homogen. Hal yang paling utama adalah tidak adanya jaminan apakah kedua tes yang digunakan benar-benar mengukur hal yang sama. Dengan demikian, dua tes yang dirancang kurang baik akan menghasilkan reliabilitas yang rendah.

F.   Belah Dua (split half methods)

Dua metode yang diperkenalkan dalam bagian E dan F yaitu tes ulang  dan tes paralel memiliki beberapa kelemahan. Pada bentuk double test-double-trial methode misalnya, guru harus engembangkan lebih dari satu tes paralel kemudian mencari reliabilitas dari tes paralele tersebut. Metode ini mengandung kelemahan yaitu tes yang paralel belum tentu benar-benar menguki hal yang sama (homogen). Pendekatan kedua, yaitu single-test-double-trial methode kelemahan yang muncul adalah adanya kemungkinana peserta tes ”telah mengingat” soal-soal yang diteskan. Kesukaran pertama penggunaan metode tes ulang dan tes paralel adalah (1) kesulitan mengembangkan dua tes yang benar-benar homogen dan mengukur hal yang sama, (2) keharusan menyelenggarakan tes dalam dua waktu yang berbeda. Untuk mengatasi kelemahan tersebut para ahli cenderung untuk menentukan reliabilitas dari satu tes dan satu kali pelaksanaan tes saja. Metode ini sering pula dinamakan sebagai single-test-single-trial method. Metode ini merupakan metode yang sangat sederhana yaitu (1) menyelenggarakan satu kali tes (2) membagi tes tersebut menjadi dua bagian yang sama (sama banyak soalnya), dan (3) mengkorelasikan sko kedua  belahan ini untuk mengestimasi reliabilitas tes.

            Metode belah dua dapat mengatasi semuak kelemahan yang terdapat pada metode tes ulang dan tes paralel. Metode ini memungkinkan mengestimasi reliabilitas tanpa haris menyelenggarakan tes dua kali. Dengan demikian beberapa kelemahan seperti carry-over-effect, reactivity effect, dan khususnya pngaruh waktu peroleh skor sebenarnya dapat diminimalisasi. Dengan demikian ketidakajegan prolek skor bukan karena penyelenggaraan tes  tetapi karena dalam merespon tes itu sendiri.

            Terdapat berbagai macam cara membagi dua suatu tes.sebagai contoh 40 soal bahasa indonesia dibagi menjadi dua bagian. Bagian pertama terdiri atas soal nomor 1 samapai dengan nomor 20. Bagian kedua terdiri atas soal nomor 21 sampai dengan nomor 40. Mungkin saja, soal pada belahan pertama sangat berbeda dengan skor pada belahan kedua, sehingga kedua belahan ini menghasilkan reliabilitas yang sangat rendah. Misalnya saja soal bahas  indonesia nomor-nomor awal merupakan soal yang relatif mudah dibandingkan nomor-nomor akhir. Hal lainnya mungkin saja peserta tes mengalami kelelahan ketika mengerjakan soal-soal belahan kedua.

Ø  Persamaan produk momen

Tabel 3.6 berikut ini dapat digunakan untuk menentukan reliabilitas belah dua. Dari sepuluh soal yang disajikan, pembagian dapat dilakukan dengan cara membagi dua yaitu bagian awal dan bagian akhir.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Tabel

Perhitungan reliabilitas awal dan akhir

          Bagian awal yang dimaksud pada tabel diatas  adalah lima soal belahan pertama (1,2,3,4 dan 5) dan bagian akhir adalah soal belahan kedua (6,7,8,9 dan 10). Untuk mengestimasi reliabilitas, dilakukan dengan beberapa langkah berikut ini.

 

Langkah pertama

Menentukan jumlah skor total dari soal-soal bagian awal (1,2,3,4 dan 5)

ΣXt        =          jumlah skor total bagian awal

ΣXt        =          109

Langkah kedua

Menentukan jumlah skor total dari soal-soal bagian akhir (6,7,8,9 dan 10)

ΣYt        =         jumlah skor total akhir

ΣYt        =          73

Langkah ketiga

Menentukan kuadrat jumlah skor total dari soal-soal bagian awal (1,2,3,4 dan 5)

(ΣXt   =  kuadrat dari jumlah skor total awal

(ΣXt  =  345       

Langkah keempat

Menentukan kuadrat jumlah skor total dari soal-soal bagian akhir (6,7,8,9 dan 10)

 (ΣXt  =  kuadrat dari jumlah skor total akhir

(ΣXt  =  231

Langkah kelima

            Menentukan jumlah perkalian skor bagian awal (X) dengan skor bagian akhir (Y)

            (ΣXY)  = 223

Langkah keenam

            Menentukan reliabilitas dengan persamaan produk momen:

              =

                =

  =  0,449

Langkah ketujuh

            Reliabilitas pada langkah ke enam baru merupakan reliabilitas setengah bagian tes. Untuk menentukan reliabilitas tes sesungguhnya digunakan persamaan.

r11  =

r11 

r11  =  0,6206

 

 

 

 

 

BAB III

PENUTUP

1.  KESIMPULAN

               I.          Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Dan Reliaabilitas berasal dari kata dalam bahasa inggris rely, yang berarti percaya, dan reliable yang artinya dapat dipercaya. Keterpercayaan berhubungan dengan ketetapan dan konsistensi.

            II.          Macam-macam validitas yaitu validitas Isi, Validitas Konstruk, Validitas Prediksi, Validitas Konkruen. Dan Macam-macam reabilitas yaitu Model Umum Reliabilitas, Metode Sederhana Mengestimasi Reliablitas,  Metode Tes Ulang, Ekuivalen, Belah Dua (split half methods).

          III.          Salah satu cara untuk menentukan validitas alat ukur adalah dengan menggunakan korelasi product moment  dengan simpangan yang dikemukakan oleh Person sebagai berikut :

 

 

2.  SARAN

Dengan selesainya makalah ini, penyusun berharap kepada para pembaca agar dapat memberi masukan baik berupa kritik atau saran yang sifatnya membangun agar pada perbaikan makalah ini, pembaca mendapat manfaat yang lebih daripada sebelumnya.

 

 

 

 

 

 

 

DAFTAR PUSTAKA

 

http://asessmen/METODOLOGI%20PENELITIAN_%20VALIDITAS%20DAN%20RELIABILITAS.html (diakses 07 februari 2016)

Purwanto. (2007). Instrumen Penelitian sosial dan Pendidikan: Pengembangan dan Pemampaatan. Yogyakarta: Pustaka Pelajar.

Surapranata, S. (2004). Analisis, Validitas, Reliabilitas, dan Interprestasi Hasil Tes: Implementasi Kurikulum 2004. Bandung: PT Remaja Rosdakarya.



Tidak ada komentar:

Posting Komentar