Analisis
Karakteristik Internal dan
Kualitas Tes Penerimaan
Mahasiswa Baru (PMB) STAIN Jurai Siwo Metro
Tahun 2012
(Telaah
Kualitatif dan Kuantitatif)
Oleh:
Yusti Arini
Abstract
This research was aimed at finding out the item internal characteristics
of the Freshman Selection Test of State Islamic College of Jurai Siwo Metro in
2012 and to what extent the items were in line with the test item construction
guidance. After finding them out, the quality of the test in whole could be
decided, qualitatively and quantitatively. This research was conducted at State
Islamic College of Jurai Siwo Metro in September – November 2012. The data was
collected by using documentation technique, including one set of Freshman
Selection Test and 200 testee’s answer sheets chosen through simple random
sampling technique. The data was analyzed qualitatively based on test item
analysis guidance and quantitatively based on Rasch Model by using Bigsteps
Program. The qualitatively result analysis showed that more than 50% of the items
were at good category; however, because more than 30% of the items (42 items)
were at poor category, qualitatively, the test was categorized poor. In
contrast, the quantitatively result analysis showed that only 13 items
(10,833%) were poor; therefore, quantitatively, this test was categorized good.
A.
PENDAHULUAN
Kualitas
pendidikan di perguruan tinggi ditentukan oleh
banyak faktor; salah satunya adalah input atau masukan yang cukup kompeten.
Input perguruan tinggi yang berupa mahasiswa baru ini diharapkan memiliki
kemampuan akademik maupun personal yang baik agar proses penyelenggaraan
perkuliahan dapat berjalan lancar. Untuk itu, agar diperoleh input mahasiswa
baru yang cukup layak, penting untuk dilakukan seleksi penerimaan mahasiswa
baru yang sesuai dengan standar prosedur. Yang lazim dilaksanakan di perguruan
tinggi untuk menyeleksi calon mahasiswa baru adalah tes Penerimaan Mahasiswa
Baru (PMB), baik tes tertulis maupun lisan.
Tes tertulis PMB (Penerimaan Mahasiswa
Baru) STAIN Jurai Siwo Metro tahun 2012 terdiri dari 120 butir soal, mencakup 4
bidang; Pengetahuan Umum, Agama Islam, Bahasa Arab, dan Bahasa Inggris. Dengan
demikian, masing-masing bidang terdiri dari 30 butir soal. Keseluruhan tes
berbentuk pilihan ganda dengan 4 opsi jawaban. Oleh karena itu, analisis butir
soal penting dilakukan untuk
mengetahui karakteristik internalnya yang antara lain mencakup estimasi tingkat
kesukaran, indeks daya beda, kecocokan butir dengan model, dan distribusi
jawaban berdasarkan berfungsi tidaknya distraktor penting untuk dilakukan.
Selain itu, analisis butir soal juga harus
dilakukan untuk mengetahui apakah butir soal sesuai atau tidak dengan pedoman
pembuatan butir soal yang meliputi kriteria-kriteria pada aspek materi,
konstruksi, dan bahasa. Setelah kedua jenis analisis, secara kualitatif dengan
menggunakan pedoman telaah butir soal dan secara kuantitatif berdasarkan model
Rasch dengan menggunakan program Bigsteps, dilakukan, maka akan dapat diketahui
kualitas masing-masing butir soal dan kualitas perangkat tes secara
keseluruhan.
Sementara itu, permasalahan yang diteliti
meliputi: 1) Sejauh mana kesesuaian butir-butir soal perangkat tes PMB
Mandiri STAIN Jurai Siwo Metro dengan kriteria-kriteria yang ada pada kartu
telaah butir soal? 2) Bagaimana kualitas butir-butir soal perangkat tes PMB
tersebut berdasarkan telaah kualitatif? 3) Bagaimana karakteristik internal
butir soal perangkat tes PMB Mandiri STAIN Jurai Siwo Metro berdasarkan
analisis dengan menggunakan program Bigsteps? 4) Bagaimana kualitas butir soal
perangkat tes tersebut berdasarkan analisis dengan menggunakan program
Bigsteps? dan 5) Bagaimana kemampuan peserta tes di dalam menjawab soal tes PMB
tersebut?
Sesuai dengan masalah yang diteliti maka
tujuan penelitian ini adalah untuk mengetahui karakteristik internal perangkat tes
Penerimaan Mahasiswa Baru (PMB) Mandiri STAIN Jurai Siwo Metro tahun 2012 berdasarkan
telaah kualitatif dan kuantitatif. Berdasarkan hasil analisis tersebut maka
dapat ditentukan kategori kualitas perangkat tes PMB tersebut.
Penelitian ini dilaksanakan di STAIN Jurai
Siwo Metro Lampung sebagai institusi penyelenggara tes Penerimaan Mahasiswa
Baru (PMB) sekaligus sebagai pembuat perangkat tes yang akan dianalisis. Waktu
yang dibutuhkan untuk melaksanakan penelitian ini adalah selama 3 (tiga) bulan
yaitu dari bulan September – November 2012.
Penelitian ini adalah
penelitian deskriptif kuantitatif sehingga hanya bersifat menjelaskan variabel
tanpa berupaya mencari keterkaitan antar variabel. Variabel yang akan
dijelaskan dalam penelitian ini adalah karakteristik internal butir soal tes
dan kualitasnya. Butir soal akan dianalisis secara kualitatif dengan
menggunakan pedoman telaah butir soal, dan secara kuantitatif berdasarkan model
Rasch dengan menggunakan Program Bigsteps.
Populasi dalam penelitian ini adalah seluruh
lembar jawaban peserta tes Penerimaan Mahasiswa Baru (PMB) Mandiri STAIN Jurai
Siwo Metro tahun 2012 yaitu sebanyak 600 lembar. Sementara itu, sampel dalam
penelitian ini adalah sebanyak 200 lembar jawaban peserta tes yang diambil
secara acak dengan teknik Simple Random
Sampling. Perangkat soal berjumlah 1 (satu) eksemplar dan akan dianalisis
secara tersendiri. Teknik pengumpulan data yang digunakan adalah teknik
dokumentasi.
B.
KAJIAN TEORI
1.
Analisis Butir Soal
Kementerian Pendidikan Kebudayaan Pemuda
dan Olahraga melalui Pusisjian telah membuat pedoman penelaahan butir soal tes
yang dapat digunakan untuk menilai butir soal pilihan ganda yang dikenal
sebagai pedoman penelaahan butir soal. Adapun pedoman tersebut meliputi,
pertama, aspek materi, yang
terdiri dari 1) Soal sesuai dengan
indikator, 2) Pengecoh sudah
berfungsi, dan 3) Hanya ada
satu kunci jawaban yang paling tepat. Yang kedua adalah aspek konstruksi, yang terdiri dari 1)Pokok soal dirumuskan dengan singkat,
jelas, dan tegas, 2) Pokok
soal tidak memberi petunjuk kunci jawaban, 3) Pokok soal bebas dari pernyataan yang bersifat
negatif ganda, 4) Gambar/grafik/tabel/diagram
dan sejenisnya pada soal jelas dan berfungsi, 5) Pilihan jawaban homogen dan logis, 6) Panjang pilihan jawaban relatif sama,
7) Pilihan jawaban tidak menggunakan
pernyataan yang berbunyi “Semua pilihan jawaban di atas salah” atau “Semua
pilihan jawaban di atas benar”, 8) Pilihan jawaban yang berbentuk angka disusun berdasarkan urutan besar kecilnya,
dan 9) Butir soal tidak bergantung
pada jawaban sebelumnya. Yang ketiga adalah aspek bahasa, yang terdiri dari 1) Soal menggunakan bahasa yang sesuai dengan
kaidah bahasa Indonesia, 2) Soal
menggunakan bahasa yang komunikatif, 3) Soal tidak menggunakan bahasa yang berlaku setempat, dan 4) Pilihan jawaban tidak mengulang kata/
kelompok kata yang sama.
Selanjutnya, mengenai analisis butir soal
secara kuantitatif. Di dalam
pengukuran pendidikan dikenal dua macam pengukuran yaitu pengukuran klasik dan
pengukuran modern. Penelitian ini lebih menekankan pada pengukran modern
yang lebih dikenal dengan teori respons butir. Teori respons butir menelaah butir untuk menemukan ciri atau
karakteristiknya. Setiap penelaahan berkenaan dengan satu butir sehingga di dalam
uji tes dapat dilakukan banyak penelaahan yang masing-masing berkenaan dengan
satu butir di dalam perangkat uji tes itu.
Ciri butir di dalam analisis butir model
teori respons butir dinyatakan dengan parameter a, b, dan c.
Parameter a adalah ciri butir yang berkenaan dengan daya pembedaan yakni
kemampuan butir untuk mempertegas perbedaan di antara peserta yang dapat dan
peserta yang tidak dapat menjawab butir itu dengan benar. Parameter b
adalah ciri butir yang berkenaan dengan taraf kesukaran yakni sukar atau kurang
sukarnya butir itu untuk dijawab oleh peserta. Sedangkan parameter c
adalah ciri butir yang berkenaan dengan faktor kebetulan yang dapat menyebabkan
peserta secara kebetulan menjawab butir itu dengan benar.
2.
Konsep Dasar dan Asumsi-asumsi dalam Model Teori Respons Butir
Teori Responsi Butir
atau selanjutnya disingkat sebagai IRT (Item Respons Theory)
berlandaskan pada dua postulat dasar: (a) performansi seorang peserta tes pada
suatu butir soal dapat diprediksikan (atau diterangkan) oleh seperangkat faktor
yang disebut sifat (trait), sifat laten (latent trait), atau
kemampuan (ability); dan (b) hubungan antara performansi peserta tes
pada suatu butir dan seperangkat sifat yang mendasari performansi tersebut
dapat dideskripsikan oleh fungsi yang menaik secara monotonik yang disebut
sebagai fungsi karakteristik butir (item characteristic function) atau
kurva karakteristik butir (item characteristic curve/ICC). Fungsi ini
menjelaskan bahwa seiring dengan meningkatnya level trait, peluang jawaban
benar pada suatu butir soal akan meningkat pula.
Bila suatu model
respon teori sesuai dengan data tes, sejumlah ciri/karakteristik yang
dikehendaki dapat diperoleh. Estimasi kemampuan peserta tes tidak tergantung
pada peserta tes, dan indeks butir soal tidak tergantung pada kelompok.
Estimasi kemampuan yang diperoleh dari perangkat butir soal yang berbeda akan
sama (kecuali untuk kesalahan pengukuran), dan estimasi parameter butir yang
diperoleh dari kelompok peserta tes yang berbeda juga akan sama (kecuali untuk
kesalahan pengukuran). Pada teori responsi butir, parameter butir dan kemampuan
dikatakan invarian.
Satu asumsi yang
umum pada model IRT dan paling banyak digunakan adalah bahwa hanya satu macam
kemampuan yang diukur oleh butir-butir soal yang tercakup dalam tes. Asumsi ini
disebut asumsi unidimensionalitas. Satu konsep yang terkait dengan
unidimensionalitas adalah konsep independensi lokal. Asumsi lain yang dibuat
pada seluruh model IRT adalah bahwa fungsi karakteristik butir yang dijelaskan merefleksikan
hubungan sebenarnya pada variabel-variabel yang tidak dapat diamati (kemampuan)
dan variabel-variabel yang dapat diamati (responsi butir). Asumsi-asumsi yang
lainnya adalah mengenai karakteristik-karakteristik butir yang relevan dengan
performansi peserta tes pada satu butir. Tiga
model yang paling populer dalam model-model unidimensional IRT adalah model
logistik satu-, dua-, dan tiga- parameter.
5. Tes
Penerimaan Mahasiswa Baru (PMB) STAIN Metro
Tahun 2012 sebagai Alat Seleksi
Ketika sebuah institusi menggunakan sebuah
prosedur asesmen untuk seleksi mahasiswa barunya, sangatlah penting untuk
menunjukkan bahwa hasil yang dicapai oleh calon mahasiswa peserta tes berkaitan
erat dengan potensi keberhasilannya dalam suatu program pendidikan, untuk
tujuan itulah institusi menyelenggarakan tes. Jika data institusi tidak
menunjukkan bahwa hasil asesmen ini dapat secara efektif membedakan calon
mahasiswa yang berpotensi berhasil dengan yang tidak, maka prosedur asesmen ini
harus diperbaiki atau dihilangkan. Menjadi sesuatu yang ilegal ketika prosedur
asesmen yang tidak bisa menunjukkan hubungannya dengan potensi keberhasilan
seseorang masih terus dipergunakan.
Meskipun demikian, keputusan seleksi tidak
kemudian harus menjadi sesuatu yang sangat sempurna, dan hasil asesmen tidak
dapat diharapkan memiliki validitas yang sempurna bagi suatu keputusan seleksi.
Sejumlah pendaftar yang diterima bisa jadi berhasil ke depannya; yang lainnya,
meskipun diterima, tetapi tidak berhasil dalam proses pendidikannya. Oleh
karena itu, asesmen dapat dievaluasi dalam hal konsekuensi yang ditimbulkan
ketika menggunakannya.
Di STAIN Jurai Siwo Metro, seleksi
penerimaan tersebut dilaksanakan melalui tes PMB (Penerimaan Mahasiswa Baru),
yang pada tahun ini dilaksanakan melalui dua jalur tes: tes PMB jalur on line
dan mandiri. Tes PMB jalur on line hanya dilaksanakan melalui tes tertulis,
sedangkan jalur mandiri dilaksanakan melalui tes tertulis dan lisan (baca Al
Qur’an). Jumlah pendaftar untuk jalur on line sebanyak 1648 orang dan jalur
mandiri sebanyak 645 orang. Sementara itu, dari 645 orang yang mendaftar
melalui jalur mandiri, hanya 600 orang yang mengikuti tes.
Pada penelitian ini yang dianalisis adalah
perangkat tes tertulis PMB Mandiri yang terdiri dari 120 butir soal dengan 4
opsi, mencakup 4 bidang; Pengetahuan Umum, Agama Islam, Bahasa Arab, dan Bahasa
Inggris. Dengan demikian, masing-masing bidang terdiri dari 30 butir soal.
C. HASIL PENELITIAN DAN PEMBAHASAN
1.
Hasil Analisis Butir Soal secara
Kualitatif
Secara keseluruhan jumlah butir soal yang ditolak pada aspek materi
adalah sebanyak 39 butir soal
atau 32,4999% dari jumlah
total soal. Demikian pula untuk soal-soal yang perlu direvisi dipilah lagi
menurut aspek konstruksi dan bahasa pada pedoman telaah butir soal. Oleh karena
butir-butir soal yang tidak memenuhi salah satu kriteria pada aspek materi,
yang merupakan aspek yang mencakup substansi pada soal, dianggap sebagai soal
yang tidak baik sehingga ditolak, maka butir-butir soal yang direvisi hanya
dikategorikan menurut aspek konstruksi dan bahasa yang merupakan aspek
administratif pada soal.
Soal yang harus direvisi
pada aspek konstruksi berjumlah 32 butir (26,667%). Pada bidang Pengetahuan
Umum, jumlah soal yang harus direvisi sebanyak 11 butir atau 9,166%. Pada
bidang Pendidikan Agama Islam jumlah soal yang harus direvisi sebanyak 10 butir
(8,333%). Pada bidang Bahasa Arab jumlah soal yang harus direvisi sebanyak 5
butir (4,166%) dan pada bidang Bahasa Inggris jumlah soal yang harus direvisi
sebanyak 6 butir (5%).
Jumlah soal yang harus
direvisi pada aspek bahasa adalah sebanyak 20 butir (16,667%). Pada bidang
Pengetahuan Umum soal yang harus direvisi berjumlah 5 butir (4,166%). Pada
bidang Pendidikan Agama Islam soal yang harus direvisi berjumlah 8 butir (6,666%).
Pada bidang Bahasa Arab soal yang harus direvisi berjumlah 4 butir (3,333%) dan
pada bidang Bahasa Inggris soal yang harus direvisi berjumla 3 butir (2,5%).
Selanjutnya, dilihat bahwa secara keseluruhan ada 64 butir soal atau 53,333% dari jumlah total butir soal yang
baik atau diterima karena memenuhi seluruh kriteria pedoman penelaahan butir
soal. Sementara itu, butir soal yang cukup baik atau perlu direvisi secara
keseluruhan berjumlah 14
butir atau 11,667% dan butir
soal yang tidak baik atau ditolak berjumlah 42 butir atau 35%
dari keseluruhan jumlah soal. Ini berarti sebagian besar soal termasuk dalam
kategori soal yang baik atau diterima. Sementara itu, adanya soal-soal yang
perlu direvisi menunjukkan bahwa pada soal-soal tersebut ada salah satu kriteria
atau lebih pada aspek konstruksi atau bahasa yang tidak terpenuhi. Dengan
demikian dosen sebagai
pembuat perangkat tes harus memperbaiki soal-soal tersebut jika ingin
mempergunakannya kembali pada pelaksanaan tes-tes di masa mendatang. Soal yang tidak baik berarti tidak
memenuhi salah satu kriteria atau lebih pada aspek materi. Bisa juga karena
kunci jawabannya salah, lebih dari tiga kriteria pada aspek konstruksi tidak
terpenuhi, atau lebih dari satu kriteria pada aspek bahasa yang salah.
Dari uraian di atas dapat dilihat bahwa pada hampir seluruh perangkat
tes ada butir-butir soal yang tidak memenuhi salah satu atau lebih dari ketiga
kriteria pada aspek materi, sedangkan pada aspek konstruksi hanya beberapa
kriteria saja yang tidak dipenuhi oleh butir-butir soal. Dengan demikian ada
beberapa kriteria di mana tidak ada butir soal yang tidak memenuhinya. Pada
aspek konstruksi ini hanya pada kriteria 4 (pokok soal dirumuskan dengan
singkat, jelas, dan tegas), kriteria 5 (pokok soak tidak memberi petunjuk kunci
jawaban), kriteria 8 (pilihan jawaban homogen dan logis), dan kriteria 9
(panjang pilihan jawaban relatif sama) di mana ada butir-butir soal yang tidak
sesuai. Sementara itu, pada kriteria 6 (pokok soal bebas dari pernyataan yang
bersifat negatif ganda), kriteria 7 (gambar/grafik/tabel/diagram dan sejenisnya
pada soal jelas dan berfungsi), kriteria 10 (pilihan jawaban tidak menggunakan
pernyataan yang berbunyi “Semua pilihan jawaban di atas salah” atau “Semua
pilihan jawaban di atas benar”), kriteria 11 (pilihan jawaban yang berbentuk
angka disusun berdasarkan urutan besar kecilnya), dan kriteria 12 (butir soal
tidak bergantung pada jawaban sebelumnya) tidak ada satu butir soal pun yang
tidak sesuai.
Pada aspek bahasa, dari keempat kriterianya, ada tiga kriteria di mana
ada sejumlah butir soal yang tidak sesuai yaitu pada kriteria 13 (soal
menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia/Arab/Inggris), kriteria 14 (soal
menggunakan bahasa yang komunikatif), dan kriteria 16 (pilihan jawaban tidak
mengulang kata/kelompok kata yang sama). Sedangkan pada kriteria 15 (soal
menggunakan bahasa yang berlaku setempat) tidak ada satu butir soal pun yang
tidak sesuai.
Selanjutnya, berdasarkan hasil olah data dapat diketahui bahwa seluruh butir soal tidak dapat dikatakan sesuai dengan
indikator atau representatif dalam mewakili materi yang diujikan atau tidak, karena kenyataan di lapangan
ditemukan bahwa pembuatan perangkat tes tidak berdasarkan kisi-kisi yang sudah
disepakati tim. Dengan kata
lain, tidak ada kisi-kisi tes yang jelas dan sistematis sebagai pedoman
pembuatan soal, sehingga tidak bisa disimpulkan validitas isi dan validitas
konstruk perangkat tes.
Sementara itu, ada tiga kategori untuk
mengelompokkan butir-butir soal pada seluruh perangkat tes. Kategori pertama
adalah butir soal yang baik atau diterima, yaitu butir soal yang memenuhi
seluruh kriteria pada pedoman telaah butir soal. Kategori kedua adalah butir
soal yang cukup baik, berarti diterima tetapi harus direvisi, yaitu butir soal yang
memenuhi hampir seluruh kriteria yang ada tetapi ada satu atau
sebanyak-banyaknya tiga kriteria pada aspek konstruksi, sebanyak-banyaknya satu
kriteria pada aspek bahasa yang tidak sesuai dengan kaidah yang telah
ditentukan. Untuk butir soal yang kunci jawabannya salah dan atau tidak
memenuhi salah satu kriteria pada aspek materi, lebih dari tiga kriteria pada
aspek konstruksi, dan atau lebih dari satu kriteria pada aspek bahasa yang
tidak sesuai dengan kaidah yang telah ditentukan dimasukkan ke dalam kategori
ketiga, yaitu butir soal yang tidak baik atau ditolak.
Sebagian besar butir soal,
yaitu sebanyak 64 butir soal atau 53,333% termasuk dalam kategori soal
yang baik atau diterima sehingga dapat digunakan kembali untuk pelaksanaan
tes-tes pada masa mendatang. Sebagian soal lagi, yaitu sebanyak 14 butir
soal atau 11,667% dari jumlah
keseluruhan butir soal,
termasuk dalam kategori soal yang cukup baik sehingga membutuhkan revisi untuk
dapat digunakan kembali dan sebanyak 42 butir soal atau 35%
termasuk dalam kategori soal yang tidak baik atau ditolak sehingga harus diganti.
Selanjutnya, hasil telaah butir soal secara kualitatif ini juga
digunakan untuk mengetahui validitas isi seluruh perangkat tes atau
representatif tidaknya perangkat tes dalam mencakup materi yang harus diujikan. Butir soal yang sesuai
dengan indikator dianggap representatif dalam mewakili materi yang diajarkan,
sehingga untuk mengetahui validitas isi dari masing-masing perangkat tes perlu
diketahui jumlah butir soal yang sesuai dengan indikator.
Dari hasil penelitian dapat
diketahui bahwa tidak ada butir soal yang bisa dilihat apakah sesuai indikator atau tidak,
karena tidak terdapat kisi-kisi penulisan perangkat tes yang disusun oleh tim
dan disepakati sebagai panduan dalam membuat butir soal. Dengan demikian secara keseluruhan validitas isi dan konstruk perangkat tes tidak dapat dipastikan apakah termasuk dalam
kategori baik atau kurang baik.
2.
Hasil Analisis Butir Soal secara
Kuantitatif
Analisis butir soal secara kuantitatif dilakukan
dengan menggunakan program Bigsteps, yaitu analisis yang didasarkan pada model
logistik satu parameter, dalam hal ini model Rasch. Analisis ini dilakukan
untuk mengetahui karakteristik internal masing-masing butir soal. Adapun
hasil-hasil analisis data yang dilakukan ditampilkan pada bagian berikut ini.
Output analisis butir soal dengan program ini
meliputi berbagai informasi yang berkaitan dengan skor yang diperoleh, estimasi
tingkat kemampuan peserta tes, estimasi tingkat kesukaran butir soal dalam bentuk
skala baku, indeks kesalahan pengukuran, kecocokan data dengan model, korelasi
daya pembeda, serta berbagai informasi yang berkaitan dengan butir soal dan
responden.
Komponen pertama
yang biasanya dibahas adalah statistik
skor tes. Yang kedua, kecocokan butir soal dengan model. Butir soal dikatakan cocok dengan model apabila
butir soal tersebut berperilaku secara konsisten dengan apa yang diharapkan
oleh model, yakni memiliki nilai outfit
< 2,00 dan daya pembedanya (point
biserial) positif. Sementara itu, butir soal tidak cocok dengan model
apabila nilai outfitnya > 2,00 dan
daya pembedanya negatif. Yang ketiga, estimasi tingkat kesukaran. Tingkat kesukaran dalam model Rasch adalah
parameter utama yang menjadi fokus analisis, selanjutnya tingkat kesukaran
tersebut dinyatakan dalam skala logits (log-odd-units).
Butir-butir soal yang dianalisis berdasarkan pendekatan Teori Respons Butir
dengan menggunakan program Bigsteps versi 2.30 dikelompokkan dalam tiga
kategori: butir soal berkategori sukar (p > +2,00), butir soal berkategori
sedang (p -2,00 s.d. +2,00), dan butir soal berkategori mudah
(p < -2,00).
Yang keempat,
daya pembeda. Pada pendekatan model Rasch, suatu
butir soal dikatakan memiliki daya pembeda yang baik apabila point biserialnya (ptbis) positif,
sedangkan butir soal dikatakan memiliki daya beda yang buruk apabila point biserialnya negatif. Selanjutnya,
distribusi jawaban berdasarkan berfungsi tidaknya distraktor. Suatu pengecoh dapat dikatakan
sudah berfungsi apabila pengecoh tersebut dipilih oleh 5% atau lebih peserta
tes. Sementara itu suatu pengecoh dianggap belum berfungsi apabila pengecoh
tersebut dipilih oleh kurang dari 5% peserta tes.
Yang terakhir,
kualitas butir soal. Berdasarkan pendekatan teori respon butir model logistik satu
parameter, kualitas butir soal dikategorikan baik, cukup baik, dan tidak baik
dengan ketentuan sebagai berikut:
1) Baik, apabila butir cocok dengan model dan
parameter tingkat kesukaran –2,00<bi<2 o:p="">2>
2) Cukup baik, apabila butir cocok dengan
model dan tingkat kesukaran bi<-2 atau="" i="">bi-2>
>2,00
3) Tidak baik, apabila butir tidak cocok
dengan model.
Dari hasil penelitian dapat dilihat bahwa butir-butir soal dari
perangkat tes memiliki tingkat kesukaran dengan rerata tingkat kesukaran 0,00
yang berarti sebagian besar soal berada pada kategori sedang. Sementara itu,
tingkat kemampuan peserta berada di bawah rata-rata atau lebih kecil dari 0,00, yaitu
-1,08.
Selanjutnya, rerata kesalahan estimasi pada perangkat tes memiliki
nilai yang cukup kecil, yaitu 0,25 untuk butir dan
0,23 untuk peserta. Nilai tersebut menunjukkan kesalahan estimasi cukup
kecil, yang berarti nilai hasil estimasi parameter butir soal maupun parameter
kemampuan peserta cukup cermat. Keadaan ini menunjukkan bahwa kecocokan data
yang diperoleh dengan model Rasch cukup baik, karena data cocok dengan model
yang dipilih, maka varians nilai parameter akan kecil dan estimasi parameter
butir soal cukup cermat. Keadaan tersebut juga didukung oleh nilai-nilai
deviasi standar kesalahan estimasi yang cukup kecil, rata-rata berada di bawah
0,2 untuk butir dan peserta.
Secara keseluruhan sebagian besar butir soal yang tercakup dalam perangkat tes, yaitu 120 butir, dikategorikan sebagai butir soal yang cocok
dengan model atau diterima oleh model, yaitu sebanyak 107 butir soal atau 89,167%. Sementara itu, hanya 13 butir soal atau 10,833% yang tidak cocok dengan model atau
ditolak oleh model. Ini berarti sebagian besar butir soal berperilaku secara
konsisten dengan apa yang diharapkan oleh model, yaitu memiliki nilai outfit <2 dan="" daya="" i="" pembedanya="">point biserial2>
)
positif.
Butir-butir soal yang cocok dengan model menunjukkan bahwa butir-butir
soal ini dijawab dengan benar oleh peserta yang tingkat kemampuannya sesuai
atau lebih tinggi dari tingkat kesukaran butir soal dan dijawab salah oleh
peserta yang kemampuannya sesuai atau lebih rendah dari tingkat kesukaran butir
soal. Butir soal yang tidak cocok dengan model menunjukkan bahwa butir soal
tersebut tidak berfungsi sebagimana mestinya, hal ini disebabkan oleh
konstruksi soal yang jelek, kesalahan kunci jawaban, atau berkaitan dengan
kebenaran isi soal. Kenyataan di lapangan menunjukkan banyaknya kendala bagi
para dosen selaku penyusun
perangkat tes antara lain waktu penyusunan tes yang terlalu singkat dan
kurangnya pengetahuan mengenai pengukuran.
Dilihat dari tingkat kesukarannya, terdapat 8 butir soal (6,667%)
termasuk dalam kategori mudah, 89
butir soal (74,167%) termasuk
dalam kategori sedang, dan 23
butir soal (19,166%) termasuk
dalam kategori sukar.
Rincian butir soal yang memiliki daya pembeda yang baik dan butir soal
yang memiliki daya pembeda yang tidak baik dapat dilihat pada tabel 12, yaitu tabel yang menampilkan
butir soal yang cocok dengan model dan yang tidak cocok dengan model. Hal ini
disebabkan butir soal yang memiliki daya pembeda yang tidak baik adalah butir
soal yang tidak cocok dengan model pula, atau memiliki point biserial negatif sesuai dengan hasil analisis tahap pertama.
Butir soal yang cocok dengan model ternyata juga ada yang memiliki daya pembeda yang tidak baik pula. Sebanyak 59 butir soal atau 49,166% memiliki
daya pembeda yang baik dan 61 butir atau 50,834% memiliki daya pembeda yang
tidak baik. Dengan demikian dapat disimpulkan bahwa tidak sampai separuh jumlah butir soalnya
memiliki daya pembeda yang baik, yaitu dapat membedakan peserta yang memiliki
kemampuan tinggi dengan peserta yang memiliki kemampuan rendah.
Sebagian besar soal pada seluruh perangkat tes memiliki satu atau lebih
distraktor yang belum berfungsi. Secara keseluruhan, hanya 50 (13,20%) butir soal yang memiliki
distraktor yang dapat dikatakan sudah berfungsi dengan baik, yaitu distraktor
yang dipilih oleh 5% peserta atau lebih, sementara sebanyak 70 butir soal (58,333%) memiliki distraktor yang belum
berfungsi dengan baik, atau hanya dipilih oleh kurang dari 5% peserta. Ini menandakan distraktor yang dibuat
masih banyak yang belum dapat mengecoh peserta tes, bahkan pada beberapa nomor
ada sejumlah distraktor yang sama sekali tidak dipilih oleh peserta tes.
3. Kualitas Perangkat Tes Berdasarkan Telaah
Kualitatif dan Kuantitatif
Berdasarkan telaah butir soal secara kualitatif dengan menggunakan
pedoman analisis butir soal, jumlah butir soal tidak baik adalah 42 butir (35%) sehingga kualitas perangkat
tes secara keseluruhan berada pada kategori kurang baik, karena jumlah butir soal tidak baik yang berada
di atas level 30%. Selanjutnya, berbeda dengan
hasil analisis berdasarkan telaah kualitatif, hasil analisis kuantitatif dengan
program Bigsteps menunjukkan bahwa jumlah butir soal tidak baik adalah 13 butir atau 10,833%, cukup baik 18
butir atau 15%, dan baik 89 butir atau 74,167%. Dengan melihat jumlah butir
soal tidak baik yang hanya 10,833% dapat dikatakan bahwa kualitas
perangkat tes secara keseluruhan berada pada kategori baik.
D. Simpulan
Analisis terhadap suatu perangkat tes
meliputi dua cara: kualitatif dan kuantitatif. Secara kualitatif, semestinya
perangkat tes dianalisis sebelum diujikan dengan menggunakan pedoman telaah
butir soal, berdasarkan tinjauan aspek materi, konstruksi, dan bahasa. Meskipun
demikian, pada penelitian ini, analisis atau telaah secara kualitatif dilakukan
setelah tes diujikan. Yang membuat telaah secara kualitatif menjadi kurang
fokus adalah, meskipun perangkat tes ini adalah perangkat tes PMB yang nota bene
berfungsi sebagai alat seleksi untuk memperoleh input mahasiswa baru yang cukup
berkualitas, tes ini tidak memiliki kisi-kisi tes yang jelas dan sistematis.
Hasil analisis secara kualitatif
menunjukkan bahwa sudah lebih dari 50% butir soal termasuk dalam kategori baik,
sehingga dapat digunakan kembali jika dikehendaki. Sejumlah soal perlu direvisi
pada aspek konstruksi dan bahasa sehingga termasuk dalam kategori cukup baik.
Meskipun demikian, karena jumlah butir soal tidak baik melebihi level 30%,
yaitu sebanyak 42 butir atau 35%, maka perangkat tes ini secara kualitatif
berada pada kategori kurang baik.
Sebaliknya, hasil telaah kuantitatif
berdasarkan Model Rasch dengan menggunakan Program Bigsteps menunjukkan bahwa
tes ini termasuk dalam kategori baik, karena jumlah butir soal tidak baik hanya
berjumlah 13 butir atau 10,833%. Sebagian besar distraktor atau pengecoh juga
belum berfungsi karena dipilih oleh kurang dari 5% peserta, atau bahkan tidak
dipilih sama sekali. Dari kriteria tingkat kesukaran, sebagian besar butir soal
termasuk dalam kategori sedang, berarti sesuai dengan yang semestinya.
Sementara itu, dari kriteria daya beda
soal, tes ini masih belum sesuai dengan yang seharusnya, karena hanya separuh
dari jumlah seluruh butir soal yang memiliki daya beda baik, sedangkan
separuhnya lagi memiliki daya beda yang tidak baik, atau tidak mampu membedakan
mana peserta tes yang menguasai bahan dan mana yang tidak. Kemampuan peserta
tes termasuk rendah, karena rerata tingkat kemampuan peserta di bawah 0.0
menurut kriteria model Rasch, atau negatif.
REFERENSI
Allen, M.J. & Yen, W.M.
1979, Introduction to Measurement Theory,
Monterey: Brooks/Cole Publishing Company.
Bachman, L. F. 1990. Fundamental Considerations in Language
Testing. Oxford: Oxford University Press.
Hambleton, Ronald K., et.
al. 1991. Fundamentals of Item Response Theory. California: Sage
Publication.
Hayat, Bahrul. 1994.
Pengantar Model Rasch. Jakarta: Depdikbud Balitbang Puslitbang Sisjian.
Hughes, Arthur. 2002. Testing
for Language Teachers. United Kingdom: Cambridge University Press.
Mehrens, William A. &
Lehmann, Irvin J. 1973. Measurement and Evaluation in Education and Psychology.
New York: Holt, Rinehart and Winston, Inc.
Naga, Dali S. 1992. Pengantar
Teori Sekor pada Pengukuran Pendidikan. Jakarta: Gunadarma.
Rochmat. 2009. Kualitas Tes
Ulangan Umum Mata Pelajaran Fisika Buatan Guru SMA Negeri di Kota Yogyakarta,
Universitas Negeri Yogyakarta: tesis.
Thorndike, R. L. & Hagen,
E. P. 1955. Measurement and Evaluation in Psychology and Education. New
York: John Wiley & Sons, Inc.