Senin, 29 Agustus 2016

PENGARUH TEKNIK PEMBELAJARAN, KONSEP DIRI, DAN TINGKAT PENGUASAAN KOSA KATA TERHADAP KEMAMPUAN WRITING MAHASISWA (Studi Eksperimen pada Mahasiswa STKIP PGRI Bandar Lampung)

THE INFLUENCE OF LEARNING TECHNIQUE, SELF-CONCEPT,
AND VOCABULARY MASTERY TOWARDS
STUDENTS’ WRITING ABILITY
(An Experimental Study on the Students of STKIP PGRI Bandar Lampung)


Yusti Arini

ABSTRACT

This experimental study is aimed at finding out whether there is any significant influence of learning technique, self-concept, and vocabulary mastery towards students’ writing ability. Two kinds of learning techniques, Mind Map and Conventional, were implemented on 173 English Education Study Program students of STKIP PGRI Bandar Lampung. The data of this 2x2x2 factorial design research were analyzed by using three-way ANOVA technique. From the research results it can be concluded that there is a significant influence of learning technique towards students’ writing ability. The students taught by using the Mind Map technique have higher writing ability compared to those taught by the Conventional technique. Furthermore, there is an interaction effect between learning technique, self-concept, and vocabulary mastery towards students’ writing ability. Based on the whole conclusions, it can be implied that Mind Map technique is most appropriate to be implemented on the students with positive self-concept and high vocabulary mastery.


Keywords:    experimental, learning technique, self-concept, vocabulary mastery

Rabu, 15 Oktober 2014

Ringkas Penelitian

Analisis Karakteristik Internal dan Kualitas Tes Penerimaan
Mahasiswa Baru (PMB) STAIN Jurai Siwo Metro Tahun 2012
(Telaah Kualitatif dan Kuantitatif)

Oleh:
Yusti Arini

Abstract
This research was aimed at finding out the item internal characteristics of the Freshman Selection Test of State Islamic College of Jurai Siwo Metro in 2012 and to what extent the items were in line with the test item construction guidance. After finding them out, the quality of the test in whole could be decided, qualitatively and quantitatively. This research was conducted at State Islamic College of Jurai Siwo Metro in September – November 2012. The data was collected by using documentation technique, including one set of Freshman Selection Test and 200 testee’s answer sheets chosen through simple random sampling technique. The data was analyzed qualitatively based on test item analysis guidance and quantitatively based on Rasch Model by using Bigsteps Program. The qualitatively result analysis showed that more than 50% of the items were at good category; however, because more than 30% of the items (42 items) were at poor category, qualitatively, the test was categorized poor. In contrast, the quantitatively result analysis showed that only 13 items (10,833%) were poor; therefore, quantitatively, this test was categorized good.  

A.     PENDAHULUAN
Kualitas pendidikan di perguruan tinggi ditentukan oleh banyak faktor; salah satunya adalah input atau masukan yang cukup kompeten. Input perguruan tinggi yang berupa mahasiswa baru ini diharapkan memiliki kemampuan akademik maupun personal yang baik agar proses penyelenggaraan perkuliahan dapat berjalan lancar. Untuk itu, agar diperoleh input mahasiswa baru yang cukup layak, penting untuk dilakukan seleksi penerimaan mahasiswa baru yang sesuai dengan standar prosedur. Yang lazim dilaksanakan di perguruan tinggi untuk menyeleksi calon mahasiswa baru adalah tes Penerimaan Mahasiswa Baru (PMB), baik tes tertulis maupun lisan.
Tes tertulis PMB (Penerimaan Mahasiswa Baru) STAIN Jurai Siwo Metro tahun 2012 terdiri dari 120 butir soal, mencakup 4 bidang; Pengetahuan Umum, Agama Islam, Bahasa Arab, dan Bahasa Inggris. Dengan demikian, masing-masing bidang terdiri dari 30 butir soal. Keseluruhan tes berbentuk pilihan ganda dengan 4 opsi jawaban. Oleh karena itu, analisis butir soal penting dilakukan untuk mengetahui karakteristik internalnya yang antara lain mencakup estimasi tingkat kesukaran, indeks daya beda, kecocokan butir dengan model, dan distribusi jawaban berdasarkan berfungsi tidaknya distraktor penting untuk dilakukan.
Selain itu, analisis butir soal juga harus dilakukan untuk mengetahui apakah butir soal sesuai atau tidak dengan pedoman pembuatan butir soal yang meliputi kriteria-kriteria pada aspek materi, konstruksi, dan bahasa. Setelah kedua jenis analisis, secara kualitatif dengan menggunakan pedoman telaah butir soal dan secara kuantitatif berdasarkan model Rasch dengan menggunakan program Bigsteps, dilakukan, maka akan dapat diketahui kualitas masing-masing butir soal dan kualitas perangkat tes secara keseluruhan.
Sementara itu, permasalahan yang diteliti meliputi: 1) Sejauh mana kesesuaian butir-butir soal perangkat tes PMB Mandiri STAIN Jurai Siwo Metro dengan kriteria-kriteria yang ada pada kartu telaah butir soal? 2) Bagaimana kualitas butir-butir soal perangkat tes PMB tersebut berdasarkan telaah kualitatif? 3) Bagaimana karakteristik internal butir soal perangkat tes PMB Mandiri STAIN Jurai Siwo Metro berdasarkan analisis dengan menggunakan program Bigsteps? 4) Bagaimana kualitas butir soal perangkat tes tersebut berdasarkan analisis dengan menggunakan program Bigsteps? dan 5) Bagaimana kemampuan peserta tes di dalam menjawab soal tes PMB tersebut?
Sesuai dengan masalah yang diteliti maka tujuan penelitian ini adalah untuk mengetahui karakteristik internal perangkat tes Penerimaan Mahasiswa Baru (PMB) Mandiri STAIN Jurai Siwo Metro tahun 2012 berdasarkan telaah kualitatif dan kuantitatif. Berdasarkan hasil analisis tersebut maka dapat ditentukan kategori kualitas perangkat tes PMB tersebut.
Penelitian ini dilaksanakan di STAIN Jurai Siwo Metro Lampung sebagai institusi penyelenggara tes Penerimaan Mahasiswa Baru (PMB) sekaligus sebagai pembuat perangkat tes yang akan dianalisis. Waktu yang dibutuhkan untuk melaksanakan penelitian ini adalah selama 3 (tiga) bulan yaitu dari bulan September – November 2012.
Penelitian ini adalah penelitian deskriptif kuantitatif sehingga hanya bersifat menjelaskan variabel tanpa berupaya mencari keterkaitan antar variabel. Variabel yang akan dijelaskan dalam penelitian ini adalah karakteristik internal butir soal tes dan kualitasnya. Butir soal akan dianalisis secara kualitatif dengan menggunakan pedoman telaah butir soal, dan secara kuantitatif berdasarkan model Rasch dengan menggunakan Program Bigsteps.
Populasi dalam penelitian ini adalah seluruh lembar jawaban peserta tes Penerimaan Mahasiswa Baru (PMB) Mandiri STAIN Jurai Siwo Metro tahun 2012 yaitu sebanyak 600 lembar. Sementara itu, sampel dalam penelitian ini adalah sebanyak 200 lembar jawaban peserta tes yang diambil secara acak dengan teknik Simple Random Sampling. Perangkat soal berjumlah 1 (satu) eksemplar dan akan dianalisis secara tersendiri. Teknik pengumpulan data yang digunakan adalah teknik dokumentasi.

B.     KAJIAN TEORI
1.        Analisis Butir Soal
Kementerian Pendidikan Kebudayaan Pemuda dan Olahraga melalui Pusisjian telah membuat pedoman penelaahan butir soal tes yang dapat digunakan untuk menilai butir soal pilihan ganda yang dikenal sebagai pedoman penelaahan butir soal. Adapun pedoman tersebut meliputi, pertama, aspek materi, yang terdiri dari 1) Soal sesuai dengan indikator, 2) Pengecoh sudah berfungsi, dan 3) Hanya ada satu kunci jawaban yang paling tepat. Yang kedua adalah aspek konstruksi, yang terdiri dari 1)Pokok soal dirumuskan dengan singkat, jelas, dan tegas, 2) Pokok soal tidak memberi petunjuk kunci jawaban, 3) Pokok soal bebas dari pernyataan yang bersifat negatif ganda, 4) Gambar/grafik/tabel/diagram dan sejenisnya pada soal jelas dan berfungsi, 5) Pilihan jawaban homogen dan logis, 6) Panjang pilihan jawaban relatif sama, 7) Pilihan jawaban tidak menggunakan pernyataan yang berbunyi “Semua pilihan jawaban di atas salah” atau “Semua pilihan jawaban di atas benar”, 8) Pilihan jawaban yang berbentuk angka disusun berdasarkan urutan besar kecilnya, dan 9) Butir soal tidak bergantung pada jawaban sebelumnya. Yang ketiga adalah aspek bahasa, yang terdiri dari 1) Soal menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia, 2) Soal menggunakan bahasa yang komunikatif, 3) Soal tidak menggunakan bahasa yang berlaku setempat, dan 4) Pilihan jawaban tidak mengulang kata/ kelompok kata yang sama.
Selanjutnya, mengenai analisis butir soal secara kuantitatif. Di dalam pengukuran pendidikan dikenal dua macam pengukuran yaitu pengukuran klasik dan pengukuran modern. Penelitian ini lebih menekankan pada pengukran modern yang lebih dikenal dengan teori respons butir. Teori respons butir menelaah butir untuk menemukan ciri atau karakteristiknya. Setiap penelaahan berkenaan dengan satu butir sehingga di dalam uji tes dapat dilakukan banyak penelaahan yang masing-masing berkenaan dengan satu butir di dalam perangkat uji tes itu.[1]
Ciri butir di dalam analisis butir model teori respons butir dinyatakan dengan parameter a, b, dan c. Parameter a adalah ciri butir yang berkenaan dengan daya pembedaan yakni kemampuan butir untuk mempertegas perbedaan di antara peserta yang dapat dan peserta yang tidak dapat menjawab butir itu dengan benar. Parameter b adalah ciri butir yang berkenaan dengan taraf kesukaran yakni sukar atau kurang sukarnya butir itu untuk dijawab oleh peserta. Sedangkan parameter c adalah ciri butir yang berkenaan dengan faktor kebetulan yang dapat menyebabkan peserta secara kebetulan menjawab butir itu dengan benar.

2.            Konsep Dasar dan Asumsi-asumsi dalam Model Teori Respons Butir

Teori Responsi Butir atau selanjutnya disingkat sebagai IRT (Item Respons Theory) berlandaskan pada dua postulat dasar: (a) performansi seorang peserta tes pada suatu butir soal dapat diprediksikan (atau diterangkan) oleh seperangkat faktor yang disebut sifat (trait), sifat laten (latent trait), atau kemampuan (ability); dan (b) hubungan antara performansi peserta tes pada suatu butir dan seperangkat sifat yang mendasari performansi tersebut dapat dideskripsikan oleh fungsi yang menaik secara monotonik yang disebut sebagai fungsi karakteristik butir (item characteristic function) atau kurva karakteristik butir (item characteristic curve/ICC). Fungsi ini menjelaskan bahwa seiring dengan meningkatnya level trait, peluang jawaban benar pada suatu butir soal akan meningkat pula.
Bila suatu model respon teori sesuai dengan data tes, sejumlah ciri/karakteristik yang dikehendaki dapat diperoleh. Estimasi kemampuan peserta tes tidak tergantung pada peserta tes, dan indeks butir soal tidak tergantung pada kelompok. Estimasi kemampuan yang diperoleh dari perangkat butir soal yang berbeda akan sama (kecuali untuk kesalahan pengukuran), dan estimasi parameter butir yang diperoleh dari kelompok peserta tes yang berbeda juga akan sama (kecuali untuk kesalahan pengukuran). Pada teori responsi butir, parameter butir dan kemampuan dikatakan invarian.[2]
Satu asumsi yang umum pada model IRT dan paling banyak digunakan adalah bahwa hanya satu macam kemampuan yang diukur oleh butir-butir soal yang tercakup dalam tes. Asumsi ini disebut asumsi unidimensionalitas. Satu konsep yang terkait dengan unidimensionalitas adalah konsep independensi lokal. Asumsi lain yang dibuat pada seluruh model IRT adalah bahwa fungsi karakteristik butir yang dijelaskan merefleksikan hubungan sebenarnya pada variabel-variabel yang tidak dapat diamati (kemampuan) dan variabel-variabel yang dapat diamati (responsi butir). Asumsi-asumsi yang lainnya adalah mengenai karakteristik-karakteristik butir yang relevan dengan performansi peserta tes pada satu butir. Tiga model yang paling populer dalam model-model unidimensional IRT adalah model logistik satu-, dua-, dan tiga- parameter.[3]

5.  Tes Penerimaan Mahasiswa Baru (PMB)  STAIN Metro Tahun 2012 sebagai Alat Seleksi

Ketika sebuah institusi menggunakan sebuah prosedur asesmen untuk seleksi mahasiswa barunya, sangatlah penting untuk menunjukkan bahwa hasil yang dicapai oleh calon mahasiswa peserta tes berkaitan erat dengan potensi keberhasilannya dalam suatu program pendidikan, untuk tujuan itulah institusi menyelenggarakan tes. Jika data institusi tidak menunjukkan bahwa hasil asesmen ini dapat secara efektif membedakan calon mahasiswa yang berpotensi berhasil dengan yang tidak, maka prosedur asesmen ini harus diperbaiki atau dihilangkan. Menjadi sesuatu yang ilegal ketika prosedur asesmen yang tidak bisa menunjukkan hubungannya dengan potensi keberhasilan seseorang masih terus dipergunakan.
Meskipun demikian, keputusan seleksi tidak kemudian harus menjadi sesuatu yang sangat sempurna, dan hasil asesmen tidak dapat diharapkan memiliki validitas yang sempurna bagi suatu keputusan seleksi. Sejumlah pendaftar yang diterima bisa jadi berhasil ke depannya; yang lainnya, meskipun diterima, tetapi tidak berhasil dalam proses pendidikannya. Oleh karena itu, asesmen dapat dievaluasi dalam hal konsekuensi yang ditimbulkan ketika menggunakannya.
Di STAIN Jurai Siwo Metro, seleksi penerimaan tersebut dilaksanakan melalui tes PMB (Penerimaan Mahasiswa Baru), yang pada tahun ini dilaksanakan melalui dua jalur tes: tes PMB jalur on line dan mandiri. Tes PMB jalur on line hanya dilaksanakan melalui tes tertulis, sedangkan jalur mandiri dilaksanakan melalui tes tertulis dan lisan (baca Al Qur’an). Jumlah pendaftar untuk jalur on line sebanyak 1648 orang dan jalur mandiri sebanyak 645 orang. Sementara itu, dari 645 orang yang mendaftar melalui jalur mandiri, hanya 600 orang yang mengikuti tes.[4]
Pada penelitian ini yang dianalisis adalah perangkat tes tertulis PMB Mandiri yang terdiri dari 120 butir soal dengan 4 opsi, mencakup 4 bidang; Pengetahuan Umum, Agama Islam, Bahasa Arab, dan Bahasa Inggris. Dengan demikian, masing-masing bidang terdiri dari 30 butir soal.

C. HASIL PENELITIAN DAN PEMBAHASAN

1.      Hasil Analisis Butir Soal secara Kualitatif
Secara keseluruhan jumlah butir soal yang ditolak pada aspek materi adalah sebanyak 39 butir soal atau 32,4999% dari jumlah total soal. Demikian pula untuk soal-soal yang perlu direvisi dipilah lagi menurut aspek konstruksi dan bahasa pada pedoman telaah butir soal. Oleh karena butir-butir soal yang tidak memenuhi salah satu kriteria pada aspek materi, yang merupakan aspek yang mencakup substansi pada soal, dianggap sebagai soal yang tidak baik sehingga ditolak, maka butir-butir soal yang direvisi hanya dikategorikan menurut aspek konstruksi dan bahasa yang merupakan aspek administratif pada soal.
Soal yang harus direvisi pada aspek konstruksi berjumlah 32 butir (26,667%). Pada bidang Pengetahuan Umum, jumlah soal yang harus direvisi sebanyak 11 butir atau 9,166%. Pada bidang Pendidikan Agama Islam jumlah soal yang harus direvisi sebanyak 10 butir (8,333%). Pada bidang Bahasa Arab jumlah soal yang harus direvisi sebanyak 5 butir (4,166%) dan pada bidang Bahasa Inggris jumlah soal yang harus direvisi sebanyak 6 butir (5%).
Jumlah soal yang harus direvisi pada aspek bahasa adalah sebanyak 20 butir (16,667%). Pada bidang Pengetahuan Umum soal yang harus direvisi berjumlah 5 butir (4,166%). Pada bidang Pendidikan Agama Islam soal yang harus direvisi berjumlah 8 butir (6,666%). Pada bidang Bahasa Arab soal yang harus direvisi berjumlah 4 butir (3,333%) dan pada bidang Bahasa Inggris soal yang harus direvisi berjumla 3 butir (2,5%).
Selanjutnya, dilihat bahwa secara keseluruhan ada 64 butir soal atau 53,333% dari jumlah total butir soal yang baik atau diterima karena memenuhi seluruh kriteria pedoman penelaahan butir soal. Sementara itu, butir soal yang cukup baik atau perlu direvisi secara keseluruhan berjumlah 14 butir atau 11,667% dan butir soal yang tidak baik atau ditolak berjumlah 42 butir atau 35% dari keseluruhan jumlah soal. Ini berarti sebagian besar soal termasuk dalam kategori soal yang baik atau diterima. Sementara itu, adanya soal-soal yang perlu direvisi menunjukkan bahwa pada soal-soal tersebut ada salah satu kriteria atau lebih pada aspek konstruksi atau bahasa yang tidak terpenuhi. Dengan demikian dosen sebagai pembuat perangkat tes harus memperbaiki soal-soal tersebut jika ingin mempergunakannya kembali pada pelaksanaan tes-tes di masa mendatang. Soal yang tidak baik berarti tidak memenuhi salah satu kriteria atau lebih pada aspek materi. Bisa juga karena kunci jawabannya salah, lebih dari tiga kriteria pada aspek konstruksi tidak terpenuhi, atau lebih dari satu kriteria pada aspek bahasa yang salah.
Dari uraian di atas dapat dilihat bahwa pada hampir seluruh perangkat tes ada butir-butir soal yang tidak memenuhi salah satu atau lebih dari ketiga kriteria pada aspek materi, sedangkan pada aspek konstruksi hanya beberapa kriteria saja yang tidak dipenuhi oleh butir-butir soal. Dengan demikian ada beberapa kriteria di mana tidak ada butir soal yang tidak memenuhinya. Pada aspek konstruksi ini hanya pada kriteria 4 (pokok soal dirumuskan dengan singkat, jelas, dan tegas), kriteria 5 (pokok soak tidak memberi petunjuk kunci jawaban), kriteria 8 (pilihan jawaban homogen dan logis), dan kriteria 9 (panjang pilihan jawaban relatif sama) di mana ada butir-butir soal yang tidak sesuai. Sementara itu, pada kriteria 6 (pokok soal bebas dari pernyataan yang bersifat negatif ganda), kriteria 7 (gambar/grafik/tabel/diagram dan sejenisnya pada soal jelas dan berfungsi), kriteria 10 (pilihan jawaban tidak menggunakan pernyataan yang berbunyi “Semua pilihan jawaban di atas salah” atau “Semua pilihan jawaban di atas benar”), kriteria 11 (pilihan jawaban yang berbentuk angka disusun berdasarkan urutan besar kecilnya), dan kriteria 12 (butir soal tidak bergantung pada jawaban sebelumnya) tidak ada satu butir soal pun yang tidak sesuai.
Pada aspek bahasa, dari keempat kriterianya, ada tiga kriteria di mana ada sejumlah butir soal yang tidak sesuai yaitu pada kriteria 13 (soal menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia/Arab/Inggris), kriteria 14 (soal menggunakan bahasa yang komunikatif), dan kriteria 16 (pilihan jawaban tidak mengulang kata/kelompok kata yang sama). Sedangkan pada kriteria 15 (soal menggunakan bahasa yang berlaku setempat) tidak ada satu butir soal pun yang tidak sesuai.
Selanjutnya, berdasarkan hasil olah data dapat diketahui bahwa seluruh butir soal tidak dapat dikatakan sesuai dengan indikator atau representatif dalam mewakili materi yang diujikan atau tidak, karena kenyataan di lapangan ditemukan bahwa pembuatan perangkat tes tidak berdasarkan kisi-kisi yang sudah disepakati tim. Dengan kata lain, tidak ada kisi-kisi tes yang jelas dan sistematis sebagai pedoman pembuatan soal, sehingga tidak bisa disimpulkan validitas isi dan validitas konstruk perangkat tes.
Sementara itu, ada tiga kategori untuk mengelompokkan butir-butir soal pada seluruh perangkat tes. Kategori pertama adalah butir soal yang baik atau diterima, yaitu butir soal yang memenuhi seluruh kriteria pada pedoman telaah butir soal. Kategori kedua adalah butir soal yang cukup baik, berarti diterima tetapi harus direvisi, yaitu butir soal yang memenuhi hampir seluruh kriteria yang ada tetapi ada satu atau sebanyak-banyaknya tiga kriteria pada aspek konstruksi, sebanyak-banyaknya satu kriteria pada aspek bahasa yang tidak sesuai dengan kaidah yang telah ditentukan. Untuk butir soal yang kunci jawabannya salah dan atau tidak memenuhi salah satu kriteria pada aspek materi, lebih dari tiga kriteria pada aspek konstruksi, dan atau lebih dari satu kriteria pada aspek bahasa yang tidak sesuai dengan kaidah yang telah ditentukan dimasukkan ke dalam kategori ketiga, yaitu butir soal yang tidak baik atau ditolak.  
Sebagian besar butir soal, yaitu sebanyak 64 butir soal atau 53,333% termasuk dalam kategori soal yang baik atau diterima sehingga dapat digunakan kembali untuk pelaksanaan tes-tes pada masa mendatang. Sebagian soal lagi, yaitu sebanyak 14 butir soal atau 11,667% dari jumlah keseluruhan butir soal, termasuk dalam kategori soal yang cukup baik sehingga membutuhkan revisi untuk dapat digunakan kembali dan sebanyak 42 butir soal atau 35% termasuk dalam kategori soal yang tidak baik atau ditolak sehingga harus diganti.
Selanjutnya, hasil telaah butir soal secara kualitatif ini juga digunakan untuk mengetahui validitas isi seluruh perangkat tes atau representatif tidaknya perangkat tes dalam mencakup materi yang harus diujikan. Butir soal yang sesuai dengan indikator dianggap representatif dalam mewakili materi yang diajarkan, sehingga untuk mengetahui validitas isi dari masing-masing perangkat tes perlu diketahui jumlah butir soal yang sesuai dengan indikator.
Dari hasil penelitian dapat diketahui bahwa tidak ada butir soal yang bisa dilihat apakah sesuai indikator atau tidak, karena tidak terdapat kisi-kisi penulisan perangkat tes yang disusun oleh tim dan disepakati sebagai panduan dalam membuat butir soal. Dengan demikian secara keseluruhan validitas isi dan konstruk perangkat tes tidak dapat dipastikan apakah termasuk dalam kategori baik atau kurang baik.

2.      Hasil Analisis Butir Soal secara Kuantitatif
Analisis butir soal secara kuantitatif dilakukan dengan menggunakan program Bigsteps, yaitu analisis yang didasarkan pada model logistik satu parameter, dalam hal ini model Rasch. Analisis ini dilakukan untuk mengetahui karakteristik internal masing-masing butir soal. Adapun hasil-hasil analisis data yang dilakukan ditampilkan pada bagian berikut ini.
Output analisis butir soal dengan program ini meliputi berbagai informasi yang berkaitan dengan skor yang diperoleh, estimasi tingkat kemampuan peserta tes, estimasi tingkat kesukaran butir soal dalam bentuk skala baku, indeks kesalahan pengukuran, kecocokan data dengan model, korelasi daya pembeda, serta berbagai informasi yang berkaitan dengan butir soal dan responden.
Komponen pertama yang biasanya dibahas adalah statistik skor tes. Yang kedua, kecocokan butir soal dengan model. Butir soal dikatakan cocok dengan model apabila butir soal tersebut berperilaku secara konsisten dengan apa yang diharapkan oleh model, yakni memiliki nilai outfit < 2,00 dan daya pembedanya (point biserial) positif. Sementara itu, butir soal tidak cocok dengan model apabila nilai outfitnya > 2,00 dan daya pembedanya negatif. Yang ketiga, estimasi tingkat kesukaran. Tingkat kesukaran dalam model Rasch adalah parameter utama yang menjadi fokus analisis, selanjutnya tingkat kesukaran tersebut dinyatakan dalam skala logits (log-odd-units). Butir-butir soal yang dianalisis berdasarkan pendekatan Teori Respons Butir dengan menggunakan program Bigsteps versi 2.30 dikelompokkan dalam tiga kategori: butir soal berkategori sukar (p > +2,00), butir soal berkategori sedang (p -2,00 s.d. +2,00), dan butir soal berkategori mudah (p < -2,00).
Yang keempat, daya pembeda. Pada  pendekatan model Rasch, suatu butir soal dikatakan memiliki daya pembeda yang baik apabila point biserialnya (ptbis) positif, sedangkan butir soal dikatakan memiliki daya beda yang buruk apabila point biserialnya negatif. Selanjutnya, distribusi jawaban berdasarkan berfungsi tidaknya distraktor. Suatu pengecoh dapat dikatakan sudah berfungsi apabila pengecoh tersebut dipilih oleh 5% atau lebih peserta tes. Sementara itu suatu pengecoh dianggap belum berfungsi apabila pengecoh tersebut dipilih oleh kurang dari 5% peserta tes.
Yang terakhir, kualitas butir soal. Berdasarkan pendekatan teori respon butir model logistik satu parameter, kualitas butir soal dikategorikan baik, cukup baik, dan tidak baik dengan ketentuan sebagai berikut:
1)      Baik, apabila butir cocok dengan model dan parameter tingkat kesukaran –2,00<bi<2 o:p="">
2)      Cukup baik, apabila butir cocok dengan model dan tingkat kesukaran bi<-2 atau="" i="">bi
>2,00
3)      Tidak baik, apabila butir tidak cocok dengan model.

Dari hasil penelitian dapat dilihat bahwa butir-butir soal dari perangkat tes memiliki tingkat kesukaran dengan rerata tingkat kesukaran 0,00 yang berarti sebagian besar soal berada pada kategori sedang. Sementara itu, tingkat kemampuan peserta berada di bawah rata-rata atau lebih kecil dari 0,00, yaitu -1,08.
Selanjutnya, rerata kesalahan estimasi pada perangkat tes memiliki nilai yang cukup kecil, yaitu 0,25 untuk butir dan 0,23 untuk peserta. Nilai tersebut menunjukkan kesalahan estimasi cukup kecil, yang berarti nilai hasil estimasi parameter butir soal maupun parameter kemampuan peserta cukup cermat. Keadaan ini menunjukkan bahwa kecocokan data yang diperoleh dengan model Rasch cukup baik, karena data cocok dengan model yang dipilih, maka varians nilai parameter akan kecil dan estimasi parameter butir soal cukup cermat. Keadaan tersebut juga didukung oleh nilai-nilai deviasi standar kesalahan estimasi yang cukup kecil, rata-rata berada di bawah 0,2 untuk butir dan peserta.
Secara keseluruhan sebagian besar butir soal yang tercakup dalam  perangkat tes, yaitu 120 butir, dikategorikan sebagai butir soal yang cocok dengan model atau diterima oleh model, yaitu sebanyak 107 butir soal atau 89,167%. Sementara itu, hanya 13 butir soal atau 10,833% yang tidak cocok dengan model atau ditolak oleh model. Ini berarti sebagian besar butir soal berperilaku secara konsisten dengan apa yang diharapkan oleh model, yaitu memiliki nilai outfit <2 dan="" daya="" i="" pembedanya="">point biserial
) positif.
Butir-butir soal yang cocok dengan model menunjukkan bahwa butir-butir soal ini dijawab dengan benar oleh peserta yang tingkat kemampuannya sesuai atau lebih tinggi dari tingkat kesukaran butir soal dan dijawab salah oleh peserta yang kemampuannya sesuai atau lebih rendah dari tingkat kesukaran butir soal. Butir soal yang tidak cocok dengan model menunjukkan bahwa butir soal tersebut tidak berfungsi sebagimana mestinya, hal ini disebabkan oleh konstruksi soal yang jelek, kesalahan kunci jawaban, atau berkaitan dengan kebenaran isi soal. Kenyataan di lapangan menunjukkan banyaknya kendala bagi para dosen selaku penyusun perangkat tes antara lain waktu penyusunan tes yang terlalu singkat dan kurangnya pengetahuan mengenai pengukuran.
Dilihat dari tingkat kesukarannya, terdapat 8 butir soal (6,667%) termasuk dalam kategori mudah, 89 butir soal (74,167%) termasuk dalam kategori sedang, dan 23 butir soal (19,166%) termasuk dalam kategori sukar.
Rincian butir soal yang memiliki daya pembeda yang baik dan butir soal yang memiliki daya pembeda yang tidak baik dapat dilihat pada tabel 12, yaitu tabel yang menampilkan butir soal yang cocok dengan model dan yang tidak cocok dengan model. Hal ini disebabkan butir soal yang memiliki daya pembeda yang tidak baik adalah butir soal yang tidak cocok dengan model pula, atau memiliki point biserial negatif sesuai dengan hasil analisis tahap pertama. Butir soal yang cocok dengan model ternyata juga ada yang memiliki daya pembeda yang tidak baik pula. Sebanyak 59 butir soal atau 49,166% memiliki daya pembeda yang baik dan 61 butir atau 50,834% memiliki daya pembeda yang tidak baik. Dengan demikian dapat disimpulkan bahwa tidak sampai separuh jumlah butir soalnya memiliki daya pembeda yang baik, yaitu dapat membedakan peserta yang memiliki kemampuan tinggi dengan peserta yang memiliki kemampuan rendah.
Sebagian besar soal pada seluruh perangkat tes memiliki satu atau lebih distraktor yang belum berfungsi. Secara keseluruhan, hanya 50 (13,20%) butir soal yang memiliki distraktor yang dapat dikatakan sudah berfungsi dengan baik, yaitu distraktor yang dipilih oleh 5% peserta atau lebih, sementara sebanyak 70 butir soal (58,333%) memiliki distraktor yang belum berfungsi dengan baik, atau hanya dipilih oleh kurang dari 5% peserta. Ini menandakan distraktor yang dibuat masih banyak yang belum dapat mengecoh peserta tes, bahkan pada beberapa nomor ada sejumlah distraktor yang sama sekali tidak dipilih oleh peserta tes.

3.      Kualitas Perangkat Tes Berdasarkan Telaah Kualitatif dan Kuantitatif

Berdasarkan telaah butir soal secara kualitatif dengan menggunakan pedoman analisis butir soal, jumlah butir soal tidak baik adalah 42 butir (35%) sehingga kualitas perangkat tes secara keseluruhan berada pada kategori kurang baik, karena jumlah butir soal tidak baik yang berada di atas level 30%. Selanjutnya, berbeda dengan hasil analisis berdasarkan telaah kualitatif, hasil analisis kuantitatif dengan program Bigsteps menunjukkan bahwa jumlah butir soal tidak baik adalah 13 butir atau 10,833%, cukup baik 18 butir atau 15%, dan baik 89 butir atau 74,167%. Dengan melihat jumlah butir soal tidak baik yang hanya 10,833% dapat dikatakan bahwa kualitas perangkat tes secara keseluruhan berada pada kategori baik.
D. Simpulan
Analisis terhadap suatu perangkat tes meliputi dua cara: kualitatif dan kuantitatif. Secara kualitatif, semestinya perangkat tes dianalisis sebelum diujikan dengan menggunakan pedoman telaah butir soal, berdasarkan tinjauan aspek materi, konstruksi, dan bahasa. Meskipun demikian, pada penelitian ini, analisis atau telaah secara kualitatif dilakukan setelah tes diujikan. Yang membuat telaah secara kualitatif menjadi kurang fokus adalah, meskipun perangkat tes ini adalah perangkat tes PMB yang nota bene berfungsi sebagai alat seleksi untuk memperoleh input mahasiswa baru yang cukup berkualitas, tes ini tidak memiliki kisi-kisi tes yang jelas dan sistematis.
Hasil analisis secara kualitatif menunjukkan bahwa sudah lebih dari 50% butir soal termasuk dalam kategori baik, sehingga dapat digunakan kembali jika dikehendaki. Sejumlah soal perlu direvisi pada aspek konstruksi dan bahasa sehingga termasuk dalam kategori cukup baik. Meskipun demikian, karena jumlah butir soal tidak baik melebihi level 30%, yaitu sebanyak 42 butir atau 35%, maka perangkat tes ini secara kualitatif berada pada kategori kurang baik.
Sebaliknya, hasil telaah kuantitatif berdasarkan Model Rasch dengan menggunakan Program Bigsteps menunjukkan bahwa tes ini termasuk dalam kategori baik, karena jumlah butir soal tidak baik hanya berjumlah 13 butir atau 10,833%. Sebagian besar distraktor atau pengecoh juga belum berfungsi karena dipilih oleh kurang dari 5% peserta, atau bahkan tidak dipilih sama sekali. Dari kriteria tingkat kesukaran, sebagian besar butir soal termasuk dalam kategori sedang, berarti sesuai dengan yang semestinya.
Sementara itu, dari kriteria daya beda soal, tes ini masih belum sesuai dengan yang seharusnya, karena hanya separuh dari jumlah seluruh butir soal yang memiliki daya beda baik, sedangkan separuhnya lagi memiliki daya beda yang tidak baik, atau tidak mampu membedakan mana peserta tes yang menguasai bahan dan mana yang tidak. Kemampuan peserta tes termasuk rendah, karena rerata tingkat kemampuan peserta di bawah 0.0 menurut kriteria model Rasch, atau negatif.

REFERENSI


Allen, M.J. & Yen, W.M. 1979, Introduction to Measurement Theory, Monterey: Brooks/Cole Publishing Company.

Bachman, L. F. 1990. Fundamental Considerations in Language Testing. Oxford: Oxford University Press.

Hambleton, Ronald K., et. al. 1991. Fundamentals of Item Response Theory. California: Sage Publication.

Hayat, Bahrul. 1994. Pengantar Model Rasch. Jakarta: Depdikbud Balitbang Puslitbang Sisjian.

Hughes, Arthur. 2002. Testing for Language Teachers. United Kingdom: Cambridge University Press.

http://www. stainmetro. co. id. 2012.

Mehrens, William A. & Lehmann, Irvin J. 1973. Measurement and Evaluation in Education and Psychology. New York: Holt, Rinehart and Winston, Inc.

Naga, Dali S. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan. Jakarta: Gunadarma.

Rochmat. 2009. Kualitas Tes Ulangan Umum Mata Pelajaran Fisika Buatan Guru SMA Negeri di Kota Yogyakarta, Universitas Negeri Yogyakarta: tesis.

Thorndike, R. L. & Hagen, E. P. 1955. Measurement and Evaluation in Psychology and Education. New York: John Wiley & Sons, Inc.






Ringkas Penelitian

Analisis Karakteristik Internal dan Kualitas Tes Penerimaan
Mahasiswa Baru (PMB) STAIN Jurai Siwo Metro Tahun 2012
(Telaah Kualitatif dan Kuantitatif)

Oleh:
Yusti Arini

Abstract
This research was aimed at finding out the item internal characteristics of the Freshman Selection Test of State Islamic College of Jurai Siwo Metro in 2012 and to what extent the items were in line with the test item construction guidance. After finding them out, the quality of the test in whole could be decided, qualitatively and quantitatively. This research was conducted at State Islamic College of Jurai Siwo Metro in September – November 2012. The data was collected by using documentation technique, including one set of Freshman Selection Test and 200 testee’s answer sheets chosen through simple random sampling technique. The data was analyzed qualitatively based on test item analysis guidance and quantitatively based on Rasch Model by using Bigsteps Program. The qualitatively result analysis showed that more than 50% of the items were at good category; however, because more than 30% of the items (42 items) were at poor category, qualitatively, the test was categorized poor. In contrast, the quantitatively result analysis showed that only 13 items (10,833%) were poor; therefore, quantitatively, this test was categorized good.  

A.     PENDAHULUAN
Kualitas pendidikan di perguruan tinggi ditentukan oleh banyak faktor; salah satunya adalah input atau masukan yang cukup kompeten. Input perguruan tinggi yang berupa mahasiswa baru ini diharapkan memiliki kemampuan akademik maupun personal yang baik agar proses penyelenggaraan perkuliahan dapat berjalan lancar. Untuk itu, agar diperoleh input mahasiswa baru yang cukup layak, penting untuk dilakukan seleksi penerimaan mahasiswa baru yang sesuai dengan standar prosedur. Yang lazim dilaksanakan di perguruan tinggi untuk menyeleksi calon mahasiswa baru adalah tes Penerimaan Mahasiswa Baru (PMB), baik tes tertulis maupun lisan.
Tes tertulis PMB (Penerimaan Mahasiswa Baru) STAIN Jurai Siwo Metro tahun 2012 terdiri dari 120 butir soal, mencakup 4 bidang; Pengetahuan Umum, Agama Islam, Bahasa Arab, dan Bahasa Inggris. Dengan demikian, masing-masing bidang terdiri dari 30 butir soal. Keseluruhan tes berbentuk pilihan ganda dengan 4 opsi jawaban. Oleh karena itu, analisis butir soal penting dilakukan untuk mengetahui karakteristik internalnya yang antara lain mencakup estimasi tingkat kesukaran, indeks daya beda, kecocokan butir dengan model, dan distribusi jawaban berdasarkan berfungsi tidaknya distraktor penting untuk dilakukan.
Selain itu, analisis butir soal juga harus dilakukan untuk mengetahui apakah butir soal sesuai atau tidak dengan pedoman pembuatan butir soal yang meliputi kriteria-kriteria pada aspek materi, konstruksi, dan bahasa. Setelah kedua jenis analisis, secara kualitatif dengan menggunakan pedoman telaah butir soal dan secara kuantitatif berdasarkan model Rasch dengan menggunakan program Bigsteps, dilakukan, maka akan dapat diketahui kualitas masing-masing butir soal dan kualitas perangkat tes secara keseluruhan.
Sementara itu, permasalahan yang diteliti meliputi: 1) Sejauh mana kesesuaian butir-butir soal perangkat tes PMB Mandiri STAIN Jurai Siwo Metro dengan kriteria-kriteria yang ada pada kartu telaah butir soal? 2) Bagaimana kualitas butir-butir soal perangkat tes PMB tersebut berdasarkan telaah kualitatif? 3) Bagaimana karakteristik internal butir soal perangkat tes PMB Mandiri STAIN Jurai Siwo Metro berdasarkan analisis dengan menggunakan program Bigsteps? 4) Bagaimana kualitas butir soal perangkat tes tersebut berdasarkan analisis dengan menggunakan program Bigsteps? dan 5) Bagaimana kemampuan peserta tes di dalam menjawab soal tes PMB tersebut?
Sesuai dengan masalah yang diteliti maka tujuan penelitian ini adalah untuk mengetahui karakteristik internal perangkat tes Penerimaan Mahasiswa Baru (PMB) Mandiri STAIN Jurai Siwo Metro tahun 2012 berdasarkan telaah kualitatif dan kuantitatif. Berdasarkan hasil analisis tersebut maka dapat ditentukan kategori kualitas perangkat tes PMB tersebut.
Penelitian ini dilaksanakan di STAIN Jurai Siwo Metro Lampung sebagai institusi penyelenggara tes Penerimaan Mahasiswa Baru (PMB) sekaligus sebagai pembuat perangkat tes yang akan dianalisis. Waktu yang dibutuhkan untuk melaksanakan penelitian ini adalah selama 3 (tiga) bulan yaitu dari bulan September – November 2012.
Penelitian ini adalah penelitian deskriptif kuantitatif sehingga hanya bersifat menjelaskan variabel tanpa berupaya mencari keterkaitan antar variabel. Variabel yang akan dijelaskan dalam penelitian ini adalah karakteristik internal butir soal tes dan kualitasnya. Butir soal akan dianalisis secara kualitatif dengan menggunakan pedoman telaah butir soal, dan secara kuantitatif berdasarkan model Rasch dengan menggunakan Program Bigsteps.
Populasi dalam penelitian ini adalah seluruh lembar jawaban peserta tes Penerimaan Mahasiswa Baru (PMB) Mandiri STAIN Jurai Siwo Metro tahun 2012 yaitu sebanyak 600 lembar. Sementara itu, sampel dalam penelitian ini adalah sebanyak 200 lembar jawaban peserta tes yang diambil secara acak dengan teknik Simple Random Sampling. Perangkat soal berjumlah 1 (satu) eksemplar dan akan dianalisis secara tersendiri. Teknik pengumpulan data yang digunakan adalah teknik dokumentasi.

B.     KAJIAN TEORI
1.        Analisis Butir Soal
Kementerian Pendidikan Kebudayaan Pemuda dan Olahraga melalui Pusisjian telah membuat pedoman penelaahan butir soal tes yang dapat digunakan untuk menilai butir soal pilihan ganda yang dikenal sebagai pedoman penelaahan butir soal. Adapun pedoman tersebut meliputi, pertama, aspek materi, yang terdiri dari 1) Soal sesuai dengan indikator, 2) Pengecoh sudah berfungsi, dan 3) Hanya ada satu kunci jawaban yang paling tepat. Yang kedua adalah aspek konstruksi, yang terdiri dari 1)Pokok soal dirumuskan dengan singkat, jelas, dan tegas, 2) Pokok soal tidak memberi petunjuk kunci jawaban, 3) Pokok soal bebas dari pernyataan yang bersifat negatif ganda, 4) Gambar/grafik/tabel/diagram dan sejenisnya pada soal jelas dan berfungsi, 5) Pilihan jawaban homogen dan logis, 6) Panjang pilihan jawaban relatif sama, 7) Pilihan jawaban tidak menggunakan pernyataan yang berbunyi “Semua pilihan jawaban di atas salah” atau “Semua pilihan jawaban di atas benar”, 8) Pilihan jawaban yang berbentuk angka disusun berdasarkan urutan besar kecilnya, dan 9) Butir soal tidak bergantung pada jawaban sebelumnya. Yang ketiga adalah aspek bahasa, yang terdiri dari 1) Soal menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia, 2) Soal menggunakan bahasa yang komunikatif, 3) Soal tidak menggunakan bahasa yang berlaku setempat, dan 4) Pilihan jawaban tidak mengulang kata/ kelompok kata yang sama.
Selanjutnya, mengenai analisis butir soal secara kuantitatif. Di dalam pengukuran pendidikan dikenal dua macam pengukuran yaitu pengukuran klasik dan pengukuran modern. Penelitian ini lebih menekankan pada pengukran modern yang lebih dikenal dengan teori respons butir. Teori respons butir menelaah butir untuk menemukan ciri atau karakteristiknya. Setiap penelaahan berkenaan dengan satu butir sehingga di dalam uji tes dapat dilakukan banyak penelaahan yang masing-masing berkenaan dengan satu butir di dalam perangkat uji tes itu.[1]
Ciri butir di dalam analisis butir model teori respons butir dinyatakan dengan parameter a, b, dan c. Parameter a adalah ciri butir yang berkenaan dengan daya pembedaan yakni kemampuan butir untuk mempertegas perbedaan di antara peserta yang dapat dan peserta yang tidak dapat menjawab butir itu dengan benar. Parameter b adalah ciri butir yang berkenaan dengan taraf kesukaran yakni sukar atau kurang sukarnya butir itu untuk dijawab oleh peserta. Sedangkan parameter c adalah ciri butir yang berkenaan dengan faktor kebetulan yang dapat menyebabkan peserta secara kebetulan menjawab butir itu dengan benar.

2.            Konsep Dasar dan Asumsi-asumsi dalam Model Teori Respons Butir

Teori Responsi Butir atau selanjutnya disingkat sebagai IRT (Item Respons Theory) berlandaskan pada dua postulat dasar: (a) performansi seorang peserta tes pada suatu butir soal dapat diprediksikan (atau diterangkan) oleh seperangkat faktor yang disebut sifat (trait), sifat laten (latent trait), atau kemampuan (ability); dan (b) hubungan antara performansi peserta tes pada suatu butir dan seperangkat sifat yang mendasari performansi tersebut dapat dideskripsikan oleh fungsi yang menaik secara monotonik yang disebut sebagai fungsi karakteristik butir (item characteristic function) atau kurva karakteristik butir (item characteristic curve/ICC). Fungsi ini menjelaskan bahwa seiring dengan meningkatnya level trait, peluang jawaban benar pada suatu butir soal akan meningkat pula.
Bila suatu model respon teori sesuai dengan data tes, sejumlah ciri/karakteristik yang dikehendaki dapat diperoleh. Estimasi kemampuan peserta tes tidak tergantung pada peserta tes, dan indeks butir soal tidak tergantung pada kelompok. Estimasi kemampuan yang diperoleh dari perangkat butir soal yang berbeda akan sama (kecuali untuk kesalahan pengukuran), dan estimasi parameter butir yang diperoleh dari kelompok peserta tes yang berbeda juga akan sama (kecuali untuk kesalahan pengukuran). Pada teori responsi butir, parameter butir dan kemampuan dikatakan invarian.[2]
Satu asumsi yang umum pada model IRT dan paling banyak digunakan adalah bahwa hanya satu macam kemampuan yang diukur oleh butir-butir soal yang tercakup dalam tes. Asumsi ini disebut asumsi unidimensionalitas. Satu konsep yang terkait dengan unidimensionalitas adalah konsep independensi lokal. Asumsi lain yang dibuat pada seluruh model IRT adalah bahwa fungsi karakteristik butir yang dijelaskan merefleksikan hubungan sebenarnya pada variabel-variabel yang tidak dapat diamati (kemampuan) dan variabel-variabel yang dapat diamati (responsi butir). Asumsi-asumsi yang lainnya adalah mengenai karakteristik-karakteristik butir yang relevan dengan performansi peserta tes pada satu butir. Tiga model yang paling populer dalam model-model unidimensional IRT adalah model logistik satu-, dua-, dan tiga- parameter.[3]

5.  Tes Penerimaan Mahasiswa Baru (PMB)  STAIN Metro Tahun 2012 sebagai Alat Seleksi

Ketika sebuah institusi menggunakan sebuah prosedur asesmen untuk seleksi mahasiswa barunya, sangatlah penting untuk menunjukkan bahwa hasil yang dicapai oleh calon mahasiswa peserta tes berkaitan erat dengan potensi keberhasilannya dalam suatu program pendidikan, untuk tujuan itulah institusi menyelenggarakan tes. Jika data institusi tidak menunjukkan bahwa hasil asesmen ini dapat secara efektif membedakan calon mahasiswa yang berpotensi berhasil dengan yang tidak, maka prosedur asesmen ini harus diperbaiki atau dihilangkan. Menjadi sesuatu yang ilegal ketika prosedur asesmen yang tidak bisa menunjukkan hubungannya dengan potensi keberhasilan seseorang masih terus dipergunakan.
Meskipun demikian, keputusan seleksi tidak kemudian harus menjadi sesuatu yang sangat sempurna, dan hasil asesmen tidak dapat diharapkan memiliki validitas yang sempurna bagi suatu keputusan seleksi. Sejumlah pendaftar yang diterima bisa jadi berhasil ke depannya; yang lainnya, meskipun diterima, tetapi tidak berhasil dalam proses pendidikannya. Oleh karena itu, asesmen dapat dievaluasi dalam hal konsekuensi yang ditimbulkan ketika menggunakannya.
Di STAIN Jurai Siwo Metro, seleksi penerimaan tersebut dilaksanakan melalui tes PMB (Penerimaan Mahasiswa Baru), yang pada tahun ini dilaksanakan melalui dua jalur tes: tes PMB jalur on line dan mandiri. Tes PMB jalur on line hanya dilaksanakan melalui tes tertulis, sedangkan jalur mandiri dilaksanakan melalui tes tertulis dan lisan (baca Al Qur’an). Jumlah pendaftar untuk jalur on line sebanyak 1648 orang dan jalur mandiri sebanyak 645 orang. Sementara itu, dari 645 orang yang mendaftar melalui jalur mandiri, hanya 600 orang yang mengikuti tes.[4]
Pada penelitian ini yang dianalisis adalah perangkat tes tertulis PMB Mandiri yang terdiri dari 120 butir soal dengan 4 opsi, mencakup 4 bidang; Pengetahuan Umum, Agama Islam, Bahasa Arab, dan Bahasa Inggris. Dengan demikian, masing-masing bidang terdiri dari 30 butir soal.

C. HASIL PENELITIAN DAN PEMBAHASAN

1.      Hasil Analisis Butir Soal secara Kualitatif
Secara keseluruhan jumlah butir soal yang ditolak pada aspek materi adalah sebanyak 39 butir soal atau 32,4999% dari jumlah total soal. Demikian pula untuk soal-soal yang perlu direvisi dipilah lagi menurut aspek konstruksi dan bahasa pada pedoman telaah butir soal. Oleh karena butir-butir soal yang tidak memenuhi salah satu kriteria pada aspek materi, yang merupakan aspek yang mencakup substansi pada soal, dianggap sebagai soal yang tidak baik sehingga ditolak, maka butir-butir soal yang direvisi hanya dikategorikan menurut aspek konstruksi dan bahasa yang merupakan aspek administratif pada soal.
Soal yang harus direvisi pada aspek konstruksi berjumlah 32 butir (26,667%). Pada bidang Pengetahuan Umum, jumlah soal yang harus direvisi sebanyak 11 butir atau 9,166%. Pada bidang Pendidikan Agama Islam jumlah soal yang harus direvisi sebanyak 10 butir (8,333%). Pada bidang Bahasa Arab jumlah soal yang harus direvisi sebanyak 5 butir (4,166%) dan pada bidang Bahasa Inggris jumlah soal yang harus direvisi sebanyak 6 butir (5%).
Jumlah soal yang harus direvisi pada aspek bahasa adalah sebanyak 20 butir (16,667%). Pada bidang Pengetahuan Umum soal yang harus direvisi berjumlah 5 butir (4,166%). Pada bidang Pendidikan Agama Islam soal yang harus direvisi berjumlah 8 butir (6,666%). Pada bidang Bahasa Arab soal yang harus direvisi berjumlah 4 butir (3,333%) dan pada bidang Bahasa Inggris soal yang harus direvisi berjumla 3 butir (2,5%).
Selanjutnya, dilihat bahwa secara keseluruhan ada 64 butir soal atau 53,333% dari jumlah total butir soal yang baik atau diterima karena memenuhi seluruh kriteria pedoman penelaahan butir soal. Sementara itu, butir soal yang cukup baik atau perlu direvisi secara keseluruhan berjumlah 14 butir atau 11,667% dan butir soal yang tidak baik atau ditolak berjumlah 42 butir atau 35% dari keseluruhan jumlah soal. Ini berarti sebagian besar soal termasuk dalam kategori soal yang baik atau diterima. Sementara itu, adanya soal-soal yang perlu direvisi menunjukkan bahwa pada soal-soal tersebut ada salah satu kriteria atau lebih pada aspek konstruksi atau bahasa yang tidak terpenuhi. Dengan demikian dosen sebagai pembuat perangkat tes harus memperbaiki soal-soal tersebut jika ingin mempergunakannya kembali pada pelaksanaan tes-tes di masa mendatang. Soal yang tidak baik berarti tidak memenuhi salah satu kriteria atau lebih pada aspek materi. Bisa juga karena kunci jawabannya salah, lebih dari tiga kriteria pada aspek konstruksi tidak terpenuhi, atau lebih dari satu kriteria pada aspek bahasa yang salah.
Dari uraian di atas dapat dilihat bahwa pada hampir seluruh perangkat tes ada butir-butir soal yang tidak memenuhi salah satu atau lebih dari ketiga kriteria pada aspek materi, sedangkan pada aspek konstruksi hanya beberapa kriteria saja yang tidak dipenuhi oleh butir-butir soal. Dengan demikian ada beberapa kriteria di mana tidak ada butir soal yang tidak memenuhinya. Pada aspek konstruksi ini hanya pada kriteria 4 (pokok soal dirumuskan dengan singkat, jelas, dan tegas), kriteria 5 (pokok soak tidak memberi petunjuk kunci jawaban), kriteria 8 (pilihan jawaban homogen dan logis), dan kriteria 9 (panjang pilihan jawaban relatif sama) di mana ada butir-butir soal yang tidak sesuai. Sementara itu, pada kriteria 6 (pokok soal bebas dari pernyataan yang bersifat negatif ganda), kriteria 7 (gambar/grafik/tabel/diagram dan sejenisnya pada soal jelas dan berfungsi), kriteria 10 (pilihan jawaban tidak menggunakan pernyataan yang berbunyi “Semua pilihan jawaban di atas salah” atau “Semua pilihan jawaban di atas benar”), kriteria 11 (pilihan jawaban yang berbentuk angka disusun berdasarkan urutan besar kecilnya), dan kriteria 12 (butir soal tidak bergantung pada jawaban sebelumnya) tidak ada satu butir soal pun yang tidak sesuai.
Pada aspek bahasa, dari keempat kriterianya, ada tiga kriteria di mana ada sejumlah butir soal yang tidak sesuai yaitu pada kriteria 13 (soal menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia/Arab/Inggris), kriteria 14 (soal menggunakan bahasa yang komunikatif), dan kriteria 16 (pilihan jawaban tidak mengulang kata/kelompok kata yang sama). Sedangkan pada kriteria 15 (soal menggunakan bahasa yang berlaku setempat) tidak ada satu butir soal pun yang tidak sesuai.
Selanjutnya, berdasarkan hasil olah data dapat diketahui bahwa seluruh butir soal tidak dapat dikatakan sesuai dengan indikator atau representatif dalam mewakili materi yang diujikan atau tidak, karena kenyataan di lapangan ditemukan bahwa pembuatan perangkat tes tidak berdasarkan kisi-kisi yang sudah disepakati tim. Dengan kata lain, tidak ada kisi-kisi tes yang jelas dan sistematis sebagai pedoman pembuatan soal, sehingga tidak bisa disimpulkan validitas isi dan validitas konstruk perangkat tes.
Sementara itu, ada tiga kategori untuk mengelompokkan butir-butir soal pada seluruh perangkat tes. Kategori pertama adalah butir soal yang baik atau diterima, yaitu butir soal yang memenuhi seluruh kriteria pada pedoman telaah butir soal. Kategori kedua adalah butir soal yang cukup baik, berarti diterima tetapi harus direvisi, yaitu butir soal yang memenuhi hampir seluruh kriteria yang ada tetapi ada satu atau sebanyak-banyaknya tiga kriteria pada aspek konstruksi, sebanyak-banyaknya satu kriteria pada aspek bahasa yang tidak sesuai dengan kaidah yang telah ditentukan. Untuk butir soal yang kunci jawabannya salah dan atau tidak memenuhi salah satu kriteria pada aspek materi, lebih dari tiga kriteria pada aspek konstruksi, dan atau lebih dari satu kriteria pada aspek bahasa yang tidak sesuai dengan kaidah yang telah ditentukan dimasukkan ke dalam kategori ketiga, yaitu butir soal yang tidak baik atau ditolak.  
Sebagian besar butir soal, yaitu sebanyak 64 butir soal atau 53,333% termasuk dalam kategori soal yang baik atau diterima sehingga dapat digunakan kembali untuk pelaksanaan tes-tes pada masa mendatang. Sebagian soal lagi, yaitu sebanyak 14 butir soal atau 11,667% dari jumlah keseluruhan butir soal, termasuk dalam kategori soal yang cukup baik sehingga membutuhkan revisi untuk dapat digunakan kembali dan sebanyak 42 butir soal atau 35% termasuk dalam kategori soal yang tidak baik atau ditolak sehingga harus diganti.
Selanjutnya, hasil telaah butir soal secara kualitatif ini juga digunakan untuk mengetahui validitas isi seluruh perangkat tes atau representatif tidaknya perangkat tes dalam mencakup materi yang harus diujikan. Butir soal yang sesuai dengan indikator dianggap representatif dalam mewakili materi yang diajarkan, sehingga untuk mengetahui validitas isi dari masing-masing perangkat tes perlu diketahui jumlah butir soal yang sesuai dengan indikator.
Dari hasil penelitian dapat diketahui bahwa tidak ada butir soal yang bisa dilihat apakah sesuai indikator atau tidak, karena tidak terdapat kisi-kisi penulisan perangkat tes yang disusun oleh tim dan disepakati sebagai panduan dalam membuat butir soal. Dengan demikian secara keseluruhan validitas isi dan konstruk perangkat tes tidak dapat dipastikan apakah termasuk dalam kategori baik atau kurang baik.

2.      Hasil Analisis Butir Soal secara Kuantitatif
Analisis butir soal secara kuantitatif dilakukan dengan menggunakan program Bigsteps, yaitu analisis yang didasarkan pada model logistik satu parameter, dalam hal ini model Rasch. Analisis ini dilakukan untuk mengetahui karakteristik internal masing-masing butir soal. Adapun hasil-hasil analisis data yang dilakukan ditampilkan pada bagian berikut ini.
Output analisis butir soal dengan program ini meliputi berbagai informasi yang berkaitan dengan skor yang diperoleh, estimasi tingkat kemampuan peserta tes, estimasi tingkat kesukaran butir soal dalam bentuk skala baku, indeks kesalahan pengukuran, kecocokan data dengan model, korelasi daya pembeda, serta berbagai informasi yang berkaitan dengan butir soal dan responden.
Komponen pertama yang biasanya dibahas adalah statistik skor tes. Yang kedua, kecocokan butir soal dengan model. Butir soal dikatakan cocok dengan model apabila butir soal tersebut berperilaku secara konsisten dengan apa yang diharapkan oleh model, yakni memiliki nilai outfit < 2,00 dan daya pembedanya (point biserial) positif. Sementara itu, butir soal tidak cocok dengan model apabila nilai outfitnya > 2,00 dan daya pembedanya negatif. Yang ketiga, estimasi tingkat kesukaran. Tingkat kesukaran dalam model Rasch adalah parameter utama yang menjadi fokus analisis, selanjutnya tingkat kesukaran tersebut dinyatakan dalam skala logits (log-odd-units). Butir-butir soal yang dianalisis berdasarkan pendekatan Teori Respons Butir dengan menggunakan program Bigsteps versi 2.30 dikelompokkan dalam tiga kategori: butir soal berkategori sukar (p > +2,00), butir soal berkategori sedang (p -2,00 s.d. +2,00), dan butir soal berkategori mudah (p < -2,00).
Yang keempat, daya pembeda. Pada  pendekatan model Rasch, suatu butir soal dikatakan memiliki daya pembeda yang baik apabila point biserialnya (ptbis) positif, sedangkan butir soal dikatakan memiliki daya beda yang buruk apabila point biserialnya negatif. Selanjutnya, distribusi jawaban berdasarkan berfungsi tidaknya distraktor. Suatu pengecoh dapat dikatakan sudah berfungsi apabila pengecoh tersebut dipilih oleh 5% atau lebih peserta tes. Sementara itu suatu pengecoh dianggap belum berfungsi apabila pengecoh tersebut dipilih oleh kurang dari 5% peserta tes.
Yang terakhir, kualitas butir soal. Berdasarkan pendekatan teori respon butir model logistik satu parameter, kualitas butir soal dikategorikan baik, cukup baik, dan tidak baik dengan ketentuan sebagai berikut:
1)      Baik, apabila butir cocok dengan model dan parameter tingkat kesukaran –2,00<bi<2 o:p="">
2)      Cukup baik, apabila butir cocok dengan model dan tingkat kesukaran bi<-2 atau="" i="">bi
>2,00
3)      Tidak baik, apabila butir tidak cocok dengan model.

Dari hasil penelitian dapat dilihat bahwa butir-butir soal dari perangkat tes memiliki tingkat kesukaran dengan rerata tingkat kesukaran 0,00 yang berarti sebagian besar soal berada pada kategori sedang. Sementara itu, tingkat kemampuan peserta berada di bawah rata-rata atau lebih kecil dari 0,00, yaitu -1,08.
Selanjutnya, rerata kesalahan estimasi pada perangkat tes memiliki nilai yang cukup kecil, yaitu 0,25 untuk butir dan 0,23 untuk peserta. Nilai tersebut menunjukkan kesalahan estimasi cukup kecil, yang berarti nilai hasil estimasi parameter butir soal maupun parameter kemampuan peserta cukup cermat. Keadaan ini menunjukkan bahwa kecocokan data yang diperoleh dengan model Rasch cukup baik, karena data cocok dengan model yang dipilih, maka varians nilai parameter akan kecil dan estimasi parameter butir soal cukup cermat. Keadaan tersebut juga didukung oleh nilai-nilai deviasi standar kesalahan estimasi yang cukup kecil, rata-rata berada di bawah 0,2 untuk butir dan peserta.
Secara keseluruhan sebagian besar butir soal yang tercakup dalam  perangkat tes, yaitu 120 butir, dikategorikan sebagai butir soal yang cocok dengan model atau diterima oleh model, yaitu sebanyak 107 butir soal atau 89,167%. Sementara itu, hanya 13 butir soal atau 10,833% yang tidak cocok dengan model atau ditolak oleh model. Ini berarti sebagian besar butir soal berperilaku secara konsisten dengan apa yang diharapkan oleh model, yaitu memiliki nilai outfit <2 dan="" daya="" i="" pembedanya="">point biserial
) positif.
Butir-butir soal yang cocok dengan model menunjukkan bahwa butir-butir soal ini dijawab dengan benar oleh peserta yang tingkat kemampuannya sesuai atau lebih tinggi dari tingkat kesukaran butir soal dan dijawab salah oleh peserta yang kemampuannya sesuai atau lebih rendah dari tingkat kesukaran butir soal. Butir soal yang tidak cocok dengan model menunjukkan bahwa butir soal tersebut tidak berfungsi sebagimana mestinya, hal ini disebabkan oleh konstruksi soal yang jelek, kesalahan kunci jawaban, atau berkaitan dengan kebenaran isi soal. Kenyataan di lapangan menunjukkan banyaknya kendala bagi para dosen selaku penyusun perangkat tes antara lain waktu penyusunan tes yang terlalu singkat dan kurangnya pengetahuan mengenai pengukuran.
Dilihat dari tingkat kesukarannya, terdapat 8 butir soal (6,667%) termasuk dalam kategori mudah, 89 butir soal (74,167%) termasuk dalam kategori sedang, dan 23 butir soal (19,166%) termasuk dalam kategori sukar.
Rincian butir soal yang memiliki daya pembeda yang baik dan butir soal yang memiliki daya pembeda yang tidak baik dapat dilihat pada tabel 12, yaitu tabel yang menampilkan butir soal yang cocok dengan model dan yang tidak cocok dengan model. Hal ini disebabkan butir soal yang memiliki daya pembeda yang tidak baik adalah butir soal yang tidak cocok dengan model pula, atau memiliki point biserial negatif sesuai dengan hasil analisis tahap pertama. Butir soal yang cocok dengan model ternyata juga ada yang memiliki daya pembeda yang tidak baik pula. Sebanyak 59 butir soal atau 49,166% memiliki daya pembeda yang baik dan 61 butir atau 50,834% memiliki daya pembeda yang tidak baik. Dengan demikian dapat disimpulkan bahwa tidak sampai separuh jumlah butir soalnya memiliki daya pembeda yang baik, yaitu dapat membedakan peserta yang memiliki kemampuan tinggi dengan peserta yang memiliki kemampuan rendah.
Sebagian besar soal pada seluruh perangkat tes memiliki satu atau lebih distraktor yang belum berfungsi. Secara keseluruhan, hanya 50 (13,20%) butir soal yang memiliki distraktor yang dapat dikatakan sudah berfungsi dengan baik, yaitu distraktor yang dipilih oleh 5% peserta atau lebih, sementara sebanyak 70 butir soal (58,333%) memiliki distraktor yang belum berfungsi dengan baik, atau hanya dipilih oleh kurang dari 5% peserta. Ini menandakan distraktor yang dibuat masih banyak yang belum dapat mengecoh peserta tes, bahkan pada beberapa nomor ada sejumlah distraktor yang sama sekali tidak dipilih oleh peserta tes.

3.      Kualitas Perangkat Tes Berdasarkan Telaah Kualitatif dan Kuantitatif

Berdasarkan telaah butir soal secara kualitatif dengan menggunakan pedoman analisis butir soal, jumlah butir soal tidak baik adalah 42 butir (35%) sehingga kualitas perangkat tes secara keseluruhan berada pada kategori kurang baik, karena jumlah butir soal tidak baik yang berada di atas level 30%. Selanjutnya, berbeda dengan hasil analisis berdasarkan telaah kualitatif, hasil analisis kuantitatif dengan program Bigsteps menunjukkan bahwa jumlah butir soal tidak baik adalah 13 butir atau 10,833%, cukup baik 18 butir atau 15%, dan baik 89 butir atau 74,167%. Dengan melihat jumlah butir soal tidak baik yang hanya 10,833% dapat dikatakan bahwa kualitas perangkat tes secara keseluruhan berada pada kategori baik.
D. Simpulan
Analisis terhadap suatu perangkat tes meliputi dua cara: kualitatif dan kuantitatif. Secara kualitatif, semestinya perangkat tes dianalisis sebelum diujikan dengan menggunakan pedoman telaah butir soal, berdasarkan tinjauan aspek materi, konstruksi, dan bahasa. Meskipun demikian, pada penelitian ini, analisis atau telaah secara kualitatif dilakukan setelah tes diujikan. Yang membuat telaah secara kualitatif menjadi kurang fokus adalah, meskipun perangkat tes ini adalah perangkat tes PMB yang nota bene berfungsi sebagai alat seleksi untuk memperoleh input mahasiswa baru yang cukup berkualitas, tes ini tidak memiliki kisi-kisi tes yang jelas dan sistematis.
Hasil analisis secara kualitatif menunjukkan bahwa sudah lebih dari 50% butir soal termasuk dalam kategori baik, sehingga dapat digunakan kembali jika dikehendaki. Sejumlah soal perlu direvisi pada aspek konstruksi dan bahasa sehingga termasuk dalam kategori cukup baik. Meskipun demikian, karena jumlah butir soal tidak baik melebihi level 30%, yaitu sebanyak 42 butir atau 35%, maka perangkat tes ini secara kualitatif berada pada kategori kurang baik.
Sebaliknya, hasil telaah kuantitatif berdasarkan Model Rasch dengan menggunakan Program Bigsteps menunjukkan bahwa tes ini termasuk dalam kategori baik, karena jumlah butir soal tidak baik hanya berjumlah 13 butir atau 10,833%. Sebagian besar distraktor atau pengecoh juga belum berfungsi karena dipilih oleh kurang dari 5% peserta, atau bahkan tidak dipilih sama sekali. Dari kriteria tingkat kesukaran, sebagian besar butir soal termasuk dalam kategori sedang, berarti sesuai dengan yang semestinya.
Sementara itu, dari kriteria daya beda soal, tes ini masih belum sesuai dengan yang seharusnya, karena hanya separuh dari jumlah seluruh butir soal yang memiliki daya beda baik, sedangkan separuhnya lagi memiliki daya beda yang tidak baik, atau tidak mampu membedakan mana peserta tes yang menguasai bahan dan mana yang tidak. Kemampuan peserta tes termasuk rendah, karena rerata tingkat kemampuan peserta di bawah 0.0 menurut kriteria model Rasch, atau negatif.

REFERENSI


Allen, M.J. & Yen, W.M. 1979, Introduction to Measurement Theory, Monterey: Brooks/Cole Publishing Company.

Bachman, L. F. 1990. Fundamental Considerations in Language Testing. Oxford: Oxford University Press.

Hambleton, Ronald K., et. al. 1991. Fundamentals of Item Response Theory. California: Sage Publication.

Hayat, Bahrul. 1994. Pengantar Model Rasch. Jakarta: Depdikbud Balitbang Puslitbang Sisjian.

Hughes, Arthur. 2002. Testing for Language Teachers. United Kingdom: Cambridge University Press.

http://www. stainmetro. co. id. 2012.

Mehrens, William A. & Lehmann, Irvin J. 1973. Measurement and Evaluation in Education and Psychology. New York: Holt, Rinehart and Winston, Inc.

Naga, Dali S. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan. Jakarta: Gunadarma.

Rochmat. 2009. Kualitas Tes Ulangan Umum Mata Pelajaran Fisika Buatan Guru SMA Negeri di Kota Yogyakarta, Universitas Negeri Yogyakarta: tesis.

Thorndike, R. L. & Hagen, E. P. 1955. Measurement and Evaluation in Psychology and Education. New York: John Wiley & Sons, Inc.