Bilgisayarlı Uyarlanabilir Yetenek Ölçümü — Bölüm I (1976)

Dr. David J. Weiss
Psikoloji Profesörü
University of Minnesota
Minneapolis, MN 55414

“Araştırma deneyimlerimiz, bilgisayar sisteminin kendi özelliklerinin, özellikle sınama sırasında test edilen kişinin psikolojik durumu üzerindeki etkisi bakımından, sınama ortamının önemli bir bileşeni hâline gelebileceğini göstermiştir.”

I. Dünya Savaşı sırasında geliştirilen kâğıt-kalem, çoktan seçmeli yetenek testi yaygın olarak kullanılmıştır. Son yarım yüzyıl boyunca, I. Dünya Savaşı’nda kullanılan Army Alpha Examination’a benzer, grup halinde uygulanan yetenek testlerinden elde edilen puanlara dayanarak milyonlarca kadın ve erkek sınıflandırılmış, görevlendirilmiş, eğitilmiş ve pek çok meslek ve görevde terfi ettirilmiştir. Aynı yarım yüzyıl boyunca, bu testler psikolojik ölçme alanındaki bir dizi ilerleme sayesinde sürekli olarak iyileştirilmiştir.

Grup Halinde Uygulanan Yetenek Testi

Grup halinde uygulanan yetenek testi, Birinci Dünya Savaşı için personelimizi seferber etmek amacıyla büyük erkek gruplarını sınıflandırma gerekliliğinden doğan bir uzlaşmaydı. Bundan önce, yetenek testleri Alfred Binet’nin zekâ testine dayalı modeline dayanıyordu; bu modelde test, eğitimli bir psikolog tarafından her bir test edilen kişiye bireysel olarak uygulanıyordu. Psikoloğun yönlendirmesi altında, test edilen kişi, önceden normlanmış bir dizi sorudan geçirilir ve sorular kendisi için fazla zor hâle gelene kadar bu süreç sürerdi. İnceleyici, test edilen kişinin artık çok zor olan bir madde kümesine ulaştığından emin olduğunda, test sonlandırılırdı.

Alfred Binet’nin Yaklaşımı

Binet’nin yaklaşımının üç temel özelliği vardı:

Her birey için test, inceleyicinin sahip olduğu önceki bilgilere dayanarak tahmin edilen yetenek düzeyine uygun bir soru kümesiyle başlatılırdı.
Test sorularının zorlukları bireyin yetenek düzeyine uyarlanırdı; test, birey için çok kolay olan (yani hepsini doğru yanıtladığı) soru kümesi ile çok zor olan soru kümesi arasındaki zorluk aralığında yoğunlaştırılırdı.
Her bireye uygulanan soru sayısı, test edilen kişinin yetenek düzeyini belirlemenin ne kadar sürdüğüne bağlıydı; gerek duyulduğu sürece test devam ederdi; bu da bazı kişiler için daha kısa, bazıları için ise daha uzun testler anlamına gelirdi.

Bu üç özellik, bireyselleştirilmiş ya da uyarlanabilir bir test yordamının temelini oluşturuyordu. Yani, her bir test edilen kişiye sunulan test maddelerinin zorlukları, daha önce uygulanan maddelere verdiği yanıtların doğruluğu ya da yanlışlığı gözlemlenerek elde edilen bilgilere dayanarak, onun yetenek düzeyine uyarlanır ya da ona göre ayarlanırdı.

İzin alınarak yeniden basılmıştır: Naval Research Reviews, Kasım 1975, Office of Naval Research tarafından yayımlanmıştır, Arlington, VA.

I. Dünya Savaşı, dünyanın görünümünü ve toplumsal yapılarımızı değiştirdiği gibi, psikolojik ölçmenin gidişatını da değiştirmiştir. Milyonlarca erkeği sınıflandırma yönündeki acil gereksinim ve bireysel testleri uygulayacak eğitimli psikologların yetersizliği, Binet’nin uyarlanabilir modelinin terk edilmesine ve grup halinde uygulanan, çoktan seçmeli, kâğıt-kalem yetenek testinin geliştirilmesine yol açmıştır. Binet’nin yaklaşımı klinik psikologlar arasında varlığını sürdürmüş olsa da, kâğıt-kalem, çoktan seçmeli test günümüzde yetenek ölçümünde zamanın yüzde 95’inden fazlasında kullanılmaktadır.

Grup halinde uygulanan, çoktan seçmeli, kâğıt-kalem testinin kullanımının artmasının nedeni, Henry Ford’un üretim hattı gibi verimli olmasıdır. Bir otomobil üreticisinin bir günde binlerce yeni otomobil üretebilmesi gibi, geleneksel çoktan seçmeli test de tek bir sınama oturumunda yüzlerce ya da binlerce kişiye uygulanabilir. Bu tür bir testin verimliliği, uygulamasının son derece standartlaştırılmış olmasından kaynaklanır. Tüm bireyler teste aynı maddeden başlar, maddeleri aynı sırayla ilerler ve ya aynı maddede ya da süre sınırına ulaşıldığında testi bitirir.

Başlıca Avantajların Kaybı

Ancak, bu yüksek düzeyde standardizasyon sağlanırken, geleneksel test Binet’nin uyarlanabilir test stratejisinin üç temel avantajını yitirir:

Teste başlama noktasını belirlemek için ön bilgiler kullanılmaz.
Maddeler, test edilen kişinin yetenek düzeyine uyarlanmaz.
Tüm bireyler aynı maddeleri yanıtlar.

Geleneksel grup testinde uyarlanabilir özelliklerin bu kaybı, test puanlarının doğruluğunda bir kayba yol açar. Psikometrik kuramda (örneğin, Hick, 1951; Lord, 1970) gösterilmiştir ki, belirli bir birey için en doğru ölçüm, test maddelerinin zorluklarının test edilen kişinin yetenek düzeyinde ya da ona yakın olduğu durumlarda elde edilir. Geleneksel bir testte, madde zorlukları genellikle testin tasarlandığı grubun ortalama yetenek düzeyi etrafında yoğunlaşır. Dolayısıyla, yetenek düzeyleri grup ortalamasına yakın olan bireyler için geleneksel test son derece doğru puanlar sağlayacaktır. Ancak, ortalamanın üzerinde ya da altında yetenek düzeylerine sahip bireyler için test puanları daha az doğru olacaktır; ve bireyin yeteneği grup ortalamasından ne kadar uzaksa, test puanı da o kadar az doğru olacaktır.

(Bkz. Şekil 1.)

Şekil 1

Yetenek düzeyinin bir fonksiyonu olarak geleneksel ve uyarlanabilir testlerin örnekleyici doğruluğu.

Buna karşılık, uyarlanabilir bir testte madde zorlukları, test edilen her bir bireyin yeteneğinde ya da ona yakın olacak biçimde özel olarak seçilir. Dolayısıyla, tüm yetenek düzeylerindeki bireyler için test puanları son derece doğru olacaktır. Bu ilişkinin neredeyse yatay doğası, bireyin yetenek düzeyi ne kadar yüksek ya da düşük olursa olsun, uyarlanabilir test puanlarında sürekli olarak yüksek bir doğruluk düzeyini göstermektedir.

Yüksek ve sabit bir doğruluk düzeyinin başlıca sonucu, uyarlanabilir testlerden elde edilen puanların, yetenek düzeyinden bağımsız olarak tüm bireyler için eşit derecede geçerli olma olasılığının yüksek olmasıdır. Yani, daha doğru ya da güvenilir puanlar, testin ölçmeyi amaçladığı yeteneği daha geçerli bir biçimde yansıtır; çünkü test puanlarında daha az hata vardır. Ve test puanı bir bireyin gerçek yetenek düzeyini ne kadar geçerli biçimde yansıtıyorsa, o birey hakkında yapılacak diğer önemli kestirimler için de o kadar yararlı ve doğru olacaktır. Buna karşılık, geleneksel testlerden elde edilen puanların doğruluğu değişkenlik gösterdiğinden, bu puanlar kestirim amaçlı geçerlilik ve yararlılık bakımından da farklılık gösterecektir.

Olumsuz Psikolojik Etkiler

Geleneksel testler, yapıları ve uygulanışları yalnızca ortalama yetenekteki sınananlara uygun olduğu için, sınananlar üzerinde olumsuz psikolojik etkiler de yaratma eğilimindedir. Test maddeleri kendisi için fazlasıyla zor olan düşük yetenekli bir sınanan, hayal kırıklığına uğrayabilir ve kaygı duyabilir; bunun sonucunda test performansı bozulabilir. Maddeler kendisi için fazlasıyla kolay olan yüksek yetenekli bir sınanan ise sıkılabilir ya da kapasitesinin tümünü kullanacak biçimde performans göstermeye yeterince motive olmayabilir. Hem hayal kırıklığı hem de sıkılma, test maddelerine uygunsuz yanıtlar verilmesine yol açabilir ve sınananın test puanı, yetenek düzeyinin doğru bir temsili olmayacaktır.

Buna karşılık, Binet test yordamında, madde zorluklarının test edilen kişinin yetenek düzeyine uyarlanması ve testin çok zor hâle geldiğinde sonlandırılması süreci, hayal kırıklığı ve sıkılmanın ortaya çıkmasını azaltabilir ve böylece bu olumsuz psikolojik tepkilerin test puanlarının doğruluğunu etkileme derecesini düşürebilir.

Dolayısıyla, hem psikometrik hem de psikolojik nedenlerle, Binet’nin uyarlanabilir test yordamı son derece yüksek ve tekdüze doğruluğa sahip test puanları üretir ve bu nedenle kestirim amaçları için de tekdüze biçimde yararlıdır. Ancak, Binet’nin yaklaşımı; test maddelerini uygulamak, yanıtların doğruluğunu değerlendirmek ve uygulanacak bir sonraki test maddesini seçmek için eğitimli bir psikolog gerektirir. Modern bilgisayar teknolojisi artık bu aynı işlevlerin etkileşimli bilgisayar sistemleri tarafından yerine getirilmesine olanak tanımaktadır. Bilgisayarlı uyarlanabilir test, Binet’nin yaklaşımının tüm avantajlarını korur ve buna, kâğıt-kalem, çoktan seçmeli testin sağladığının ötesinde bir verimlilik düzeyi ekler. Yirmi yıl sonra yazılacak bir test tarihi, bilgisayarların test sürecine uygulanmasının, I. Dünya Savaşı sırasında kâğıt-kalem testinin devreye girmesiyle ortaya çıkan psikolojik ölçmedeki yön değişikliğine benzer bir etki yarattığını pekâlâ gösterebilir.

Bilgisayarlı Testler

Aşağıda rapor edilen araştırma, bilgisayarlı testlere yönelik çeşitli yaklaşımların göreli üstünlüklerini değerlendirmek amacıyla başlatılmıştır. Araştırma, 1972 ortalarından bu yana Office of Naval Research bünyesindeki Personnel and Training Research Programs ile yapılan bir sözleşme kapsamında desteklenmektedir.

Test Ortamı

Çevrimiçi bilgisayar sistemlerinin kullanılabilirliği, yetenek testleri için yeni bir ortam ortaya çıkarmaktadır. Test kitapçığı ve cevap kâğıdı kullanmak yerine, sınava giren kişi artık bir katot ışınlı terminal (CRT) üzerinden test edilmektedir. CRT, bilgisayar sisteminin niteliğine ve fiziksel yakınlığa bağlı olarak ya doğrudan merkezi bir bilgisayara bağlıdır ya da telefon hatları aracılığıyla bağlanmaktadır.

Test maddeleri, CRT’nin televizyon benzeri ekranında sunulur. Her bir maddenin sunulmasının ardından, sınava giren kişi CRT klavyesi üzerinden bir yanıt yazarak cevap verir. CRT terminaline aşinalık eksikliğinin test sürecine müdahale etmemesini sağlamak amacıyla, her bir sınava giren kişiye CRT’nin ve daktilo tipi klavyesinin nasıl kullanılacağını öğretmek için bir dizi yönerge geliştirilmiştir. Bu öğretim dizisi, her birey için testlerin uygulanmasından önce bilgisayar tarafından yürütülmektedir. CRT üzerindeki her bir özel işlev tuşunu tanıtır, sınava giren kişiye yanıtların nasıl kaydedileceğini öğretir ve ardından CRT klavyesini kullanma konusunda alıştırma yaptırır. Eğer herhangi bir belirli yönergede üç denemeden sonra sınava giren kişi hâlâ bunu doğru biçimde yerine getiremiyorsa, CRT bir gözetmeni çağırır ve gözetmen öğrenciye yardımcı olur. Sınava giren kişi bu öğretim dizisini başarıyla tamamladıktan sonra bazı kişisel veriler elde edilir, gireceği test türü kendisine tanıtılır ve birkaç örnek soru verilir. Son olarak, tüm yönergeler tamamlandığında gerçek test başlatılır.

Beş Dakikalık Öğrenme

Bu öğretim dizisiyle ilgili deneyimimiz, sınava giren kişilerin çoğunun CRT donanımını beş dakika içinde kullanmayı öğrenebildiğini göstermektedir. Birkaç bin üniversite öğrencisi ve birkaç yüz lise öğrencisi bu sistem altında testlere girmiştir ve gözetmenin CRT’lerin kullanımını açıklamak zorunda kaldığı sınava girenlerin oranı yalnızca yaklaşık yüzde 2 olmuştur. Bu gözlemler, bilgisayarlı testlerde insan–makine arayüzü sorunlarının büyük olasılıkla asgari düzeyde olacağını, ancak yine de sistematik araştırmayı kesinlikle hak ettiğini düşündürmektedir.

Araştırma deneyimimiz, bilgisayar sisteminin kendisine ait özelliklerin, özellikle test sırasında sınava giren kişinin psikolojik durumu üzerindeki etkisi bakımından, test ortamının önemli bir bileşeni hâline gelebileceğini göstermiştir.

Büyük Ölçekli Zaman Paylaşımlı Sistemlerden Kaynaklanan Olumsuz Etkiler

Çevrimiçi test araştırmamıza başlangıçta, büyük bir zaman paylaşımlı bilgisayar sistemine akustik olarak bağlanmış CRT’leri kullanarak başladık. Bu sistem, Minnesota Üniversitesi tarafından eyalet genelinde çeşitli zaman paylaşımlı kullanıcı gruplarına eşzamanlı hizmet vermek üzere işletiliyordu. Bu sistemi iki yılı aşkın bir süre kullanma deneyimimiz, büyük ölçekli, çok amaçlı, zaman paylaşımlı bir sistemin bilgisayarlı uyarlanabilir testler için ideal bir araç olmadığını göstermektedir. Karşılaşılan başlıca sorunlardan biri, bilgisayara erişimin telefon hatları üzerinden sağlanması nedeniyle CRT’lerin görüntüleme hızının saniyede 30 karakterle sınırlı olmasıydı. Bu durum, bazıları yaklaşık 2.000 karakterlik bilgi içeren öğretim ekranlarımızın her birinin görüntülenmesi için bir dakikaya kadar süre gerekmesi anlamına geliyordu. Birçok öğrenci saniyede 30 karakterden çok daha hızlı okuyabildiği için, görüntünün yavaş hızından rahatsız oldukları gözlemlenmiştir.

Büyük ölçekli, zaman paylaşımlı sistemlerin ayırt edici bir özelliği gibi görünen ikinci bir sorun, sistemin sınava giren kişiye yanıt vermesinin (sistem yanıt süresi) sıklıkla uzun zaman almasıdır. En sık görülen sistem yanıt süresi genellikle 5 ile 10 saniye arasındaydı, ancak 30 ila 40 saniyelik yanıt süreleri de olağan dışı değildi. Bu süre boyunca sınava giren kişinin ekrana bakıp bir sonraki sorunun görünmesini beklemekten başka yapacak bir şeyi yoktu. Hayal kırıklığı ve bilgisayarlı testlere yönelik olumsuz duygular kaçınılmazdı.

Hem araştırma ekibini hem de sınava giren kişileri hayal kırıklığına uğratan üçüncü bir sorun ise, bilgisayar işlemlerinin dakikalardan saatlere uzanan süreler boyunca durmasına yol açan sık bilgisayar sistemi “çökmeleri”ydi. Bu çökmeler, bilgisayarlı test uygulamamızdan kaynaklanmayan bilgisayar arızalarıydı.

Bilgisayarlı testlere ilişkin gelecekteki araştırmalar için standartlaştırılmış bir test ortamı sağlamaya yönelik bir çaba olarak, araştırmanın erken dönemlerinde hem araştırma için yararlı olacak hem de nihayetinde operasyonel uyarlanabilir test sistemleri için bir prototip işlevi görecek alternatif bilgisayar sistemlerini incelemeye başladık. Özellikle, sınava giren kişi üzerindeki dışsal psikolojik etkileri en aza indirecek bir sistem geliştirmeye odaklandık; böylece kaygı, hayal kırıklığı ve teste girme motivasyonu gibi değişkenler üzerinde uyarlanabilir testin kendisinin görece saf etkilerini inceleyebilelim.

Minibilgisayarlar

Hızla büyüyen minibilgisayar alanı, problemimize bir çözüm sundu. Önde gelen birçok minibilgisayarı dikkatle inceledikten sonra, 1974 yazında bir Hewlett-Packard 9600E Gerçek Zamanlı sistemi teslim aldık. Bu sistem, saniyede 960 karakter görüntüleyen CRT’ler sağlamaktadır; bir ekran artık iki saniyede tamamen görüntülenmektedir. Sistem yanıt süresi 1/2 saniyeden daha azdır ve sınava giren kişinin bir sonraki sorunun görünmesini beklemesine artık gerek kalmamaktadır. Bilgisayar sistemi “çökmeleri” ise neredeyse tamamen ortadan kalkmıştır. Son bir avantaj olarak, artık sınava giren kişinin yanıt gecikmesini—her bir soruya yanıt vermeye karar verirken harcadığı süreyi—yeteneğin ölçülmesinde ya da kestirimlerde kullanılabilecek ek bilgi olarak doğru biçimde ölçebiliyoruz.

İyi test uygulamaları, testlerin dikkatle standartlaştırılmış bir ortamda uygulanmasını gerektirir. Deneyimimiz, bilgisayarlı test araştırma ve geliştirme çalışmalarının, insan–makine arayüzünün niteliğinin ve bilgisayar sisteminin özelliklerinin her bir sınava girenin puanları üzerindeki etkilerinin dikkatle denetlendiği bir test ortamıyla kolaylaştırılacağını göstermiştir.

Uyarlanabilir Test Stratejileri

Araştırmamızın büyük bölümü, uyarlanabilir test için önerilmiş çeşitli stratejilerin yararlılığını ve ölçme etkililiğini değerlendirmeye odaklanmıştır. Bu stratejilerin birçoğu diğer araştırmacılar tarafından önerilmiş, bazıları ise araştırma ekibimiz tarafından geliştirilmiştir. Her bir strateji, uygulanan maddelerin güçlük düzeyini sınava giren kişinin yetenek düzeyine uyarlamaya yönelik farklı bir yaklaşımı temsil eder. Bir test stratejisi, daha önce uygulanmış maddelere verilen yanıtların, bir sonraki uygulanacak madde ya da maddelerin seçilmesinde nasıl kullanılacağını belirleyen bir dizi kural ile tanımlanır. Stratejilerin bazıları probleme yönelik görece basit, mekanik yaklaşımlar iken, diğerleri araştırmanın başka alanlarından ödünç alınmış gelişmiş matematiksel ve istatistiksel yakınsama modellerine dayanmaktadır. Bu stratejilerin kapsamlı bir incelemesi Weiss (1974)’te bulunabilir.

Tabakalandırılmış Test Maddeleri Havuzu

Araştırma ekibimiz tarafından geliştirilen, bilgisayar aracılığıyla uygulanan bir uyarlanabilir test stratejisi, Binet’nin özgün test stratejisinin (Weiss, 1973) bir uyarlaması ve genişletilmesidir. Bu strateji, güçlük düzeylerine göre bölünmüş ya da tabakalandırılmış bir test maddeleri havuzunu gerektirir. Madde havuzunun her bir düzeyi ya da tabakası, maddelerin yaklaşık olarak aynı güçlük düzeyinde olduğu geleneksel bir test olarak düşünülebilir. Örneğin, tabaka 1, güçlükleri p = .89 ile p = .99 arasında olan (yani norm grubunun yüzde 89 ile yüzde 99’unun maddeleri doğru yanıtladığı) ve p = .94 çevresinde yoğunlaşmış çok kolay maddelerden oluşabilir. Güçlük açısından diğer uçta yer alan tabaka 9 ise, güçlükleri p = .06 çevresinde yoğunlaşmış ve p = .01 ile p = .11 arasında değişen 20 çok zor maddeden oluşabilir. Bu iki tabaka arasında, her biri yaklaşık 20 maddeden oluşan ve güçlük düzeyleri .83 ile .17 arasında, .11’lik adımlarla değişen yedi başka tabaka yer alır.

Tabakalandırılmış Uyarlanabilir Test

Bu şekilde yapılandırılmış bir madde havuzu verildiğinde, bir bireyin tabakalar arasında ilerletilmesine ilişkin süreç uyarlanabilirdir—bu nedenle tabakalandırılmış-uyarlanabilir ya da stradaptive test olarak adlandırılır. Binet’nin bireysel uyarlanabilir test stratejisine benzer biçimde, bir sınava girenin test almaya hangi tabakada başlayacağı, sınava giren kişi hakkında önceden var olan bilgilere dayanarak belirlenir. Bir sınava girenin yeteneğinin görece düşük olması bekleniyorsa—örneğin bireyin kendi yetenek tahminine dayanarak—test, kolay maddelerden oluşan tabaka 2 ya da tabaka 3’te başlayabilir. Eğer sınava girenin yeteneğinin yüksek olması bekleniyorsa, test tabaka 7 ya da 8’de (daha zor maddeler) başlayabilir. Test öncesinde yetenek tahminine dayanak oluşturacak hiçbir bilgi yoksa, test ortalama güçlükteki maddelerle başlatılabilir.

Şekil 2 (bkz. sayfa 17), gerçek bir stradaptive test uygulamasının kaydını göstermektedir. Uygulanan ilk madde, tabaka 5’te bulunan ve ortalama güçlükte olan ilk mevcut maddedir. Bu madde doğru yanıtlanmıştır (+). Bunun sonucunda, bir sonraki uygulanan madde daha zor bir madde olmuştur—tabaka 6’daki ilk madde. Bu madde de doğru yanıtlanmış ve sınava giren kişi daha zor bir maddeye, tabaka 7’deki ilk maddeye yönlendirilmiştir; bu madde de doğru yanıtlanmıştır. Bu sınava girene uygulanan dördüncü madde tabaka 8’dedir. Böylece, dört madde içinde sınava giren kişi ortalama güçlükteki bir maddeden (tabaka 5) zor bir maddeye (tabaka 8) ilerlemiştir. Uygulanan dördüncü madde kendisi için fazla zor olduğundan, bunu yanlış yanıtlamıştır (–). Sonuç olarak, beşinci maddesi için tabaka 7’ye geri indirilmiş ve bu tabakada mevcut olan ikinci maddeyi almıştır. Bu noktadan sonra, sınava giren kişi genellikle doğru yanıtlanan maddeler ile yanlış yanıtlanan maddeler arasında gidip gelmiştir. Binet’nin testine benzer biçimde, stradaptive test yalnızca sınava giren kişinin yetenek düzeyiyle ilgili maddeleri uygulamak üzere tasarlanmıştır.

Test ilerlerken, bilgisayar sınava giren kişinin her bir tabakada doğru yanıtladığı maddelerin oranını izler. Bu bilgi, testin ne zaman sonlandırılması gerektiğini belirlemek için kullanılır. Bir sonlandırma kuralı, bireyin tavan tabakasının belirlenmesi durumunda testin durdurulmasıdır. Tavan tabakası, bir bireyin tüm maddeleri yanlış yanıtladığı ya da (tahmin etmenin mümkün olduğu durumlarda) şans düzeyinden daha yüksek olmayan bir performans gösterdiği en az zor düzeydir. Bir tabakada en az beş madde uygulanması ve beş seçenekli çoktan seçmeli bir madde kullanılması koşuluyla, sınava giren kişi bu maddelerin yüzde 20’sini ya da daha azını doğru yanıtladığında test sonlandırılabilir. Şekil 2’de gösterilen sınava giren kişi için, tabaka 8’de beş madde uygulandıktan sonra hiçbir madde doğru yanıtlanmamış ve test sonlandırılmıştır. Bu birey için tabaka 8 tavan tabakasıdır (hiç doğru yok) ve tabaka 6 taban tabakasıdır (tüm maddeler doğru). Tabaka 7, sınava giren kişinin yetenek düzeyinin neredeyse en uygun ölçümünü sağlamıştır; çünkü bu tabakadaki maddelerin yüzde 56’sını doğru yanıtlamıştır. Bu sınava giren kişi için yetenek düzeyi yalnızca 20 madde kullanılarak belirlenmiştir.

Şekil 2. Tutarlı Bir Sınava Giren İçin Stradaptive Test Raporu

Yetenek Düzeyi Puanları

Doğru yanıtlanan en zor maddenin güçlüğü = 1.49
N+1’inci maddenin güçlüğü = 1.44
Şans dışı en zor doğru maddenin güçlüğü = 1.49
Doğru yanıt içeren en yüksek tabakanın güçlüğü = 1.33
N+1’inci tabakanın güçlüğü = 1.33
En yüksek şans dışı tabakanın güçlüğü = 1.33
Enterpole edilmiş tabaka güçlüğü = 1.37
Tüm doğru maddelerin ortalama güçlüğü = .88
Tavan ve taban tabakaları arasındaki doğru maddelerin ortalama güçlüğü = 1.28
En yüksek şans dışı tabakadaki doğru maddelerin ortalama güçlüğü = 1.28

Tutarlılık Puanları

Karşılaşılan madde güçlüklerinin SS’si = .59
Doğru yanıtlanan maddelerin güçlüklerinin SS’si = .46
Tavan ve taban tabakaları arasında doğru yanıtlanan maddelerin güçlüklerinin SS’si = .18
Tavan ve taban tabakaları arasındaki güçlük farkı = 1.36
Tavan ve taban tabakaları arasındaki tabaka sayısı = 1

İkinci Bir Sınava Giren

Şekil 3 (bkz. sayfa 18), yetenek düzeyi belirlenmeden önce 41 madde gerektiren bir sınava girenin stradaptive test kaydını göstermektedir. Bu sınava girenin yanıt kaydı, yetenek düzeyine ilişkin önceden yapılmış bir tahmine dayanarak tabaka 8’de başlamıştır. Tavan tabakası sonunda tabaka 8’de (bu tabakadaki maddelerin yalnızca yüzde 20’si doğru yanıtlanmıştır) belirlenmeden önce, tabaka 4 ile tabaka 9 arasında birkaç geniş salınım göstermektedir. Tavan tabakası ile tabaka 4 (taban tabakası) arasındaki tabakalarda, bu sınava giren kişi maddelerin yüzde 54 ile yüzde 67’sini doğru yanıtlamıştır. Kendisine uygulanan toplam madde sayısının yüzde 49’unu doğru yanıtlamıştır.

Şekil 2 ve 3, stradaptive testler için bir dizi farklı puanı göstermektedir. Uyarlanabilir testlerde, farklı bireylere farklı maddeler uygulanır ve ideal olarak herkes maddelerin yaklaşık yüzde 50’sini doğru yanıtlar. Bu nedenle, basit doğru sayısı ya da doğru oranına dayalı puanlar uygun değildir ve yetenek düzeyini tahmin etmek için yeni puanlama yöntemleri geliştirilmiş ve araştırmamız kapsamında incelenmektedir.

Stradaptive test, yetenek düzeyi puanlarına ek olarak, tutarlılık puanları olarak adlandırdığımız ölçümleri de sağlar. Bu puanlar, uygulanan maddelerin güçlük aralığını yansıtır ve belirli bir bireyin belirli bir madde havuzuyla ne kadar tutarlı etkileşimde bulunduğunu gösterir. Şekil 2 ve 3’ün karşılaştırılması, Şekil 2’deki test kaydının ölçümü yalnızca birkaç tabakada yoğunlaştırdığını, buna karşılık Şekil 3’teki kaydın daha tutarsız yanıtlar veren bir bireyi yansıttığını göstermektedir. Bu tutarlılık göstergelerinin, belirli bir birey için puanların güvenirliğiyle ilişkili olması gerektiğini varsaydık; bu, kâğıt-kalem testleriyle ölçülemeyen bir kavramdır.

Şekil 3. Tutarsız Bir Sınava Giren İçin Stradaptive Test Raporu

Yetenek Düzeyi Puanları

Doğru yanıtlanan en zor maddenin güçlüğü = 1.89
N+1’inci maddenin güçlüğü = 1.01
Şans dışı en zor doğru maddenin güçlüğü = 1.53
Doğru yanıt içeren en yüksek tabakanın güçlüğü = 2.01
N+1’inci tabakanın güçlüğü = 1.33
En yüksek şans dışı tabakanın güçlüğü = 1.33
Enterpole edilmiş tabaka güçlüğü = 1.36
Tüm doğru maddelerin ortalama güçlüğü = .72
Tavan ve taban tabakaları arasındaki doğru maddelerin ortalama güçlüğü = .76
En yüksek şans dışı tabakadaki doğru maddelerin ortalama güçlüğü = 1.24

Tutarlılık Puanları

Karşılaşılan madde güçlüklerinin SS’si = .86
Doğru yanıtlanan maddelerin güçlüklerinin SS’si = .74
Tavan ve taban tabakaları arasında doğru yanıtlanan maddelerin güçlüklerinin SS’si = .50
Tavan ve taban tabakaları arasındaki güçlük farkı = 2.64
Tavan ve taban tabakaları arasındaki tabaka sayısı = 3

Diğer Uyarlanabilir Test Stratejileri

Stradaptive test modelini incelemenin yanı sıra, diğer uyarlanabilir test stratejilerinin göreli üstünlüklerini de değerlendiriyoruz. Bu modellerden bazıları—stokastik süreç modelleri, Bayesyen kestirim modelleri ve en büyük olabilirlik modelleri gibi—modern matematik ve olasılık kuramının son derece gelişmiş uygulamalarını temsil eder. Diğerleri ise—iki aşamalı, piramidal ve esnek seviyeli modeller gibi—daha çok ilgili ölçme prosedürlerinin mantığına dayanır. Karşılaştırmalı değerlendirmemizin sonuçları, insan yeteneklerinin tüm aralığı boyunca son derece doğru ölçüm sağlamada en fazla umut vadeden stratejilere gelecekteki araştırma çabalarımızı sınırlamamıza olanak tanıyacaktır.

Bilgisayarlı uyarlanabilir testlerin personel seçimi, eğitim, sınıflandırma ve terfide en verimli biçimde uygulanabilmesi için yanıtlanması gereken pek çok soru vardır. Alanın yeniliği nedeniyle araştırma daha da karmaşık hale gelmektedir. 1973’ten önce bilgisayarlı testlerde neredeyse hiç canlı test araştırması yapılmamış olduğundan, çeşitli test stratejilerinin etkinliğini değerlendirmek için kendi yaklaşımımızı geliştirmek zorunda kaldık.

Test Stratejilerinin Test Edilmesi

Yaklaşık on temel uyarlanabilir test stratejisinin göreli etkinliğini karşılaştırmamıza olanak tanıyacak bir araştırma yaklaşımı geliştirmeye ek olarak, strateji içindeki çok sayıda varyasyonu da dikkate almak zorunda kaldık. Sonuç olarak, canlı test çalışmalarında (yani, test katılımcılarının gerçekten bilgisayarlı bir testi tamamladığı çalışmalar) bu özelliklerin tümünü sistematik olarak değiştirmek mümkün değildi.

Bu ikilemi çözmek için, araştırma programımız canlı testler ile bilgisayar simülasyonunun sistematik bir birleşimini kullanmaktadır. Önce belirli bir uyarlanabilir test oluşturuyoruz. Test daha sonra, geleneksel (uyarlanabilir olmayan) bir test ve/veya başka bir uyarlanabilir test türü ile birlikte, bir grup katılımcıya bilgisayar üzerinde uygulanıyor. Bu testler genellikle birkaç hafta sonra yeniden uygulanarak, farklı stratejilerden elde edilen test puanlarının kararlılığına ilişkin kestirimler elde ediliyor.

Canlı test çalışmalarından elde edilen veriler temel alınarak ve modern test kuramından (örneğin, Lord ve Novick, 1968) belirli varsayımlarla birlikte, daha sonra canlı katılımcılara uygulanan testlerin aynısını kullanan bir bilgisayar simülasyon modeli oluşturuyoruz; bu model, canlı testlerden elde edilenlere benzer sonuçlar vermektedir.

Bu bilgisayar simülasyon modeli, her bir test stratejisiyle ilişkili çok sayıda parametrenin değiştirilmesinin etkilerini hızlı bir şekilde değerlendirmek için kullanılabilir.

Bilgisayarı bu şekilde kullanarak, tam olarak tanımlanmış, varsayımsal bir testi bir ya da iki saniye içinde bir "katılımcıya" "uygular", testi puanlar ve bu süreci binlerce "test katılımcısı" için tekrarlarız.

Daha sonra test stratejisinin iç parametrelerini değiştirir ve değiştirilmiş testi başka bir büyük simüle edilmiş katılımcı örneklemine "uygularız".

Test Edilen Kişilerin Simülasyonu

Bu yaklaşımı kullanarak yalnızca testin özelliklerini sistematik olarak değiştirmekle kalmayız, aynı zamanda "test katılımcılarının" kendilerinin özelliklerini de değiştirebiliriz.

Bu yolla, belirli bir uyarlanabilir (ya da geleneksel) testin yüksek yetenekli, düşük yetenekli ya da söz konusu test için yeteneği uygun olmayan katılımcılarla nasıl çalışabileceğini belirleyebiliriz.

Ayrıca, simülasyon bilinen simüle edilmiş yeteneğe sahip çok büyük "katılımcı" gruplarını kullanmamıza olanak tanıdığı için, canlı test çalışmalarından elde edilemeyen ek ölçütleri kullanarak test sonuçlarını değerlendirebiliriz.

Simülasyon çalışmaları, bir strateji içindeki parametre varyasyonlarının en uygun görünen bir alt kümesini belirledikten sonra, bu sonuçların canlı testlerle doğrulanması gerekir.

Bunun nedeni, dallanma stratejisinin özellikleri ile simülasyon modeli arasında, sonuçların canlı katılımcıların nasıl davrandığını tam olarak temsil edebilmesi için modelde değişiklikler gerektirebilecek bir etkileşim bulunabilmesidir.

Bu süreç, simülasyonda en iyi sonuçları veren belirli uyarlanabilir testin canlı katılımcılara uygulanmasını içerir (lütfen 25. sayfaya bakınız).

Hırsızlık

Bir EFTS’den hırsızlık yapılması açık bir endişe kaynağıdır.

EFTS’de risk altındaki para miktarında, bugünkü sistemle karşılaştırıldığında en az birkaç mertebe büyüklüğünde bir değişim olduğunu unutmayın.

Bir banka soyguncusu, bir bankadan elinde bulunan nakitten fazlasını alamaz; aslında genellikle bir ya da iki veznedarın elinde bulunan miktarla sınırlıdır.

Sonuç olarak, ortalama bir banka soyguncusu bir işten 1.000 dolardan az kazanç sağlar; ancak EFTS ile çok, çok büyük miktarlara erişimi olurdu.

Hatta, olası bir hırsızın EFTS hattının sonunda nakit elde etmesi gerektiği bile açık değildir.

Örneğin, mal ve hizmet satın alabilir ya da çaldığı parayı birçok farklı hesapta biriktirebilir.

Buna karşılık, EFTS’nin gerçek avantajlarından biri, nakit taşıma gereksinimini azaltarak soygun ve kişiye yönelik şiddet olaylarının görülme sıklığını düşürmesidir.

Ayrıca, çekler posta kutularından çalınamaz.

Kaybolan Mevduatlar

Sistemin zaman sabitlerinde de en az üç mertebe büyüklüğünde bir değişim vardır.

Bu gerçek bir fark yaratabilir.

Diyelim ki bankanız yatırdığınız bir mevduatı kaybetti.