Konuşulan İngilizcenin Yazılı Sözcüklere Dönüştürülmesi (1956)

Yakın zamanda Computers and Automation dergisinde (Aralık 1955 Editör Notlarında) konuşulan İngilizcenin doğru yazımlı İngilizce sözcüklere dönüştürülmesi sorununa değinmiştik. Bu sorun iki bölümden oluşur:

Bölüm 1, konuşulan seslerin tanınması ve bunların, "cup" sözcüğündeki "p", "sing" sözcüğündeki "ng", "very" sözcüğündeki "eh" ve "vary" sözcüğündeki daha uzun "eh" gibi anlam taşıyan sesler olan İngilizce fonemler olarak yazıya geçirilmesinden oluşur.
Bölüm 2, fonem kümelerinin doğru yazımlı İngilizce sözcüklere dönüştürülmesinden oluşur.

Sorunun 1. bölümü, Massachusetts Institute of Technology’de Dil Bölümü başkanı ve Scientific American dergisinin Ocak 1956 sayısında yayımlanan "Translation by Machine" makalesinin yazarı olan Profesör William N. Locke’un yönetimi altında ele alınmaktadır. Çalışma, M.I.T.’nin Akustik Laboratuvarında Dr. Morris Halle ve George W. Hughes tarafından yürütülmektedir.

Yaklaşık iki yıl önce, ünlüler ile ünsüzleri ayırt eden ve zamanın yaklaşık %95’inde başarılı olan bir prototip makine tamamlandı; makineye, yalnızca ünsüzlerle konuşan bir çizgi roman karakterinin adından esinlenilerek Grundoon adı verildi. Grundoon’un bir cümleye ilişkin osiloskop raporuna bakıldığında, bir ünlü taban çizgisinin üstünde ve altında büyük bir dalga kümesi olarak görülürken, bir ünsüz taban çizgisinden hiçbir sapma göstermez; ya da bir anahtara bağlı olarak bunun tersi olur.

Ocak 1956’da F, SH ve S ünsüz sesleri elektronik donanım kullanılarak başarıyla ayırt edildi. Ayrım, ünsüzün telaffuzu sırasında ortaya çıkan, çeşitli ses frekanslarındaki enerji desenlerindeki ayırt edici farklılıklara dayanır. Bunların makineyle ayırt edilmesine yönelik tekniği ayrıntılandıran bir makale, New York’taki Institute of Physics tarafından yayımlanan Journal of the Acoustical Society dergisinde yakında yayımlanacaktır.

Günümüzde laboratuvardaki çalışma, farklı konuşmacılar tarafından söylenen P, T ve K seslerini elektronik olarak ayırt etmeye yöneliktir. Örneğin, "LOOP", "LOOT", "LUKE" sözcükleri yarım düzine farklı konuşmacı tarafından net biçimde söylenir, manyetik banda kaydedilir ve donanım ayarları otomatik analizle bunları ayırt edene kadar tekrar tekrar çalınır. Aslında, tek bir konuşmacı için fonemlerin ayırt edilmesine ilişkin tüm sorunlar, Halle ve Hughes’a göre, o kadar kolaydır ki "ilginç değildir". Mevcut aşamadaki temel güçlük, farklı konuşmacılar aynı fonemleri net biçimde telaffuz ettiğinde bile sesleri ayırt edebilecek devrelerin tasarlanmasında ortaya çıkmaktadır.

Son aşama, herhangi biri tarafından normal hızlı konuşma içinde söylenen farklı seslerin ayırt edilmesi olacaktır. (Nitekim, herhangi bir konuşmacıyı dinlemenin ilk yarım dakikasının, o kişiye özgü konuşma sesi desenine otomatik bir uyum sağlamayı gerektireceğini öngörüyorum.)

Benzer araştırmalar Bell Telephone Laboratories, Murray Hill, New Jersey’de; Haskins Laboratories, New York’ta; ve muhtemelen başka yerlerde de sürdürülmektedir. Ancak M.I.T.’deki araştırmada kullanılan ilkeler farklıdır: bunlar, desenleri tanımak yerine ayırt edici farklılıkları tanıma ilkeleridir. Bu yaklaşım, bir insanın bir harita ile yolunu bulmaya çalışırken, doğru yapılmış az sayıda yargının, harita üzerinde nerede olduğunu anlaması için yeterli olduğu düşüncesine dayanır.

M.I.T.’deki laboratuvarda incelenen çalışmaların hiçbiri, bağlamdan ipuçları alarak duyulan seslerin sonradan düzeltilmesi sorununu kapsamamaktadır. Örneğin, İngilizce konuşan bir yabancının size "Please sit down in this share." dediğini varsayalım. Beyninizde "sh" sesini tanıdıktan birkaç saniye sonra, olası bağlamları kullanarak hızlı bir zihinsel sorgulama, analiz ve düzeltme süreciyle "share" sözcüğünü "chair" olarak düzeltirsiniz. Bu süreç elbette önemlidir, ancak daha sonra gelir.

M.I.T.’deki araştırmanın, beş ya da on yıl yerine bir ya da iki yıl içinde tamamlanması durumunda sağlayacağı ek değer son derece büyük olacaktır. İş dünyasında ve toplum genelinde, dilin anlamlı sesleri olan fonemlerin tanınmasını içeren muazzam bir iş hacmi bulunmaktadır. Daktilocular, stenograflar, dikte makinesi çözücüler ve diğer birçok kişi tarafından yapılan büyük miktardaki iş, mekanikleştirilmeyi beklemektedir. Burada M.I.T.’de, mevcut yıllık 10.000 dolarlık bütçe (National Science Foundation’dan sağlanan bir bağışla) bağışlar ve ek destek yoluyla yılda 20.000 veya 30.000 dolara çıkarılabilirse, her türden ticari ve diğer insan etkinlikleri için çok büyük bir kazanım kısa sürede elde edilecektir.