← Computers & Automation

600 000 Word Dictionary in Computing

B
Bilinmeyen Yazar
1960 · Computers and Automation

University of California
Berkeley 4, Calif.

Bu üniversitede geliştirilen 600.000 kelimelik bir sözlük, yalnızca elektronik donanım aracılığıyla Rusça teknik literatürün otomatik çevirisini amaçlayan bir dilbilimsel araştırma programının parçası olarak bir bilgisayar tarafından kullanılacaktır.

Yeni Rusça-İngilizce sözlük, makine çevirisi alanındaki en geniş kelime dağarcığına sahip görünmektedir. U.C. sisteminin nihai hedefi, saniyede 100 kelimenin çevrilmesi olup, bu da insan çevirilerinin maliyetinin çok küçük bir bölümüne karşılık gelmektedir.

Mekanik sözlük, Üniversitenin IBM 704 dijital bilgisayarındaki, belirli çeviriler için gerekli kelimeleri arayan bir programla birlikte kullanılacak şekilde tasarlanmıştır.

İnsan kullanımı için olan tüm sözlüklerde girdiler, bir başlık ve hemen ardından gelen bir tanımdan oluşurken, bilgisayar sözlüğünde tanımlar başlıklardan tamamen ayrılmıştır. Bilgisayar, mekanik sözlükte bir kelimeyi aradığında, başlıkla ilişkili bir referans numarası, kelimeyle ilgili bilgilerin nerede bulunacağını bilgisayara bildirir. Bilgisayarın içinde herhangi bir gerçek referans numarası saklanmaz; kelimenin sözlükteki konumu, o kelimeye ilişkin bilgilerin “adresini” makineye gösterir.

Sözlüğün bu sistem için gerekli özel biçime dönüştürülmesi işi de başka bir bilgisayar programı kullanılarak otomatik olarak yapılacaktır.

Bilgisayar yeni adrese ulaştığında, söz konusu kelime hakkında üç tür bilgi bulacaktır: kelimeye ilişkin sözdizimsel ve anlamsal bilgi veren bir kod, kelimenin bağlam içinde ele alınmasına yönelik kurallar ve İngilizcedeki eşdeğer kelimelerin adresleri.

Arama ve sözlük düzenleme programlarının özelliklerinden biri, bunların herhangi bir dil için benzer bir mekanik sözlükle kullanılabilmesidir. U.C. sözlüğü özellikle Rusça biyokimyasal çalışmaların çevirisi için tasarlanmış olsa da, genel makine çeviri sistemi, mekanik bir sözlüğün mevcut olduğu herhangi bir dilden anlaşılır İngilizce cümleler üretecektir.

Bununla birlikte, mekanik bir sözlüğün oluşturulması zor ve zaman alıcı bir iştir. Sistemin bu noktaya kadar geliştirilmesi, Rusça metinden 30.000 kelimenin kapsamlı bir dilbilimsel analizini şimdiden gerektirmiştir. Rusça için araştırmacılar, mevcut olan geniş bir dilbilimsel bilgi birikiminden yararlanabilmişken, birçok dil için bu tür bilgiler hiç toplanmamıştır.

U.C. makine çeviri sisteminin bir başka avantajı, herhangi bir büyük ölçekli dijital bilgisayarda çalışacak şekilde tasarlanıyor olmasıdır. Geçmişte birçok araştırmacı, sözlük araması için özel makinelerin tasarlanması gerekeceğini düşünmüştür; çünkü bu amaçla genel bilgisayarları kullanmanın ekonomik bir yolunun mümkün olmadığına inanılıyordu.

Sistem tamamlandığında, kullanıldığı bilgisayar kadar hızlı olacaktır. Örneğin, sözlük araması 704 üzerinde saniyede yaklaşık 125 kelime hızında çalışmaktadır. Ancak daha hızlı olan IBM 7090 üzerinde saniyede yaklaşık 500 kelime ya da dakikada 30.000 kelime hızına ulaşacaktır. Bu hızda, ortalama bir Rus teknik dergisindeki tüm kelimeleri aramak yaklaşık bir dakika yirmi saniye sürecektir.

Başlangıçtan sona eksiksiz makine çeviri sistemi için, 704, çok iyi kalitede bir çeviri istendiği varsayıldığında, saatte yaklaşık 70.000 kelime çevirecektir. IBM 7090 üzerinde ise saatte yaklaşık 360.000 kelimelik bir çeviri ya da her yedi dakikada bir dergi beklenmektedir.

Çin dili için bir mekanik sözlük üzerinde de çalışmalar sürdürülmektedir. Çinceye duyulan ilginin iki nedeni vardır. Çinliler artık bilimsel güçlerini geliştirmeye başlamaktadır ve bilimsel literatürlerinin hacminin önümüzdeki birkaç yıl içinde büyük ölçüde artması beklenmektedir. Ayrıca, Amerika Birleşik Devletleri’nde yetkin Çince çevirmenlerin sayısı çok azdır.

Çin programındaki ilk adım, Rusçaya kıyasla dilbilimsel olarak çok daha az anlaşılan Çince dilinin yoğun bir dilbilimsel analizinin yapılması olacaktır. Alfabe yerine karakterlerin kullanıldığı Çince için özel sorunlar bulunmaktadır.

Çince mekanik sözlük amacıyla, her bir Çin karakterine keyfi bir kod numarası atanarak maddeler sayısal olarak düzenlenecektir. Dilbilimciler, hâlihazırda 10.000 farklı Çin karakteri için kod numaraları içeren Çin telgraf kodundan etkin biçimde yararlanacaktır.