Elektronik Bilgisayar Tarafından İncelenen İngilizce Sözdizimi Kalıpları (1957)

National Bureau of Standards
Washington, D.C.

Doğal İngilizce dilinin kapsamı içinde, sonsuz sayıda farklı cümle yapısı mümkündür. Bu yapılardan bazılarının diğerlerine göre çok daha sık ortaya çıktığı ve fiilen kullanılan cümlelerin büyük bölümünü oluşturduğu düşünülebilir. Bu tür kullanımlara ilişkin bilgiler, bilimsel olduğu kadar edebi pek çok alanda da ilgi çekicidir ve bu nedenle konu sıkça tartışılmıştır. Daha özel olarak, farklı yapıların hangi istatistiksel sıklıklarla kullanıldığına dair bilgilere ihtiyaç vardır. Ancak bu problemin karmaşıklığı öyle büyüktür ki, bu konuda kesin olarak ortaya konmuş çok az şey bulunduğu, hatta hiçbir şey bulunmadığı görülmektedir.

Yakın zamanda Ulusal Standartlar Bürosu, otomatik dijital bilgisayarı SEAC (Standards Electronic Automatic Computer) yardımıyla bu problem üzerine kısa bir keşif çalışmasını tamamladı. Büronun veri işleme laboratuvarından R. B. Thomas ve P. I. Herzbrun tarafından yürütülen bu çalışma, en azından problemin bütünüyle çözümsüz olmadığını göstermektedir. Yalnızca küçük bir örnek (550 cümle) incelenmiş olmasına rağmen, bazı sonuçların aynı doğrultuda daha ileri araştırmaları haklı çıkaracak kadar ilginç olduğu düşünülmektedir. Araştırma, ABD Patent Ofisi tarafından desteklenmektedir.

Mekanize Patent Araması

Büronun dilbilime olan ilgisi, birçok veri işleme uygulamasında, özellikle de patentlerin mekanize biçimde aranması için bilginin ifade edilmesinde, dilin yapısının daha iyi anlaşılmasına duyulan gereksinimden kaynaklanmaktadır. Ayrıca, yapısal araştırmalar nihayetinde dillerin makine çevirisi için yararlı teknikler sağlayabilir.

Sözdizimsel biçimlerin herhangi bir istatistiksel incelemesinde dikkate alınması gereken bir dizi güçlük vardır. Bu güçlüklerden biri, aynı şeyin birkaç farklı biçimde ve farklı sözdizimsel yapılar aracılığıyla söylenebilmesidir. Öte yandan, aynı ifade birden fazla anlama açık olabilir ve cümle içinde farklı işlevler görebilir. Hangi yorumun doğru olduğu, sözel bağlama karmaşık bir biçimde bağlıdır. Yine karmaşık bağlamsal ipuçlarına bağlı olan bir diğer husus da, çoğu zaman "satır aralarında" okunması gereken anlamlardır. Ayrıca, yalnızca bir güçlüğü daha anmak gerekirse, yazarın ruh hâlini ya da tutumunu—onay ya da onaylamama, kuşku ya da güvence, coşku ya da ironi—gösteren sözcüklerin getirdiği karmaşıklıklar vardır.

Büronun çalışmasında incelenen cümleler, kabaca bir rastgeleleştirme çabasıyla, bilimsel kaynaklardan—dergi makaleleri ve kitaplardan—seçilmiştir. Bunun, mümkün olan en fazla açık ve olgusal ifade ile en az belirsizlik ve duygusal ya da tutumsal unsur sağlaması umulmuştur. Her hâlükârda, tutumsal unsurlar göz ardı edilmiştir. Bilim insanlarının terimlerin dikkatli tanımlanması ve kullanımında disiplinli oldukları varsayıldığından, bulunan belirsizlik miktarı bir ölçüde şaşkınlık yaratmıştır. Bununla birlikte, zaman zaman hatırı sayılır bir çaba gerekmiş olsa da, belirsizliklerin tümü tatmin edici biçimde çözümlenmiştir.

Böylesi bir araştırmanın kritik bir özelliği, benimsenecek sözdizimsel kavramlar sistemidir. Farklı karmaşıklık düzeylerinde, birçok türde uygulanabilir sistem tasarlanabilir. Problemi ele alınabilir düzeyde tutmak amacıyla, basit ve tutarlı, ancak görece kaba taneli bir şema geliştirilmiştir. Bu şema, ilk olarak, 1’den 6’ya kadar kod numaralarıyla belirtilen altı ana kategoriden oluşur:

Özne
Nesne (doğrudan ya da dolaylı)
Yüklem adılı
Sıfat tümleci
Zarf tümleci
Fiil

İkinci olarak, A, B, C harfleriyle kodlanan üç eşdüzey kategori vardır. 1’den 5’e kadar olan kategorilerle bağlantılı olarak, A bir sözcüksel birimi (örneğin, "neutron", "mother-in-law", "John Smith", "collides" ya da "worldwide"), B bir öbeği ve C bağımlı bir yan cümleyi temsil eder. Fiillerle bağlantılı olarak ise, harfler sırasıyla ana, yardımcı ve kip yardımcı fiili temsil eder. Böylece 1B, bir öbekle ifade edilen öznenin kodudur; 4A, bir sözcüksel birimden oluşan sıfat tümlecini ifade eder; 6B ise yardımcı fiili belirtir.

Yalnızca bağımsız cümlecikler çözümlenmiş ve öğeleri açısından kodlanmıştır. Diğer yapılar, tüm yapının işlevini temsil etmek üzere her biri tek bir gösterimle (bir “gösterim”, bir sayı ve onu izleyen bir harften oluşur) kodlanmıştır. Bağımsız cümleciğin temel yapısını etkilemeyen bağlaçlar, mutlak yapılar, appozisyonlar ve benzeri öğeler kodlanmamıştır. Ayrıca, daha önce kodlanmış B ve C öğelerini niteleyen unsurlar da göz ardı edilmiştir.

Aşağıdaki cümleler kodlama şemasını göstermektedir:

1A 6B 6A 5B — Genişleyen parametrelerden oluşan bir dünyada yaşıyoruz.
1A 6A — Gözlemliyoruz
2C — bir aslanın en azından torusun bağlanırlığına sahip olduğunu.

"Genişleyen parametrelerden" ifadesi, önceki B öğesinin bir bölümünü nitelediği için kodlanmamıştır. A, B, C harfleri cümlelerin kodlanmasında kullanılmış olsa da, Büronun çalışmasının bu ilk aşamasında bunlardan istatistiksel olarak yararlanılmamıştır; bu nedenle aşağıda verilen kodlanmış cümle örneklerinde harfler çıkarılmıştır.

Örnek cümlelerin kodlanması elle yapılmıştır; bunu makul bir hızla yapmanın püf noktası kısa sürede öğrenilmektedir. Elbette makineyle kodlama tercih edilir olurdu; ancak tekniğin mevcut durumunda makineler, örneğin sınırlı bir bağlamda belirsiz ifadelerin farklı yorumları arasında seçim yapamamaktadır. Aslında, bu tür çalışmaların nihai amaçlarından biri de bu tür makine işlemlerini mümkün kılmaktır.

Öte yandan SEAC, üç son derece değerli işlevi yerine getirmiştir: doğru ve yüksek hızlı tablolaştırma, verilerin hassas karşılaştırılması ve kodlanmış verilerin sözdizimsel eşdeğerlik ilişkileri açısından sıkıştırılması.

Şekiller

Şekil 1. Ulusal Standartlar Bürosu tarafından yürütülen bir keşif çalışmasında, incelenen cümle sayısı arttıkça İngilizce cümlelerdeki birincil sözdizimsel örüntülerin sayısının artış hızını gösteren grafik. Bu tür incelemelerin, otomatik bilgisayarların sıradan dil biçimindeki verilerin işlenmesine uyarlanmasına yardımcı olması beklenmektedir. Cümle yapısını bir dizi sayı olarak ifade etmek için basit bir kod kullanılmış ve sonuçlar Büronun otomatik elektronik bilgisayarı SEAC yardımıyla analiz edilmiştir. Cümlelerin çoğu yalnızca birkaç biçime düşseydi, grafiğin oldukça hızlı bir biçimde “doygunluğa ulaşması” (yani yataylaşması) beklenirdi. Mevcut 550 cümlelik küçük örnekte, bu yönde yalnızca hafif bir eğilim görülmektedir.

Şekil 2. Ulusal Standartlar Bürosu tarafından yürütülen bir keşif çalışmasında incelenen ardışık 50’şer İngilizce cümlelik gruplarda bulunan yeni birincil sözdizimsel örüntülerin sayısı. Daha fazla cümle incelendikçe yeni örüntülerin sayısının azalma eğilimi gösterdiği anlaşılmaktadır. Toplam örneklemin küçük boyutu göz önüne alındığında, bu sonuç oldukça geçici kabul edilmekle birlikte, aynı doğrultuda daha ileri çalışmaları haklı çıkaracak kadar ilginçtir.

Şekil 3. Ulusal Standartlar Bürosu tarafından yürütülen bir keşif çalışmasında elde edilen verilere dayanarak, İngilizce cümlelerin birincil sözdizimi örüntülerinin gösterim sayısına göre dağılımı. Her bir “gösterim”, özne ya da fiil gibi tek bir yapısal öğeye karşılık gelen bir kod numarasıdır. Dokuzdan fazla gösterim gerektiren cümleler Büronun çalışmasında göz ardı edilmiştir. Bu grafikler, diğer hususların yanı sıra, bu dışlamanın önemli olmadığını göstermektedir. Sol: Tüm birincil örüntülerin dağılımı. Sağ: Benzersiz birincil örüntülerin dağılımı; burada “benzersiz”, aynı yapıya sahip cümlelerin sayısına bakılmaksızın her farklı örüntünün yalnızca bir kez sayıldığı anlamına gelir.

ŞEKİL 4. Ulusal Standartlar Bürosu tarafından yürütülen bir keşif çalışmasında bulunan, gösterim sayısına göre sıkıştırılmış sözdizimi örüntülerinin dağılımı. “Sıkıştırılmış” örüntüler, örneğin bir sıfat dizisini (ör. "uzun, dar, kıvrımlı ...") tek bir sıfat olarak ve bir fiil dizisini (ör. "would have gone") tek bir fiil olarak ele alan bir kurala göre birincil örüntülerden elde edilmiştir.

Sol: Tüm sıkıştırılmış örüntülerin dağılımı. Sağ: Benzersiz sıkıştırılmış örüntülerin dağılımı.

Birincil Arama

Çalışmanın ilk bölümünde, “birincil” cümle örüntüleri—yani kod numaraları dizisinden oluşan örüntüler—birbiriyle karşılaştırılmıştır. Kodlanmış her bir öğeyi ifade etmek için bir onaltılık basamak (yani dört ikili basamak) kullanılmış ve sayım için iki onaltılık basamak konumu ayrılmıştır. SEAC, uzunluğu 11 onaltılık basamağa kadar olan sayıları (artı cebirsel işaret için bir ikili basamak) işleyebildiğinden, kodlanmış örüntüler dokuz onaltılık basamakla sınırlandırılmış, böylece sayım için iki basamak konumu bırakılmıştır. Son derece az sayıda cümle bundan daha fazla kod basamağı gerektirecekti ve bu sınırlama önemsiz kabul edilmektedir.

Bilgisayar programı, gelen ilk cümle kodunun (sayılar ve harfler içeren) sayısal örüntüsüne indirgenmesini ve bunun depolanmasını öngörür. Örneğin 1665 birincil örüntüsüne sahip bir cümle, 16650000000 biçiminde depolanır. Sonraki her örüntü de aynı şekilde indirgenir ve sayısal örüntüsü depolanmış tüm örüntülerle karşılaştırılır. Aday örüntü depolanmış bir örüntüyle özdeş ise, depolanmış örüntünün son basamağına 1’lik bir yineleme sayımı eklenir ve aday örüntü reddedilir. Böylece 1665 örüntüsü ikinci kez ortaya çıktığında, depolanmış sayı 16650000001 olur. Aday örüntü yeni ise, diğerleriyle birlikte depolanır. Hatalı hazırlanmış verileri reddetmek için denetim yordamları da programa dâhil edilmiştir.

Tüm cümleler işlendiğinde, ortaya çıkan benzersiz birincil örüntüler ve bunlara ait sayımlar, bilgisayardan yüksek hızlı manyetik tel kaydı aracılığıyla alınır. Bunlara, aşağıdakileri gösteren diğer sayımlar da eşlik eder:

(a) işlenen cümle sayısı,
(b) elde edilen benzersiz örüntü sayısı,
(c) hazırlama hataları nedeniyle reddedilen cümle sayısı ve
(d) bir basamaklı, iki basamaklı, ... dokuz basamaklı örüntülerin sayısı.

Her 50 cümlelik gruptan sonra SEAC, işlenen toplam cümle sayısını ve depolamada tutulan benzersiz örüntü sayısını yazdırır.

Şimdiye kadar incelenen 550 cümle arasında 335 benzersiz birincil örüntü bulunmuştur. Benzersiz örüntü sayısı incelenen cümle sayısına karşı çizildiğinde (Şekil 1), grafik sıfır eğime ulaşma yönünde pek az eğilim göstermektedir. Her 50’lik artışta yeni örüntülerin ortaya çıkma hızı (Şekil 2), yeni örüntü sayısında bir azalma olduğunu ancak çok zayıf biçimde ima etmektedir.

Herhangi bir birincil örüntünün en yüksek yineleme sayısı 12 olup, bu durum iki örüntü için geçerlidir: 41665 (ör. "Köpek caddenin karşısına koştu") ve 414665 ("Sarkık kulaklı köpek caddenin karşısına koştu"). Bir sonraki en yaygın örüntü 11 yineleme göstermiştir—16434 ("Bu, sarkık kulaklı bir köpektir"); onu izleyen ise 10 yinelemeye sahiptir—162 ("Köpekler kemik yer"). Dolayısıyla en yaygın birincil örüntü tüm örneklemin yalnızca yüzde 2,2’sini temsil etmekte olup, diğer örüntüler kabaca önemsiz yinelemelerle eşit bir dağılım göstermektedir.

Sıkıştırılmış Arama

Birincil örüntülerin “sıkıştırılmasının” etkisi üzerine de bir çalışma yapılmıştır. Örneğin, cümlenin öznesinin önünde art arda iki ya da daha fazla sıfat ifadesi bulunduğunda, bunlar tek bir sıfat olarak ele alınmıştır. Böylece "Küçük kırmızı tavuk gıdaklar" (44416), sözdizimsel olarak "Tavuk gıdaklar" (416) ile eşdeğer kabul edilmiştir. Benzer biçimde, bir fiil dizisi tek bir fiile sıkıştırılır. Bu nedenle "Tavuk gıdaklayacak" (4166) cümlesine atanan sözdizimsel biçim, "Tavuk gıdaklar" (416) için atananla aynıdır.

Genel olarak, “sıkıştırılmış” arama için bilgisayar programı, bir örüntü içinde bitişik olarak yinelenen herhangi bir basamağın yalnızca birini kabul eder; böylece 44416665500, 41650000000 olur, ancak 41465600000 değişmeden kalır.

Her bir birincil örüntünün sayımına, sıkıştırmadan önce, her durumda gerçek ortaya çıkma sayısını göstermek üzere bir “1” eklenmiştir. Ardından sıkıştırılmış örüntüler, birincil biçimleri farklı olan birçok örüntünün sıkıştırılmış biçimlerde özdeş olabileceği düşüncesiyle, birbirleriyle karşılaştırılmıştır. SEAC iki sıkıştırılmış örüntünün özdeş olduğunu bulduğunda, bunlara ait sayımlar (birincil karşılaştırmadan taşınan) toplanır. Toplam, söz konusu ilk örüntünün en düşük anlamlı basamaklarına depolanır ve diğer örüntü sıfırlanır.

Karşılaştırmanın sonunda, benzersiz sıkıştırılmış örüntüler ve bunlara ait sayımlar tel üzerinde yazdırılır; bunlara ayrıca aşağıdakiler eşlik eder:

(a) benzersiz olarak kalan sıkıştırılmış örüntü sayısı ve
(b) belirli bir basamak sayısına (1’den 9’a) sahip benzersiz sıkıştırılmış örüntülerin sayısı.

Sıkıştırılmış örüntüler, beklenen daha yüksek özdeşlik derecesini göstermiştir. Örneklemdeki 335 birincil örüntüye karşılık yalnızca 189 benzersiz sıkıştırılmış örüntü bulunmuştur.

Tablo 1. En yaygın beş sıkıştırılmış örüntü

Her bir yapıyı gösteren örneklerle ve karşılaştırılan örüntüler içindeki yaklaşık yüzde dağılımlarıyla birlikte, en yaygın beş sıkıştırılmış örüntü.

Yüzde	Örüntü	Örnek
12.5	4165	Köpek caddenin karşısına koştu.
9.2	41465	Sarkık kulaklı köpek caddenin karşısına koştu.
8.0	165	O caddenin karşısına koştu.
5.5	416424	Köpek, onun kazıp çıkardığı kemiği yedi.
5.0	162	Köpekler kemik yer.

Bu örüntülerin ilk üçü, örneklemin yaklaşık yüzde 30’unun nesnesi olmayan ancak zarf tümleçleri bulunan fiiller etrafında kurulu cümlelerden oluştuğunu göstermektedir. Programdaki tamamlayıcı yordamların yardımıyla, örüntülerin (tüm birincil, benzersiz birincil, tüm sıkıştırılmış ve benzersiz sıkıştırılmış) her bir örüntü başına gösterim sayısına göre dağılımını çizmek (Şekiller 3 ve 4) mümkün olmuştur. Her durumda, normal Gauss dağılımına çok kaba bir yaklaşım bulunmuştur.

Daha yüksek istatistiksel anlamlılığa sahip veriler elde etme umuduyla, çok daha büyük bir kaynak cümleler bütünü üzerinde ek aramalar yürütülecektir. Verilerin ilk olarak yalnızca sayısal terimlere indirgenmesi (birincil aramanın başında) ve ikinci olarak yinelenen basamakların çıkarılması yoluyla yapılan indirgeme (yani sıkıştırma), yapıyı incelemek için yararlı teknikler gibi görünmektedir. Her iki indirgeme de mantıksal eşdeğerlik açısından gerçekleştirilmekte olup, mevcut kodlama şemasının çerçevesi içinde aramanın geçerliliğini etkilememektedir.

Bu inceleme yöntemi, İngilizcedeki yapısal dönüşümler problemi üzerine bir miktar ışık tutabilir. Bu problemin anlaşılması, örneğin, “İngilizceden İngilizceye çeviri” araçlarının—yani sıradan İngilizceden bilgisayar girdisi olarak kullanıma daha uygun bir biçime ya da belki de başka bir dile çevirinin ön adımı olarak—geliştirilmesi için gereklidir.