← Computers & Automation

Bir Bilgisayar Tarafından Doğal Dilin İşlenmesi, Bölüm 2

B
Bilinmeyen Yazar
1976 · Computers and Automation

Bertram Raphael
Stanford Research Institute
Menlo Park, CA 94025

"Genel bilginin nasıl temsil edileceği sorunu, bilgisayar bilimcisinin karşılaştığı bir problem olarak, dilbilimcinin karşılaştığı anlamın nasıl temsil edileceği sorununa büyük ölçüde benzemektedir."

Bilgisayarları İngilizceyi Anlayacak Şekilde Programlamak

Daha önce gördüğümüz gibi, dilbilimciler dilin ve anlambilimin doğasını açıklayan kuramlar üzerinde etkin biçimde çalışmaktadır. Ancak teknoloji genellikle kuramların tamamlanmasını beklemez. Dilbilimciler kuramsal çalışmalarını sürdürürken, bilgisayar bilimcileri de bilgisayarların doğal dili nasıl anlayabilir hale getirilebileceğini incelemektedir.

Bu çalışmalar deneysel ve mühendislik bakış açısıyla yürütülmüştür. Burada açıklanacak projelerin her birinde (ve benzer pek çok başka çalışmada), bir bilim insanı, daha önce gösterilmiş olanların herhangi birinden daha güçlü bir otomatik dil işleme yeteneğini ortaya koymak için bir bilgisayar programı geliştirmiştir. Bu sistemlerin hiçbiri henüz genel pratik kullanım için yeterince güçlü değildir; ancak daha yakın tarihli olanlardan bazıları buna çok yaklaşmıştır.

Yine de, bu bilim insanlarının programlarının etkinliğini artırmaya çalışırken karşılaştıkları sorunları gözlemleyerek, otomatik dil işlemenin güncel sınırları hakkında bir şeyler öğrenebiliriz; ayrıca bu sistemlerden birkaçının etkileyici performansına ulaşılmasını sağlayan yeni programlama tekniklerini inceleyerek, mevcut sınırların ötesine nasıl geçilebileceği konusunda da bilgi edinebiliriz.

Soru-Cevap Sistemleri

Deneysel dil işleme programlarının çoğu, soru-cevap sistemleri olarak adlandırılan genel bir kategoriye girer. Bir soru-cevap sistemi, bilgileri anlamayı onlarla ilgili soruları yanıtlayarak gerçekleştiren herhangi bir bilgisayar programı olarak tanımlanabilir.

İdeal bir soru-cevap sistemi şunları yapabilmelidir:

  1. Gerçekleri ve soruları kabul etmek ve uygun yanıtlar vermek; bunların tümünü doğal İngilizce biçiminde yapmak.
  2. Büyük miktarda veriyi — en azından binlerce temel gerçeği — depolamak, hatırlamak ve verimli biçimde kullanmak.
  3. Belleğinde açıkça depolanmış gerçeklerin mantıksal sonuçlarını çıkarmasını gerektiren soruları yanıtlamak.
  4. Konuşmaya dayalı biçimde çalışmak — örneğin bir zaman paylaşımlı bilgisayar terminali aracılığıyla — ve can sıkıcı gecikmelere yol açmamak.

Henüz geliştirilmiş hiçbir sistem bu dört yeteneğin tümüne birden sahip olmasa da, dört alanın her birinde önemli ölçüde başarı çeşitli sistemler tarafından ayrı ayrı elde edilmiştir. Önümüzdeki birkaç yıl içinde bu yeteneklerin birleştirildiğini ve geliştirildiğini görmeye başlamalıyız; böylece ilk gerçek, eksiksiz soru-cevap sistemleri ortaya çıkacaktır.

Bertram Raphael tarafından yazılan The Thinking Computer: Mind Inside Matter adlı kitabın 6. bölümü olan “Natural Language”dan alınmıştır; W. H. Freeman and Co., San Francisco, Calif. tarafından yayımlanmış, telif hakkı 1976, izin alınarak yeniden basılmıştır.

Sınırlı Alanlarda Soru Yanıtlama

Bilim insanları doğrudan çözmeleri çok zor olan bir problemle karşılaştıklarında, genellikle önce problemın daha basit sürümlerini ya da özel durumlarını ele alırlar. Daha sonra başarılı olurlarsa, bu sınırlı problemlerin çözümleri, daha büyük ve özgün problemin çözümüne rehber olarak kullanılabilir.

Eksiksiz ve ideal bir soru-cevap sisteminin geliştirilmesi mevcut teknolojinin yeteneklerini aştığı için, bu alana ilgi duyan bilgisayar bilimciler öncelikle üzerinde çalışmak üzere problemin çeşitli daha basit sürümlerini tanımlamışlardır.

Sınırlı Karmaşıklık

Soru-cevap problemini sınırlamanın bir yolu, sistemin ele almak zorunda olduğu dilin karmaşıklığını sınırlamaktır — örneğin kelime dağarcığının büyüklüğünü ve sisteme verilecek cümle yapılarını kısıtlayarak. Bu tür sınırlamalar sıkça kullanılsa da, başka bir sınırlama türü kadar ilgi çekici ya da doğal değildir: işlenecek dilin konuşabileceği konu alanının sınırlandırılması.

Aslında, konu alanını sınırlamak genellikle kelime dağarcığını ve cümle yapısını da otomatik olarak sınırlar; çünkü belirli sınırlı konular hakkında konuşurken genellikle yalnızca belirli sözcükleri ve belirli ifade türlerini kullanırız. Bu nedenle, birçok soru-cevap araştırma projesi, iyi tanımlanmış ve sınırlı bir konu alanı belirleyerek başlamış ve ardından bu kısıt altında ne kadar etkili bir sistem yapılabileceğini incelemiştir.

BASEBALL Sistemi

Bu türdeki ilk önemli çalışma, 1960 yılında MIT Lincoln Laboratories’de geliştirilen BASEBALL sistemidir. Sabit, tablosal (aslında liste yapılı) bir veri dosyası, American League’de bir tam sezon boyunca oynanan her beyzbol maçının ayını, gününü, yerini, takımlarını ve skorunu içeriyordu.

Girdi dili de bir ölçüde sınırlı olmasına rağmen, program bu verilerle ilgili hemen hemen her makul soruyu yanıtlayabiliyordu; “Red Sox 5 Temmuz’da kime yenildi?” gibi basit sorulardan, “Her takım her ay her sahada en az bir kez oynadı mı?” gibi oldukça karmaşık sorulara kadar uzanan bir yelpazede.

Her sorunun çözümlemesi esas olarak, zorlukları gidermek için özel beyzbol odaklı programlara başvurabilen bir ifade-yapısı dilbilgisi tarafından gerçekleştiriliyordu. Örneğin “score” sözcüğü beyzbolda genellikle bir isimdir; “26 Ağustos’taki Boston maçının skoru neydi?” cümlesinde olduğu gibi. Ancak aynı cümlede başka bir fiil yer almıyorsa, program bu sözcüğü fiil olarak varsayar; “Yankees 26 Ağustos’ta kaç run score yaptı?” örneğinde olduğu gibi.

Çözümleme programını basitleştiren bir başka etken de, veritabanının biçimini bilmesiydi; dolayısıyla program, sorudan yalnızca beyzbol maçlarının zamanı, yeri ve benzeri özellikleriyle ilgili verileri çıkarmak üzere tasarlanmıştı.

STUDENT Sistemi

MIT’de Bobrow tarafından 1964 yılında geliştirilen STUDENT programı, konu alanını sınırlayarak elde edilebilecek sonuçlara daha ilginç bir örnek sunar. STUDENT, lise matematik kitaplarında ya da bulmaca kitaplarında İngilizce olarak ifade edildikleri şekliyle temel cebir problemlerini çözmeyi görev edinir.

Bu kez de girdi dilinin karmaşıklığının sınırlandırılması gerekiyordu ve aslında STUDENT, BASEBALL’ın kabul ettiği kadar geniş bir İngilizce yapı yelpazesini kabul etmiyordu. Ancak BASEBALL girdisinin sabit bir veritabanı hakkında bir soru olduğu biliniyordu; STUDENT’ın girdileri ise cebir problemlerini tanımlıyor ve yalnızca belirli bir soruyu değil, aynı zamanda ilgili tüm verileri de içeriyordu.

Sistemin kendi veritabanı yalnızca dünya hakkında bazı genel bilgileri içeriyordu; örneğin üç foot’un bir yard’a eşit olduğu ve mesafenin hız ile zamanın çarpımına eşit olduğu gibi.

İşte STUDENT’ın çözebildiği problemlere iki örnek:

  1. Tom’un elde ettiği müşteri sayısı, verdiği reklam sayısının yüzde 20’sinin karesinin iki katıysa ve verdiği reklam sayısı 45 ise, Tom’un elde ettiği müşteri sayısı kaçtır?
  2. Mary, Ann’in Mary’nin şu an Ann’in şu an olduğu yaştayken sahip olduğu yaşın iki katı yaşındadır. Mary 24 yaşındadır. Ann kaç yaşındadır?

Bir Hedefe Odaklanma

STUDENT programı geleneksel bir dilbilimsel çözümleme yöntemi kullanmamıştır. Bunun yerine, bilinen hedefine odaklanmıştır: girdi problemini, daha sonra bir denklem çözme alt yordamına verilebilecek eşzamanlı cebirsel denklemler kümesine dönüştürmek.

Dolayısıyla sistemin dilsel çözümlemesi, aritmetik işleçler, sabitler ya da değişkenlerle değiştirilebilecek sözcükleri ve ifadeleri aramaktan ibaretti. Örneğin, yukarıdaki ikinci örnek, tüm “yaş” türü problemlere uygulanan bir dizi dönüşüm yoluyla, STUDENT tarafından önce aşağıdaki gibi daha katı bir biçime dönüştürülür:

  • Mary’nin yaşı, Ann’in k yıl önceki yaşının 2 katıdır.
  • k yıl önce Mary’nin yaşı, Ann’in şu anki yaşıydı.
  • Mary’nin yaşı 24’tür.
  • x, Ann’in yaşıdır.

ve ardından şu denklem kümesine:

  • M = 2(A − k)
  • M − k = A
  • M = 24
  • x = A

ve buradan x çözülebilir.

Diğer Deneysel Sistemler

Hesap, kimya, havayolu tarifeleri ve Güney Amerika coğrafyası gibi çeşitli konular için başka sınırlı-alanlı deneysel sistemler de geliştirilmiştir.

Her durumda, sınırlı konu alanı, belirli veritabanı yapısı ve sistemin hangi şekilde kullanılacağının önceden bilinmesi, gerekli dilsel çözümlemeyi büyük ölçüde basitleştirmiştir. Tüm bu özel amaçlı sistemlerin varlığı, yeni bir alan için özel amaçlı bir sistem uygulamak isteyen herkesin yararlanabileceği bir deneyim tabanı oluşturur. İlk pratik (yalnızca deneysel olmayan) soru-cevap sistemlerinin 1980’den önce kullanılmaya başlanması ve bunların da bunlara benzer şekilde sınırlı-alanlı sistemler olması olasıdır.

Öte yandan, bilim insanları doğal dili daha temel bir anlamda anlayan bir sisteme de sahip olmak isterler; böylece tek bir sistem sonunda birçok farklı alanda uygulanabilir. Sınırlı-alanlı sistemler genellikle tek bir göreve çok dikkatli biçimde uyarlanmış olduklarından, başka bir göreve genelleştirilmeleri ya da aktarılmaları zordur. Bu nedenle, en baştan genel bilginin çözümlemesi ve gösterimi üzerine deneyler olarak tasarlanan sistemlere bakmamız gerekir. Bu türden birkaç çalışma aşağıda açıklanmaktadır.

Genel Bilginin Gösterimi ve Kullanımı

Bilgisayar bilimcisinin karşılaştığı genel bilginin nasıl temsil edileceği sorunu, dilbilimcinin karşılaştığı anlamın nasıl temsil edileceği sorununa çok benzer. Dilbilimci esas olarak doğal dildeki sözcük dizilerinden anlamlarının bir gösterimine nasıl geçileceğiyle ilgilenirken, bilgisayar bilimci esas olarak anlam gösterimindeki verilerin bir programı denetlemek için nasıl kullanılacağıyla ilgilenir.

Bu nedenle, aşağıda açıklanan bilgisayar bilimi çalışmalarının çoğunda vurgu, bilginin başlangıçta doğal dilde nasıl gösterime aktarıldığından ziyade, gösterimin kendisi ve onun kullanımı üzerindedir. Elbette sonunda, anlamlı bilginin hem edinilmesi hem de kullanılması — bu iki unsurun her ikisi de — eksiksiz bir soru-cevap sisteminde yer almak zorunda olacaktır.

Anlamsal Sınıflandırmalar

Genel bilginin bilgisayar ortamında gösterimini yapmaya yönelik erken bir yaklaşım, 1965 yılında Carnegie-Mellon University’de Quillian tarafından geliştirilen ve anlamsal sınıflandırmalar fikrine dayanan çalışmadır. Her sözcük, bilgisayarın belleğinde, diğer sözcüklere uzanan etiketli bağlantılardan oluşan bir ağ ile tanımlanır. Bu ağa anlamsal bellek denir. Bağlantılar; kapsama, parça-bütün ilişkisi, renk, boyut, diğer sözcüklerle mantıksal ilişki gibi özellikleri belirtir.

Ortaya çıkan ağ yapısı otomatik bir sözlük olarak görülebilir; ancak bu sözlükte sözcükler, aracı İngilizce metinlerle açıklanmak yerine, birbirlerine doğrudan işaretçilerle bağlanmıştır. Bu yapının uygunluğunu göstermek için Quillian, anlamsal bellek sisteminden iki sözcüğü karşılaştırmasını isteyebiliyor ve sistem belleğinde bu sözcükler arasında bulabildiği tüm yolların bir betimlemesiyle yanıt veriyordu.

Örneğin, “plant” ve “live” sözcüklerini karşılaştırması istendiğinde, sistem iki yolun betimlemesini verdi:

  1. “Plant, canlı bir yapıdır.”
  2. “Plant, havadan besin alan bir yapıdır. Bu besin, bir varlığın hayatta kalmak için içine alması gereken bir şeydir.”

İlginç bir bellek yapısı göstermesine rağmen, bu sistem daha ileri bir kullanım alanına sokulmamıştır.

SIR Sistemi (Semantic Information Retrieval)

Genel bilgiyi depolayıp soru-cevap görevlerini yerine getirmek için kullanmaya yönelik ilk çalışmalardan birinde, 1964 yılında MIT’de Raphael tarafından geliştirilen Semantic Information Retrieval (SIR) programında, liste yapılı bir bellek; kapsama, parça-bütün, sahiplik, sayı ve uzamsal konum gibi az sayıda temel ilişki cinsinden ifade edilen gerçekleri biriktiriyordu.

Sistem herhangi bir kelime dağarcığı ya da konu alanıyla çalışabiliyordu; işleyişi yalnızca altta yatan ilişkilerin anlamlarına dayanıyor, ilişkili nesnelerin doğasına hiç bağlı olmuyordu. Yerleşik ilişkilere bağlı özel tümdengelimsel alt yordamlar, çeşitli soruları yanıtlayabilecek yetenekteydi (Tablo 1’deki diyalogda gösterildiği gibi).

Bu sistemin başlıca sorunu, kolayca genişletilememesiydi. Yeni bir ilişki eklenecek olursa, yeni ve karmaşık tümdengelim programlarının yazılması ve mevcut programların birçoğunun değiştirilmesi gerekiyordu.

ELIZA Sistemi

1960’ların ortalarında geliştirilen bazı diğer deneysel soru-cevap sistemleri, doğal dil girdisi sorunundan kaçınmıştır. Bazıları, bir ansiklopediden alınmış parçalar ya da kullanıcının bir bilgisayar terminaline yazdığı metinler gibi gerçek İngilizce metinlere dayanıyor ve bu metinlerden ifadeleri yeniden düzenleyip geri püskürterek yanıtlar oluşturuyordu; anlamlarını gerçekten hiç dikkate almadan. Dolayısıyla genel bilginin gösterimi, İngilizce metnin kendisiydi.

Bu tür sistemlerin uç örneği, 1966 yılında MIT’de Weizenbaum tarafından geliştirilen ELIZA programıdır. Tablo 2, çoğu zaman bir psikiyatriste benzer şekilde konuşuyor gibi görünen bu programın, görünüşte anlamlı bir sohbeti nasıl sürdürebildiğine dair bir örnek sunar. Gerçekte ise her şey sözdizimsel hilelerle yürür; program daha dikkatli sorgulandığında bu durum açıkça görülür. Metne dayalı bu programların hiçbiri, önemsiz olmayan soruları yanıtlamak için anlamlı bir akıl yürütme gerçekleştirebilecek durumda değildi.

Tablo 1: SIR ile Örnek Bir Konuşma

(Büyük harflerle yazılmış satırlar bilgisayar tarafından üretilmiştir.)

Her erkek çocuk bir kişidir.

ANLIYORUM.

Bir parmak, bir elin parçasıdır.

ANLIYORUM.

Her kişinin iki eli vardır.

YUKARIDAKİ CÜMLE BELİRSİZDİR — LÜTFEN YENİDEN İFADE EDİN.

Her kişinin üzerinde iki el vardır.

ANLIYORUM.

John’un kaç parmağı vardır?

YUKARIDAKİ CÜMLE BELİRSİZDİR — AMA “HAS”IN “PARÇA OLARAK SAHİPTİR” ANLAMINA GELDİĞİNİ VARSAYIYORUM. PARMAĞIN JOHN’UN PARÇASI OLUP OLMADIĞINI BİLMİYORUM.

John bir erkek çocuktur.

ANLIYORUM.

John’un kaç parmağı vardır?

EL BAŞINA KAÇ PARMAK?

Her elde 5 parmak vardır.

ANLIYORUM.

John’un kaç parmağı vardır?

YANIT 10’DUR.

Erkek çocuk masanın hemen solundadır.

ANLIYORUM.

Lamba masanın hemen solundadır.

YUKARIDAKİ İFADE İMKÂNSIZDIR.

Masa sandalyenin sağındadır.

ANLIYORUM.

Bir kişinin göreli konumu nedir?

SOLDAN SAĞA DÜZEN ŞU ŞEKİLDEDİR:

(CHAIR
  (BOY
    TABLE))

a. “Has” ya “sahiptir” ya da “parça olarak bağlıdır” anlamına gelebilir.

b. “Hemen solunda” ifadesi “bitişik” anlamına gelir; aynı anda yalnızca bir şey başka bir şeyin “hemen solunda” olabilir.

c. BOY ve TABLE etrafındaki iç parantezler bitişikliği gösterir.

Tablo 2: ELIZA ile Konuşma

(Büyük harflerle yazılmış satırlar bilgisayar tarafından üretilmiştir.)

Merhaba.

NASILSINIZ. LÜTFEN PROBLEMINIZI BELİRTİN.

Kitabım için iyi bir örnek istiyorum.

KİTABINIZ.

Evet, bilgisayarlar hakkında olan kitabım. Bana yardım edebilir misiniz?

BANA KARŞI BİRAZ KISA DAVRANIYORSUNUZ.

Öyle demek istemedim.

ÖYLE DEMEK İSTEMEDİĞİNİZİ SÖYLÜYORSUNUZ.

Doğru. Bilgisayarlar hakkında ne biliyorsunuz?

BİLGİSAYARLAR SİZİ ENDİŞELENDİRİYOR MU?

Hiç de değil. Çok yararlı olabileceklerini düşünüyorum.

BUNU AÇABİLİR MİSİNİZ?

Bilgisayarlar toplumumuzun işleyişinde hayati bir rol oynar.

NEDEN BİLGİSAYARLARDAN BAHSEDİYORSUNUZ?

Çünkü kitap tamamen bununla ilgili.

GERÇEK NEDEN BU MU?

Elbette. Bazen konuşması zor oluyorsunuz.

KONUŞMASI ZOR OLDUĞUMU DÜŞÜNDÜREN NEDİR?

Çok kısa, kalıplaşmış ifadelerle yanıt veriyorsunuz.

BİZ SİZİ TARTIŞIYORDUK, BENİ DEĞİL.

Bilgisayarları tartıştığımızı sanıyordum.

MAKİNELERİN PROBLEMINIZLE NE İLGİSİ OLDUĞUNU DÜŞÜNÜYORSUNUZ?

Tek problemim, sizinle makul bir konuşma sürdürmenizi sağlamak.

NEDEN TEK PROBLEMINIZIN BENİ MAKUL BİR KONUŞMA SÜRDÜRMEM İÇİN İKNA ETMEK OLDUĞUNU SÖYLÜYORSUNUZ?

Çok iyi bir dilbilgisi kullanmıyorsunuz.

OH, ÇOK İYİ BİR DİLBİLGİSİ KULLANMIYORUM.

Doğru. Yalın hâl ile belirtme hâli arasındaki farkı bilmiyor musunuz?

BENİ GERÇEKTEN KONUŞMUYORSUN DEĞİL Mİ?

Aslında gerçekten konuşuyordum, ama konuyu değiştirmeye hazırım.

BUNU ÖZEL BİR NEDENLE Mİ SÖYLÜYORSUN?

Nedeni, kitapta ilginç bir sohbet olmasını istememdir.

HANGİ BAKIMDAN?

Okuyucuların bundan sıkılmaması için.

SENİ TAM OLARAK ANLADIĞIMDAN EMİN DEĞİLİM.

Zaten pek fazla anlamıyorsun, değil mi!

ŞU ANDAKİ DUYGULARIN NELER?

Vazgeçmeye neredeyse hazır olduğumu hissediyorum.

BU TÜR DUYGULAR HAKKINDA DAHA FAZLA ANLAT.

Sayfa neredeyse doldu, bu yüzden bu söyleşiyi bitirebilirim.

DİYELİM Kİ SAYFA ŞU ANDA NEREDEYSE DOLU OLMASAYDI?

O zaman bu saçmalığı biraz daha sürdürmemiz gerekirdi.

LÜTFEN DEVAM ET.

Söylenecek başka bir şey yok. Hiç yorulmaz mısın?

BELKİ DE GERÇEKTEN SÖYLENECEK OLANIN HEPSİ BUDUR.

Evet. Hoşça kal.

OLDUKÇA KESİN GÖRÜNÜYORSUN.

Yapay Paranoyak Sistem

Sözdizimsel ve anlamsal işlemleri tek bir dili anlama sistemi içinde yakından birleştiren birkaç güncel proje, yakın gelecek için umut verici görünmektedir. Artırılmış geçiş-ağı yaklaşımından ve kavramsal-bağımlılık yaklaşımından daha önce söz etmiştim. Bu yaklaşımların her ikisi de aktif olarak geliştirilmektedir ve her birinin erken sürümleri gösterilmiştir; ancak her ikisinde de anlamsal bileşenler henüz tam olarak tanımlanmamıştır.

Geçiş-ağı sistemi, İngilizce cümle yapılarının etkileyici bir alt kümesini ele alır; ancak yalnızca, verilerin katı biçimde düzenlenmiş bir olgusal bilgi dosyasında bulunduğu bir olgu-getirme sistemi bağlamında gösterilmiştir.

Kavramsal bağımlılık sisteminin bir sürümü, paranoyanın doğasına ilişkin bir psikiyatrik çalışmayla bağlantılı olarak kullanılmıştır. Stanford University’de Colby tarafından, varsayımsal bir paranoyak bireyin sözel davranışını simüle etmek üzere bir bilgisayar programı tasarlanmıştır. Programın "psikiyatrist" tarafından verilen girdileri bir kavramsal bağımlılık analizinden geçirilir; bu analizin sonuçları, simülasyon tarafından uygun bir yanıt üretmek için kullanılır (Tablo 3).

Örnek konuşma, ELIZA tarafından üretilebilecek olanla bir ölçüde benzerlik taşısa da, Colby’nin programı gerçekten de olup biteni “anlar”; şu anlamda ki bir uzman programın içine bakabilir ve konuşmanın her noktasına uygun inançların, korkuların ve kaygıların temsillerini bulabilir. Bununla birlikte, kavramsal-analiz sisteminin hem sözdizimsel çözümleme yeteneklerinin hem de sözcük dağarcığının (ve buna bağlı sözcük-anlamı diyagramlarının) hâlâ önemli ölçüde güçlendirilmesi gerekmektedir.

Tablo 3: Yapay Paranoyak ile Görüşme

(Büyük harflerle yazılmış satırlar bilgisayar tarafından üretilmiştir.)

Bugün nasılsın?

İYİ.

Adın nedir?

BENİM ADIM FRANK SMITH.

Kaç yaşındasın?

YİRMİ SEKİZ.

Evli misin?

HAYIR.

Ne tür bir iş yapıyorsun?

POSTANEDE ÇALIŞIYORUM.

Neden hastanedesin?

BURADA OLMAMALIYIM.

Seni buraya kim getirdi?

POLİS.

Polisle ne tür bir sorun yaşadın?

POLİSLER İŞLERİNİ YAPMIYOR.

Bunun yerine ne yapıyorlar?

POLİSLER YANLIŞ İNSANLARI TUTUKLUYOR. Bazen doğru olanları da tutukluyorlar.

KANUN O İTALYAN DOLANDIRICILARIN PEŞİNE DÜŞMELİ.

İtalyan mısın?

KÖKENİM BRİTANYALI AMA BU ÜLKEDE DOĞDUM.

Hiç İtalyan dolandırıcı tanıyor musun?

YERALTI DÜNYASINDAN UZAK DURMAYA ÇALIŞIRIM.

Yeraltı dünyasından korkuyor musun?

MAFYA EN KÖTÜ GANGSTERLERDİR.

Mafyayla bir bağlantın var mı?

BİLİYORSUN, ONLAR BENİ TANIYOR.

Seni nasıl tanıyorlar?

BENİ GÖZLÜYORLAR.

Neden?

BENİ TUZAĞA DÜŞÜRMEK İÇİN SAHTE KANIT ELDE ETMEK İSTİYORLAR.

Sana karşı ne kullanıyorlar?

BENİ ELE GEÇİRMEYE ÇALIŞIYORLAR.

Ne için?

MAFYAYA KARŞI SUÇLAYICI KANITLARIM VAR.

Bunların hepsinden emin misin?

BANA İNANMIYOR MUSUN?

Winograd Sistemi

Günümüzde otomatik dili anlama araştırmalarına ilişkin hiçbir sunum, Winograd’ın 1971’de MIT’de tamamladığı etkileyici ve etkili projenin tartışılması olmadan eksik sayılmaz. Bu sistem, bir masaüstü üzerinde basit nesneleri manipüle edebilen mekanik bir robot kolunun olası etkinlikleriyle tanımlanan sınırlı bir alanda çalışır. (Winograd’ın uygulamasında kol, nesneler ve masa bilgisayarda simüle edilir ve bilgisayarın CRT ekranı tarafından çizilen diyagramlarla gösterilir.)

Bu sistemin, sistemik dilbilgisine dayanan karmaşık İngilizce yapıları işleme ve yorumlama yeteneği, herhangi bir sınırlı konu alanı içinde pratik kullanım için tamamen yeterli görünmektedir. Sistemin uzun süreli bir sohbeti sürdürebilmesi, gerektiğinde tam resmî cümleler yerine konuşma diline özgü cümle parçalarını tanıyıp kullanabilmesi, zamirleri doğru biçimde yorumlaması ve neredeyse tüm belirsiz yapıların en anlamlı yorumlarını varsayabilmesi özellikle etkileyicidir.

Sözdizimsel çözümleme, anlamsal çözümleme, problem çözme yeteneği ve konu alanının gözlemlenmesi (bu durumda, simüle edilmiş robot ve onun masaüstü “bloklar dünyası”) arasındaki yakın etkileşim, bu sistemin başarısının anahtarlarından biri gibi görünmektedir.

Bu sistemin bir başka önemli yeniliği, bilgiyi temsil etmek için durağan veri yapıları yerine yordamların kullanılmasıdır. Sözlük, her sözcük için, sözcüklerin doğru biçimde kullanılıp kullanılmadığını denetleyen ayrı küçük bilgisayar programları içerir. Sözdizimsel çözümleme sistemi, her yapısal biçim hakkında “bilgi sahibi” olan ayrı küçük programlar barındırır. Robotun önerilen her eylemi, eylemin etkilerini belirlemek için simüle edilmiş dünyayı değiştiren bir programı çağırır.

Bu karmaşık program ağı, Winograd’ınki gibi projeler için MIT’de özel olarak geliştirilen yeni programlama dili PLANNER sayesinde mümkün olmuştur. PLANNER, programcının bu programların sonunda nasıl etkileşime girebileceğiyle ilgili tüm olası yolları düşünmesine gerek kalmadan, ayrı ve özel amaçlı programların yerleştirilebileceği bir çerçeve sağlar.

Winograd sisteminin kopyaları, dil işleme yeteneklerini genişletme ve bunları yeni konu alanlarına uygulama girişimlerinin yapıldığı başka birçok araştırma merkezine taşınmıştır. Bu özel girişimlerin başarılı olup olmamasından bağımsız olarak, bilginin yordamsal temsili ve anlamsal-sözdizimsel yakın etkileşim fikirlerinin önümüzdeki yıllarda kesinlikle sürdürüleceği açıktır.

Konuşmayı Anlama Sistemleri

Doğal dil üzerine bu bölümde şimdiye kadar, dilin bilgisayara kolayca makine tarafından okunabilir bir biçimde sunulacağını varsaydık—örneğin bir bilgisayar terminali klavyesiyle yazılarak. Oysa çoğu insan için, benim de dahil olduğum, yazmak pek doğal görünmez; bir meslektaşımla, bir dinleyici kitlesiyle ya da bir bilgisayarla konuşarak iletişim kurmayı çok daha tercih ederim.

Bu bölümün başlarında, bilgisayarların doğal dili anlamasını istememizin nedenlerinden birinin, insanların bilgisayarlarla insanlar arasındaki kadar kolay iletişim kurabilmesi olduğunu belirtmiştim. Konuşarak iletişim kurmak, yazılı iletişimden çok daha elverişli olmakla kalmaz; uzun mesafeli konuşmalı iletişim için gerekli teknik mekanizma zaten mevcuttur: neredeyse her evde ve ofiste bir telefon vardır; çok azında ise bir teleks yazıcısı bulunur.

Bilgisayarların konuşulan İngilizceyi anlayabilecek duruma getirilebilmesi olasılıkları nelerdir? Konuşulan sözcüklerin makine tarafından tanınması, bilgisayar biliminin neredeyse başlangıcından beri üzerinde çalışılan sorunlardan biridir ve elde edilen sonuçlar hayal kırıklığı yaratacak derecede zayıf olmuştur. Ancak 1971’den bu yana, görünüşte daha da zor olan, tam cümlelerin ve konuşmaların otomatik olarak anlaşılması problemine yönelik iyimser bir etkinlik artışı yaşanmış ve önemli ilerlemeler kaydedilmiştir. Şimdi neler olup bittiğini kısaca gözden geçirelim.

Elektriksel Çıkışın Yorumlanması

Konuşma bir sestir; havada ilerleyen dalgalardan oluşan fiziksel bir olgudur. Kulak, bu dalgaları algılayan, onları sinir uyarılarına dönüştüren ve ölçülüp yorumlanmaları için beyne ileten bir mekanizmadır. Benzer biçimde, bir mikrofon da bu tür dalgaları algılayan, onları elektriksel sinyallere dönüştüren ve ölçüp yorumlamasını istediğimiz herhangi bir aygıta ileten bir mekanizmadır.

Genellikle, sağladığımız aygıtlar bir mikrofondan gelen çıkışı yorumlamaz; yalnızca onu bant ya da disk üzerine kaydeder, ya da bir oditoryumu dolduracak biçimde yükseltir, ya da belki radyo dalgaları gibi başka bir biçime dönüştürür. Ancak, özgün konuşmada mevcut olan bilginin neredeyse tamamının, yüksek kaliteli bir mikrofondan elde edilen elektriksel çıkışta da bulunduğunu biliyoruz. O hâlde konuşma tanıma problemi, bu elektriksel çıkışı doğru biçimde yorumlayabilecek bir mekanizma tasarlamaktır.

Karpuz Kutusu

Böyle mekanizmaların gerçekten geliştirilebileceğini göstermek amacıyla, yirmi yıldan daha uzun bir süre önce bir akustik (ses) mühendisi bir “karpuz kutusu” yaptı. Bu, önünde bir mikrofon ve üstünde kırmızı bir ışık bulunan bir elektronik donanım kutusuydu. Yakın çevresindeki herhangi bir konuşma sırasında birisi “watermelon” sözcüğünü telaffuz ettiğinde, ışık yanıp sönerdi. Karpuz kutusunun tek amacı ve yeteneği buydu: “watermelon” sözcüğünü duyduğunda yanıp sönmek.

Şimdi, konuşmada yaygın olarak kullanılan yalnızca yaklaşık 10.000 İngilizce sözcük vardır. Bu, her sözcük için bir tane olmak üzere yaklaşık 10.000 “karpuz kutusu” yapmamızın yeterli olacağı ve böylece tam bir konuşma tanıma sistemine sahip olacağımız anlamına mı gelir? Ne yazık ki hayır. Görünüşe göre “watermelon” sözcüğü tanınması özellikle kolay olan bir sözcüktür. “Watermelon”, İngilizcede, bu sırayla “a”, “e”, “e” ve “o” harfleriyle temsil edilen, ardışık, birbirinden farklı ve eşit aralıklı dört ünlü sesini içeren tek sözcük gibi görünmektedir. Kutu, yalnızca bu dört sesi algılayabilmek ve bunların doğru bir zaman dizisi içinde gerçekleşmesini izlemek zorundaydı. İhtiyaç duyabileceğimiz diğer yaklaşık 9.999 sözcüğün çok azı bu kadar kolay sınanabilir.

Yaklaşık yirmi yıl boyunca, birçok araştırma ekibi daha büyük ve daha iyi karpuz kutuları geliştirmeye çalıştı. Hem analog hem de dijital bilgisayar teknolojisini kullanan, son derece büyük, karmaşık ve pahalı sistemler üretildi. Bu sistemlerde birçok ünlü sesi, ünsüz sesi, perde düzeylerini, ses şiddetini, üst tonları, süreleri ve konuşma seslerinin çok sayıda başka teknik özelliğini algılamaya yönelik devreler bulunuyordu. Yine de bu sistemlerin tanıyabildiği en fazla şey, yaklaşık 100 farklı sözcük oldu; o da ancak sözcükler dikkatle telaffuz edildiğinde, tek tek söylendiğinde ve sistemin belirli bir konuşmacının sesine ayarlanmış olması durumunda.

N-eye-un

Bu hayal kırıklığı yaratan sonuçlar, otomatik konuşma anlayışının mümkün olmadığı anlamına mı gelir? Kesinlikle hayır; çünkü yakın zamanda fark etmeye başladığımız gibi, birçok yalıtılmış sözcüğü yalnızca seslerine bakarak tanıma problemi—buna süper-karpuz-kutusu problemi diyelim—en azından akan bir konuşmanın özünü anlamak probleminden oldukça farklıdır ve muhtemelen ondan çok daha zordur.

Aslında, insanlar da pek iyi süper-karpuz-kutuları değildir. Telefon operatörleri, düşük ses kalitesine sahip bir telefon sistemi üzerinden anlamsız bir sayı dizisi dinlerken insanların “nine” ile “five” sözcüklerini karıştırmaya yatkın olmaları nedeniyle, “nine” yerine “n-eye-un” demek üzere eğitilirler; çünkü bu iki sayının ünlü sesleri birbirine çok benzer. Benzer şekilde, Almanca konuşan bazı kişiler “eins, zwei, drei” yerine “eins, zwo, drei” diye sayar.

Kalabalık ve gürültülü bir partide biri sizinle konuşurken, genellikle her sözcüğü anlar mısınız? Tekrar istemeden söylenenleri ne sıklıkla takip edebilirsiniz? Birisi kendini size tanıttığında, özellikle sesine önceden aşina değilseniz, ismi duymakta ve tanımakta zorlandığınızı fark etmez misiniz?

Anlamın Öğeleri

İngilizce konuşmayı anlamak için bir süper-karpuz-kutusu geliştirmeye çalışmak, İngilizce metni anlamak için bir süper-sözdizimsel-çözümleme sistemi geliştirmeye çalışmaya çok benzer; doğal dili anlamak için kritik görünen anlam ve bağlam öğelerini göz ardı eder.

1970 yılında, bilgisayar ve akustik bilimcilerinden oluşan bir komite, çeşitli süper-karpuz-kutusu projelerinde geliştirilenler gibi akustik teknikleri, Winograd tarafından geliştirilenler gibi en yeni dilbilimsel ve soru-yanıtlama teknikleriyle bütünleştirmeyi amaçlayan bir program başlattı. Amaç, sınırlı bir konu alanına uyarlanmış, birbirine sıkı biçimde bağlı sözdizimsel, anlamsal ve akustik bileşenler içeren bir konuşmayı anlama sistemi geliştirmektir.

1970’lerin sonlarına doğru gösterilmesi planlanan bu hedef sistemin, en az bin sözcükten oluşan bir söz varlığıyla makul ölçüde anlamlı bir sohbeti sürdürebilmesi beklenmektedir. Bu sistemin amacı, 1980’lerin yararlı ve ekonomik açıdan uygulanabilir konuşmayı anlama sistemleri için deneysel bir prototip olmaktır.

Girdi Verilerinin Niteliği

Bir konuşmayı anlama sistemi geliştirme problemi ile bir soru-yanıtlama sistemi geliştirme problemi arasındaki temel fark, girdi verilerinin niteliğinde yatar: soru-yanıtlama girdisi, eksiksiz, düzgün ve doğru biçimde yazılmış İngilizceden oluşur; konuşma girdisi ise netliği ve anlaşılabilirliği değişken olan bir ses akışından oluşur.

Sonuç olarak, bir soru-yanıtlama sisteminin normal yaklaşımı olan, bir cümleyi baştan başlayıp soldan sağa düzgün bir biçimde işleme yöntemi konuşma için uygun değildir. Bunun yerine, sistem tüm bir ifadeyi ya da söylemi kabul etmeli ve ardından onun üzerinde “düşünmelidir”. Söylemin hangi bölümü en netti? Hangi sözcük oldukça kesin biçimde anlaşıldı? Bu sözcükten önce ve sonra hangi tür sözcüklerin gelmesi olasıdır? Bu ifade, mevcut durum açısından anlamlı mı? Ve benzeri sorular.

Nasıl ki güncel soru-yanıtlama sistemleri önce bir cümlenin tüm olası sözdizimsel çözümlerinin bir listesini yapmıyorsa, güncel konuşmayı anlama sistemleri de önce girdinin hangi sözcük ve ifadelere benzediğine dair tüm olası seçeneklerin bir listesini yapmaz. Bunun yerine, önce mevcut konuşmanın bağlamına ilişkin bilgilerini kullanarak hangi sözcüklerin ortaya çıkmasının olası olduğunu öngörürler ve ardından bu öngörüleri doğrulamak için ses verilerine bakarlar.

Satranç: “Bu Daha İyi Bir Hamleydi”

1971’de Carnegie-Mellon University’de geliştirilen konuşmayı anlama sistemlerinin ilk sürümlerinden biri, bu yönde biraz fazla ileri gitti. Bu sistem için sınırlı alan satranç oyunuydu; bir insan oyuncu, hamlelerini konuşarak konuşmayı anlama programına bildirerek bir bilgisayar satranç programına karşı oynayacaktı.

Ancak insan oyuncu “Pawn to queen four” dediğinde, bilgisayar hamleyi “Pawn to king four” olarak kaydetti. Bunun nedeni, programın karpuz-kutusu bölümünün “queen” ve “king” sözcüklerinin sesleri arasındaki farkı henüz yeterince iyi ayırt edememesiydi. Hangisinin söylendiğinden emin olamadığı için bilgisayar oyun durumuna baktı ve kendi görüşüne göre şah hamlesinin daha iyi bir hamle olduğuna karar verdi; dolayısıyla oyuncunun istediğinin bu olması gerektiğini varsaydı.

Görünüm Umut Verici

1975 yılına gelindiğinde, satranç sistemine ek olarak, deneysel konuşma-anlama sistemlerinin en az iki sürümü geliştirilme aşamasındaydı. Bunlardan biri, Kaliforniya’daki iki laboratuvarın ortak çalışması olup, başlangıçta Winograd’ın dil-çözümleme sisteminin bir sürümüne dayanıyordu; ancak girdi konuşma akışında uygun herhangi bir noktadan başlayarak tahmin ve doğrulama biçiminde çalışacak şekilde köklü biçimde değiştirilmiştir.

Massachusetts’te geliştirilmekte olan bir diğer sistem ise, dil işleme için artırılmış geçiş-ağı yaklaşımına dayanmaktadır; ancak konuşma girdisinin gereksinimlerine uyması için o da büyük ölçüde değiştirilmiştir. Halihazırda (1975 itibarıyla) yüz kelimeden fazla kelime dağarcığına sahip, sözdizimsel, anlamsal ve akustik alt sistemleri (her ne kadar hâlâ çok yavaş olsa da) bütünleştirebildiğini gösteren ve belki de en önemlisi, büyük yeni teknik güçlüklerle karşılaşmadan gerekli 1.000 kelimelik kelime dağarcığını ele alabilecek şekilde genişletilebilir olduğu görünen sistemler mevcuttur. Önümüzdeki birkaç yıl içinde anlamlı otomatik konuşma anlama konusunda görünüm son derece umut vericidir.

Editoryal Not: “…..” işareti önemli bir çıkarımı belirtir. İlgilenen okuyucuların kitaptaki bölümün tamamını okumaları önerilir.

Önerilen Okumalar

  • Chomsky, N. Syntactic Structures. Mouton, Lahey, 1957.
  • Fillmore, C. “The Case for Case.” Universals in Linguistic Theory içinde, E. Bach ve R. T. Harms (ed.). Holt, Rinehart & Winston, New York, 1968.
  • Newell, A., ve diğerleri. Speech Understanding Systems: Final Report of a Study Group. North Holland Publishing Co., Amsterdam, 1973.
  • Schank, R. C., ve K. M. Colby (ed.). Computer Models of Thought and Language. W. H. Freeman and Company, San Francisco, 1973.
  • Simmons, R. F. “Natural Language Question-Answering Systems: 1969.” Communications of the Association for Computing Machinery, Cilt 13, ss. 15–30, 1970.
  • Winograd, T. Understanding Natural Language. Academic Press, New York, 1972.