Artificial Intelligence and Natural Language Systems Part 2 (1987)

Yapay Zekâ ve Doğal Dil Sistemleri

Bölüm 2

Digital Equipment Corp.
200 Baker Ave.
Concord, MA 01742

“Tüm doğal dil sistemlerinde olduğu gibi, söylem alanı ne kadar sınırlıysa, insan sözcüklerinden bilgisayar kavramlarına yapılan çeviri o kadar iyidir.”

(Bölüm 1, Computers and People dergisinin Mart–Nisan 1987 sayısında yayımlanmıştır.)

Makine Çevirisi

Bir doğal dilden diğerine makine çevirisi üzerine yapılan çalışmalar, insan dilinin inceliklerinin bilgisayarlaştırmaya kolayca boyun eğmediğini ortaya koymuştur.

Yirmi yıl önceki sözcük sözcüğe çeviri sistemleri işe yaramıyordu.

Makine çevirisi araştırmaları, insan dili bilişinin; cümlelerin yapısı, sözcüklerin anlamı, konuşma kalıpları, konuştuğunuz kişinin beklentileri, hedefleri ve inançları ve konuşmanın belirli konusu hakkında çok büyük miktarda bilgi dâhil olmak üzere, birçok türde bilgi gerektiren son derece karmaşık bir yetenek olduğunu giderek daha açık biçimde göstermiştir.

Otomatik çeviriye en çok yaklaşan güncel uygulamalar, sözcükleri bağlam içinde çevirebilmek için sözdizimsel ve anlamsal bilgileri kullanabilir.

Farklı sistemler, makine tarafından çevrilmiş taslakları düzenlemek veya sistemlerin yetenek sınırları dışındaki öğelerin çevrilmesine yardımcı olmak için değişen düzeylerde insan desteği gerektirir.

Ayrıca, “tam otomatik” olarak tanımlanan sistemler şu anda küçük alanlarla sınırlıdır.

Çeviri hızı, çok az düzenleme gerektiren çıktılar için saatte 600 sözcük kadar yavaş ya da önemli ölçüde düzenleme gerektirmesi muhtemel çıktılar için saatte 60.000 sözcük kadar hızlı olabilir.

Bazı sistemlerde daha yüksek hızlar, girdiyi daha kısa cümlelerle sınırlayarak ya da çıktı kalitesi için daha düşük standartlar belirleyerek elde edilir.

Tüm doğal dil sistemlerinde olduğu gibi, söylem alanı ne kadar sıkı biçimde sınırlandırılmışsa, çeviri o kadar iyidir.

Bazı Gerçek Sistemler

Massachusetts, Waltham’daki Logos Corporation tarafından geliştirilen LOGOS sistemi, ticari kullanım için tasarlanmıştır.

LOGOS, bir insan çevirmenle ortak çalışır. LOGOS çeviriye başlamadan önce, belgeyi bilmediği sözcükler açısından inceler. Çevirmen daha sonra bu sözcükler hakkında sisteme bilgi sağlar ve genel sözlüğü genişletir. Belirli çeviri için gerekli sözlük tamamlandıktan sonra LOGOS belgenin bir taslağını üretir; çevirmen de bunu düzenler. Sözcüklerin çeşitli bağlamlar için birden fazla tanımıyla sözlüğü özelleştirmek, sistemin satıcının sözlüğünün yeni sürümlerini kabul edememesine yol açmaz.

Illinois, Northbrook merkezli Weidner Communications Corporation yarı otomatik sistemler satmaktadır. Satıcı, kullanıcıların kendi terimlerini eklediği 15.000 sözcük ve deyimden oluşan bir çekirdek sözlük sağlar. Weidner sistemi, bilmediği sözcükler için çevirmeni etkileşimli olarak yönlendirmesi ve sözlüğü aşamalı olarak geliştirmesi dışında LOGOS’a çok benzer.

Utah, Provo’daki Automated Language Processing Systems, Inc. tarafından geliştirilen ALPS sistemi, çeviri sürecinin toplu işleme yerine etkileşimli kipte çalışması bakımından biraz farklı bir yaklaşım benimser. Bu sistem, etkileşimli kipin yalnızca bilinmeyen sözcükleri değil, bağlam içinde anlamı belirsiz olan sözcükleri de bulması açısından biraz daha ileri gider. Genel olarak ALPS sözlüğü, tek tek sözcüklerin yanı sıra deyimler gibi sözcük dizilerini veya ifadeleri de barındıracak şekilde daha gelişmiştir. Tek bir büyük sözlük yerine ALPS, birden fazla başvuru sözlüğü kullanır ve ayrıca her belge için ayrı bir sözlük oluşturur. Belge sözlüğü, diğer bağlamlarda yazılmış belgelere uygulanacak sözlük tanımlarını etkilemeden, belgenin özgül bağlamına göre ince ayar yapılmasına olanak tanır.

Deneysel sistemler, kavramsal bağımlılıklar ve betikler gibi bilgi yapıları içine daha fazla anlamsal bilgi katmaya başlamaktadır; bunlar, yorumlamadaki belirsizliklerin giderilmesine yardımcı olan bilgileri sisteme sağlar. Örneğin, Avrupa Ekonomik Topluluğu’nun desteğiyle geliştirilen EUROTRA adlı sisteme anlamsal öğeler dâhil edilmektedir. Sekiz dil arasında makine çevirisi yapması amaçlanan bu sistemin, on yılın sonuna kadar işler hale gelmesi planlanmaktadır.

Belgeyi Anlama

Yale Üniversitesi’ndeki araştırmacılar, Profesör Schank’ın yönetimi altında, belgeyi anlama alanında bir dizi sistem geliştirmiştir.

Gerald DeJong (şu anda Illinois Üniversitesi, Urbana’da elektrik ve bilgisayar mühendisliği doçenti) tarafından geliştirilen FRUMP, insanların gazete haberlerini nasıl gözden geçirdiğini modelleme girişimiydi. Bu sistem, ajans haberlerini tarar ve bunların birkaç dilde kısa özetlerini üretir. FRUMP, bir durumu bir stereotipe uygun olarak tanımlayan ve yalnızca en önemli yönleri not eden “taslak betikler” kullanır.

Janet Kolodner (şu anda Georgia Institute of Technology’de bilgisayar bilimi doçenti) tarafından geliştirilen CYRUS adlı bir sistem, eski Dışişleri Bakanı Cyrus Vance’ın faaliyetlerine ilişkin FRUMP’tan elde edilen bilgileri depolamak üzere tasarlanmıştır. CYRUS’un amacı, insanların belleklerinin nasıl örgütlendiğini modellemekti. Sistem bilgileri çapraz referansladı ve yeni bilgileri barındıracak şekilde bellek yapısını yeniden düzenleyebildi. CYRUS, dışişleri bakanlarının ne yaptığı, protokol ve Vance’ın faaliyetleriyle ilgili diğer konular hakkında bir bilgi tabanının dâhil edilmesiyle görevinde desteklendi.

Kavramlara Dayalı Bilgiye Erişim

CYRUS ve FRUMP metni gözden geçirir; ancak BORIS, öyküleri mümkün olan en derin düzeyde anlamaya çalışmak için çok sayıda bilgi kaynağını içeren bir öykü anlama ve soru-cevap sistemidir. BORIS, Yale Üniversitesi’nde Wendy G. Lehnert’in (şu anda Massachusetts Üniversitesi, Amherst’te bilgisayar bilimi doçenti) yönetimindeki bir araştırmacı ekibi tarafından geliştirilmiştir.

BORIS, modüler sistemlere göre bir ilerlemeydi. BORIS’te, girdiyi işleyen ve anlamaya yardımcı olan çeşitli öğeler, tek tek kullanılmak yerine bütünleşik biçimde çalışır. BORIS, bir öyküyü derinlemesine anlayabilmek için etkileşim içinde çalışan dört temel işlem birimine sahiptir.

Kavramsal çözümleyici olarak adlandırılan bir ayrıştırıcı, İngilizce metni okur ve bilgiyi kavramsal bağımlılık biçiminde depolar. Öykü okundukça, olay özümsayıcısı o ana kadar depolanan kavramları, birbirleriyle ve dünya hakkında önceden depolanmış bir bilgi birikimiyle ilişkileri açısından inceler. Bir soru-cevap modülü, sisteme yöneltilen soruları ayrıştırmak için kavramsal çözümleyiciyi kullanır. Modül daha sonra, sistemin kavramsal bağımlılık biçiminde ifade ettiği bellek içeriğine dayanarak çıkarımlar yapar. Son olarak, İngilizce üreteci, kavramsal bağımlılık gösterimini İngilizce dil çıktısına dönüştürür.

Yukarıda tanımlananlar gibi belgeyi anlama sistemleri, bilgisayarların metni özetlemesini ve içeriğe dayalı yanıtlar üretmesini mümkün kılar. Ayrıca bilgisayarların bilgiyi yalnızca anahtar sözcüklere göre değil, kavramlara dayanarak depolamasını ve geri çağırmasını da sağlar.

Metin Eleştirisi

Belge üretiminin bir yönü olan metin eleştirisi, EPISTLE sisteminde uygulanmıştır. EPISTLE, IBM Thomas J. Watson Araştırma Merkezi’ndeki araştırmacılar tarafından geliştirilmiştir. Sistemin mevcut uygulaması, ofis çalışanları için iş mektubu yazımına destek (yazım, dilbilgisi ve üslup denetimi) sağlar.

Bir doğal dil işleme birimi, çevrimiçi bir sözlük ve İngilizce dilbilgisini kodlayan kurallara göre cümleleri ayrıştıran bir sistem aracılığıyla yazılmış metni analiz eder. Sistem, sorunlu metni vurgulayarak ve hata türünü (yazım, dilbilgisi veya üslup) bir kip penceresinde belirterek hataları işaretler. Kullanıcı, imleçle üzerine gelerek üzerinde çalışacağı hatayı seçer. Sistem, bir düzeltme penceresinde öneriler sunar. Kullanıcı, önerilen bir düzeltmeyi uygulayabilir, yok sayabilir, ek bilgi isteyebilir veya kendi düzeltmesini yerine koyabilir.

Konuşmayı Anlama

İnsanların konuşulan dil olan ses akışını nasıl anlamlandırabildiğini henüz tam olarak kavrayamadığımız için, doğal dil iletişiminin bu alanının henüz olgunluk aşamasında olmaması şaşırtıcı değildir. Erken teknikler, bir problem alanıyla ilgili seçilmiş sözcüklerin ses örüntülerini depolamayı ve girdi sinyalini bu örüntülerle karşılaştırarak eşleşmeler bulmaya çalışmayı içeriyordu.

ABD Savunma Bakanlığı’na bağlı Advanced Research Projects Agency (ARPA), bu alandaki ilerlemeleri teşvik etmek amacıyla 1970’lerin başında Speech Understanding Research (SUR) projesine destek verdi. Carnegie-Mellon University tarafından ARPA’nın çağrısına yanıt olarak geliştirilen bir belge erişim uygulaması olan HEARSAY-II, sistem konuşmacı tarafından telaffuz edilen yaklaşık 60 eğitim cümlesiyle beslendikten sonra, tek bir erkek konuşmacının bağlantılı konuşmasından oluşan 1.011 sözcüklük bir söz varlığını anlayabildi. HEARSAY-II, konuşmacının ifadelerini yüzde 9 ile yüzde 26 arasında hata oranıyla anladı.

HEARSAY-II, konuşmayı anlama ile sınırlı olmayan yenilikçi bir denetim yapısı nedeniyle SUR sistemlerinin belki de en iyi bilinenidir: bağımsız bilgi kaynakları, sonuçların paylaşıldığı ve alt problemlerin ortaya konduğu bir "kara tahta" üzerinden birbirleriyle iletişim kuruyordu. Bu denetim yapısı daha önce, sesli komutlara yanıt olarak satranç oynayan bir konuşmayı anlama sistemi olan HEARSAY-I’de kullanılmıştı.

Şu anda kullanımda olan sistemler çeşitli açılardan farklılık göstermektedir. Bazıları konuşmacıdan bağımsızdır, bazıları ise yalnızca belirli bir kişinin konuşmasını tanır. Bazıları yalnızca yalıtılmış sözcükleri tanıyabilirken, diğerleri bağlı konuşma akışı içinden belirli bir sözcüğü seçip ayırt edebilir; hatta bazıları belirli dar sınırlar içinde bağlı konuşmayı anlayabilir. Sistemler ayrıca sözcük dağarcıklarının büyüklüğü açısından da farklılık gösterir.

Günümüzde, konuşmacıya bağımlı, yalıtılmış sözcük sistemleri yaklaşık 1.000 sözcüğü tanıyabilmektedir. Güvenilir tanıma için bu sayı, iyi seçilmiş yaklaşık 50 sözcüğe düşer. Güvenilir bir bağlı konuşma sistemi için geniş bir sözcük dağarcığı 200 sözcük olur; konuşmacıdan bağımsız, bağlı konuşma sistemi için ise bundan da daha azdır.

Bir Kişinin Konuşmasından Örnekler

Bir sistemi konuşmacıya bağımlı bir biçimde sözcükleri tanıyacak şekilde eğitmek için, o kişinin konuşmasından örnekler sağlamanız gerekir. Bir ya da daha fazla kişinin ünsüzleri telaffuz etme biçiminde bir miktar değişkenlik olmakla birlikte, ünlülerin telaffuzu ve söyleyiş hızında çok büyük değişkenlik vardır. Bu etmenler, eğitimin çok sayıda farklı örneği içermesini gerektirir.

Bir sistemin bağlı ya da sürekli konuşmayı anlamasını sağlamaya çalışmak, probleme ek zorluklar katar. Bitişik sözcüklerin heceleri birbirine karışabilir ya da bazı seslerin düşmesine neden olabilir. Bağlı konuşma, dizideki her sözcüğün tek tek telaffuz edilmesiyle oluşan ses akışına çok az benzediğinden, yalnızca sözcük sözcük örüntü eşleştirmek yeterli değildir.

Konuşmayı anlama sistemleri için güçlükler, aynı seslenen; yazımları aynı ya da farklı olabilen, ancak anlamları farklı olan eşsesli sözcüklerle de ortaya çıkar; örneğin "I heard the song" ve "I saw a herd of buffalo." Yakından ilişkili bir başka güçlük de "I scream" ve "ice cream" gibi benzer seslenen ifadelerle ortaya çıkar.

Bağlı konuşma, hangi sözcüklerin birbirini yasal olarak izleyebileceğini öngörmeye yardımcı olan konuşma kuralları sağlandığında bir sistem için yorumlanması daha kolaydır. Sözcük dağarcığını bir alan içindeki belirli sözcüklerle sınırlamak da yardımcı olur; böylece örüntü eşleştirme için gereken işlem süresi azalır.

Şu anda, sistemlere bağlama dayalı olarak ifadelerin ne anlama gelebileceğini öngörmelerine yardımcı olacak dünya bilgisi kazandırma üzerine araştırmalar yapılmaktadır.

Konuşma Üretimi

Konuşma üretimi, bir makinenin metni sesli olarak okuması için kullanılan terimdir. Konuşma, metni önceden belirlenmiş olan bir sistemin çıktısının, doğru telaffuz edilmiş konuşma biçiminde duyulabilir olarak üretilmesidir. Doğal dil probleminin bu bölümü, ticari olarak temin edilebilen konuşma üretim aygıtlarının ortaya çıkmasıyla çözüme kavuşmuştur.

Digital Equipment Corporation, alfasayısal metni insan kalitesinde konuşmaya dönüştüren bir ürün olan DECtalk’ı geliştirmiştir. DECtalk, konuşulacak ifadenin bağlamını ve noktalamasını değerlendirmek için mantıksal kurallar kullanır ve bunu konuşma İngilizcesine dönüştürür. Bunu, tüm girdi ifadesini gözden geçirerek cümle yapısını, dil bilgisini ve bağlamı inceleyerek yapar.

DECtalk, gelen sözcükleri 5.000’den fazla istisna, kısaltma ve kısaltılmış biçim içeren bir sözlükle karşılaştırır. Bir eşleşme bulunursa, telaffuz doğrudan listeden alınır. Sözcük ana sözlükte bulunmazsa, DECtalk bu kez belirli konu alanında kullanılan, sektöre özgü sözcükleri ve kısaltmaları içeren ikinci, daha küçük ve kullanıcı tanımlı bir sözlükte arama yapar. DECtalk sözlüklerinde yer almayan sözcüklerin telaffuzu, 500 harften sese kuralının uygulanmasıyla elde edilir.

Gerçekten gelişmiş bir konuşma üretim sistemi, ifadeleri bir insan okuyucunun okuyacağı şekilde telaffuz etmelidir. Örneğin, basit bir aygıt $125.75 değerini "dollars one two five point seven five" olarak okur. Ancak en ileri sistemler bunu olması gerektiği gibi okur: "one hundred twenty-five dollars and seventy"

Scown (18. sayfadan devam)

"Beş sent." Geleneksel konuşma sistemlerinde telaffuzlar fabrikada önceden ayarlanmıştır. Ancak yapay zekâ teknolojilerinin sisteme dâhil edilmesi, son kullanıcının ayrıntıları belirleyebildiği esnek bir kullanıcı arayüzüne olanak tanır.

Önemli bir özellik, değişken konuşma hızları ve tonlamalara sahip, doğal nitelikte birçok konuşma sesi arasından seçim yapabilme; erkek ve kadın sesleri arasında seçim yapabilme ve diğer özel efektlerdir.

Bu makale, Susan J. Scown tarafından yazılan, telif hakkı 1985 olan ve Digital Equipment Corporation, Maynard, MA 01754 tarafından yayımlanan The Artificial Intelligence Experience: An Introduction adlı kitabın 2. Bölümünden alınan bir bölüm temel alınarak hazırlanmıştır. İzin alınarak yeniden basılmıştır.