← Computers & Automation

Automatic Searching of Chemical Literature

B
Bilinmeyen Yazar
1959 · Computers and Automation

Kimya Literatürünün Otomatik Olarak Taratılması

National Bureau of Standards
Washington 25, D.C.

National Bureau of Standards ile Patent Ofisi, patent taramasının mümkün olduğunca mekanikleştirilmesine yönelik yöntemler bulmak amacıyla, patent taramasının teknik yönlerini işbirliği içinde incelemektedir.

Bu işbirliği çabasındaki başlıca görevlerden biri, elektronik bir bilgisayardan yararlanarak patentlerin otomatik olarak taranmasına yönelik bir program geliştirmek olmuştur. HAYSTAQ olarak bilinen bu program, özellikle kimya alanındaki teknik literatürün depolanması, aranması ve geri getirilmesi için tasarlanmış deneysel bir sistemle sonuçlanmıştır. Çalışmalar, Kurumun veri işleme sistemleri laboratuvarından Bayan E. Marden ile Patent Ofisi’nden H. R. Koller ve H. Pfeffer tarafından yürütülmektedir.

Bu tür sistemler, bir patent uzmanının yapması gereken manuel literatür taramasını tamamen ortadan kaldırmayacak olsa da, bu taramayı görece az sayıda belgeyle sınırlaması beklenmektedir.


Manuel Aramanın Simülasyonu

HAYSTAQ sistemi, bir patent uzmanının şu anda yaptığı manuel aramanın belirli özelliklerini elektronik bir bilgisayarda simüle etmektedir; bu sistem, Kurumun yüksek hızlı bilgisayarı olan SEAC için programlanmıştır. Şimdiye kadarki inceleme kimya literatürüyle ilgili olmakla birlikte, diğer bilimsel kategorileri de kapsayacak kadar geniş ilkeler geliştirme yönünde bir girişimde bulunulmuştur.

Sistem esasen dört bölümden oluşmaktadır:

  1. Aranacak bilgilerin tam açıklama dosyası için bir veri toplama ve veri denetleme yordamı
  2. Dosyaya yöneltilecek soru için bir veri hazırlama yordamı
  3. İçerdiği tüm alt yordamlarla birlikte arama yordamının kendisi
  4. Sorulara bulunan görünen yanıtları değerlendiren “kontrol” yordamı

Günümüzde sistem, teknik eğitim almış bir kişinin her belgeyi okumasını ve analiz etmesini ve otomatik arama için kodlanacak bölümleri belirlemesini gerektirmektedir.

Bir Açıklamadaki Bilgilerin Düzenlenmesi

Bir patent başvurusu arama için kodlanmadan önce, ne kadar ve hangi tür bilgileri içerdiğini belirlemek ve çeşitli bilgi parçalarının göreli önemini değerlendirmek amacıyla yakından incelenmelidir.

Kimya alanındaki bir açıklamadaki bilgiler, ilişkiler hiyerarşisi içinde düzenlenir. Ele alınan en büyük bölüm, açıklanan tüm adımlarıyla birlikte eksiksiz bir kimyasal süreçtir. Bir sonraki en büyük bölüm bir bileşim veya karışımdır. Her bileşim, sayısal kodlarla temsil edilen bileşen gruplarına ayrılır. Böyle bir grup içindeki bireysel birimler tanımlayıcılar olarak adlandırılır ve tek tek atomlar, bağlar veya birden fazla farklı türde atom içeren alt yapılar gibi unsurları temsil edebilir.

Bu hiyerarşinin üzerine, alternatiflik, eşdeğerlik, yokluk ve olumsuzluk gibi diğer ilişkilerin tanınmasına yönelik düzenlemeler eklenmiştir. Arama prosedürü, esasen tüm düzeylerde benzer bileşenleri bulmak için yapılan bir eşleştirme sürecidir. Daha büyük bir yapı içinde yer alan daha küçük bir konfigürasyonun tanınması için de düzenlemeler yapılmıştır.

Hiyerarşinin tüm düzeylerinde, yanıt sağlamayacak belgelerin mümkün olan en erken aşamada elenmesine yönelik bir çaba vardır. Kullanılan eleme aşamaları, muhtemel etkinliklerine göre kendi içlerinde sıralanmıştır. Hem soru hem de açıklama için tüm verilerde, kârsız aramaların daha kolay sonlandırılabilmesi için tanımlayıcılar sıralı bir dizilim halinde düzenlenmiştir.

İlk genelleştirilmiş pilot programda sorulan tipik sorulardan biri şuydu:

Ateş ve sıtmaya karşı kullanım için, sulu olmayan bir bileşim açıklaması bulunuz; bu bileşim boneset; en az 7 karbon atomu ve bir çift bağ içeren alkilleştirilmiş bir siklohekzenil hidrokarbon; 11 karbon atomu, bir oksijen atomu ve bir çift bağdan oluşan asiklik bir keton; kinin ve sinkonidin grubundan bir üye; ve tatlandırıcı madde olarak, en az bir hidrojen atomu, bir oksijen atomu, 10 karbon atomu ve bir çift bağ içeren alkilleştirilmiş bir siklohekzenil alkol barındıran Pinaceae familyasından bir özüt içermektedir.

Arama Yordamı

Arama yordamı, bir bakıma denetleyici bir üst yordamdır; sorulan sorunun niteliğini ve aranan belgenin özelliklerini inceledikten sonra bir arama yolu seçer. Bu yordam, gerekli alt yordamlar için bir tür montaj programıdır ve bu alt yordamların bazıları, yordamın tamamından daha uzundur.

Genel programın deneme çalıştırmaları, kimyasal bileşiklerin tanımlanmasında bazı yetersizlikleri ortaya koymuştur; bu nedenle, bileşik içindeki yapıların fonksiyonel gruplamalarının topolojisini izlemeye yönelik çok büyük ve ayrıntılı bir program planlanmış ve uygulanmıştır. Bu alt yordam, patent taramasının kendine özgü teknik yönlerinin ortaya çıkardığı birçok zorluğu dikkate almaktadır. Bu topolojik izleme alt yordamına, görece gelişmiş birkaç kavram dâhil edilmiştir.

Bir patent uzmanı için büyük önem taşıyan konulardan biri, arama sorusunun jenerik olarak sorulabilmesidir. Bunu sağlamak için topolojik izleme alt yordamına iki düzenleme eklenmiştir: bunlardan biri, bir cins (genus) talep edilmesini ve yanıt olarak bu cinsin herhangi bir belirli üyesinin kabul edilmesini mümkün kılar; diğeri ise yapısal “Markush grubu” sorununu dikkate alır. “Markush grubu” ile, kapsamı tüm üyelerinin listelenmesiyle belirlenen sentetik bir cins kastedilmektedir. Yani tek bir yapısal varlık, topolojik diyagramında belirli noktalarda listelenmiş çeşitli alternatif bileşenlere sahip sabit bir çekirdek göstererek tüm bir bileşikler sınıfını tanımlayabilir. Bir Markush grubu için, grubun listelenmiş üyelerinden herhangi birinin kabul edilmesine ek olarak, programın o bağlantı için “ikame edici yok” durumunu da yeterli sayması belirtilebilir.

İzleme işlemini gerçekleştirmek için, tüm kimyasal yapı içindeki fonksiyonel gruplardan oluşan temel bir söz dağarcığı geliştirilmiştir. İşlenecek veriler, bu tür tüm grupların bir listesinden ve bağ türleri de dâhil olmak üzere birbirleriyle olan bağlantı ilişkilerinden oluşur. Bazı durumlarda topolojik izlemenin elenmesi için birden fazla ekran kullanılır. Bir ekranı oluşturan verilerde, yapıda bulunan kimyasal açıdan anlamlı kombinasyonları temsil eden tüm terimler listelenir. Bu terimler, topolojik bölümde en az iki fonksiyonel gruptan oluşur ve tanımları sabit ve değişmezdir.

Başka bir ekranda, yapıda bulunan genel kavramlar listelenir ve gerekli olduğunda, incelenen yapılarla ilgili özgül fonksiyonel gruplar cinsinden tanımlanır. Program, bu iki listeye başvurarak birçok verimsiz aramayı atlar.

Topolojik izleme sırasında, benzer gruplar bulunduğunda ya da eşleştirildiğinde, sorulan gruplar ile soruya gerçekten yanıt veren eşleşen gruplardan oluşan bir eşdeğerler tablosu oluşturulur. Normalde program, referans olarak yalnızca belge numarasını verir; ancak bazı karmaşık durumlarda, tüm başarılı eşleşmeleri listeleyen bu "Eşdeğerlik Tablosu"nun tamamı yazdırılabilir. Kısa bir mesafe için yanlış bir iz izlenmesi mümkün olduğundan, program geri dönmeye ve yeniden eşleşme aramaya olanak tanır.

Son Çalışmalar

HAYSTAC sistemindeki en son çalışmalar, topolojik izleme programı için otomatik bir veri birleştirme ve veri denetleme yordamının programlanması ve büyük bir deneysel test dosyasının derlenmesi üzerinde yoğunlaşmıştır. Dosyaya karşı çeşitli test soruları denenerek, bilgi erişimi alanında gelecekteki araştırmalar için en verimli yönlere işaret eden anlamlı bazı istatistiklerin elde edilmesi mümkün olacaktır.

Daha fazla teknik bilgi için H. R. Koller, E. Marden ve H. Pfeffer tarafından yazılan The HAYSTAC system: past, present and future adlı çalışmaya bakınız. Uluslararası Bilimsel Bilgi Konferansı için bildirilerin ön baskıları, Washington, D.C., 16–21 Kasım 1958; Organization of chemical disclosures for mechanized retrieval, Patent Office Research and Development Report No. 5, U.S. Patent Office, Washington 25, D.C.