TÜRKİYE TÜRKÇESİ İLE AZERİ,KAZAK,ÖZBEK,KIRGIZ DİLLERİ ARASINA BİLGİSAYARLI BİR OLURLUK İNCELEMESİ

 

 

Türkiye Türkçesi ile Azeri, Kazak, Türkmen, Özbek, Kırgız Dilleri Arasında Bilgisayarlı Çeviri İçin Bir Olurluk İncelemesi * 

Dr.M. Ümit KARAKAŞ **

Dr. Aydın HÜSEYNOV***

ÖZET 

    Türkiye Türkçe’si  ile Azeri, Kazak, Türkmen, Özbek ve Kırgız dilleri (ki bunlar köken olarak Türk-çe’dir)  arasında  bilgisayar ağı üzerinde otomatik çeviri sistemi  geliştirilmesi  ve bu yazılımın altı ülkede altıyüz sunucu bilgisayarda çalıştırılması projesinin olurluk incelemesi bu bildirinin kapsa-mıdır. Bu ülke vatandaşları için ücretsiz olacak bu hizmetin, ülkelerin turizm, ticaret ve endüstrisin-de oluşturacağı geliştirmeler nedeniyle yıllık Gayri Safi Milli Hasıla artışına  binde bir katkı yapma-sı durumunda kazanılacak olan GSMH artışı on yıl içinde 7 milyar  dolar olarak kestirilmektedir. Yazılımın geliştirilip on yıla kadar devamlılığının sağlanması ise yaklaşık 2 milyon dolar dolayın-dadır.  Bu açıdan bu yazılımın geliştirilmesi ve sürdürülebilmesi olurlu (feasible) görülmektedir.

    Bu yazılımın geliştirilmesi için önerilebilecek üç modelden biri, yazılımın Türkiye’de ikibuçuk yıl içinde üretilip ilgili ülkelere dağıtılması ve bakımın her ülke tarafından ayrı  yapılmasıdır.  İkinci model, Türkiye’de görev ya da öğrencilik nedeniyle bulunmakta olan Azeri, Kırgız, Kazak, Türkmen, Özbek vatandaşlarından zaman desteği alarak, yazılımı geliştirmesi  ve sürdürmesidir.  Üçüncü model, altı ülkenin Milli Eğitim bakanlıkları (ya da ilgili bakanlıkları) nın finansal yönden ortaklaşa oluşturacakları bir Enstitü nün hem bu yazılımı üretip devam ettirmesi  hem de bu ülkeler arasında, bilişim alanında bir ortak ARGE merkezi olarak  işlev görmesidir.  Bu konuda, ülkelerin üst düzeyindeki tercihler yapıldığında, teknik ekibimiz, seçilen model içinde yapımı başarmak için teknik altyapıya sahiptir. 

0. GİRİŞ

    Bilgisayar destekli otomatik çeviri (automated language translation) özellikle İngilizce ile bilgisayar teknolojilerinin üst düzeyde kullanıldığı Almanca, Fransızca gibi diller arasında uzun yıllar üzerinde çalışılmış bir konudur. Ancak bu alanda harcanmış yüzlerce adam-yıllık üst düzey uzman çabasına karşılık, kapsanan doğal dil çiftlerindeki tüm metinler üzerinde, yeniden düzeltme gerektirmeyen bir başarı düzeyi  henüz sağlanamamıştır. Oysa, küreselleşme (globalization) düzeyi giderek artan dünyamızda  bilgisayar destekli otomatik çeviri (automated language translation) gereksinmesi de artmaktadır. Geniş açıdan ve on yıllık bir vizyon içinde bakıldığında, Türkiye Türkçesi ile Azeri, Kazak, Türkmen, Özbek, Kırgız dilleri arasında bilgisayarlı çeviri için çalışmaya başlamak  olurlu (feasible) dur.  Çünkü, bilgisayar ağı (www : world wide web ) üzerinden kullanımı ücretsiz, kardeş diller arası otomatik çeviri sistemi (tercihan 600 sunucu bilgisayar üzerinde), bu ülkeler arasında ekonomi, turizm, kültür  ve eğitim köprülerini  genişletecektir.

    Öte yandan, geniş açıdan ve on yıllık orta vadeli bir vizyonda  olurlu (feasible) olan bu araştırma – geliştirme (ARGE) çalışmasının, ilk üç yıl içinde ilgili taraflara getireceği ARGE harcamasının ve  araştırmacı personel dağılımının  ayrıntılı bir  plan ile  de sunulması  gerekmektedir.  Sunacağımız bildiri, temel olarak, ilgili ülkelerin ARGE kurumlarındaki teknokratlara yönelik olarak hazırlanmıştır. Yapay Us (Artificial Intelligence)  ve bilgisayar destekli otomatik çeviri (automated language translation) konusunda çalışmaları bulunan araştırmacılar, planımızı inceleyip çalışmamıza, araştırma ortağı olarak katkı verebilirler.

1. NAFTA, AB, Çin, Japonya, Hindistan ve diğer büyük ekonomi odakları arasında Türki Cumhuriyetlerin yeri,

    Ondokuzuncu yüzyıl trenlerin, telgrafın ve ülkelerin yüzyılı sayılabilir.

Yirminci yüzyılın ilk yarısı otomobilin, telefonun, radyonun ve savaşların dönemidir. Savaşlar ülkeler ve ülke grupları arasında olmuştur.

Yirminci yüzyılın ikinci yarısı, sivil havacılığın, bilgisayarların, televizyonun ve küreselleşmenin (globalization) başlangıç dönemi olarak yorumlanabilir. 

Yirmibirinci yüzyılın ilk yarısının küreselleşmenin genişleme dönemi olacağı beklenebilir.

    Küreselleşmenin gerekliliği ve rotası  gerek  ABD tarafından, gerekse Avrupanın lider ülkeleri tarafından yirminci yüzyılın ikinci yarısında  doğru teşhis  edilmiş ve bu yönde  çok önemli adımlar atılmıştır.  Kuzey Amerika kıtasında Meksika, ABD, Kanada arasında sınırlar alçaltılmış, kıta boyutunda bir ekonomik bölge oluşturulmuştur.   Avrupada oluşan Avrupa Birliği   de  kıta boyutunda  bir ekonomik birlik oluşturmaya  başlamıştır.  Herbir ekonomik birliğin kendi içinde  kültürel yakınlaşmayı ve ilgili doğal dili kullanmayı artıracağı beklenmelidir.

    Gerek ekonomik yönden, gerekse kültür / dil yönünden  9 – 10 odaklı bir yirmibirinci yüzyıla doğru adım atarken , bu gelişimin bir yüzyıl içinde var olan doğal dillerin (yaklaşık 4000), özellikle konuşan sayısı azalmış olanların, yaklaşık yarısını ortadan kaldıracağı  da  not edilmelidir.

Hangi doğal dillerin yüzyıl sonra daha da güçlenerek ayakta kalacağını kestirebilmek için “beklenen nufus”lara bakma yanında ilgili dili ana dili olarak konuşanların toplam ekonomik gücünü, ilgili dildeki toplam basılı yayın sayısına, toplam bilgisayarlı bilgi sayfası ( web page ) sayısına, ilgili dilde üretilen (ya da çevrilen) film sayısına ve benzeri kültürel yoğunluk parametrelerine bakmak gerekir.

    Burada dikkat edilmesi gereken diğer bir parametre, ilgili dilin gelişmeye devam etmekte olan sayısal teknoloji içinde hayatta kalmaya ve GELİŞMEYE ne kadar uygun olduğu’dur.

    Bazı Doğu Asya ülkelerinin iş adamları  kendi aralarında cep telefonu kısa mesajlarında  ve bilgisayar üzerinden e-mektuplarında  İngilizce iletişimi tercih etmektedirler,  çünkü  binlerce karakterden oluşan kendi alfabeleri ilerlemekte olduğumuz yüzyılın sayısal teknolojili araçlarına çok da uygun düşmemektedir.

Bir doğal dil  konuşanları  ile vardır. Ülke nufusları  ve ülke nufuslarının yakın gelecekteki (10 yıl) ve daha uzak gelecekteki  gelişimleri  bir “doğal diller arası otomatik çeviri sistemi” olurluğu (fizibilitesi) düşündüğümüz  noktada  tabanımızı oluşturur. 

Tablo1 : Dünyanın bazı Ülkelerinin 2003 Nufusu ve 2013 beklenen Nufusu ( Kaynak US Buereu of Cencus ) 

Ülke        2003 Nufus

( milyon)

Beklenen Nufus 2013 (mil.)   Ülke 2003 Nufus

( milyon)

Beklenen Nufus 2013 (mil.)   Ülke 2003 Nufus

( milyon)

Beklenen Nufus 2013 (mil.)
Dünya 6,271     Mısır 74 88    G. Afrika 45  42  (30) 
Çin 1,288  1,375   Ethopya 69 87    Arjantin 38  42  (31)
Hindistan 1,064  1,198   Almanya 82  82   İspanya 41 40  (33)
ABD 291  317    Kongo 56 75    Polonya  38  38  (34)
Endonezya 234  268    Türkiye 70  75   Kanada 31  35  (39)
Brezilya 182  200    Iran 67 74    Özbekistan 25 30 (42)
Pakistan 156  189    Tayland 62  67    Suudi Arab. 25 30 (44)
Bengaldeş 138  169    Fransa 59  62   Venezuella 24 28 (45)
Nijerya 122 155    Ingiltere 59  61    Malezya 23 27 (46)
Rusya Fed. 143  139    Italya 57  57    Avustralia 19 21 (54)
Japonya 127  126    G. Kore 47  49    Kazakistan 14 15 (64)
Meksika 102  116    Sudan 39 48   Azerbeycan 8.3 8.4 (92)
Filipinler 84 100    Kolombia 44  47    Kırgız Cu. 5.0 5.7 (109)
Vietnam 81  90    Ukrayna 48  45    Türkmenistan 4.8 5.7 (110)
 

Tabloda nufus yönünden ilk 27 ülke ara verilmeden yazılmış, üçüncü kolondaki ülkelerin yanına 2013 yılındaki beklenen nufus sıralamaları parantez içinde verilmiştir.

    Türkiye Cumhuriyeti,  nufus büyüklüğü açısından dünyanın 18. ülkesi olmaya devam edecek olarak görünmektedir. TC nin nufus büyüklüğünü de aşan Türkçe’ nin yaygınlığı,  kültürel tarihinin uzunluğu açısından yirmibirinci yüzyılda, ON dolayındaki odak ülke arasında  olmaya haklı adaylar  arasındadır. Türkçe dünyada ençok konuşulan ON doğal dil arasındadır.

    Cep telefonları (mobile communication),  çeşitli tıbbi araçlar üzerindeki  sınırlı tuş konumlu  klavyeler,  çeşitli  endüstriyel cihazlar üzerindeki sınırlı tuş konumlu  araçlar  hatta  az sayıda tuş konumu  ile yönetilen, elektronik olarak tarih atılan,  gezilen yerin adı yazılan kameralar, elektronik ev eşyaları  nedeniyle  LATİN ALFABESİ  nin yirmibirinci yüzyıla  uyumu  artmaktadır.

Tablo 2 :  Latin Alfabeli bazı dillerin aktif kullanılırlığı (Birleşmiş Milletler (UN)  kaynaklarına dayanarak )  

her dile lehçesi dahildir Ana dili /resmi dil İkinci dil olarak Ticari ve turistik dil   toplam (milyon)
İngilizce 518,244,999 69,033,265 ******* 598.2+
İspanyolca 304,689,188 17,830,359 *** 322.5+
Portekizce 151,230,622 965,712 ** 152.6+
Türkçe * 99,866,460 30,381,893 ** 133.2+
Fransızca 104,751,358 10,963,222 **** 115.2+
Almanca 93,849,110 9,341,971 **** 108.1+
İtalyanca 57,944,978 9,056,842 ** 67.0+
Polonyaca 37,881,900 1,898,223 ? 39.7+
Romence 26,407,797 28,655 ? 26.4+
Hollanda (Dutch-Flemish ) 22,383,619 408,633 * 22.8+
 

* not 1: İlk kolon toplamının 61,532,460 kişisi %99 u Türkçe bilen TC 'den , geri kalan ilk kolon toplamı Azerbeycan, Kuzey  Kıbrıs, Kazakistan, Kırgızistan, Tacikistan, Türkmenistan, Özbekistan dan gelmektedir.  İkinci dil olarak en yoğun Türkçe gündelik konuşma tercihleri İran (13.5m), Almanya (3m), Rusya (10.4m),  Afganistan, Bulgaristan, Suudi Arabistan (0.4m), Hollanda (0.23m) gibi ülkelerden gelmektedir. Almanya'da yaşayan ve çalıştığı iş nedeniyle gün içinde Almanca'da konuşan bir Türk (ya da Türkiye eski vatandaşı) ayrıca Almanya nufusu ve Almanca bilir kişiler arasında tekrar listelenmiştir. . 

    Yirmibirinci  yüzyılın teknolojik tabana bağli olarak küreselleşme çaği olduğunu ve bunun sonuçlarini  görerek vizyon ( uzakgörüş ) oluşturmamiz gereklidir.   Küreselleşme Globalization)  bir devlet politikasi  ya da devletler / hükümetler tarafindan empoze edilen  bir gelişme değildir.  Küreseleşmeyi, uçaklar, televizyon, bilgisayar & internet , özetle yüzyılımızın teknolojik altyapısı  yönlendirmektedir.

    Ara özet : yirmibirinci yüzyılın ilk çeyreğinde  İngilizce, İspanyolca, Portekizce, Türkiye Türkçesi, Fransızca, Almanca, İtalyanca nın nufus, ekonomik güç, güncel teknolojiye uyumlu Latin alfabeleri ile güçlenerek devam etmelerini beklemek kanımızca objektif bir tahmin olacaktır. 

    Aşağıda 1995 sabit Dolar değerleri ile bazı varsayımlar çerçevesinde ile 2013 için kestirimler bulunmaktadır. Gerek 2003 değerleri gerek 2013 yılı kestirimleri 1995 sabit Dolar değerleri ( ABD dolarının 1995 deki satınalma gücü ( PPP in constant 1995 $ ) bazındadır.  Bu rakamlar, kendi içinde  küçük de olsa bir enflasyon içeren güncel dolar değeri ( current $ ) dan farklıdır.  

Yirmibirinci yüzyılın ilk çeyreğinde Nafta ülkeleri ( ABD, Kanada, Meksika),  ve Avrupa Birliği  dünyanın ekonomik ve teknik liderliğinin ilk iki konumu için yarışacaklardır. Çin ve Japonya üçüncü büyük ekonomi olmak için yarıştadır. 2013 sonrası aktif bir ekonomi olan Çin lehine gelişmektedir.  Dünyanın beşinci ila dokuzuncu ekonomileri Hindistan, Güney Kore, Brezilya, Avustralya ve Rusya olarak oluşacaktır.

    Bu koşullar altında Türkiyeher yönden yalnız kalmış olsaydı dahi 2013 de, Endenozya, Suudi Arabistan ve Arjantin ekonomilerinin ardından dünyanın onüçüncü ekonomik gücü, onüçüncü geniş pazarı olacaktır. 

    Öte yandan, içinde Türkiye’nin bulunduğu, Türkçe ortak birleştireni ( katalizörü ) çerçevesinde oluşacak bir ekonomik birliğin dünyanın onuncu ekonomik gücü olabileceği aşağıdaki tabloda açıkça görülmektedir.  

Tablo 3 : 1995 sabit $ değerleri ile ülke ekonomilerinin 2013 de oluşması muhtemel boyutları( tabloda ilk dört bilgi kolonu Milyar $  dır )  

    1993 GDP

(Const 1995$)

2003 GDP

(Const 1995$)

1993 GDP, inPPP

(Const 1995$)

2003 GDP, inPPP

(Const 1995$)

On yıllık artış çarpanları 2013 için  Beklenen GDP

(Const 1995$)

2013 için  Beklenen GDP, inPPP

(Const 1995$)

 
1? NAFTA                
  ABD 6,865.0 9,463.0 6,927 9,453  1,370, 1.360 12,964.0 12,856 0.99
  Kanada 539.0 754.0 606 837 1.370, 1.380 1,032.0 1,156 1.12
  Meksika 292.0 380.0 630 812 1.300, 1.280 494.0 1,045 2.11
1? AB                
  Almanya 2,361.0 2,708.0 1,712 1,982 1.140, 1.150 3,087.0 2,279 0.74
  Fransa 1,496.0 1,833.0 1,165 1,419 1.225, 1.218 2,245.0 1,728 0.77
  İngiltere 1,053.0 1,390.0 1,87    1,397 1.320, 1.285 1,834.0 1,795 0.97
  İtalya 1,043.0 1,238.0 1,152 1,356 1.186, 1.177 1,468.0 1,596 1.08
  İspanya 555.0 756.0 555 795 1.360, 1.432 1,028.0 1,138 1.10
  Hollanda 392.0 502.0 315 414 1.280, 1.314  642.0 544 0.84
  Belçika 261.0 324.0 198 255 1.241, 1.287 402.0 328 0.81
  Polonya 112.8 182.6 238.7 386.0 1.618, 1.617 295.5 624.1 2.11
                   
3? Japonya 5,151.0 5,880.0 2,637 3,582 1.141, 1.358 6,709.0 4,864 0.72
3? ÇİN 562.0 1318.0 2393   5,596 2.330, 2.340 3,070.0 13,094 4.26
                   
5 Hindistan 307.0 558.0 1425 3,096 1.817, 2.170 1,014.0 6,718 6.62
6? G. Kore 432.0 733.0 ??? 858 1.696, ???? 1,243.0 1,455 1.17
6? Brezilya 638.0 808.0 891 1,192 1.266, 1.337 1,023.0 1,593 1.55
8 Avustralya 343.0 492.0 351 504 1.434, 1.435 705.7 723 1.02
9 Rusya F. 471.9 505.9 1,064 1,146 1.072, 1.077 542.3 1,234 2.27
10 Endonezya 173.0 233.0 462 627 1.346, 1.357 313.8 850 2.70
11 Suudi Arab. 141.2 206.4 165.5 248.9 1.461, 1.503 301.5 374.2 1.24
                   
12 Arjantin 250.0 271.0 341 386 1.084, 1.131 293.7 436.9 1.48
13 Türkiye 167.0 217.0 314 415 1.300, 1.321 282.1 548.2 1.94
  Kazakistan 25.3 31.3 64.9 84.9 1.237, 1.308 38.7 111.0 2.86
  Özbekistan 14.2 18.2 29.8 38.6 1.281,1.295 23.3 49.9 2.14
  Türkmenistan 3.2 5.1 15.5 24.8 1.593, 1.600 8.1 39.6 4.88
  Azerbaycan 4.3 5.8 17.9 25.8 1.348, 1.441 7.8 37.1 4.75
  Kırgız Cum 2.2 2.4 6.6 7.5 1.090, 1.136 2.6 8.5 3.26
14 Tayland 141.0 197.0 291 408 1.397, 1.402 275.2 572.0 2.07
15 G. Afrika 141.9 186.4 314.0 413.2 1.313, 1.315 244.8 543.7 2.22
16 Malezya 74.0 122.9 121.8 208.8 1.660, 1.714 204.1 357.8 1.75
17 Filipinler 67.8 101.0 217 306 1.489, 1.410 150.4 431.5 2.86
18 Mısır 55.2 85.7 151 232.0 1.552, 1.536 133.0 356.4 2.67
19 Pakistan 55.9 79.8 185 254.4 1.427, 1.372 113.9 349.2 3.06
20 Bengaldeş 34.7 56.6 134 214.3 1.631, 1.599 92.3 342.7 3.71
21 Vietnam 17.3 35.6 89 176 2.057,  1.968 73.2 346.4 4.73
22 Venezuella 76.2 67.8 121.8 109.0 0.889,  0.894 60.3 97.5 1.61
23 Nijerya 27.3 37.3 87.5 120.7 1.366, 1.379 50.9 166.4 3.26
                   

( not : Suudi Arabistan verileri bildirinin yazıldığı günde 2003 verileri değil 2002 verileridir ) 

Tablo3’ün verdiği bilgileri çok kısaca özetleyelim :

A) Almanya, Fransa, Hollanda, Belçika gibi ülkelerin  iç fiyatları artmıştır ve orta düzeyde teknoloji gerektiren ( Cam, çimento, seramik, elektrikli araçlar  vb ) için en ekonomik üretim yerleri değildir. Bu ülkeler ileri teknoloji için savaşmaktadır.

B ) Çin, Hindistan, Türkmenistan, Azerbaycan, Vietnam gibi  iç fiyatları düşük olan ülkelerde, kalite kontrol süreçleri çok iyi uygulanırsa  çok ucuza mal olan üretimler yaptırılabilir.

C ) Türkiye  her açıdan yalnız kalsa ( AB ye girmese,  Türki Cumhuriyetlerle yakın işbirlikleri kuramasa )  2013 de dünyanın 13. üncü ekonomik gücü olacaktır.

D ) Türkiye,    Azeri, Kazak, Kırgız, Türkmen ve Özbek  ülkeleri çok iyi işleyen bir ekonomik ve kültürel birlik oluşturabilirse  bu ekip  birlikte  dünyanın 10. büyük ekonomisini oluşturabilir.  Türkiye ekonomik büyüklükte ve Pazar genişliğinde üç adım  öne çıkar, bu ekonomik birliğe  katılım veren diğer ülkeler onlarca adım birden zıplarlar.  

2. Bilgisayar destekli otomatik çeviri ( automated language translation ) nin Türkiye, Azerbaycan, Kazak, Kırgız, Türkmen, Özbek Cumhuriyetlerine ON yıllık bir  plan içinde getirebileceği yararların incelenmesi

Ana dil olarak Türkçe kökenli dilleri kullanan ülkelerin Gayri Safi Milli Hasıla ( GSMH )  değerleri, yukarıdaki genel tablodan bir çıkarım (extract) olarak aşağıdaki tablonun ilk altı kolonunda verilmiştir.

A ) Beşinci kolonda bu ülkeler arasında ortak dilbirliği nedeniyle sinerji ve yoğunlaştırılan ticari, kültürel ilişkilerin etkisi  öngörülmeden  tablolanmıştır.

B ) ortak dil bileşeni ( kısmen farklı da olsa )  ve yoğunlaştırılan ticari, kültürel ilişkilerin toplam etkisi GSMH artışında yıllık %1 - %2  gibi büyük etkiler olabilir.  Bunlar üst düzey politik kararlara dayalıdır ve bizim hesapladığımız, öngörü geliştirdiğimiz hesap bundan çok daha mütevazidir.  Biz sadece bilgisayar üzerinde Türkçe, Azerice, Kazak, Kırgız, Türkmen ve Özbek dilleri  arasında bilgisayarlı otomatik çeviri bulunması ( bu yazılımın 6 ülkede 600 bilgisayarda web üzerinden çalışıyor olması ) nın GSMH ( Gayri Safi Milli Hasıla ) artış hızını binde bir ( %0.1 ) artırmasına dayalı mütevazi bir hesaptır ve tablonun dokuzuncu kolonunda verilmiştir. 

Tablo 4 : Türkçe dilleri arasında otomatik çeviri web üzerindeki 600 bilgisayarda hizmet verirse ne olabilir.

  2003 GDP

(Const 1995$),

milyar $

On yıllık artış çarpanları 1993- 2003 yıllık ort büyüme

(%)

2013 için  Beklenen GDP

(Const 1995$)

Dil Sinerjisi YOK

2004 -2007 yıllık aynı büyüme

( üç yıl )

(%)

2008- 2013 yıllık BİNDE BİR daha fazla büyüme

( yedi yıl)

(%)

2013 için  Beklenen GDP

(Const 1995$)

Dil Sinerjisi VAR

2013 yılı kestirimleri arası fark

( 2008 – 2012

hariç )

Türkiye 217.0 1.300 2.70 282.1 2.70 2.80 285.1 3.000
Kazakistan 31.3 1.237 2.15 38.7 2.15 2.25 39.0 0.300
Özbekistan 18.2 1.281 2.50 23.3 2.50 2.60 23.5 0.200
Türkmenistan 5.1 1.593 4.75 8.1 4.75 4.85 8.16 0.060
Azerbaycan 5.8 1.348         3.03 7.8         3.03         3.13 7.87 0.070
Kırgız Cum 2.4 1.090 0.88 2.6 0.88 0.98 2.63 0.030
TOPLAM               3.660
 

    Bu tabloda  sadece  “Türkçe kökenli diller arasında otomatik çeviri web üzerindeki 600 bilgisayarda hizmet verirse ne olabilir” sorusunun olası yanıtları (olası etkileri) olarak  artan ticaret (dolayısı ile üretim) hacimleri  nedeniyle  üçüncü yıldan sonra binde bir ( %0.1 ) daha fazla GSMH artışı konulmuş, binde birlik artış altı yıl modellenmiş ve sadece 2013 kestiriminde 3.66 milyar dolarlık artış bulunmuştur. Dördüncü yıldan itibaren birikimli artışlarda hesaba katıldığında yaklaşık ON yılda 7.32 milyar dolarlık ( 7 milyon dolarlık değil, 7 Milyar dolarlık )  artış potansiyeli hesaplanmıştır. 

    Türkiye’nin  bir kültürel odak olarak Avrupaya / Avrupa birliğine bağliliği, ayni zamanda bir başka kültürel odak olarak Türki Cumhuriyetlere & Orta Asya’ya bağlılığı bir birine engel değil, destekleyicidir.

    Alfabe konusunda Latin Alfabesinin yirmibirinci yüzyılın alfabesi olduğu açıktır ve Türkiye bu noktada yaklaşık 80 yıllık yol almıştır.

    Ekonomik ve kültürel bağın güçlenmesinde en önemli  etken alfabedir.   Türkiyenin 1928  de Latin alfabesine geçmiş olması bugün ulaştığı noktayı sağlamasında önemli olmuştur. Azerbeycanın 1992 de başlayıp Ocak 2001  de  tamamen (tüm okullarında) Latin Alfabesine geçişi  de bu ülkeye ekonomik yönden hız kazandıracak, Türkiye ve Batı dünyası ile bağlarını  güçlendirecektir.

    Burada  hesaplanan miktar, oluşabilecek gerçek yararın sadece  bir kesimidir. Kırgız vatandaşı yazar Cengiz Aytmatov, televizyondaki konuşmalarında  giderek  birbirine  yakınlaşacak Türkçe ler  ile  tek bir Türkçeye doğru  gidişi  savunmaktadır.

     Kanımızca  bu bir hayal değildir, kanımızca bu bir ütopya  değildir.  Dilbilimcilerin  ve  herbir  bilim alanından  ana dilini  geliştirmeye  özen gösteren bilim insanlarının ortak çalışmasına ihtiyaç vardır.  Bunlar yapıldığında,  bu ülkeler grubu birlikte dünyanın onuncu büyük ekonomisi olmaktan daha ileri noktalara da ulaşacaktır.

3. Bilgisayar destekli otomatik çeviri ( automated language translation ) den de önce, bilgisayar kod tablosunda uyuşum, otomatik doğal dil tanıma gereği ve başarı için amacı sınırlama,

    Bilgisayar destekli otomatik çeviri çalışmaları yeni değildir ve akademik yayın çıkarmaya yönelik çalışmalar ilk aşamada sözcüğü tanıma ( lexical analysis)  ve bunu izleyen aşamada  Sözdizim çözümleme ( syntax analysis )  ile başlar. Ancak  bizim çalışmamız bir mühendislik projesi önerisidir ve Sözdizim çözümleme ( syntax analysis )  öncesinde çok önemli bazı ön-bölümler vardır.  Bu ön problemler ve bunları ele alacak ön – bölümler şunlardır.

3.1. Bilgisayar kod tablosunda uyuşum,               

3.2. otomatik doğal dil tanıma gereği

3.3. Başarı için amacı doğru biçimde sınırlama,

3.1. Bilgisayar kod tablosunda uyuşum

Yayın çıkarmaya yönelik bir akademik çalışmada tipik başlangıç bir Sözdizim Çözümleme (syntax analysis)  ağacıdır. Oysa  işin içinde bulunduğumuz gerçek dünyada  ele alınışında, ilk ele alınması gereken sorun gerçekleştirilecek  “Doğal diller arasındaki çeviri  yazılımı”nı  aynı “bilgisayar kod tablosu”nda buluşturmaktır. 

    Nufusunun önemli bir kesimi Türkçe kullanan bazı Orta Asya ülkeleri Kril alfabesinden  Latin alfabesine  dönüş yapmış ( Bu önemli bir devrimdir )  lardır.  Ancak,  Türkiye’nin içinde bulunduğu ISO8859 table 9 ( aynı zamanda ECMA128 Latin 5, aynı zamanda TS5881 ) üzerinde uzlaşmak, bu noktada birleşmek mümkün olmamıştır.  Aşağıda Türkiye  Türkçesinin alfabesi ISO8859 tablo9 üzerinde beyaz alanlar ile gösterilmiştir.   Gri  alanlar  ise  Türkiye’nin teknik yönden yoğun iletişim içinde olduğu  Almanya, Fransa, Avusturya, İspanya  gibi ülkelerin karakterleridir.

    Türkçe karakterleri, diğer 42 ülke ile birlikte  uluslarası  standard konumlarda  sağlayan ISO8859 table9  (aynı zamanda  TS5881  ve Avrupa Bilgisayar Yapımcıları Birliği ECMA128, Latin5 standardı) aşağıda verilmiştir. 

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
    0 1 2 3 4 5 6 7 8 9 A B C D E F
0 0 NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI 
1 1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2 2 SP ! # $ % & ( ) * + , - . /
3 3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 4 @ A B C D E F G H I J K L M N O
5 5 P Q R S T U V W X Y Z [ \ ] ^ _
6 6 ` a b c d e f g h i J K l m n o
7 7 p q r s t u v w x y z { | } ~ DEL
8 8                                
9 9                                
10 A NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
11 B ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
12 C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
13 D Ğ Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü İ Ş ß
14 E à á â ã ä å æ ç è é ê ë ì í î ï
15 F ğ ñ ò ó ô õ ö ÷ ø ù ú û ü ı ş ÿ
 
 

Aşağıda ise, alfabe yönünden Türkiye’ye ve Batı dünyasına en çok yakınlaşmış bulunan Azerbaycan’ın alfabesi görülmektedir.  Azerbaycan’ın  ISO  numarası almış 8-ikil yapısındaki kod tablosu ise tarafımızdan bulunamamıştır.  
 
 

    Türkiye ile Azerbaycan’ın alfabelerinin en uzlaşmaz yönü bir ters E harfi biçimindeki schawa karakteridir.  Bu karakter(schawa) ISO8859 tablo9 un, bizim tarafımızdan grileştirilmiş  bölgelerinde dahi, yer almamaktadır. Azerbaycan’da  ülkenin dilbilimcileri  bu karakteri yeni alfabeye dahil etmiş iseler de, bizim görüşümüz,  sayısal elektronik dünyasında bu karakterin yaşatılmasının güç olacağıdır.  Sorun sadece  Azerbaycan bilgi işlem merkezlerinde birkaç uluslarası firmaya  ek ücret ödeyerek  bu karakteri  de bulunduran  özel bir kod tablosu  yaptırmakla  bitmemektedir.  Bu karakteri sayısal elektronik evrende  dünyanın her yerinde  savunmak, dünyanın önemli kod tablolarına  eklettirmek  hiç kolay  değildir.

    Alfabe düzeyindeki bu uzlaşamama, Türk dünyası için önemli bir kayıptır,  çünkü uzlaşılabilmiş olsaydı Türkçe konuşulan bir ülkede basılan bir roman, lise ders kitabı, üniversite kitabı, dergi, gazete diğer Türkçe konuşan ülkede de  aynen kitap rafına  ulaşabilecekti...Çok mu geç olmuştur bilmiyoruz...?

    Alfabe konusunda uzlaşamama tüm Türk dünyası için kayıp olmakla birlikte  kayıplar  simetrik değildir. Türkiye’de yayınlanan bir günlük gazetenin,  konuya özel bir aylık derginin tiraj kaybı %11 (  8.3 / 75  )  iken, Azerbaycanda   yayınlanan bir günlük gazetenin,  konuya özel bir aylık derginin tiraj kaybı %903 (  75 / 8.3 )  dür.

    Bu durumda,  çeşitli açılardan maliyet yönünden ISO8859 table 9  a  göre  en az iki kat daha  pahalı  olan  UNICODE  kod tablosu üzerinde  birleşme  gereği ortaya  çıkmıştır.

    Bu kongrede sayın doç.dr. Mehmet Kara  tarafından  sunulan bildiri ( Kara2004 )  bu sorunun çözümünün elektronik ortamda mümkün olduğunu  göstermekle  birlikte  bu tür  modüller, uzlaşma olmadığında  sistemin sürekli  bulundurması  gereken bölümlerdir. 

    Üstelik sadece  doç.dr. Mehmet Kara  tarafından geliştirilen modül kullanılmakla  kalmayacak,  Türkiye  içinde  dahi

A ) ISO8859 Tablo9 dan UNICODE dönüştürücü

B ) Türkçe karakterler içeren genişletilmiş EBCDIC’den   UNICODE dönüştürücü,

C ) Microsoft’un   ISO8859 tablo9 a özdeş olmayan “code page 12xx” den  UNICODE dönüştürücü

Gerekecektir.

    Bunlara paralel olarak bu çeviri  yazılımının hizmet vereceği ülkelerin “bugün kullandığı”  ve on- onbeş yıl gibi  kültürel yönden “çok yakın geçmişte kullandığı”  bilgisayar kod tabloları ( computer code page)  den UNICODE  dönüşüm modülleri  gerekli   başlangıcı  oluşturacaktır.

    Ara özet : çeşitli  8-ikil ( 8-bit ) kod tablolarından  UNICODE  dönüşüm modülü sayısı  12 – 18  arasında  oluşabilecektir.  

3.2. Otomatik Doğal Dil Tanıma gereği

    Geliştirilecek sistem, potansiyel kullanıcısı  kullanmaya  başladığında, Copernic ve benzeri  bir üst-arama motoru ( Meta search engine )  kullanarak aramaya  başlayacak  ve bu tür arama motorları genellikle yüz ila  bin bilgi sayfası  bulmadan durmayacaktır.  Kullanıcının   bunların  bulunduğu  kod  tablolarını  UNICODE  çevirmek için devreye girmesi  pratik değildir.   Bu açıdan yukarıdaki  12 – 18  modülün  “akıllı biçimde (intelligent)” devreye  girmesi ve “kod tablosu”nu  otomatik tanıması  (çok yüksek oranda  otomatik olarak tanıması)  gerekmektedir.  

    Bu işlem basit  bir işlem değildir, çünkü  ISO8859  tablolarının ( 15  tablo var )  “kod konumları (code location)”  üst üste  binmektedir.  Bu  noktada  “karakter dizilerinin içindeki ikili, üçlü, dörtlü grupların frekanslarından”  tetiklenen  bir “otomatik kod tablosu tanıma modülü”  de sistemin  vazgeçilmez  bir  parçası olmöaktadır.

    Bu bildirinin birinci yazarının ( Karakaş) liderliğindeki bir ekip  yakın geçmişte  Türkçe, İngilizce, Almanca  yazıları, yazı içinden alınmış  80 karakter dolayındaki  örneklemlerden  ayırabilen bir  sistemi gerçekleştirmiş  ve  on yıl önce yayınlamıştır ( Koçan1993 ).   Bu yayında  Türkçe ve İngilizce  neredeyse %100 başarı ile  otomatik  ayrıştırılabimektedir.   Fakat  yanyana iki harf ve üç harf olasılıkları  birbirine  daha   yakın olan  Türkçe  ve Almanca  arasında  80 karakterlik bir  karakter örneklem treni (80 character sample character string)  bu iki dili mükemmelen ayırmakta  yetersiz   kalmaktadır.

    Çalışma  grubumuz  bu noktada  ne yapacağını  ve nasıl yapacağını  iyi bilmekle  birlikte,  birbirine  harf ve hece istatistikleri yönünden çok daha yakın dilleri ( örn. Türkiye Türkçesi ile Azerice,  Azerice ile Türkmence, vb )  birbirinden otomatik tanıma  ile  ayırabilmesi teknik olarak biraz daha zor olacaktır.    Muhtemelen  160 – 320  karakter uzunluğunda örneklemler kullanmak  zorunda  kalacağız ve  ayıraç olarak kullanılacak hece  sayıları  ve  harf grupları  birkaç kat  artırılacaktır. 

    Bu durum hem yapay sinir ağı ( ANN Artificial Neural network ) eğitim  zamanını  10 – 12 kat, uygulama anındaki  tanıma  süresini  2 – 4 kat  artıracaktır.  Birinci yazarın bu çalışmayı  Türkçe, İngilizce, Almanca arasında  yapmış olduğu tarihten bu yana  mikrobilgisayar hızları üzerindeki gelişmeler yine çalışmanın  hızlı bir kişisel bilgisayar ( PC, Personnel computer )  üzerinde yapılabileceğini işaret etmektedir.  

3.3. Başarı için amacı doğru biçimde sınırlama,

    Sadece akademik amaçla  yapılmış bir  çeviri  sistemi  ( ya da bir  derleyici ( compiler ) )  giriş verisini  “düz bir metin ( plain text )”  biçiminde  alacaktır.  Oysa,  gerçek bir mühendislik projesi  olarak  yapılacak  doğal dil çeviri sistemi  daha ilk sürümünde ( version one) en azından şu ortamlardaki  verileri  otomatik olarak “düz metin ( plain text)” biçimine  çevirebilecek akıl düzeyinde  olmalıdır.  İlk sürüm için amaçlanan, yani öncelikle “düz metin” dönüşümü yapılacak giriş verisi  türleri şunlardır :

A ) html

B ) XML

C )  OpenOffice

D ) Microsoft Word

    İlk sürüm için  eleştirmenlerimizin  birçok ekleme  önerisi  olabilir. Örneğin excell ve acrobat  biçimleri ( pdf file format )  da  eklenmelidir  gibi... Bu eleştiriler haklıdır  ve ikinci sürümde ( version 2 ) yer alabilir.  İlk sürümün bir  bütün olarak  çalıştırılmasından sonra  taranmış (scanned)  bir  sayfa  üzerinden  düz metin ( plain text )  biçimine geçmek de  ikinci  gerçekleştirme  yılı planlarımız içindedir.  Birinci yazar ile çalışan  bir ekip çok kolonlu  gazete  yazıları dahil  birçok yazıda %97.7  dolayında  bir başarıyı daha  önce  sağlamış  olduğuna  göre ( Durak1996 )  bu amaç  da  plana  %97 düzeyinde başarı şansı ile ikinci sürümde dahil edilebilir.

    Ancak,  Yapay Us  deyimi ile  “önce derinliğine”  ilerleyip, ilk sürümde html, xml, openOffice, word  ortamından daha fazla  dallanma ( branching ) oluşturmadan  hedefe  bir kez  ulaşmak da  bizim stratejimizdir.

    Bizim ilk amacımız “arama makinaları( serach machine)” kolayca  bütünleştirilebilecek,   taradığı yüz ila bin arasındaki  bilgisayar bilgi sayfası ( web page )  üzerinde  “kod tablosu”nu, yazıldığı doğal dili  otomatik olarak  tanıyıp,  yazının ( bilginin )  içinde bulunduğu  taşıyıcı ( html, xml, OpenOffice, word )  dan  hızla  düz yazıya ( plain text ) çevrilip  kullanıcının  doğal diline hızla  çevrilmesidir.

    Bu amaç  hızla ( tipik bir 300 bilgi sayfası ( link ) bulan bir tarama için örneğin 15 dakika ), örneğin  bulunan herbir bilgi sayfası için  ortalama  3  saniyede  otomatik  çeviri  amacımızdır. 

    Amacı, kullanıcıyı  sıkmayacak  hıza  odakladığımızda, çeviri yapılabilecek  metni ( yazıyı ) da  geliştirilecek yazılımın ilk sürümünde boyut olarak  sınırlamak  gerekecektir.   Arama  makinasına  bağlı  ve otomatik olarak  çalışacak  ilk sürümün  3 – 10  satırlık  (  180 – 600 karakterlik ) düz yazılar ( 180 – 600 character plain text )  üzerinde çalışması uygun bir başlangıç noktası  olabilir.

    Kullanıcı, internet üzerindeki  ilk taramasını bitirip 3 – 10  satırlık çeviri’den  ilgili sayfa  üzerinde  konunun aradığı  türden bir bilgi olduğuna  karar verir ise  seçtiği  8 – 10  kaynağı  ayrıca  otomatik çevirinin  giriş karakter sayısı  artırılmış  bir sürümü  ile  çevirebilir.  Buna  bir engel yoktur, ancak  biz yüzlerce ( bazan 1000 kaynak ) otomatik olarak tarandığı ortamda 600 karakterlik limitimizi  daha  üst noktada  kesmiş olsaydık  yanlış bir  taktik  uygulamış  olurduk ve  kullanışsız bir sistem yapmış olurduk...

    Ancak  her halükarda  bizim geliştirmeye  çalıştığımız sistemin  roman çevirisi  yapmayı amaçlamadığını, edebi metin, mahkeme  kararı,  firmalar arası  finansal anlaşma  metinleri  çevirmeyi   amaçlamadığını  ifade  etmek gerekir.  Eğer bir metnin tam doğru  ve otorite  olarak  çevrilmesi gerekiyor  ise  deneyimli insan çevirmenler devreye  girmelidirler. 

4. Bilişimsel Dilbilim ( Computational Linguistics) ve Bilgisayar Destekli Otomatik Çeviri (automated language translation) yazılımlarının anatomisi, bölümleri ve günümüzde sağlanmış çeşitli düzeylerde başarılı örnekler,

    Türkçe dili üzerinde bilişimsel dilbilim çalışması yapan öncü araştırmacılar arasında Güney Gönenç ( Gönenç1973 ), Esen Atlı ( Atlı1972 ), Ersin Töreci( Töreci1974, Töreci1975) ve Aydın Köksal (Köksal1979 ) vardır. 

    Türkçe dili üzerinde bir bilgisayarlı çalışma  yapılacağında  bitişken bir dil olan Türkçe’de  sözcüğün kökü  bulunmalıdır.  Bunun da  öncesinde  sözcüğü  hece’lere  ayırmak  ve  anlamlı bir sözcük kökü  oluşuncaya  kadar  sözcük içindeki heceleri sol taraftan birleştirmeye  başlamak gereklidir.  Ersin Töreci ( Çalışmanın yapıldığı 1972 / 1974 yıllarında yüksek Mühendislik öğrencisi, halen prof.dr. ve Hacettepe Bilgisayar Mühendisliği bölüm başkanı ) 22,216  sözcükten oluşan Türkçe metinler üzerinde HECE  lerin kolayca  tanınabilmesi  için hece kalıplarının oluşumunu istatistiki olarak incelemiş  ve  ayıraçlar bulmuştur.  Töreci’nin 1974 ve 1975 deki yayınları, Türkçe üzerindeki harf, harf birleşimi , hece istatistikleri ve takılar açısından  gövdeleme  algoritmaları öncesinde  tekrar okumaya  değer bir  çalışmadır.

    Aydın Köksal 1970 li yıllardan başlayarak bilgisayar ve bilişim alanında Türkçeye yeni sözcükler kazandırmış  ve 4000 sözcükten oluşan bir Gömü’yü  1979 da yayınlamıştır.  Gömü, dizinleme ve erişim hizmetinde terimlerin kullanımına rehberlik ederek erişim etkinliğini artırır. Gömü ye dayalı  olarak  yapılan bilgi belge erişim sistemlerinde  önceki sistemlere gore anma  etkinliği %30 u aşacak biçimde artırılabilir.

    1985 yılında Hacettepe üniversitesinde Mehmet Ali Orgun tarafından yayınlanan çalışmada, bilgi – belge erişim sistemlerinde dizinlemede ( indexing ) kullanılabilecek Türkçe sözcükler  üzerinde çalışılmış,  bir gömü  meydana getirilmiştir.  Oluşturulan gömüde eşanlamlılık,  yakın anlamlılık, daha  genel üst terim , daha özel alt terim gibi  ilişki bağlaçları da kurularak gömü  öğeleri  ve yeğlenen terim ( preferred term )  oluşturulur.

    1975 li yıllardan buyana Yapay Us alanında çalışan Ümit Karakaş, o dönemde lisans son sınıf öğrencisi Fatih Koçan ile birlikte 1993 de “otomatik dil tanıma yazılımı” gerçekleştirmiştir( Koçan1993 ). Karakaş Türkiye’yi ISO/IEC JTC1/SC2  grubunda altı yıl temsil etmiş ve ISO8859 table9 ın Türkiye’de yapılıp uluslararası standard olarak kabul ettirilmesini sağlayan Ekibin koordinatörlüğünü yapmıştır.  Ü. Karakaş’ın 1987 de yayınladığı kitabın ( Karakaş1987) 137. sayfasında verilen Türkiye’deki Ekibin oluşturduğu kod tablosu  Mayıs 1989 da ISO8859 table9 olarak aynen uluslararası standard olmuştur.  Karakaş, Türkiye’nin alfabesi ile ilgili ISO  ve uluslararası kuruluşlarla ilgili deneyim ve anılarını 1996 da yayınlamıştır ( Karakaş1996 )

    1992 – 1995 yılları arasında Adil Alpkoçak, Alp Kut ve Esen Özkarahan  Türkçe üzerinde veri madenciliği ( data mining ) açısından Dokuz Eylül Üniversitesinde çalışmışlar  ve  gövdeleme (stemming) algoritması geliştirmişlerdir ( Alpkoçak1995 ).

    Aysın Solak ve Fazlı Can da 1993 – 94 yıllarında Bilkent Üniversitesinde gövdeleme ( stemming )   algoritmaları üzerinde çalışmışlardır ( Solak1994).

    Gökmen Duran 1997 yılında Hacettepe üniversitesinde geliştirdiği Yüksek Mühendislik tezinde Türkçe metinler üzerinde  gövdeleme ( Stemming )  üzerinde çalışmıştır.  Oğlum  sözcüğü  Oğul + um  gövde ve takısından oluşur  ve ses kaynaşması ile  oluşur,  Duran’ın geliştirdiği algoritma  bu sözcüğün kökünü “oğul” olarak doğru  bulur.  Gözlükçüler sözcüğü üç adımda ( göz + lik + çi + ler  , gözlük + çi + ler ,  gözlükçü + ler ) gözlükçü  ve bunun çoğul halinin eki biçimine dönüşür. Buna benzer iyileştirmeler tez çalışması içinde bulunabilir.  Tez çalışmasına taban olan yazılım 2,900 satır C++ programıdır.

    Güncel Türkiye Türkçe’sinde 25,000 ila 30,000 sözcük gövdesi bulunmaktadır ( Duran1997). 

    Hacettepe Üniversitesinde, 1997 – 1999 yıllarında doç. Dr. Hayri Sever ( halen prof.dr. Başkent Üniv. Bilgisayar müh. Bölüm başk. ) yönetiminde geliştirilen Kaşgarlı Mahmud Bilgi Geri Getirim Sistemi  çalışması içinde  gövdeleme  algoritması ANSI C  ye de dönüştürülmüş ve geliştirilmiştir. ( Sever1999 ) . Bu çalışmada Baha Olgun, Ebru Sezer ve Fuat Akal araştırma asistanları olarak görev almışlardır.

    Bilgisayar destekli otomatik çeviri sistemleri de çok uzun zamandır üzerinde çalışılan bir konudur. Konu genellikle İngilizce ile diğer Avrupa dilleri üzerine yoğunlaşmışlardır.

    Türkçe üzerinde otomatik çeviri çalışması yapan araştırmacılar arasında Boğaziçi üniversitesinde prof.dr. Cem Say( Say2001), ODTÜ De  prof.dr.Cem Bozşahin( Bozşahin1992) ve ekibi,  Sabancı Üniversitesinde Prof.dr. Kemal Oflazer bulunmaktadır. Prof.dr. Oflazer Otomatik çeviri konusunda birden çok uluslararası yayına katkı yapmış (Oflazer1991-2004), otomatik çeviri konusunda doktora öğrencileri yetiştirmiş iyi bilinen bir Türkçe araştırmacısıdır.

    Bazı üniversitelerin bilgisayar mühendisliği bölümlerinde bu konuya özelleşmiş yüksek lisans dersleri ve bu konuyu derli toplu ele alan ders kitapları (textbook) bulunmaktadır [ Nirenburg1987, Allen1995].   Bu alanda Türkiye içinde bölgesel diller üzerinde yapılmış çeviri çalışmaları ( örn. Bilkent Üniversitesinde Kemal Altıntaş, Turkish to Crimean Tatar Machine Translation System, Bilkent 2001 [ Altıntaş2001] ) bulunmaktadır. 

    Avrupa topluluğu içerdiği diller arasındaki  çeviri sorunlarına destek olmak için doğal dil çevirisi içeren 36 dolayındaki projeye  destek vermektedir.  Bunun dışında, Avrupa üniversitelerinde AB ARGE fonu desteği almamış başka çalışmalar da  bulunmaktadır.

    Türkiye Türkçesi ile kardeş diller (Azerice, Kırgız, Kazak, Türkmen, Özbek) arasında oluşturulacak  çeviri yazılımının basit bir yazılım işi olacağı düşünülmemelidir.

    Aşağıda 16 Ekim 2004 günü Bakü Özel Türk Lisesi’nin bilgi ( web ) sayfasından alınan paragraf  önce Azerice verilmiştir:  

Bakı Özel Türk Liseyine 6-cı sinifde oxuyan oğlanlar müarciet edirler. Onlar  sentyabr, oktyabr aylarından Liseye elaqe saxlayırlar. Evvelki illerin imtahan testlerine  uyğun, 6-cı sinif seviyyesinde aşağıdakı fenlerden imtahan veriri:

     1. Azerbaycan dili ve edebiyyat (Rus dili ve edebiyyat).                      2. Riyaziyyat.

     3. Tarix, Azerbaycan tarixi.                                                                4. Coğrafiya.

     5. Biologiya. 

  Liseye qebul imtahanı her tedris ilinin aprel ayının son bazar günü keçirilir. Bundan elave ise mart ayının birinden etibaren qebul üçün qeydiyyat başlanır. Qeydiyyatdan keçerken valideynler Lisey qebul komissiyasına aşağıdakı senedi teqdim edirler:

    1) Doğum haqqında şehadetname.                                     2) 3x4 ölçüde 2-eded fotoşekil. 

Şagird imtahana gelerken özü ile getirir:

  a) İmtahana buraxılış vesiqesi.                    b) Karandaş                                    c) Pozan 

Liseyde rus bölmesinden olan şagirdler de oxuya bilirler. Ona göre onlar da qeydiyyat üçün müraciet edirler. İmtahandan 8 gün sonra neticeler açıqlanılır. Qebulun neticesi siyahı halında valideynlere çatdırılır. Siyahı iki formadan ibaret olur.  Qebul olanlar ve ehtiyata düşenler. Her iki siyahıya düşen şagirdlerin valideynleri  neticeler açıqlanan günden sonra 5 gün erzinde  qebul komissiyası ile elaqe saxlayır.

İyun ayının teyin olunmuş senedleri alınaraq o, 7-ci sinif şagirdi kimi Lisey şagird kontingentine daxil edilir. Bununla qebul prosesi bitmiş olur.  

Diger tehsil müessiseleri kimi Bakı Özel Türk Liseyi de tedris ilini 01 sentyabr  tarixinden başlayır. Şagirdler derse Lisey şagird geyim formasıile gelirler

      A) Tünd göy rengde pencek.                                 B) Tünd göy rengde qalstuk (rengsiz).

     C) Açıq mavi köynek.                                            D) Boz rengde şalvar.

     E) Qara ayaqqabı. 

Liseyde humanitar fenler Azerbaycan dilinde, deqiq fenler ise ingilis dilinde öyredilir. 7-ci siniflerde heftede 20 saat ingilis dili, yanvar ayından ise riyaziyyat, fizika, biologiya ve kimyanın ingilisce tedrisi başlanır. 7-ci sinifde bir neçe imtahan edillerek olimpiada seviyyeli şagirdler seçilir. Hemin günden başlayaraq onlar Respublika ve Beynelxalq seviyyeli olimpiadalara hazırlaşdırılır. 10-cu sinifden başlayaraq ise ixtisas qruplarıa uyğun olaraq hazırlıq kursları başlayır. Ayrıca Liseyde  bütün idman ve sosial fealiyyetler, iyun ayında ise Nabran şagird düşergesinde menalı istirahetler teşkil edilir. 

 

    Azerbaycan, Ocak 2001 de 29 harfli Türk Alfabesini seçmiş olsaydı oluşacak Bakü Özel Türk Lisesi’nin kısmen değiştirilmiş bilgi ( web ) sayfasından ara biçimi aşağıdadır.

 

Bakı Özel Türk Liseyine 6-cı sinifde okuyan oğlanlar müarciet edirler. Onlar  sentyabr, oktyabr aylarından Liseye elaqe saklayırlar. Evvelki illerin imtahan testlerine  uyğun, 6-cı sinif seviyyesinde aşağıdakı fenlerden imtahan veriri:

     1. Azerbaycan dili ve edebiyyat (Rus dili ve edebiyyat).                      2. Riyaziyyat.

     3. Tarih, Azerbaycan tarihi.                                                                4. Coğrafiya.

     5. Biologiya.

 

  Liseye kabul imtahanı her tedris ilinin aprel ayının son bazar günü keçirilir. Bundan elave ise mart ayının birinden etibaren kabul üçün kaydiyyat başlanır. Kaydiyyatdan geçerken valideynler Lisey qebul komissiyasına aşağıdakı senedi tekdim edirler:

    1) Doğum hakkında şehadetname.                                     2) 3x4 ölçüde 2-eded fotoşekil.

 

Şagird imtahana gelerken özü ile getirir:

  a) İmtahana burakılış vesiqesi.                    b) Karandaş                                    c) Pozan

 

Liseyde rus bölmesinden olan şagirdler de okuya bilirler. Ona göre onlar da kaydiyyat üçün müraciet edirler. İmtahandan 8 gün sonra neticeler açıklanılır. Kabulun neticesi siyahı halında valideynlere çatdırılır. Siyahı iki formadan ibaret olur.  Kabul olanlar ve ehtiyata düşenler. Her iki siyahıya düşen şagirdlerin valideynleri  neticeler açıklanan günden sonra 5 gün erzinde  kabul komissiyası ile elaqe saxlayır.

İyun ayının teyin olunmuş senedleri alınarak o, 7-ci sinif şagirdi kimi Lisey şagird kontingentine dahil edilir. Bununla Kabul prosesi bitmiş olur.

 

Diger tehsil müessiseleri kimi Bakı Özel Türk Liseyi de tedris ilini 01 sentyabr  tarihinden başlayır. Şagirdler derse Lisey şagird geyim formasıile gelirler

      A) Tünd göy rengde pencek.                                 B) Tünd göy rengde qalstuk (rengsiz).

     C) Açık mavi köynek.                                            D) Boz rengde şalvar.

     E) Kara ayakkabı.

 

Liseyde humanitar fenler Azerbaycan dilinde, deqiq fenler ise ingilis dilinde öyredilir. 7-ci siniflerde heftede 20 saat ingilis dili, yanvar ayından ise riyaziyyat, fizika, biologiya ve kimyanın ingilisce tedrisi başlanır. 7-ci sinifde bir neçe imtahan edillerek olimpiada seviyyeli şagirdler seçilir. Hemin günden başlayarak onlar Respublika ve Beynelxalq seviyyeli olimpiadalara hazırlaşdırılır. 10-cu sinifden başlayarak ise ihtisas qruplarıa uyğun olarak hazırlık kursları başlayır. Ayrıca Liseyde  bütün idman ve sosial fealiyyetler, iyun ayında ise Nabran şagird düşergesinde menalı istirahetler teşkil edilir.

 
 

Otomatik olarak tanınabilen karakter dönüşüm grupları ilk anda şöyle ortaya çıkmaktadır :

Qe à ka         k à g        q à k     x  bazan k  bazan h

 

Aynı yazının günümüz Türkiye Türkçesi ile yazılışı ise şöyledir:

 

Bakü Özel Türk Lisesine 6-cı sınıfda okuyan erkek öğrenciler (oğlanlar) müracaat edebilirler. Onlar  Eylül ( sentyabr), Ekim ( oktyabr) aylarında Liseye müracaat ederler (elaqe saklayırlar) . Önceki yılların kapsamına (Evvelki illerin imtahan testlerine) uygun, 6-cı sinif seviyyesinde aşağıdaki konulardan (fenlerden ) sınav (imtahan) verilir:

     1. Azerbaycan dili ve edebiyat (Rus dili ve edebiyat).                      2. Matematik ( Riyaziyyat).

     3. Tarih, Azerbaycan tarihi.                                                                4. Coğrafya.

     5. Bioloji.

 

  Liseye kabul sınavı (imtahanı) her öğretim yılının (tedris ilinin) Nisan ( aprel)  ayının son pazar günü yapılır (keçirilir). Bundan ayrıca (elave) ise mart ayının birinden itibaren kabul için kayıt (kaydiyyat) başlanır. Kayıttan (Kaydiyyatdan) geçerken veliler (valideynler) Liseye kabul komisiyonuna (komissiyasına) aşağıdaki senedi takdim (tekdim) edirler:

    1) Doğum belgesi (hakkında şehadetname)      2) 3x4 ölçüde 2-adet (eded) fotoğraf ( fotoşekil )

 

Öğrenci (Şagird)  imtahana gelirken kendisi ( özü ile) getirir:

  a) İmtahana  giriş belgesi ( burakılış vesiqesi)    b) kurşun kalem ( Karandaş )     c) Silgi ( Pozan)

 

Liseyde rus bölmesinden olan öğrenci (şagirdler) da okuyabilirler. Ona göre onlar da kayıt (kaydiyyat) için müracaat (müraciet) edirler. Sınav gününden (İmtahandan ) 8 gün sonra neticeler açıklanılır. Kabulun neticesi liste (siyahı) halinde (halinda ) velilere (valideynlere) ilan edilir (çatdırılır). Liste (Siyahı) iki formadan ibaret olur.  Kabul olanlar ve yedek (ehtiyata ) listede yer alanlar (düşenler). Her iki listeye (siyahıya) yer alan (düşen) öğrencilerin (şagirdlerin)  velileri (valideynleri)  neticelerin açıklandığı günden 5 gün sonra (erzinde)  kabul komisiyonuna (komissiyası) başvurabilirler.

Haziran (İyun) ayının belirlenmiş (teyin olunmuş) senedleri alınarak o, 7-ci sinif öğrencisi (şagirdi) kimi Lise öğrenci (şagird) kontenjanına (kontingentine) dahil edilir. Bununla kabul süreci (prosesi) bitmiş olur.

 

Diğer tahsil müesseseleri gibi (kimi) Bakı Özel Türk Liseyi de eğitim yılını (tedris ilini) 01 Eylül  (sentyabr)  tarihinden başlayır.    Öğrenciler (Şagirdler) derse Lise öğrencisi ( şagird) giyim forması ile gelirler

     A) Koyu Mavi renkte ceket (Tünd göy rengde pencek)

     B) Koyu Mavi renkte (Tünd göy rengde) kravat ( qalstuk )  desensiz (rengsiz).

     C) Açık mavi gömlek (köynek)

    D) Gri  pantolon ( Boz rengde şalvar )

     E) Siyah ( Kara ) ayakkabı.

 

Lisede (Liseyde) sosyal bilimler ( humanitar fenler) Azerbaycan dilinde, teknik bilimler (deqiq fenler ) ise İngilizce (ingilis) dilinde öğretilir (öyredilir). 7-ci siniflerde haftada 20 saat ingiliz dili, Ocak (yanvar )  ayından başlayarak  ise matematik (riyaziyyat), fizik (fizika), biyoloji (biologiya) ve kimyanın ingilisce öğretimi (tedrisi) başlanır. 7-ci sinifde bir kaç sınav düzenlenir (neçe imtahan edillerek) olimpiada seviyeli adaylar (şagirdler) seçilir. Hemin günden başlayarak onlar ulusal (Respublika) ve beynelminel (Beynelxalq)  seviyeli olimpiyadlara hazırlandırılır. 10-cu sınıftan (sinifden) başlayarak ise lise dallarına (ihtisas qruplarına) uyğun olarak hazırlık kursları başlar (başlayır). Ayrıca lisede (Liseyde)  bütün idman ve sosyal (sosial) faaliyetler (fealiyyetler), Haziran iyun ayında ise  Nabran öğrenci kampında eğitim ve tatil düzenlenir ( Nabran şagird  düşergesinde menalı istirahetler teşkil edilir.)

 
 

    Yukarıda görüldüğü gibi sınır komşusu olan Türkiye ve Azerbaycan ülkelerinin dilleri insan okuyucular için oldukça anlaşılır olmasına  karşılık otomatik çeviri için çok da kolay değildir.   Çünkü aşağıda çok kısaca anlatacağımız tüm çeviri süreçlerinin uygulanması gerekecektir.

 

     Otomatik çeviri yazılımlarının her durumda mükemmel olmadığı aşağıdaki İngilizce paragrafta da ifade edilmektedir.   Beklenebilecek başarı  düzeyi  genellikle  cümlelerin %80  ini doğru çevirme  dolaylarındadır.

 

“Through a great service provided by Altavista called Babel Fish, web pages may be translated between any of several languages.   However, the  process of automated language translation has not quite yet been perfected.   Thus, you can get some pretty amusing results by translating  something out of and then back into your language.   In particular, English to French and back into English can be very funny”   http://www.tinfoil.com/reverse.htm

 

4.1. Yazının bulunduğu ortamdan soyulması ve UNICODE ortamında düz yazı ( .txt ) haline getirilmesi,

Yukarıda tartışılmış olan bu işlevin kod tabloları dönüşümü (12 – 18 küçük boyutlu modül ) , dört büyük boyutlu modül ( html, XML, OpenOffice, MS-word dönüşümleri ),  iki altsistem ( otomatik doğal dil tanıma altsistemi ), Optik Karakter tanıma altsistemi ve sözlük desteği ( sözlük destekleri ) ile iyileştirme altsistemi olmak  üzere başlangıçta 24 modüldür.  Başka giriş ortamları ( excell tablosu vb ) ile bu grup ön modüller 30 modülü aşacaktır.  Bu gruptaki  yazılımlar için 20,000 satır ( 20 KDSI / kilo delivered source instruction ) kestirimi yapılabilir.

4.2. cümle ayıraçlarının, yararlı noktalama işaretlerinin bulunması, Türkçe sözcük  gövdeleme ve Fiil köklerinin elde edilmesi

    Bu yazının birinci yazarı üç kez derleyici gerçekleştirimi ( Compiler Construction ) çalışması yapmıştır ve   kesin biçimlere uyacak  bilgisayar programlama dili ile  çeşitli ortamlarda yazılmış doğal dildeki  yazılar arasındaki  tarama ( scanning ) ve sözdizim çözümleme  arasındaki güçlük farkını  ve  teknik politikayı net olarak ayırdedebilmektedir.

    Bir bilgisayar programlama dilinin derlenmesi sırasında tanımlanmış dilin sözdizimi o noktada komut ayıracı ( örneğin C / C++ vb gibi ;  yada COBOL da . )  gerektiriyor ve kullanıcı koymamış ise  sözdizim hatasını belirtip  birbaşka satırdan sözdizim çözümlemeye devam edebilirsiniz. Bu yanlık bir teknik politika değildir.

Doğal dil çözümlemede ise virgül  hatta cümle sonunu belirten nokta  doğru yerde, gerekli yerde kullanılmamış olabilir.   Bu açıdan, cümlelerin ayrılması için nokta ayıracına  güvenmeyip  öncelikle fiil köklerini  tanımaya yönelmek gerekir.  Noktaları gerekli yerde kullanmamış şairin şiirini okumamazlık edemezsiniz.  Bilgisayarlı bilgi ( web ) sayfalarında  noktalama  işaretleri kullanılmamış olabilir.  Otomatik doğal dil çözümlemede  bu yazıları  reddedemezsiniz.  Fiil kökünü  buluncaya  kadar  ilerlemelisiniz.

    Türkçe ve Türkçe kökenli diller bitişken dil olduğundan  hecelerin otomatik ayrılması  ve fiil gövdelerinin  otomatik bulunması  öncelikli modüller arasındadır.  Bu açıdan, noktalama işaretlerini bulmaktan ibaret olmayan,  fiil köklerini  bulmaya  dayalı bu çalışma altgrubunda  uzman bilgisayarcıların çalışarak 3000 – 4000 satır  bilgisayar kodu üretmeleri gerekmektedir. 

    Bunun yanında  hem uzman dilbilimcilerin hem de onların asistanlarının altı dilde sözlük çalışması yapmaları gerekmektedir.  Doğal  dil anlama  ve otomatik çeviri  yapmak  için kullanılacak  sözlüğün  birkaç önemli özelliği  bulunmalıdır.

* her giriş noktası ( her sözcük ) tek tek ayrıştırılmış olmalıdır.

* İki – üç sözcükten oluşan deyimler de ayrı giriş noktası olmalıdır. (örneğin kısır döngü gibi)

* Anlamsal çözümlemeye taban oluşturabilmek için herbir  sözcük için dışarıdan görülmeyen, otomatik çeviri yazılımının kullanacağı özellik bağlaçları (feature links) kurulmuş olmalıdır.   Örneğin  fare  sözcüğünden  hayvan  sözcüğüne  özellik bağlacı olmalıdır.  Elma yanaklı  deyiminden  kırmızı  sözcüğüne  benzetme  bağlacı  kurulmuş olmalıdır.

    Öteki  deyişle,  eğer bir otomatik çeviri  sistemine  taban oluşturacak  ise  dilbilim uzmanlarının kendi  aralarında  geliştirdiği  sözlük  çalışması  büyük olasılıkla  yarı yarıya  yenilenmesi  gereken bir çalışma  olabilir.  Ekibimiz  bu yönde  gerek Türk Dil Kurumu  içinde   gerekse Türk Dil Kurumu dışında  çalışmalar  olduğunu   bilmektedir.   Ancak  otomatik doğal dil çevirisini  yapacak  ekibin  özellik bağlaçları ( feature links ) belli olmadan  ve  bunlar  tüm gerekli maddelere eksiksiz  konulmadan sözlük çalışmaları  bizim açımızdan bitmiş sayılmamaktadır.

4.3. Dilin / dillerin sözdizim ( syntax ) yapıları ve cümle düzeyinde çözümleme / anlama,

    Fiil kökünün bulunmuş olması, sözdizim çözümleme ( syntax analysis ) için bir başlangıç noktasıdır.  Otomatik çeviri  yapılacak dillerin  birbirine yakın olması  sözdizim çözümleme  yapılması  gereğini  ortadan kaldırmaz.

    Bulunduğu ortamdan ( html, XML, OpenOffice, Word ) soyulup UNICODE Kod tablosunda .txt biçimine  dönüştürülmüş  ve hangi dilde ( Türkiye Türkçesi, Azerice, Kazakça, Kırgızca, Türkmence, Özbekçe ) olduğu otomatik tanınmış  bilgi ALTI  ayrı  sözdizim çözümleme  modülü  ile  sözdizim çözümlemeye  sokulacaktır.

     Burada  sözcük ve  fiil köklerini bulmak  için  benzer hatta  aynı  modüller kullanılsa   dahi  sözdizim çözümleme  modülleri  ayrıdır.   Aşağıda  bir örnek  cümle  Azerice söyleyişle ve Türkçe söyleyişle verilmiştir.

 

Oğlum maşınla Dikimevi’nden   Başkent Üniversitesine gelirken  Kızılay’da maşından düştüm. (Azerice  söyleyiş )

 

Oğlum otomobil ile Dikimevi’nden Başkent Üniversitesine  gelirken Kızılay’da otomobilden indim. (Türkçe söyleyiş )

 

    Kaynak dil ( Türkiye Türkçesi, Azerice, Kazakça, Kırgızca, Türkmence, Özbekçe )  sözdizim çözümlemesi  otomatik olarak   yapılmış  ve yapısı (syntax)  anlaşılmış  olan cümle   kısmi  bir  anlamsal  çözümlemeden (partial semantic analysis) geçirilmelidir.   Amacımız  bilgisayarlı bir  “doğal dil anlama sistemi (Natural Language Understanding System)” olmadığı  için anlamsal çözümleme  biraz sınırlı  tutulabilir, ancak  tamamen ihmal edilemez.

4.4. Doğal dil çevirisi  ve doğal dil anlamada sözlükten daha fazlası gerekir : anlamsal çözümleme – düzey-1 ( semantic anaysis, level-1 )

    Bir otomatik çeviri  yazılımı geliştirmeye  bizim ekibimizin  deneyimli öğretim üyeleri ve genç asistanları  ile  yapmaya, gerçekleştirmeye  başlamasından önce  hangi model içinde  hangi  özelliklerin başarılabileceğini,  hangi özelliklerin devre dışı bırakılacağını  bilmeye  hakları  vardır.  Aksi  halde  herşeyi  başaracağını iddia ederek  başlayan bir  otomatik çeviri sistemi  herkes için  hayal kırıklığı  yaratır, çünkü “herşeyi anlamanın, herşeyi başarı ile diğer dile  çevirmenin” sınırı yoktur.    Aşağıda  önce bir örnek cümle   verilmiş   sonra  bu tür bir cümlenin   çevrilmesi (translation ) ve  anlaşılması için gerekli yazılım altyapılarına kısaca  değinilmiştir.  

Küçük fare tüm balkabağını yedi.  ( A little mice ate the whole pumpkin. )

    Bu cümle otomatik  çeviri  sisteminde çevrilebilmesine  karşılık içeriği yönünden anlamsızlık ya da imkansızlık içermektedir.  Bu tür  anlamsızlık ya da imkansızlıkları  sistemin anlayabilmesi  için  sözlükte  farenin tipik boyutu, kendisinin kaç gram olabileceği, günde ne kadar yiyebileceği bulunmalıdır.  Öteki  deyişle, otomatik çeviri ve kısmen doğal dil anlamaya doğru yönelecek  sözlüklerin  özel olarak bu amaca  yönelik hazırlanması  ve  önemli ölçüde dünya  bilgisi ( world knowledge) içermesi  gerekmektedir.

    Otomatik Doğal Dil Çevirisi  sistemlerinin anlama( understanding)  özelliği  çok yüksek olmasa da  bir miktar  bulunmalıdır.  Çünkü  yazım biçimi  eş  olan sözcükler vardır. Örneğin  “yüz”  karakter dizisi  surat(face), suda yüz(swim), 99+1 (hundred) anlamlarına  gelebildiği gibi  kesilmiş olan koyunu yüz ( derisini ayır )   anlamına  gelebilir.    Bu açıdan, otomatik çeviri  sisteminin paragrafta ne söylenmekte  olduğunu  genel  çerçeve  anlamında ( Frame System, Minsky )  farketmesi  çevirinin doğruluk oranını  artıracaktır. 

4.5. Evren bilgisi (world knowledge), argo, teknik deyimler ve güncel espriler : anlamsal çözümleme – düzey-2 ( semantic anaysis, level-2 )

    Bazı yazılar  içerisinde güncel espriler taşıyabilirler. Güncel olarak herhangi bir kırgınlığa  sebep olmamak üzere çok eski  bir örnek verelim.  Osmanlı döneminde  bab’I ali gazetelerinde yayınlanan “yıldız böceği”  deyimi  kendisini  Yıldız daki sarayına fazlası ile kapatarak halk ile ilişkisini kesmiş bir osmanlı padişahının kod adı  olmuştur.  945 rakımlı tepe Türkiye  gazetelerinde  Cumhurbaşkanlığı Çankaya Köşkü’nün denizden yüksekliğine atıfta  bulunarak TC Cumhurbaşkanlığınca oluşturulan yorumlara ve basın duyurularına  referans   vermektedir.

    Ayrıca her meslek dalında iki ya da üç sözcükten oluşan  mesleki terimler üretilmektedir.  Bu mesleki terimler  otomatik çeviri  sistemini destekleyen sözlüğe  ayrı bir giriş(entry, item) olarak  girilinceye  kadar bu mesleki terimleri tanımayıp  yetersiz çeviri  yapacaktır.

5. Türkiye Türkçesi ile Azeri, Kazak, Türkmen, Özbek, Kırgız dilleri arasında bilgisayarlı çeviri yazılımını geliştirmek için bir model önerisi

    Çok önemli gelişmeleri tetikleyebileceğini ilk bölümde açıkladığımız bu yazılım geliştirilmesi için üç model bulunmaktadır.

A ) bu yazılımın yararına inanan Türkiye Cumhuriyeti içinde bir kurum, Türkiye içindeki bir ARGE grubuna yazılımı geliştirtebilir. Hacettepe-Başkent geliştirme için bir aday ARGE grubu olduğu gibi  bizim yorumumuza gore dort – beş başka üniversite ARGE grubu daha bulunabilir. Bu yazılım Barry Boehm’in sınıflamasına gore yarı-bağımsız ( semi-detached ) tür bir yazılımdır. Içindeki bilgisayarcıların Yapay Us tabanı ve yapay us konusunda devam eden ARGE çalışması bulunmalıdır. Ekibin içinde deneyimli dilbilimciler ve sözlük çalışmalarını yapabilmek için bilgisayar kullanabilen genç dilbilim asistanları yer almalıdır.  Bu durumda  hertürlü vergi çıktıktan sonra 2.5 yıl içine projede çalışacak öğretim üyeleri ve asistanlara ödenecek ücret tutarının 300,000 doların altında kalmaması ilk andaki kestirimimizdir. Vergiler açısından en ehveni ve ARGE Çalışmasına en uygunu bir teknopark alanı içindeki yazılım firmasında yapılmasıdır. Bu durumda ikibuçuk yıl içindeki 400,000 Usd lik bir bütçe yeterli olabilir. Teknopark içinde olmayan bir firma ya da üniversite döner sermaye sistemi ile yapılması, TC hükümetinin toplayacağı vergilerin artması açısından daha yararlı olmakla birlikte finanse edecek tek kuruluşa daha yüksek bir mali fatura ( örneğin 600,000 ila 900,000 usd ) çıkarabilir.  Projenin bitiminde, geliştirme ekibi otomatik çeviri sistemini 600 takım CD’ye kopyalayıp işi ihale eden kuruluşa ( örneğin TİKA ) teslim ettiğinde, bir yıllık yazılım hatalarını kapsayan yazılım bakım sorumluluğu dışında, sorumluluğu sona erer. Yazılım geliştirme ekibinin, teslim zamanını aşan bir sözlük güncelleme sorumluluğu yoktur.

B ) bu yazılımın yararına inanan Türkiye Cumhuriyeti içinde birkaç kurum ve altı ülkeden bu gelişmeye inanan ülkeler, ikibuçuk yıllık yapım süresi sonrasında da bu merkezin ayakta kalması için Türkiye’deki bir teknopark içinde  bu amaca özel  yazılım firması  kurabilirler.  Gerek kullanılacak ekip  gerekse kullanılacak ofis metrekaresi gerekse bilgisayarlar açısından A maddesinden çok büyük fark  göstermeyecek bu çözüm  ilk üç yıl içinde  bina yapımı hariç 1 milyon dollar dolayına mal olabilecektir.  Aradaki 100,000 dolarlık fark  ortaklığa katılacak ülkelerin ARGE yöneticilerinin zaman zaman Türkiye’ye gelişleri ile ilgili uçak masrafı, yolluk ve gündelik maddelerinden gelmektedir. İzleyen yedi yıl için yıllık 150,000 dolarlık bir bütçe yeterli görünmektedir. On yıllık maliyet 2 milyon dolar dolayındadır.

C ) üçüncü model  bu altı ülkenin nufus, GSMH vb faktörleri dikkate alarak Ankara’da, tercihan bir teknopark içinde ortak bir ARGE enstitüsü  kurmasıdır.  Ortaklık payları ile ilgili bir öneri Türkiye %50, Kazakistan %23, Özbekistan %9, Türkmenistan %8, Azerbeycan %7 ve Kırgızistan %3 olabilir.  Bu enstitü B maddesinde tanımlanan işlevler yanında  fazladan inşa edilecek 20 kadar ofis odası ile Ankara’nın çeşitli üniversitelerinde doktora  çalışması yapmakta  olan  Kazak, Özbek, Türkmen, Azeri ve Kırgız  doktora öğrencilerine ofis sağlamak,  bu ülkelerden kısa sure ( 1 – 3 ay ) için Türkiye’ye araştırma  çalışmalarına  gelecek öğretim üyelerine ofis ve araştırma ortamı sağlamak gibi  işlevler yüklenecektir.  Bu enstitü  kendisi  öğrenci kaydetmemekle birlikte katkı veren ülkelerdeki kapsam içindeki ( Mühendislik, teknoloji, bilgisayar ) doktora  öğrencilerine çeşitli konularda  yardımcı  da olacaktır.  Şüphesiz ki temel işlevi bilgisayarcılar ve dilbilimcilerden oluşan çekirdek kadrosu ile bu yazıda önerilen çeviri sistemini yapmak  ve sure sınırlı olmaksızın sistemin en üst düzeyde  başarılı olmasını sağlamaya devam etmek olacaktır.   Bina yapımını da içeren bu yapıda ilk kestirim 4 milyon dolar dolayındadır.

6. Sonuç

Bilgisayar destekli bir otomatik çeviri sisteminin Türkiye Türkçesi, Kazakça, Kırgızca, Azerice, Türkmence ve Özbelçe arasında bu ülkelerin 600 sunucu bilgisayarı üzerinden çeviri yapmasının olurlu( feasible) olduğuna karar vermek birinci aşamadır.

    İkinci aşamada, ülkelerin üst düzey yöneticileri sunulan modeller içinde tercihler yapmalıdırlar.

    Üçüncü aşamada, tercih belli olduğunda, teknik ekibimiz, seçilen model içinde yapımı başarmak için teknik altyapıya sahiptir.

 

7. Kaynaklar

Allen1995 : Allen, James ; Natural Language Understanding; Benjamin Cummins 1995, QA76.7 A44 1995

Alpkoçak1995 ; Alpkoçak, Adil, Alp Kut, ve Esen Özkarahan ;  Bilgi Bulma Sistemleri için Otomatik Türkçe Dizinleme yöntemi ; bilişim kongresi 1995, İzmir, s. 247 - 253

Altıntaş2001 ; Altıntaş, Kemal ; Turkish to crimean Tatar Machine translation system, bilkent üniv. tez

Atlı1972 :  Atlı, Esen ; Yazılı Türkçe’de  bazı enformatik bulgular ; Uygulamalı Bilimlerde Sayısal Hesap makinalarının Kullanılması, TÜBİTAK – Ankara 1972 kongresi, s.409 - 425

Bozşahin1992 : Bozsahin, Cem, and Nicholas V. Findler.  Memory-based Hypothesis Formation. Cognitive Science, 16(4):431-454., 1992 ( ayrıca Cem Bozşahin’in ODTÜ  deki araştırma grubu ile birlikte çeşitli yayınları bulunmaktadır. Bunlar arasında  Tutar, Sercan, Cem Bozsahin, and Halit Oguztuzun , TPD: An Educational Programming Language Based on Turkish Syntax.

      The First Balkan Conference in Informatics, (pdf). November,2003, Thessaloniki.             Yuksel, Ozgur, and Cem Bozsahin ; Contextually Appropriate Reference Generation. Natural Language Engineering, 8(1):69-89.,2002  bulunmaktadır )

Durak 1996 : Durak, B.& Ümit Karakaş ; A document Analysis and Understanding Subsystem for Optical Character Recognition ; 13th Informatique Conference of Turkey ; 18 - 21 September 1996 , Istanbul Turkey

Duran1996 ; Duran,Gökmen & Hayri Sever ; Türkçe Gövdeleme algoritmalarının Analizi, TBD Bilişim 1996 kongresi kitabı, s.235 - 243

Gönenç1973 :  Gönenç, Güney ;  Bağlayıcı koşullu kodların birik çözülebilme özellikleri ve Türkçenin hece yapısına uygulanması, TÜBİTAK IV Bilim kongresi, Ankara 1973

Kara2004 : Kara, Mehmet ; Kril alfabesi ile yazılmış Türkçe metinlerin UNICODE kod tablosuna dönüştürülmesi için bir  yazılım ;   15 – 17 Aralık 2004 de Bakü’de Türki Cumhuriyetler 4. Bilişim İşbirliği Forumu’nda sunulmuştur

Karakaş1987 : Karakaş, Ümit; Bilgisayar Yazılımında Veri Yapıları ve Algoritmalar,  Sanem Matbaası , birinci basım 1987 (300 sayfa Türkçe) ; ikinci basım, Ağustos  2000 , Beta yayınevi

Karakaş1996 : Ümit Karakaş – Erkan İnan ; Türkçe Türkiyenin önünde ve herkes İngilizce’nin peşinden gider iken Türkçe Kod tablosunda Son durum ; Bilişim kongresi 1996

Koçan 1993 : Fatih Koçan ve Ümit Karakaş ; Automatic Natural Language Identification ; Ikinci Türk Yapay Zeka ve Yapay Sinir Ağlari Semp. ; 24 - 25 Haziran 1993, Boğaziçi Üniv. , Istanbul

Köksal1979 ;  Köksal, Aydın ; Bilgi Erişim sorunu ve bir Belge Erişim ve Dizinleme Dizgesi Tasarım ve Gerçekleştirimi, Doçentlik tezi, Hacettepe Üniv., 1979

Nirenburg1987 ; Nirenburg, Sergei ; Machine Translation : Theoretical & Methodological Issues; Cambridge Univ. press, 1987

Oflazer1991-2004 : Prof.dr. Kemal Oflazer’in Türkçe ve Türkçe’nin otomatik çevirisi üzerinde çok sayıda yayını bulunmaktadır.

Orgun1985 : Orgun, Mehmet Ali ; Gömü-dili : Çok dilli bilgi erişim gömülerinin bilgisayar ortamında etkileşimli biçimde geliştirilmesini sağlayacak bir yazılım sisteminin tasarlanması ve gerçekleştirimi, Hacettepe Üniv. Yüksek Müh. Tezi, 1985

Say2001 :  A. C. Cem Say, “Understanding arithmetic problems in Turkish,” International Journal of Pattern  Recognition and Artificial Intelligence Vol. 15, pp. 359-374, 2001. ( ayrıca Cem say ekibinin önceki yayınları arasında Çiğdem Aytekin, A. C. Cem Say, Erkut Akçok, "ELIZA speaks Turkish: A conversation program for an agglutinative language," Üçüncü Türk Yapay Zeka ve Yapay Sinir Ağları Sempozyumu, Ankara, 1994, p. 435.

      A. C. Cem Say, "Türkçe 'anlayan' programlar," (in Turkish) TBD Bilişim '94, İstanbul, 1994, pp.  191-195.  bulunmaktadır )

Sever2000 ; Sever, Hayri ;  Kaşgarlı Mahmud Bilgi Geri getirim sistemi projesi sonuç raporu, TÜBİTAK     proje raporu, 31 Aralık 1999 ,

Solak1994 ; Solak, Aysın & Fazlı Can ; Effects on stemming on Turkish text retrieval, technical report, CEIS-94-20, Bilkent Üniv. Bilgisayar Mühendisliği, 1994, Ankara

Töreci1974 ; Töreci, Ersin ; Statistical Investigations on the Turkish  Language using digital computers, ODTU yüksek Mühendislik tezi, Şubat 1974 

Töreci1975 ; Töreci, Ersin ; Türkçenin bazı özelliklerinin bilgisayarla sayımsal çözümlenmesi ; Türkiye bilişim derneği dergisi, yıl 4, sayı 9, yaz 1975, s.42 - 78

 
 

* 15 – 17 Aralık 2004 de Bakü’de Türki Cumhuriyetler 4. Bilişim İşbirliği Forumu’nda sunulmuştur

 

** Profesör, Hacettepe Üniversitesi Bilgisayar Bilimleri Anabilim Dalı 312-297 75 00 (iki hat)   faks :297 75 02   cep 532-666 43 43  e-mektup : umit@karakas.gen.tr

 

***  Profesör, Başkent  Üniversitesi Bilgisayar Mühendisliği Bölümü .312-234 10 10 / 1311   faks :234 10 51  e-mektup :aydin_huseyn@yahoo.com

 


Anket

  Yabancılara Türkçe öğretimi sahasında bizzat sahada çalışan öğreticilerin katkıları olmadan üretilen çözümlerin, doğru çözümler olabileceğini düşünüyor musunuz ?

  • E-Bülten

  • Sözlük

  • Müzik Yayını

    1101963 Ziyaretçi