TÜRKİYE TÜRKÇESİ İLE AZERİ,KAZAK,ÖZBEK,KIRGIZ DİLLERİ ARASINA BİLGİSAYARLI BİR OLURLUK İNCELEMESİ
Türkiye Türkçesi ile Azeri, Kazak, Türkmen, Özbek, Kırgız Dilleri Arasında Bilgisayarlı Çeviri İçin Bir Olurluk İncelemesi *
Dr.M. Ümit KARAKAŞ **
Dr. Aydın HÜSEYNOV***
ÖZET
Türkiye Türkçe’si ile Azeri, Kazak, Türkmen, Özbek ve Kırgız dilleri (ki bunlar köken olarak Türk-çe’dir) arasında bilgisayar ağı üzerinde otomatik çeviri sistemi geliştirilmesi ve bu yazılımın altı ülkede altıyüz sunucu bilgisayarda çalıştırılması projesinin olurluk incelemesi bu bildirinin kapsa-mıdır. Bu ülke vatandaşları için ücretsiz olacak bu hizmetin, ülkelerin turizm, ticaret ve endüstrisin-de oluşturacağı geliştirmeler nedeniyle yıllık Gayri Safi Milli Hasıla artışına binde bir katkı yapma-sı durumunda kazanılacak olan GSMH artışı on yıl içinde 7 milyar dolar olarak kestirilmektedir. Yazılımın geliştirilip on yıla kadar devamlılığının sağlanması ise yaklaşık 2 milyon dolar dolayın-dadır. Bu açıdan bu yazılımın geliştirilmesi ve sürdürülebilmesi olurlu (feasible) görülmektedir.
Bu yazılımın geliştirilmesi için önerilebilecek üç modelden biri, yazılımın Türkiye’de ikibuçuk yıl içinde üretilip ilgili ülkelere dağıtılması ve bakımın her ülke tarafından ayrı yapılmasıdır. İkinci model, Türkiye’de görev ya da öğrencilik nedeniyle bulunmakta olan Azeri, Kırgız, Kazak, Türkmen, Özbek vatandaşlarından zaman desteği alarak, yazılımı geliştirmesi ve sürdürmesidir. Üçüncü model, altı ülkenin Milli Eğitim bakanlıkları (ya da ilgili bakanlıkları) nın finansal yönden ortaklaşa oluşturacakları bir Enstitü nün hem bu yazılımı üretip devam ettirmesi hem de bu ülkeler arasında, bilişim alanında bir ortak ARGE merkezi olarak işlev görmesidir. Bu konuda, ülkelerin üst düzeyindeki tercihler yapıldığında, teknik ekibimiz, seçilen model içinde yapımı başarmak için teknik altyapıya sahiptir.
0. GİRİŞ
Bilgisayar destekli otomatik çeviri (automated language translation) özellikle İngilizce ile bilgisayar teknolojilerinin üst düzeyde kullanıldığı Almanca, Fransızca gibi diller arasında uzun yıllar üzerinde çalışılmış bir konudur. Ancak bu alanda harcanmış yüzlerce adam-yıllık üst düzey uzman çabasına karşılık, kapsanan doğal dil çiftlerindeki tüm metinler üzerinde, yeniden düzeltme gerektirmeyen bir başarı düzeyi henüz sağlanamamıştır. Oysa, küreselleşme (globalization) düzeyi giderek artan dünyamızda bilgisayar destekli otomatik çeviri (automated language translation) gereksinmesi de artmaktadır. Geniş açıdan ve on yıllık bir vizyon içinde bakıldığında, Türkiye Türkçesi ile Azeri, Kazak, Türkmen, Özbek, Kırgız dilleri arasında bilgisayarlı çeviri için çalışmaya başlamak olurlu (feasible) dur. Çünkü, bilgisayar ağı (www : world wide web ) üzerinden kullanımı ücretsiz, kardeş diller arası otomatik çeviri sistemi (tercihan 600 sunucu bilgisayar üzerinde), bu ülkeler arasında ekonomi, turizm, kültür ve eğitim köprülerini genişletecektir.
Öte yandan, geniş açıdan ve on yıllık orta vadeli bir vizyonda olurlu (feasible) olan bu araştırma – geliştirme (ARGE) çalışmasının, ilk üç yıl içinde ilgili taraflara getireceği ARGE harcamasının ve araştırmacı personel dağılımının ayrıntılı bir plan ile de sunulması gerekmektedir. Sunacağımız bildiri, temel olarak, ilgili ülkelerin ARGE kurumlarındaki teknokratlara yönelik olarak hazırlanmıştır. Yapay Us (Artificial Intelligence) ve bilgisayar destekli otomatik çeviri (automated language translation) konusunda çalışmaları bulunan araştırmacılar, planımızı inceleyip çalışmamıza, araştırma ortağı olarak katkı verebilirler.
1. NAFTA, AB, Çin, Japonya, Hindistan ve diğer büyük ekonomi odakları arasında Türki Cumhuriyetlerin yeri,
Ondokuzuncu yüzyıl trenlerin, telgrafın ve ülkelerin yüzyılı sayılabilir.
Yirminci yüzyılın ilk yarısı otomobilin, telefonun, radyonun ve savaşların dönemidir. Savaşlar ülkeler ve ülke grupları arasında olmuştur.
Yirminci yüzyılın ikinci yarısı, sivil havacılığın, bilgisayarların, televizyonun ve küreselleşmenin (globalization) başlangıç dönemi olarak yorumlanabilir.
Yirmibirinci yüzyılın ilk yarısının küreselleşmenin genişleme dönemi olacağı beklenebilir.
Küreselleşmenin gerekliliği ve rotası gerek ABD tarafından, gerekse Avrupanın lider ülkeleri tarafından yirminci yüzyılın ikinci yarısında doğru teşhis edilmiş ve bu yönde çok önemli adımlar atılmıştır. Kuzey Amerika kıtasında Meksika, ABD, Kanada arasında sınırlar alçaltılmış, kıta boyutunda bir ekonomik bölge oluşturulmuştur. Avrupada oluşan Avrupa Birliği de kıta boyutunda bir ekonomik birlik oluşturmaya başlamıştır. Herbir ekonomik birliğin kendi içinde kültürel yakınlaşmayı ve ilgili doğal dili kullanmayı artıracağı beklenmelidir.
Gerek ekonomik yönden, gerekse kültür / dil yönünden 9 – 10 odaklı bir yirmibirinci yüzyıla doğru adım atarken , bu gelişimin bir yüzyıl içinde var olan doğal dillerin (yaklaşık 4000), özellikle konuşan sayısı azalmış olanların, yaklaşık yarısını ortadan kaldıracağı da not edilmelidir.
Hangi doğal dillerin yüzyıl sonra daha da güçlenerek ayakta kalacağını kestirebilmek için “beklenen nufus”lara bakma yanında ilgili dili ana dili olarak konuşanların toplam ekonomik gücünü, ilgili dildeki toplam basılı yayın sayısına, toplam bilgisayarlı bilgi sayfası ( web page ) sayısına, ilgili dilde üretilen (ya da çevrilen) film sayısına ve benzeri kültürel yoğunluk parametrelerine bakmak gerekir.
Burada dikkat edilmesi gereken diğer bir parametre, ilgili dilin gelişmeye devam etmekte olan sayısal teknoloji içinde hayatta kalmaya ve GELİŞMEYE ne kadar uygun olduğu’dur.
Bazı Doğu Asya ülkelerinin iş adamları kendi aralarında cep telefonu kısa mesajlarında ve bilgisayar üzerinden e-mektuplarında İngilizce iletişimi tercih etmektedirler, çünkü binlerce karakterden oluşan kendi alfabeleri ilerlemekte olduğumuz yüzyılın sayısal teknolojili araçlarına çok da uygun düşmemektedir.
Bir doğal dil konuşanları ile vardır. Ülke nufusları ve ülke nufuslarının yakın gelecekteki (10 yıl) ve daha uzak gelecekteki gelişimleri bir “doğal diller arası otomatik çeviri sistemi” olurluğu (fizibilitesi) düşündüğümüz noktada tabanımızı oluşturur.
Tablo1 : Dünyanın bazı Ülkelerinin 2003 Nufusu ve 2013 beklenen Nufusu ( Kaynak US Buereu of Cencus )
| Ülke | 2003 Nufus
( milyon) |
Beklenen Nufus 2013 (mil.) | Ülke | 2003 Nufus
( milyon) |
Beklenen Nufus 2013 (mil.) | Ülke | 2003 Nufus
( milyon) |
Beklenen Nufus 2013 (mil.) | ||
| Dünya | 6,271 | Mısır | 74 | 88 | G. Afrika | 45 | 42 (30) | |||
| Çin | 1,288 | 1,375 | Ethopya | 69 | 87 | Arjantin | 38 | 42 (31) | ||
| Hindistan | 1,064 | 1,198 | Almanya | 82 | 82 | İspanya | 41 | 40 (33) | ||
| ABD | 291 | 317 | Kongo | 56 | 75 | Polonya | 38 | 38 (34) | ||
| Endonezya | 234 | 268 | Türkiye | 70 | 75 | Kanada | 31 | 35 (39) | ||
| Brezilya | 182 | 200 | Iran | 67 | 74 | Özbekistan | 25 | 30 (42) | ||
| Pakistan | 156 | 189 | Tayland | 62 | 67 | Suudi Arab. | 25 | 30 (44) | ||
| Bengaldeş | 138 | 169 | Fransa | 59 | 62 | Venezuella | 24 | 28 (45) | ||
| Nijerya | 122 | 155 | Ingiltere | 59 | 61 | Malezya | 23 | 27 (46) | ||
| Rusya Fed. | 143 | 139 | Italya | 57 | 57 | Avustralia | 19 | 21 (54) | ||
| Japonya | 127 | 126 | G. Kore | 47 | 49 | Kazakistan | 14 | 15 (64) | ||
| Meksika | 102 | 116 | Sudan | 39 | 48 | Azerbeycan | 8.3 | 8.4 (92) | ||
| Filipinler | 84 | 100 | Kolombia | 44 | 47 | Kırgız Cu. | 5.0 | 5.7 (109) | ||
| Vietnam | 81 | 90 | Ukrayna | 48 | 45 | Türkmenistan | 4.8 | 5.7 (110) |
Tabloda nufus yönünden ilk 27 ülke ara verilmeden yazılmış, üçüncü kolondaki ülkelerin yanına 2013 yılındaki beklenen nufus sıralamaları parantez içinde verilmiştir.
Türkiye Cumhuriyeti, nufus büyüklüğü açısından dünyanın 18. ülkesi olmaya devam edecek olarak görünmektedir. TC nin nufus büyüklüğünü de aşan Türkçe’ nin yaygınlığı, kültürel tarihinin uzunluğu açısından yirmibirinci yüzyılda, ON dolayındaki odak ülke arasında olmaya haklı adaylar arasındadır. Türkçe dünyada ençok konuşulan ON doğal dil arasındadır.
Cep telefonları (mobile communication), çeşitli tıbbi araçlar üzerindeki sınırlı tuş konumlu klavyeler, çeşitli endüstriyel cihazlar üzerindeki sınırlı tuş konumlu araçlar hatta az sayıda tuş konumu ile yönetilen, elektronik olarak tarih atılan, gezilen yerin adı yazılan kameralar, elektronik ev eşyaları nedeniyle LATİN ALFABESİ nin yirmibirinci yüzyıla uyumu artmaktadır.
Tablo 2 : Latin Alfabeli bazı dillerin aktif kullanılırlığı (Birleşmiş Milletler (UN) kaynaklarına dayanarak )
| her dile lehçesi dahildir | Ana dili /resmi dil | İkinci dil olarak | Ticari ve turistik dil | toplam (milyon) | |||||
| İngilizce | 518,244,999 | 69,033,265 | ******* | 598.2+ | |||||
| İspanyolca | 304,689,188 | 17,830,359 | *** | 322.5+ | |||||
| Portekizce | 151,230,622 | 965,712 | ** | 152.6+ | |||||
| Türkçe * | 99,866,460 | 30,381,893 | ** | 133.2+ | |||||
| Fransızca | 104,751,358 | 10,963,222 | **** | 115.2+ | |||||
| Almanca | 93,849,110 | 9,341,971 | **** | 108.1+ | |||||
| İtalyanca | 57,944,978 | 9,056,842 | ** | 67.0+ | |||||
| Polonyaca | 37,881,900 | 1,898,223 | ? | 39.7+ | |||||
| Romence | 26,407,797 | 28,655 | ? | 26.4+ | |||||
| Hollanda (Dutch-Flemish ) | 22,383,619 | 408,633 | * | 22.8+ | |||||
* not 1: İlk kolon toplamının 61,532,460 kişisi %99 u Türkçe bilen TC 'den , geri kalan ilk kolon toplamı Azerbeycan, Kuzey Kıbrıs, Kazakistan, Kırgızistan, Tacikistan, Türkmenistan, Özbekistan dan gelmektedir. İkinci dil olarak en yoğun Türkçe gündelik konuşma tercihleri İran (13.5m), Almanya (3m), Rusya (10.4m), Afganistan, Bulgaristan, Suudi Arabistan (0.4m), Hollanda (0.23m) gibi ülkelerden gelmektedir. Almanya'da yaşayan ve çalıştığı iş nedeniyle gün içinde Almanca'da konuşan bir Türk (ya da Türkiye eski vatandaşı) ayrıca Almanya nufusu ve Almanca bilir kişiler arasında tekrar listelenmiştir. .
Yirmibirinci yüzyılın teknolojik tabana bağli olarak küreselleşme çaği olduğunu ve bunun sonuçlarini görerek vizyon ( uzakgörüş ) oluşturmamiz gereklidir. Küreselleşme Globalization) bir devlet politikasi ya da devletler / hükümetler tarafindan empoze edilen bir gelişme değildir. Küreseleşmeyi, uçaklar, televizyon, bilgisayar & internet , özetle yüzyılımızın teknolojik altyapısı yönlendirmektedir.
Ara özet : yirmibirinci yüzyılın ilk çeyreğinde İngilizce, İspanyolca, Portekizce, Türkiye Türkçesi, Fransızca, Almanca, İtalyanca nın nufus, ekonomik güç, güncel teknolojiye uyumlu Latin alfabeleri ile güçlenerek devam etmelerini beklemek kanımızca objektif bir tahmin olacaktır.
Aşağıda 1995 sabit Dolar değerleri ile bazı varsayımlar çerçevesinde ile 2013 için kestirimler bulunmaktadır. Gerek 2003 değerleri gerek 2013 yılı kestirimleri 1995 sabit Dolar değerleri ( ABD dolarının 1995 deki satınalma gücü ( PPP in constant 1995 $ ) bazındadır. Bu rakamlar, kendi içinde küçük de olsa bir enflasyon içeren güncel dolar değeri ( current $ ) dan farklıdır.
Yirmibirinci yüzyılın ilk çeyreğinde Nafta ülkeleri ( ABD, Kanada, Meksika), ve Avrupa Birliği dünyanın ekonomik ve teknik liderliğinin ilk iki konumu için yarışacaklardır. Çin ve Japonya üçüncü büyük ekonomi olmak için yarıştadır. 2013 sonrası aktif bir ekonomi olan Çin lehine gelişmektedir. Dünyanın beşinci ila dokuzuncu ekonomileri Hindistan, Güney Kore, Brezilya, Avustralya ve Rusya olarak oluşacaktır.
Bu koşullar altında Türkiye, her yönden yalnız kalmış olsaydı dahi 2013 de, Endenozya, Suudi Arabistan ve Arjantin ekonomilerinin ardından dünyanın onüçüncü ekonomik gücü, onüçüncü geniş pazarı olacaktır.
Öte yandan, içinde Türkiye’nin bulunduğu, Türkçe ortak birleştireni ( katalizörü ) çerçevesinde oluşacak bir ekonomik birliğin dünyanın onuncu ekonomik gücü olabileceği aşağıdaki tabloda açıkça görülmektedir.
Tablo 3 : 1995 sabit $ değerleri ile ülke ekonomilerinin 2013 de oluşması muhtemel boyutları( tabloda ilk dört bilgi kolonu Milyar $ dır )
| 1993 GDP
(Const 1995$) |
2003 GDP
(Const 1995$) |
1993 GDP, inPPP
(Const 1995$) |
2003 GDP, inPPP
(Const 1995$) |
On yıllık artış çarpanları | 2013 için Beklenen GDP
(Const 1995$) |
2013 için Beklenen GDP, inPPP
(Const 1995$) |
|||
| 1? | NAFTA | ||||||||
| ABD | 6,865.0 | 9,463.0 | 6,927 | 9,453 | 1,370, 1.360 | 12,964.0 | 12,856 | 0.99 | |
| Kanada | 539.0 | 754.0 | 606 | 837 | 1.370, 1.380 | 1,032.0 | 1,156 | 1.12 | |
| Meksika | 292.0 | 380.0 | 630 | 812 | 1.300, 1.280 | 494.0 | 1,045 | 2.11 | |
| 1? | AB | ||||||||
| Almanya | 2,361.0 | 2,708.0 | 1,712 | 1,982 | 1.140, 1.150 | 3,087.0 | 2,279 | 0.74 | |
| Fransa | 1,496.0 | 1,833.0 | 1,165 | 1,419 | 1.225, 1.218 | 2,245.0 | 1,728 | 0.77 | |
| İngiltere | 1,053.0 | 1,390.0 | 1,87 | 1,397 | 1.320, 1.285 | 1,834.0 | 1,795 | 0.97 | |
| İtalya | 1,043.0 | 1,238.0 | 1,152 | 1,356 | 1.186, 1.177 | 1,468.0 | 1,596 | 1.08 | |
| İspanya | 555.0 | 756.0 | 555 | 795 | 1.360, 1.432 | 1,028.0 | 1,138 | 1.10 | |
| Hollanda | 392.0 | 502.0 | 315 | 414 | 1.280, 1.314 | 642.0 | 544 | 0.84 | |
| Belçika | 261.0 | 324.0 | 198 | 255 | 1.241, 1.287 | 402.0 | 328 | 0.81 | |
| Polonya | 112.8 | 182.6 | 238.7 | 386.0 | 1.618, 1.617 | 295.5 | 624.1 | 2.11 | |
| 3? | Japonya | 5,151.0 | 5,880.0 | 2,637 | 3,582 | 1.141, 1.358 | 6,709.0 | 4,864 | 0.72 |
| 3? | ÇİN | 562.0 | 1318.0 | 2393 | 5,596 | 2.330, 2.340 | 3,070.0 | 13,094 | 4.26 |
| 5 | Hindistan | 307.0 | 558.0 | 1425 | 3,096 | 1.817, 2.170 | 1,014.0 | 6,718 | 6.62 |
| 6? | G. Kore | 432.0 | 733.0 | ??? | 858 | 1.696, ???? | 1,243.0 | 1,455 | 1.17 |
| 6? | Brezilya | 638.0 | 808.0 | 891 | 1,192 | 1.266, 1.337 | 1,023.0 | 1,593 | 1.55 |
| 8 | Avustralya | 343.0 | 492.0 | 351 | 504 | 1.434, 1.435 | 705.7 | 723 | 1.02 |
| 9 | Rusya F. | 471.9 | 505.9 | 1,064 | 1,146 | 1.072, 1.077 | 542.3 | 1,234 | 2.27 |
| 10 | Endonezya | 173.0 | 233.0 | 462 | 627 | 1.346, 1.357 | 313.8 | 850 | 2.70 |
| 11 | Suudi Arab. | 141.2 | 206.4 | 165.5 | 248.9 | 1.461, 1.503 | 301.5 | 374.2 | 1.24 |
| 12 | Arjantin | 250.0 | 271.0 | 341 | 386 | 1.084, 1.131 | 293.7 | 436.9 | 1.48 |
| 13 | Türkiye | 167.0 | 217.0 | 314 | 415 | 1.300, 1.321 | 282.1 | 548.2 | 1.94 |
| Kazakistan | 25.3 | 31.3 | 64.9 | 84.9 | 1.237, 1.308 | 38.7 | 111.0 | 2.86 | |
| Özbekistan | 14.2 | 18.2 | 29.8 | 38.6 | 1.281,1.295 | 23.3 | 49.9 | 2.14 | |
| Türkmenistan | 3.2 | 5.1 | 15.5 | 24.8 | 1.593, 1.600 | 8.1 | 39.6 | 4.88 | |
| Azerbaycan | 4.3 | 5.8 | 17.9 | 25.8 | 1.348, 1.441 | 7.8 | 37.1 | 4.75 | |
| Kırgız Cum | 2.2 | 2.4 | 6.6 | 7.5 | 1.090, 1.136 | 2.6 | 8.5 | 3.26 | |
| 14 | Tayland | 141.0 | 197.0 | 291 | 408 | 1.397, 1.402 | 275.2 | 572.0 | 2.07 |
| 15 | G. Afrika | 141.9 | 186.4 | 314.0 | 413.2 | 1.313, 1.315 | 244.8 | 543.7 | 2.22 |
| 16 | Malezya | 74.0 | 122.9 | 121.8 | 208.8 | 1.660, 1.714 | 204.1 | 357.8 | 1.75 |
| 17 | Filipinler | 67.8 | 101.0 | 217 | 306 | 1.489, 1.410 | 150.4 | 431.5 | 2.86 |
| 18 | Mısır | 55.2 | 85.7 | 151 | 232.0 | 1.552, 1.536 | 133.0 | 356.4 | 2.67 |
| 19 | Pakistan | 55.9 | 79.8 | 185 | 254.4 | 1.427, 1.372 | 113.9 | 349.2 | 3.06 |
| 20 | Bengaldeş | 34.7 | 56.6 | 134 | 214.3 | 1.631, 1.599 | 92.3 | 342.7 | 3.71 |
| 21 | Vietnam | 17.3 | 35.6 | 89 | 176 | 2.057, 1.968 | 73.2 | 346.4 | 4.73 |
| 22 | Venezuella | 76.2 | 67.8 | 121.8 | 109.0 | 0.889, 0.894 | 60.3 | 97.5 | 1.61 |
| 23 | Nijerya | 27.3 | 37.3 | 87.5 | 120.7 | 1.366, 1.379 | 50.9 | 166.4 | 3.26 |
( not : Suudi Arabistan verileri bildirinin yazıldığı günde 2003 verileri değil 2002 verileridir )
Tablo3’ün verdiği bilgileri çok kısaca özetleyelim :
A) Almanya, Fransa, Hollanda, Belçika gibi ülkelerin iç fiyatları artmıştır ve orta düzeyde teknoloji gerektiren ( Cam, çimento, seramik, elektrikli araçlar vb ) için en ekonomik üretim yerleri değildir. Bu ülkeler ileri teknoloji için savaşmaktadır.
B ) Çin, Hindistan, Türkmenistan, Azerbaycan, Vietnam gibi iç fiyatları düşük olan ülkelerde, kalite kontrol süreçleri çok iyi uygulanırsa çok ucuza mal olan üretimler yaptırılabilir.
C ) Türkiye her açıdan yalnız kalsa ( AB ye girmese, Türki Cumhuriyetlerle yakın işbirlikleri kuramasa ) 2013 de dünyanın 13. üncü ekonomik gücü olacaktır.
D ) Türkiye, Azeri, Kazak, Kırgız, Türkmen ve Özbek ülkeleri çok iyi işleyen bir ekonomik ve kültürel birlik oluşturabilirse bu ekip birlikte dünyanın 10. büyük ekonomisini oluşturabilir. Türkiye ekonomik büyüklükte ve Pazar genişliğinde üç adım öne çıkar, bu ekonomik birliğe katılım veren diğer ülkeler onlarca adım birden zıplarlar.
2. Bilgisayar destekli otomatik çeviri ( automated language translation ) nin Türkiye, Azerbaycan, Kazak, Kırgız, Türkmen, Özbek Cumhuriyetlerine ON yıllık bir plan içinde getirebileceği yararların incelenmesi
Ana dil olarak Türkçe kökenli dilleri kullanan ülkelerin Gayri Safi Milli Hasıla ( GSMH ) değerleri, yukarıdaki genel tablodan bir çıkarım (extract) olarak aşağıdaki tablonun ilk altı kolonunda verilmiştir.
A ) Beşinci kolonda bu ülkeler arasında ortak dilbirliği nedeniyle sinerji ve yoğunlaştırılan ticari, kültürel ilişkilerin etkisi öngörülmeden tablolanmıştır.
B ) ortak dil bileşeni ( kısmen farklı da olsa ) ve yoğunlaştırılan ticari, kültürel ilişkilerin toplam etkisi GSMH artışında yıllık %1 - %2 gibi büyük etkiler olabilir. Bunlar üst düzey politik kararlara dayalıdır ve bizim hesapladığımız, öngörü geliştirdiğimiz hesap bundan çok daha mütevazidir. Biz sadece bilgisayar üzerinde Türkçe, Azerice, Kazak, Kırgız, Türkmen ve Özbek dilleri arasında bilgisayarlı otomatik çeviri bulunması ( bu yazılımın 6 ülkede 600 bilgisayarda web üzerinden çalışıyor olması ) nın GSMH ( Gayri Safi Milli Hasıla ) artış hızını binde bir ( %0.1 ) artırmasına dayalı mütevazi bir hesaptır ve tablonun dokuzuncu kolonunda verilmiştir.
Tablo 4 : Türkçe dilleri arasında otomatik çeviri web üzerindeki 600 bilgisayarda hizmet verirse ne olabilir.
| 2003 GDP
(Const 1995$), milyar $ |
On yıllık artış çarpanları | 1993- 2003 yıllık ort büyüme
(%) |
2013 için Beklenen GDP
(Const 1995$) Dil Sinerjisi YOK |
2004 -2007 yıllık aynı büyüme
( üç yıl ) (%) |
2008- 2013 yıllık BİNDE BİR daha fazla büyüme
( yedi yıl) (%) |
2013 için Beklenen GDP
(Const 1995$) Dil Sinerjisi VAR |
2013 yılı kestirimleri arası fark
( 2008 – 2012 hariç ) |
|
| Türkiye | 217.0 | 1.300 | 2.70 | 282.1 | 2.70 | 2.80 | 285.1 | 3.000 |
| Kazakistan | 31.3 | 1.237 | 2.15 | 38.7 | 2.15 | 2.25 | 39.0 | 0.300 |
| Özbekistan | 18.2 | 1.281 | 2.50 | 23.3 | 2.50 | 2.60 | 23.5 | 0.200 |
| Türkmenistan | 5.1 | 1.593 | 4.75 | 8.1 | 4.75 | 4.85 | 8.16 | 0.060 |
| Azerbaycan | 5.8 | 1.348 | 3.03 | 7.8 | 3.03 | 3.13 | 7.87 | 0.070 |
| Kırgız Cum | 2.4 | 1.090 | 0.88 | 2.6 | 0.88 | 0.98 | 2.63 | 0.030 |
| TOPLAM | 3.660 |
Bu tabloda sadece “Türkçe kökenli diller arasında otomatik çeviri web üzerindeki 600 bilgisayarda hizmet verirse ne olabilir” sorusunun olası yanıtları (olası etkileri) olarak artan ticaret (dolayısı ile üretim) hacimleri nedeniyle üçüncü yıldan sonra binde bir ( %0.1 ) daha fazla GSMH artışı konulmuş, binde birlik artış altı yıl modellenmiş ve sadece 2013 kestiriminde 3.66 milyar dolarlık artış bulunmuştur. Dördüncü yıldan itibaren birikimli artışlarda hesaba katıldığında yaklaşık ON yılda 7.32 milyar dolarlık ( 7 milyon dolarlık değil, 7 Milyar dolarlık ) artış potansiyeli hesaplanmıştır.
Türkiye’nin bir kültürel odak olarak Avrupaya / Avrupa birliğine bağliliği, ayni zamanda bir başka kültürel odak olarak Türki Cumhuriyetlere & Orta Asya’ya bağlılığı bir birine engel değil, destekleyicidir.
Alfabe konusunda Latin Alfabesinin yirmibirinci yüzyılın alfabesi olduğu açıktır ve Türkiye bu noktada yaklaşık 80 yıllık yol almıştır.
Ekonomik ve kültürel bağın güçlenmesinde en önemli etken alfabedir. Türkiyenin 1928 de Latin alfabesine geçmiş olması bugün ulaştığı noktayı sağlamasında önemli olmuştur. Azerbeycanın 1992 de başlayıp Ocak 2001 de tamamen (tüm okullarında) Latin Alfabesine geçişi de bu ülkeye ekonomik yönden hız kazandıracak, Türkiye ve Batı dünyası ile bağlarını güçlendirecektir.
Burada hesaplanan miktar, oluşabilecek gerçek yararın sadece bir kesimidir. Kırgız vatandaşı yazar Cengiz Aytmatov, televizyondaki konuşmalarında giderek birbirine yakınlaşacak Türkçe ler ile tek bir Türkçeye doğru gidişi savunmaktadır.
Kanımızca bu bir hayal değildir, kanımızca bu bir ütopya değildir. Dilbilimcilerin ve herbir bilim alanından ana dilini geliştirmeye özen gösteren bilim insanlarının ortak çalışmasına ihtiyaç vardır. Bunlar yapıldığında, bu ülkeler grubu birlikte dünyanın onuncu büyük ekonomisi olmaktan daha ileri noktalara da ulaşacaktır.
3. Bilgisayar destekli otomatik çeviri ( automated language translation ) den de önce, bilgisayar kod tablosunda uyuşum, otomatik doğal dil tanıma gereği ve başarı için amacı sınırlama,
Bilgisayar destekli otomatik çeviri çalışmaları yeni değildir ve akademik yayın çıkarmaya yönelik çalışmalar ilk aşamada sözcüğü tanıma ( lexical analysis) ve bunu izleyen aşamada Sözdizim çözümleme ( syntax analysis ) ile başlar. Ancak bizim çalışmamız bir mühendislik projesi önerisidir ve Sözdizim çözümleme ( syntax analysis ) öncesinde çok önemli bazı ön-bölümler vardır. Bu ön problemler ve bunları ele alacak ön – bölümler şunlardır.
3.1. Bilgisayar kod tablosunda uyuşum,
3.2. otomatik doğal dil tanıma gereği
3.3. Başarı için amacı doğru biçimde sınırlama,
3.1. Bilgisayar kod tablosunda uyuşum
Yayın çıkarmaya yönelik bir akademik çalışmada tipik başlangıç bir Sözdizim Çözümleme (syntax analysis) ağacıdır. Oysa işin içinde bulunduğumuz gerçek dünyada ele alınışında, ilk ele alınması gereken sorun gerçekleştirilecek “Doğal diller arasındaki çeviri yazılımı”nı aynı “bilgisayar kod tablosu”nda buluşturmaktır.
Nufusunun önemli bir kesimi Türkçe kullanan bazı Orta Asya ülkeleri Kril alfabesinden Latin alfabesine dönüş yapmış ( Bu önemli bir devrimdir ) lardır. Ancak, Türkiye’nin içinde bulunduğu ISO8859 table 9 ( aynı zamanda ECMA128 Latin 5, aynı zamanda TS5881 ) üzerinde uzlaşmak, bu noktada birleşmek mümkün olmamıştır. Aşağıda Türkiye Türkçesinin alfabesi ISO8859 tablo9 üzerinde beyaz alanlar ile gösterilmiştir. Gri alanlar ise Türkiye’nin teknik yönden yoğun iletişim içinde olduğu Almanya, Fransa, Avusturya, İspanya gibi ülkelerin karakterleridir.
Türkçe karakterleri, diğer 42 ülke ile birlikte uluslarası standard konumlarda sağlayan ISO8859 table9 (aynı zamanda TS5881 ve Avrupa Bilgisayar Yapımcıları Birliği ECMA128, Latin5 standardı) aşağıda verilmiştir.
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | ||
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | ||
| 0 | 0 | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | TAB | LF | VT | FF | CR | SO | SI |
| 1 | 1 | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS | US |
| 2 | 2 | SP | ! | “ | # | $ | % | & | ‘ | ( | ) | * | + | , | - | . | / |
| 3 | 3 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
| 4 | 4 | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
| 5 | 5 | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
| 6 | 6 | ` | a | b | c | d | e | f | g | h | i | J | K | l | m | n | o |
| 7 | 7 | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
| 8 | 8 | ||||||||||||||||
| 9 | 9 | ||||||||||||||||
| 10 | A | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
| 11 | B | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
| 12 | C | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
| 13 | D | Ğ | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | İ | Ş | ß |
| 14 | E | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
| 15 | F | ğ | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ı | ş | ÿ |
Aşağıda ise, alfabe yönünden Türkiye’ye ve Batı dünyasına en çok yakınlaşmış bulunan Azerbaycan’ın alfabesi görülmektedir. Azerbaycan’ın ISO numarası almış 8-ikil yapısındaki kod tablosu ise tarafımızdan bulunamamıştır.
Türkiye ile Azerbaycan’ın alfabelerinin en uzlaşmaz yönü bir ters E harfi biçimindeki schawa karakteridir. Bu karakter(schawa) ISO8859 tablo9 un, bizim tarafımızdan grileştirilmiş bölgelerinde dahi, yer almamaktadır. Azerbaycan’da ülkenin dilbilimcileri bu karakteri yeni alfabeye dahil etmiş iseler de, bizim görüşümüz, sayısal elektronik dünyasında bu karakterin yaşatılmasının güç olacağıdır. Sorun sadece Azerbaycan bilgi işlem merkezlerinde birkaç uluslarası firmaya ek ücret ödeyerek bu karakteri de bulunduran özel bir kod tablosu yaptırmakla bitmemektedir. Bu karakteri sayısal elektronik evrende dünyanın her yerinde savunmak, dünyanın önemli kod tablolarına eklettirmek hiç kolay değildir.
Alfabe düzeyindeki bu uzlaşamama, Türk dünyası için önemli bir kayıptır, çünkü uzlaşılabilmiş olsaydı Türkçe konuşulan bir ülkede basılan bir roman, lise ders kitabı, üniversite kitabı, dergi, gazete diğer Türkçe konuşan ülkede de aynen kitap rafına ulaşabilecekti...Çok mu geç olmuştur bilmiyoruz...?
Alfabe konusunda uzlaşamama tüm Türk dünyası için kayıp olmakla birlikte kayıplar simetrik değildir. Türkiye’de yayınlanan bir günlük gazetenin, konuya özel bir aylık derginin tiraj kaybı %11 ( 8.3 / 75 ) iken, Azerbaycanda yayınlanan bir günlük gazetenin, konuya özel bir aylık derginin tiraj kaybı %903 ( 75 / 8.3 ) dür.
Bu durumda, çeşitli açılardan maliyet yönünden ISO8859 table 9 a göre en az iki kat daha pahalı olan UNICODE kod tablosu üzerinde birleşme gereği ortaya çıkmıştır.
Bu kongrede sayın doç.dr. Mehmet Kara tarafından sunulan bildiri ( Kara2004 ) bu sorunun çözümünün elektronik ortamda mümkün olduğunu göstermekle birlikte bu tür modüller, uzlaşma olmadığında sistemin sürekli bulundurması gereken bölümlerdir.
Üstelik sadece doç.dr. Mehmet Kara tarafından geliştirilen modül kullanılmakla kalmayacak, Türkiye içinde dahi
A ) ISO8859 Tablo9 dan UNICODE dönüştürücü
B ) Türkçe karakterler içeren genişletilmiş EBCDIC’den UNICODE dönüştürücü,
C ) Microsoft’un ISO8859 tablo9 a özdeş olmayan “code page 12xx” den UNICODE dönüştürücü
Gerekecektir.
Bunlara paralel olarak bu çeviri yazılımının hizmet vereceği ülkelerin “bugün kullandığı” ve on- onbeş yıl gibi kültürel yönden “çok yakın geçmişte kullandığı” bilgisayar kod tabloları ( computer code page) den UNICODE dönüşüm modülleri gerekli başlangıcı oluşturacaktır.
Ara özet : çeşitli 8-ikil ( 8-bit ) kod tablolarından UNICODE dönüşüm modülü sayısı 12 – 18 arasında oluşabilecektir.
3.2. Otomatik Doğal Dil Tanıma gereği
Geliştirilecek sistem, potansiyel kullanıcısı kullanmaya başladığında, Copernic ve benzeri bir üst-arama motoru ( Meta search engine ) kullanarak aramaya başlayacak ve bu tür arama motorları genellikle yüz ila bin bilgi sayfası bulmadan durmayacaktır. Kullanıcının bunların bulunduğu kod tablolarını UNICODE çevirmek için devreye girmesi pratik değildir. Bu açıdan yukarıdaki 12 – 18 modülün “akıllı biçimde (intelligent)” devreye girmesi ve “kod tablosu”nu otomatik tanıması (çok yüksek oranda otomatik olarak tanıması) gerekmektedir.
Bu işlem basit bir işlem değildir, çünkü ISO8859 tablolarının ( 15 tablo var ) “kod konumları (code location)” üst üste binmektedir. Bu noktada “karakter dizilerinin içindeki ikili, üçlü, dörtlü grupların frekanslarından” tetiklenen bir “otomatik kod tablosu tanıma modülü” de sistemin vazgeçilmez bir parçası olmöaktadır.
Bu bildirinin birinci yazarının ( Karakaş) liderliğindeki bir ekip yakın geçmişte Türkçe, İngilizce, Almanca yazıları, yazı içinden alınmış 80 karakter dolayındaki örneklemlerden ayırabilen bir sistemi gerçekleştirmiş ve on yıl önce yayınlamıştır ( Koçan1993 ). Bu yayında Türkçe ve İngilizce neredeyse %100 başarı ile otomatik ayrıştırılabimektedir. Fakat yanyana iki harf ve üç harf olasılıkları birbirine daha yakın olan Türkçe ve Almanca arasında 80 karakterlik bir karakter örneklem treni (80 character sample character string) bu iki dili mükemmelen ayırmakta yetersiz kalmaktadır.
Çalışma grubumuz bu noktada ne yapacağını ve nasıl yapacağını iyi bilmekle birlikte, birbirine harf ve hece istatistikleri yönünden çok daha yakın dilleri ( örn. Türkiye Türkçesi ile Azerice, Azerice ile Türkmence, vb ) birbirinden otomatik tanıma ile ayırabilmesi teknik olarak biraz daha zor olacaktır. Muhtemelen 160 – 320 karakter uzunluğunda örneklemler kullanmak zorunda kalacağız ve ayıraç olarak kullanılacak hece sayıları ve harf grupları birkaç kat artırılacaktır.
Bu durum hem yapay sinir ağı ( ANN Artificial Neural network ) eğitim zamanını 10 – 12 kat, uygulama anındaki tanıma süresini 2 – 4 kat artıracaktır. Birinci yazarın bu çalışmayı Türkçe, İngilizce, Almanca arasında yapmış olduğu tarihten bu yana mikrobilgisayar hızları üzerindeki gelişmeler yine çalışmanın hızlı bir kişisel bilgisayar ( PC, Personnel computer ) üzerinde yapılabileceğini işaret etmektedir.
3.3. Başarı için amacı doğru biçimde sınırlama,
Sadece akademik amaçla yapılmış bir çeviri sistemi ( ya da bir derleyici ( compiler ) ) giriş verisini “düz bir metin ( plain text )” biçiminde alacaktır. Oysa, gerçek bir mühendislik projesi olarak yapılacak doğal dil çeviri sistemi daha ilk sürümünde ( version one) en azından şu ortamlardaki verileri otomatik olarak “düz metin ( plain text)” biçimine çevirebilecek akıl düzeyinde olmalıdır. İlk sürüm için amaçlanan, yani öncelikle “düz metin” dönüşümü yapılacak giriş verisi türleri şunlardır :
A ) html
B ) XML
C ) OpenOffice
D ) Microsoft Word
İlk sürüm için eleştirmenlerimizin birçok ekleme önerisi olabilir. Örneğin excell ve acrobat biçimleri ( pdf file format ) da eklenmelidir gibi... Bu eleştiriler haklıdır ve ikinci sürümde ( version 2 ) yer alabilir. İlk sürümün bir bütün olarak çalıştırılmasından sonra taranmış (scanned) bir sayfa üzerinden düz metin ( plain text ) biçimine geçmek de ikinci gerçekleştirme yılı planlarımız içindedir. Birinci yazar ile çalışan bir ekip çok kolonlu gazete yazıları dahil birçok yazıda %97.7 dolayında bir başarıyı daha önce sağlamış olduğuna göre ( Durak1996 ) bu amaç da plana %97 düzeyinde başarı şansı ile ikinci sürümde dahil edilebilir.
Ancak, Yapay Us deyimi ile “önce derinliğine” ilerleyip, ilk sürümde html, xml, openOffice, word ortamından daha fazla dallanma ( branching ) oluşturmadan hedefe bir kez ulaşmak da bizim stratejimizdir.
Bizim ilk amacımız “arama makinaları( serach machine)” kolayca bütünleştirilebilecek, taradığı yüz ila bin arasındaki bilgisayar bilgi sayfası ( web page ) üzerinde “kod tablosu”nu, yazıldığı doğal dili otomatik olarak tanıyıp, yazının ( bilginin ) içinde bulunduğu taşıyıcı ( html, xml, OpenOffice, word ) dan hızla düz yazıya ( plain text ) çevrilip kullanıcının doğal diline hızla çevrilmesidir.
Bu amaç hızla ( tipik bir 300 bilgi sayfası ( link ) bulan bir tarama için örneğin 15 dakika ), örneğin bulunan herbir bilgi sayfası için ortalama 3 saniyede otomatik çeviri amacımızdır.
Amacı, kullanıcıyı sıkmayacak hıza odakladığımızda, çeviri yapılabilecek metni ( yazıyı ) da geliştirilecek yazılımın ilk sürümünde boyut olarak sınırlamak gerekecektir. Arama makinasına bağlı ve otomatik olarak çalışacak ilk sürümün 3 – 10 satırlık ( 180 – 600 karakterlik ) düz yazılar ( 180 – 600 character plain text ) üzerinde çalışması uygun bir başlangıç noktası olabilir.
Kullanıcı, internet üzerindeki ilk taramasını bitirip 3 – 10 satırlık çeviri’den ilgili sayfa üzerinde konunun aradığı türden bir bilgi olduğuna karar verir ise seçtiği 8 – 10 kaynağı ayrıca otomatik çevirinin giriş karakter sayısı artırılmış bir sürümü ile çevirebilir. Buna bir engel yoktur, ancak biz yüzlerce ( bazan 1000 kaynak ) otomatik olarak tarandığı ortamda 600 karakterlik limitimizi daha üst noktada kesmiş olsaydık yanlış bir taktik uygulamış olurduk ve kullanışsız bir sistem yapmış olurduk...
Ancak her halükarda bizim geliştirmeye çalıştığımız sistemin roman çevirisi yapmayı amaçlamadığını, edebi metin, mahkeme kararı, firmalar arası finansal anlaşma metinleri çevirmeyi amaçlamadığını ifade etmek gerekir. Eğer bir metnin tam doğru ve otorite olarak çevrilmesi gerekiyor ise deneyimli insan çevirmenler devreye girmelidirler.
4. Bilişimsel Dilbilim ( Computational Linguistics) ve Bilgisayar Destekli Otomatik Çeviri (automated language translation) yazılımlarının anatomisi, bölümleri ve günümüzde sağlanmış çeşitli düzeylerde başarılı örnekler,
Türkçe dili üzerinde bilişimsel dilbilim çalışması yapan öncü araştırmacılar arasında Güney Gönenç ( Gönenç1973 ), Esen Atlı ( Atlı1972 ), Ersin Töreci( Töreci1974, Töreci1975) ve Aydın Köksal (Köksal1979 ) vardır.
Türkçe dili üzerinde bir bilgisayarlı çalışma yapılacağında bitişken bir dil olan Türkçe’de sözcüğün kökü bulunmalıdır. Bunun da öncesinde sözcüğü hece’lere ayırmak ve anlamlı bir sözcük kökü oluşuncaya kadar sözcük içindeki heceleri sol taraftan birleştirmeye başlamak gereklidir. Ersin Töreci ( Çalışmanın yapıldığı 1972 / 1974 yıllarında yüksek Mühendislik öğrencisi, halen prof.dr. ve Hacettepe Bilgisayar Mühendisliği bölüm başkanı ) 22,216 sözcükten oluşan Türkçe metinler üzerinde HECE lerin kolayca tanınabilmesi için hece kalıplarının oluşumunu istatistiki olarak incelemiş ve ayıraçlar bulmuştur. Töreci’nin 1974 ve 1975 deki yayınları, Türkçe üzerindeki harf, harf birleşimi , hece istatistikleri ve takılar açısından gövdeleme algoritmaları öncesinde tekrar okumaya değer bir çalışmadır.
Aydın Köksal 1970 li yıllardan başlayarak bilgisayar ve bilişim alanında Türkçeye yeni sözcükler kazandırmış ve 4000 sözcükten oluşan bir Gömü’yü 1979 da yayınlamıştır. Gömü, dizinleme ve erişim hizmetinde terimlerin kullanımına rehberlik ederek erişim etkinliğini artırır. Gömü ye dayalı olarak yapılan bilgi belge erişim sistemlerinde önceki sistemlere gore anma etkinliği %30 u aşacak biçimde artırılabilir.
1985 yılında Hacettepe üniversitesinde Mehmet Ali Orgun tarafından yayınlanan çalışmada, bilgi – belge erişim sistemlerinde dizinlemede ( indexing ) kullanılabilecek Türkçe sözcükler üzerinde çalışılmış, bir gömü meydana getirilmiştir. Oluşturulan gömüde eşanlamlılık, yakın anlamlılık, daha genel üst terim , daha özel alt terim gibi ilişki bağlaçları da kurularak gömü öğeleri ve yeğlenen terim ( preferred term ) oluşturulur.
1975 li yıllardan buyana Yapay Us alanında çalışan Ümit Karakaş, o dönemde lisans son sınıf öğrencisi Fatih Koçan ile birlikte 1993 de “otomatik dil tanıma yazılımı” gerçekleştirmiştir( Koçan1993 ). Karakaş Türkiye’yi ISO/IEC JTC1/SC2 grubunda altı yıl temsil etmiş ve ISO8859 table9 ın Türkiye’de yapılıp uluslararası standard olarak kabul ettirilmesini sağlayan Ekibin koordinatörlüğünü yapmıştır. Ü. Karakaş’ın 1987 de yayınladığı kitabın ( Karakaş1987) 137. sayfasında verilen Türkiye’deki Ekibin oluşturduğu kod tablosu Mayıs 1989 da ISO8859 table9 olarak aynen uluslararası standard olmuştur. Karakaş, Türkiye’nin alfabesi ile ilgili ISO ve uluslararası kuruluşlarla ilgili deneyim ve anılarını 1996 da yayınlamıştır ( Karakaş1996 )
1992 – 1995 yılları arasında Adil Alpkoçak, Alp Kut ve Esen Özkarahan Türkçe üzerinde veri madenciliği ( data mining ) açısından Dokuz Eylül Üniversitesinde çalışmışlar ve gövdeleme (stemming) algoritması geliştirmişlerdir ( Alpkoçak1995 ).
Aysın Solak ve Fazlı Can da 1993 – 94 yıllarında Bilkent Üniversitesinde gövdeleme ( stemming ) algoritmaları üzerinde çalışmışlardır ( Solak1994).
Gökmen Duran 1997 yılında Hacettepe üniversitesinde geliştirdiği Yüksek Mühendislik tezinde Türkçe metinler üzerinde gövdeleme ( Stemming ) üzerinde çalışmıştır. Oğlum sözcüğü Oğul + um gövde ve takısından oluşur ve ses kaynaşması ile oluşur, Duran’ın geliştirdiği algoritma bu sözcüğün kökünü “oğul” olarak doğru bulur. Gözlükçüler sözcüğü üç adımda ( göz + lik + çi + ler , gözlük + çi + ler , gözlükçü + ler ) gözlükçü ve bunun çoğul halinin eki biçimine dönüşür. Buna benzer iyileştirmeler tez çalışması içinde bulunabilir. Tez çalışmasına taban olan yazılım 2,900 satır C++ programıdır.
Güncel Türkiye Türkçe’sinde 25,000 ila 30,000 sözcük gövdesi bulunmaktadır ( Duran1997).
Hacettepe Üniversitesinde, 1997 – 1999 yıllarında doç. Dr. Hayri Sever ( halen prof.dr. Başkent Üniv. Bilgisayar müh. Bölüm başk. ) yönetiminde geliştirilen Kaşgarlı Mahmud Bilgi Geri Getirim Sistemi çalışması içinde gövdeleme algoritması ANSI C ye de dönüştürülmüş ve geliştirilmiştir. ( Sever1999 ) . Bu çalışmada Baha Olgun, Ebru Sezer ve Fuat Akal araştırma asistanları olarak görev almışlardır.
Bilgisayar destekli otomatik çeviri sistemleri de çok uzun zamandır üzerinde çalışılan bir konudur. Konu genellikle İngilizce ile diğer Avrupa dilleri üzerine yoğunlaşmışlardır.
Türkçe üzerinde otomatik çeviri çalışması yapan araştırmacılar arasında Boğaziçi üniversitesinde prof.dr. Cem Say( Say2001), ODTÜ De prof.dr.Cem Bozşahin( Bozşahin1992) ve ekibi, Sabancı Üniversitesinde Prof.dr. Kemal Oflazer bulunmaktadır. Prof.dr. Oflazer Otomatik çeviri konusunda birden çok uluslararası yayına katkı yapmış (Oflazer1991-2004), otomatik çeviri konusunda doktora öğrencileri yetiştirmiş iyi bilinen bir Türkçe araştırmacısıdır.
Bazı üniversitelerin bilgisayar mühendisliği bölümlerinde bu konuya özelleşmiş yüksek lisans dersleri ve bu konuyu derli toplu ele alan ders kitapları (textbook) bulunmaktadır [ Nirenburg1987, Allen1995]. Bu alanda Türkiye içinde bölgesel diller üzerinde yapılmış çeviri çalışmaları ( örn. Bilkent Üniversitesinde Kemal Altıntaş, Turkish to Crimean Tatar Machine Translation System, Bilkent 2001 [ Altıntaş2001] ) bulunmaktadır.
Avrupa topluluğu içerdiği diller arasındaki çeviri sorunlarına destek olmak için doğal dil çevirisi içeren 36 dolayındaki projeye destek vermektedir. Bunun dışında, Avrupa üniversitelerinde AB ARGE fonu desteği almamış başka çalışmalar da bulunmaktadır.
Türkiye Türkçesi ile kardeş diller (Azerice, Kırgız, Kazak, Türkmen, Özbek) arasında oluşturulacak çeviri yazılımının basit bir yazılım işi olacağı düşünülmemelidir.
Aşağıda 16 Ekim 2004 günü Bakü Özel Türk Lisesi’nin bilgi ( web ) sayfasından alınan paragraf önce Azerice verilmiştir:
Bakı Özel Türk Liseyine 6-cı sinifde oxuyan oğlanlar müarciet edirler. Onlar sentyabr, oktyabr aylarından Liseye elaqe saxlayırlar. Evvelki illerin imtahan testlerine uyğun, 6-cı sinif seviyyesinde aşağıdakı fenlerden imtahan veriri:
1. Azerbaycan dili ve edebiyyat (Rus dili ve edebiyyat). 2. Riyaziyyat.
3. Tarix, Azerbaycan tarixi. 4. Coğrafiya.
5. Biologiya.
Liseye qebul imtahanı her tedris ilinin aprel ayının son bazar günü keçirilir. Bundan elave ise mart ayının birinden etibaren qebul üçün qeydiyyat başlanır. Qeydiyyatdan keçerken valideynler Lisey qebul komissiyasına aşağıdakı senedi teqdim edirler:
1) Doğum haqqında şehadetname. 2) 3x4 ölçüde 2-eded fotoşekil.
Şagird imtahana gelerken özü ile getirir:
a) İmtahana buraxılış vesiqesi. b) Karandaş c) Pozan
Liseyde rus bölmesinden olan şagirdler de oxuya bilirler. Ona göre onlar da qeydiyyat üçün müraciet edirler. İmtahandan 8 gün sonra neticeler açıqlanılır. Qebulun neticesi siyahı halında valideynlere çatdırılır. Siyahı iki formadan ibaret olur. Qebul olanlar ve ehtiyata düşenler. Her iki siyahıya düşen şagirdlerin valideynleri neticeler açıqlanan günden sonra 5 gün erzinde qebul komissiyası ile elaqe saxlayır.
İyun ayının teyin olunmuş senedleri alınaraq o, 7-ci sinif şagirdi kimi Lisey şagird kontingentine daxil edilir. Bununla qebul prosesi bitmiş olur.
Diger tehsil müessiseleri kimi Bakı Özel Türk Liseyi de tedris ilini 01 sentyabr tarixinden başlayır. Şagirdler derse Lisey şagird geyim formasıile gelirler
A) Tünd göy rengde pencek. B) Tünd göy rengde qalstuk (rengsiz).
C) Açıq mavi köynek. D) Boz rengde şalvar.
E) Qara ayaqqabı.
Liseyde humanitar fenler Azerbaycan dilinde, deqiq fenler ise ingilis dilinde öyredilir. 7-ci siniflerde heftede 20 saat ingilis dili, yanvar ayından ise riyaziyyat, fizika, biologiya ve kimyanın ingilisce tedrisi başlanır. 7-ci sinifde bir neçe imtahan edillerek olimpiada seviyyeli şagirdler seçilir. Hemin günden başlayaraq onlar Respublika ve Beynelxalq seviyyeli olimpiadalara hazırlaşdırılır. 10-cu sinifden başlayaraq ise ixtisas qruplarıa uyğun olaraq hazırlıq kursları başlayır. Ayrıca Liseyde bütün idman ve sosial fealiyyetler, iyun ayında ise Nabran şagird düşergesinde menalı istirahetler teşkil edilir.
Azerbaycan, Ocak 2001 de 29 harfli Türk Alfabesini seçmiş olsaydı oluşacak Bakü Özel Türk Lisesi’nin kısmen değiştirilmiş bilgi ( web ) sayfasından ara biçimi aşağıdadır.
Bakı Özel Türk Liseyine 6-cı sinifde okuyan oğlanlar müarciet edirler. Onlar sentyabr, oktyabr aylarından Liseye elaqe saklayırlar. Evvelki illerin imtahan testlerine uyğun, 6-cı sinif seviyyesinde aşağıdakı fenlerden imtahan veriri:
1. Azerbaycan dili ve edebiyyat (Rus dili ve edebiyyat). 2. Riyaziyyat.
3. Tarih, Azerbaycan tarihi. 4. Coğrafiya.
5. Biologiya.
Liseye kabul imtahanı her tedris ilinin aprel ayının son bazar günü keçirilir. Bundan elave ise mart ayının birinden etibaren kabul üçün kaydiyyat başlanır. Kaydiyyatdan geçerken valideynler Lisey qebul komissiyasına aşağıdakı senedi tekdim edirler:
1) Doğum hakkında şehadetname. 2) 3x4 ölçüde 2-eded fotoşekil.
Şagird imtahana gelerken özü ile getirir:
a) İmtahana burakılış vesiqesi. b) Karandaş c) Pozan
Liseyde rus bölmesinden olan şagirdler de okuya bilirler. Ona göre onlar da kaydiyyat üçün müraciet edirler. İmtahandan 8 gün sonra neticeler açıklanılır. Kabulun neticesi siyahı halında valideynlere çatdırılır. Siyahı iki formadan ibaret olur. Kabul olanlar ve ehtiyata düşenler. Her iki siyahıya düşen şagirdlerin valideynleri neticeler açıklanan günden sonra 5 gün erzinde kabul komissiyası ile elaqe saxlayır.
İyun ayının teyin olunmuş senedleri alınarak o, 7-ci sinif şagirdi kimi Lisey şagird kontingentine dahil edilir. Bununla Kabul prosesi bitmiş olur.
Diger tehsil müessiseleri kimi Bakı Özel Türk Liseyi de tedris ilini 01 sentyabr tarihinden başlayır. Şagirdler derse Lisey şagird geyim formasıile gelirler
A) Tünd göy rengde pencek. B) Tünd göy rengde qalstuk (rengsiz).
C) Açık mavi köynek. D) Boz rengde şalvar.
E) Kara ayakkabı.
Liseyde humanitar fenler Azerbaycan dilinde, deqiq fenler ise ingilis dilinde öyredilir. 7-ci siniflerde heftede 20 saat ingilis dili, yanvar ayından ise riyaziyyat, fizika, biologiya ve kimyanın ingilisce tedrisi başlanır. 7-ci sinifde bir neçe imtahan edillerek olimpiada seviyyeli şagirdler seçilir. Hemin günden başlayarak onlar Respublika ve Beynelxalq seviyyeli olimpiadalara hazırlaşdırılır. 10-cu sinifden başlayarak ise ihtisas qruplarıa uyğun olarak hazırlık kursları başlayır. Ayrıca Liseyde bütün idman ve sosial fealiyyetler, iyun ayında ise Nabran şagird düşergesinde menalı istirahetler teşkil edilir.
Otomatik olarak tanınabilen karakter dönüşüm grupları ilk anda şöyle ortaya çıkmaktadır :
Qe à ka k à g q à k x bazan k bazan h
Aynı yazının günümüz Türkiye Türkçesi ile yazılışı ise şöyledir:
Bakü Özel Türk Lisesine 6-cı sınıfda okuyan erkek öğrenciler (oğlanlar) müracaat edebilirler. Onlar Eylül ( sentyabr), Ekim ( oktyabr) aylarında Liseye müracaat ederler (elaqe saklayırlar) . Önceki yılların kapsamına (Evvelki illerin imtahan testlerine) uygun, 6-cı sinif seviyyesinde aşağıdaki konulardan (fenlerden ) sınav (imtahan) verilir:
1. Azerbaycan dili ve edebiyat (Rus dili ve edebiyat). 2. Matematik ( Riyaziyyat).
3. Tarih, Azerbaycan tarihi. 4. Coğrafya.
5. Bioloji.
Liseye kabul sınavı (imtahanı) her öğretim yılının (tedris ilinin) Nisan ( aprel) ayının son pazar günü yapılır (keçirilir). Bundan ayrıca (elave) ise mart ayının birinden itibaren kabul için kayıt (kaydiyyat) başlanır. Kayıttan (Kaydiyyatdan) geçerken veliler (valideynler) Liseye kabul komisiyonuna (komissiyasına) aşağıdaki senedi takdim (tekdim) edirler:
1) Doğum belgesi (hakkında şehadetname) 2) 3x4 ölçüde 2-adet (eded) fotoğraf ( fotoşekil )
Öğrenci (Şagird) imtahana gelirken kendisi ( özü ile) getirir:
a) İmtahana giriş belgesi ( burakılış vesiqesi) b) kurşun kalem ( Karandaş ) c) Silgi ( Pozan)
Liseyde rus bölmesinden olan öğrenci (şagirdler) da okuyabilirler. Ona göre onlar da kayıt (kaydiyyat) için müracaat (müraciet) edirler. Sınav gününden (İmtahandan ) 8 gün sonra neticeler açıklanılır. Kabulun neticesi liste (siyahı) halinde (halinda ) velilere (valideynlere) ilan edilir (çatdırılır). Liste (Siyahı) iki formadan ibaret olur. Kabul olanlar ve yedek (ehtiyata ) listede yer alanlar (düşenler). Her iki listeye (siyahıya) yer alan (düşen) öğrencilerin (şagirdlerin) velileri (valideynleri) neticelerin açıklandığı günden 5 gün sonra (erzinde) kabul komisiyonuna (komissiyası) başvurabilirler.
Haziran (İyun) ayının belirlenmiş (teyin olunmuş) senedleri alınarak o, 7-ci sinif öğrencisi (şagirdi) kimi Lise öğrenci (şagird) kontenjanına (kontingentine) dahil edilir. Bununla kabul süreci (prosesi) bitmiş olur.
Diğer tahsil müesseseleri gibi (kimi) Bakı Özel Türk Liseyi de eğitim yılını (tedris ilini) 01 Eylül (sentyabr) tarihinden başlayır. Öğrenciler (Şagirdler) derse Lise öğrencisi ( şagird) giyim forması ile gelirler
A) Koyu Mavi renkte ceket (Tünd göy rengde pencek)
B) Koyu Mavi renkte (Tünd göy rengde) kravat ( qalstuk ) desensiz (rengsiz).
C) Açık mavi gömlek (köynek)
D) Gri pantolon ( Boz rengde şalvar )
E) Siyah ( Kara ) ayakkabı.
Lisede (Liseyde) sosyal bilimler ( humanitar fenler) Azerbaycan dilinde, teknik bilimler (deqiq fenler ) ise İngilizce (ingilis) dilinde öğretilir (öyredilir). 7-ci siniflerde haftada 20 saat ingiliz dili, Ocak (yanvar ) ayından başlayarak ise matematik (riyaziyyat), fizik (fizika), biyoloji (biologiya) ve kimyanın ingilisce öğretimi (tedrisi) başlanır. 7-ci sinifde bir kaç sınav düzenlenir (neçe imtahan edillerek) olimpiada seviyeli adaylar (şagirdler) seçilir. Hemin günden başlayarak onlar ulusal (Respublika) ve beynelminel (Beynelxalq) seviyeli olimpiyadlara hazırlandırılır. 10-cu sınıftan (sinifden) başlayarak ise lise dallarına (ihtisas qruplarına) uyğun olarak hazırlık kursları başlar (başlayır). Ayrıca lisede (Liseyde) bütün idman ve sosyal (sosial) faaliyetler (fealiyyetler), Haziran iyun ayında ise Nabran öğrenci kampında eğitim ve tatil düzenlenir ( Nabran şagird düşergesinde menalı istirahetler teşkil edilir.)
Yukarıda görüldüğü gibi sınır komşusu olan Türkiye ve Azerbaycan ülkelerinin dilleri insan okuyucular için oldukça anlaşılır olmasına karşılık otomatik çeviri için çok da kolay değildir. Çünkü aşağıda çok kısaca anlatacağımız tüm çeviri süreçlerinin uygulanması gerekecektir.
Otomatik çeviri yazılımlarının her durumda mükemmel olmadığı aşağıdaki İngilizce paragrafta da ifade edilmektedir. Beklenebilecek başarı düzeyi genellikle cümlelerin %80 ini doğru çevirme dolaylarındadır.
“Through a great service provided by Altavista called Babel Fish, web pages may be translated between any of several languages. However, the process of automated language translation has not quite yet been perfected. Thus, you can get some pretty amusing results by translating something out of and then back into your language. In particular, English to French and back into English can be very funny” http://www.tinfoil.com/reverse.htm
4.1. Yazının bulunduğu ortamdan soyulması ve UNICODE ortamında düz yazı ( .txt ) haline getirilmesi,
Yukarıda tartışılmış olan bu işlevin kod tabloları dönüşümü (12 – 18 küçük boyutlu modül ) , dört büyük boyutlu modül ( html, XML, OpenOffice, MS-word dönüşümleri ), iki altsistem ( otomatik doğal dil tanıma altsistemi ), Optik Karakter tanıma altsistemi ve sözlük desteği ( sözlük destekleri ) ile iyileştirme altsistemi olmak üzere başlangıçta 24 modüldür. Başka giriş ortamları ( excell tablosu vb ) ile bu grup ön modüller 30 modülü aşacaktır. Bu gruptaki yazılımlar için 20,000 satır ( 20 KDSI / kilo delivered source instruction ) kestirimi yapılabilir.
4.2. cümle ayıraçlarının, yararlı noktalama işaretlerinin bulunması, Türkçe sözcük gövdeleme ve Fiil köklerinin elde edilmesi
Bu yazının birinci yazarı üç kez derleyici gerçekleştirimi ( Compiler Construction ) çalışması yapmıştır ve kesin biçimlere uyacak bilgisayar programlama dili ile çeşitli ortamlarda yazılmış doğal dildeki yazılar arasındaki tarama ( scanning ) ve sözdizim çözümleme arasındaki güçlük farkını ve teknik politikayı net olarak ayırdedebilmektedir.
Bir bilgisayar programlama dilinin derlenmesi sırasında tanımlanmış dilin sözdizimi o noktada komut ayıracı ( örneğin C / C++ vb gibi ; yada COBOL da . ) gerektiriyor ve kullanıcı koymamış ise sözdizim hatasını belirtip birbaşka satırdan sözdizim çözümlemeye devam edebilirsiniz. Bu yanlık bir teknik politika değildir.
Doğal dil çözümlemede ise virgül hatta cümle sonunu belirten nokta doğru yerde, gerekli yerde kullanılmamış olabilir. Bu açıdan, cümlelerin ayrılması için nokta ayıracına güvenmeyip öncelikle fiil köklerini tanımaya yönelmek gerekir. Noktaları gerekli yerde kullanmamış şairin şiirini okumamazlık edemezsiniz. Bilgisayarlı bilgi ( web ) sayfalarında noktalama işaretleri kullanılmamış olabilir. Otomatik doğal dil çözümlemede bu yazıları reddedemezsiniz. Fiil kökünü buluncaya kadar ilerlemelisiniz.
Türkçe ve Türkçe kökenli diller bitişken dil olduğundan hecelerin otomatik ayrılması ve fiil gövdelerinin otomatik bulunması öncelikli modüller arasındadır. Bu açıdan, noktalama işaretlerini bulmaktan ibaret olmayan, fiil köklerini bulmaya dayalı bu çalışma altgrubunda uzman bilgisayarcıların çalışarak 3000 – 4000 satır bilgisayar kodu üretmeleri gerekmektedir.
Bunun yanında hem uzman dilbilimcilerin hem de onların asistanlarının altı dilde sözlük çalışması yapmaları gerekmektedir. Doğal dil anlama ve otomatik çeviri yapmak için kullanılacak sözlüğün birkaç önemli özelliği bulunmalıdır.
* her giriş noktası ( her sözcük ) tek tek ayrıştırılmış olmalıdır.
* İki – üç sözcükten oluşan deyimler de ayrı giriş noktası olmalıdır. (örneğin kısır döngü gibi)
* Anlamsal çözümlemeye taban oluşturabilmek için herbir sözcük için dışarıdan görülmeyen, otomatik çeviri yazılımının kullanacağı özellik bağlaçları (feature links) kurulmuş olmalıdır. Örneğin fare sözcüğünden hayvan sözcüğüne özellik bağlacı olmalıdır. Elma yanaklı deyiminden kırmızı sözcüğüne benzetme bağlacı kurulmuş olmalıdır.
Öteki deyişle, eğer bir otomatik çeviri sistemine taban oluşturacak ise dilbilim uzmanlarının kendi aralarında geliştirdiği sözlük çalışması büyük olasılıkla yarı yarıya yenilenmesi gereken bir çalışma olabilir. Ekibimiz bu yönde gerek Türk Dil Kurumu içinde gerekse Türk Dil Kurumu dışında çalışmalar olduğunu bilmektedir. Ancak otomatik doğal dil çevirisini yapacak ekibin özellik bağlaçları ( feature links ) belli olmadan ve bunlar tüm gerekli maddelere eksiksiz konulmadan sözlük çalışmaları bizim açımızdan bitmiş sayılmamaktadır.
4.3. Dilin / dillerin sözdizim ( syntax ) yapıları ve cümle düzeyinde çözümleme / anlama,
Fiil kökünün bulunmuş olması, sözdizim çözümleme ( syntax analysis ) için bir başlangıç noktasıdır. Otomatik çeviri yapılacak dillerin birbirine yakın olması sözdizim çözümleme yapılması gereğini ortadan kaldırmaz.
Bulunduğu ortamdan ( html, XML, OpenOffice, Word ) soyulup UNICODE Kod tablosunda .txt biçimine dönüştürülmüş ve hangi dilde ( Türkiye Türkçesi, Azerice, Kazakça, Kırgızca, Türkmence, Özbekçe ) olduğu otomatik tanınmış bilgi ALTI ayrı sözdizim çözümleme modülü ile sözdizim çözümlemeye sokulacaktır.
Burada sözcük ve fiil köklerini bulmak için benzer hatta aynı modüller kullanılsa dahi sözdizim çözümleme modülleri ayrıdır. Aşağıda bir örnek cümle Azerice söyleyişle ve Türkçe söyleyişle verilmiştir.
Oğlum maşınla Dikimevi’nden Başkent Üniversitesine gelirken Kızılay’da maşından düştüm. (Azerice söyleyiş )
Oğlum otomobil ile Dikimevi’nden Başkent Üniversitesine gelirken Kızılay’da otomobilden indim. (Türkçe söyleyiş )
Kaynak dil ( Türkiye Türkçesi, Azerice, Kazakça, Kırgızca, Türkmence, Özbekçe ) sözdizim çözümlemesi otomatik olarak yapılmış ve yapısı (syntax) anlaşılmış olan cümle kısmi bir anlamsal çözümlemeden (partial semantic analysis) geçirilmelidir. Amacımız bilgisayarlı bir “doğal dil anlama sistemi (Natural Language Understanding System)” olmadığı için anlamsal çözümleme biraz sınırlı tutulabilir, ancak tamamen ihmal edilemez.
4.4. Doğal dil çevirisi ve doğal dil anlamada sözlükten daha fazlası gerekir : anlamsal çözümleme – düzey-1 ( semantic anaysis, level-1 )
Bir otomatik çeviri yazılımı geliştirmeye bizim ekibimizin deneyimli öğretim üyeleri ve genç asistanları ile yapmaya, gerçekleştirmeye başlamasından önce hangi model içinde hangi özelliklerin başarılabileceğini, hangi özelliklerin devre dışı bırakılacağını bilmeye hakları vardır. Aksi halde herşeyi başaracağını iddia ederek başlayan bir otomatik çeviri sistemi herkes için hayal kırıklığı yaratır, çünkü “herşeyi anlamanın, herşeyi başarı ile diğer dile çevirmenin” sınırı yoktur. Aşağıda önce bir örnek cümle verilmiş sonra bu tür bir cümlenin çevrilmesi (translation ) ve anlaşılması için gerekli yazılım altyapılarına kısaca değinilmiştir.
Küçük fare tüm balkabağını yedi. ( A little mice ate the whole pumpkin. )
Bu cümle otomatik çeviri sisteminde çevrilebilmesine karşılık içeriği yönünden anlamsızlık ya da imkansızlık içermektedir. Bu tür anlamsızlık ya da imkansızlıkları sistemin anlayabilmesi için sözlükte farenin tipik boyutu, kendisinin kaç gram olabileceği, günde ne kadar yiyebileceği bulunmalıdır. Öteki deyişle, otomatik çeviri ve kısmen doğal dil anlamaya doğru yönelecek sözlüklerin özel olarak bu amaca yönelik hazırlanması ve önemli ölçüde dünya bilgisi ( world knowledge) içermesi gerekmektedir.
Otomatik Doğal Dil Çevirisi sistemlerinin anlama( understanding) özelliği çok yüksek olmasa da bir miktar bulunmalıdır. Çünkü yazım biçimi eş olan sözcükler vardır. Örneğin “yüz” karakter dizisi surat(face), suda yüz(swim), 99+1 (hundred) anlamlarına gelebildiği gibi kesilmiş olan koyunu yüz ( derisini ayır ) anlamına gelebilir. Bu açıdan, otomatik çeviri sisteminin paragrafta ne söylenmekte olduğunu genel çerçeve anlamında ( Frame System, Minsky ) farketmesi çevirinin doğruluk oranını artıracaktır.
4.5. Evren bilgisi (world knowledge), argo, teknik deyimler ve güncel espriler : anlamsal çözümleme – düzey-2 ( semantic anaysis, level-2 )
Bazı yazılar içerisinde güncel espriler taşıyabilirler. Güncel olarak herhangi bir kırgınlığa sebep olmamak üzere çok eski bir örnek verelim. Osmanlı döneminde bab’I ali gazetelerinde yayınlanan “yıldız böceği” deyimi kendisini Yıldız daki sarayına fazlası ile kapatarak halk ile ilişkisini kesmiş bir osmanlı padişahının kod adı olmuştur. 945 rakımlı tepe Türkiye gazetelerinde Cumhurbaşkanlığı Çankaya Köşkü’nün denizden yüksekliğine atıfta bulunarak TC Cumhurbaşkanlığınca oluşturulan yorumlara ve basın duyurularına referans vermektedir.
Ayrıca her meslek dalında iki ya da üç sözcükten oluşan mesleki terimler üretilmektedir. Bu mesleki terimler otomatik çeviri sistemini destekleyen sözlüğe ayrı bir giriş(entry, item) olarak girilinceye kadar bu mesleki terimleri tanımayıp yetersiz çeviri yapacaktır.
5. Türkiye Türkçesi ile Azeri, Kazak, Türkmen, Özbek, Kırgız dilleri arasında bilgisayarlı çeviri yazılımını geliştirmek için bir model önerisi
Çok önemli gelişmeleri tetikleyebileceğini ilk bölümde açıkladığımız bu yazılım geliştirilmesi için üç model bulunmaktadır.
A ) bu yazılımın yararına inanan Türkiye Cumhuriyeti içinde bir kurum, Türkiye içindeki bir ARGE grubuna yazılımı geliştirtebilir. Hacettepe-Başkent geliştirme için bir aday ARGE grubu olduğu gibi bizim yorumumuza gore dort – beş başka üniversite ARGE grubu daha bulunabilir. Bu yazılım Barry Boehm’in sınıflamasına gore yarı-bağımsız ( semi-detached ) tür bir yazılımdır. Içindeki bilgisayarcıların Yapay Us tabanı ve yapay us konusunda devam eden ARGE çalışması bulunmalıdır. Ekibin içinde deneyimli dilbilimciler ve sözlük çalışmalarını yapabilmek için bilgisayar kullanabilen genç dilbilim asistanları yer almalıdır. Bu durumda hertürlü vergi çıktıktan sonra 2.5 yıl içine projede çalışacak öğretim üyeleri ve asistanlara ödenecek ücret tutarının 300,000 doların altında kalmaması ilk andaki kestirimimizdir. Vergiler açısından en ehveni ve ARGE Çalışmasına en uygunu bir teknopark alanı içindeki yazılım firmasında yapılmasıdır. Bu durumda ikibuçuk yıl içindeki 400,000 Usd lik bir bütçe yeterli olabilir. Teknopark içinde olmayan bir firma ya da üniversite döner sermaye sistemi ile yapılması, TC hükümetinin toplayacağı vergilerin artması açısından daha yararlı olmakla birlikte finanse edecek tek kuruluşa daha yüksek bir mali fatura ( örneğin 600,000 ila 900,000 usd ) çıkarabilir. Projenin bitiminde, geliştirme ekibi otomatik çeviri sistemini 600 takım CD’ye kopyalayıp işi ihale eden kuruluşa ( örneğin TİKA ) teslim ettiğinde, bir yıllık yazılım hatalarını kapsayan yazılım bakım sorumluluğu dışında, sorumluluğu sona erer. Yazılım geliştirme ekibinin, teslim zamanını aşan bir sözlük güncelleme sorumluluğu yoktur.
B ) bu yazılımın yararına inanan Türkiye Cumhuriyeti içinde birkaç kurum ve altı ülkeden bu gelişmeye inanan ülkeler, ikibuçuk yıllık yapım süresi sonrasında da bu merkezin ayakta kalması için Türkiye’deki bir teknopark içinde bu amaca özel yazılım firması kurabilirler. Gerek kullanılacak ekip gerekse kullanılacak ofis metrekaresi gerekse bilgisayarlar açısından A maddesinden çok büyük fark göstermeyecek bu çözüm ilk üç yıl içinde bina yapımı hariç 1 milyon dollar dolayına mal olabilecektir. Aradaki 100,000 dolarlık fark ortaklığa katılacak ülkelerin ARGE yöneticilerinin zaman zaman Türkiye’ye gelişleri ile ilgili uçak masrafı, yolluk ve gündelik maddelerinden gelmektedir. İzleyen yedi yıl için yıllık 150,000 dolarlık bir bütçe yeterli görünmektedir. On yıllık maliyet 2 milyon dolar dolayındadır.
C ) üçüncü model bu altı ülkenin nufus, GSMH vb faktörleri dikkate alarak Ankara’da, tercihan bir teknopark içinde ortak bir ARGE enstitüsü kurmasıdır. Ortaklık payları ile ilgili bir öneri Türkiye %50, Kazakistan %23, Özbekistan %9, Türkmenistan %8, Azerbeycan %7 ve Kırgızistan %3 olabilir. Bu enstitü B maddesinde tanımlanan işlevler yanında fazladan inşa edilecek 20 kadar ofis odası ile Ankara’nın çeşitli üniversitelerinde doktora çalışması yapmakta olan Kazak, Özbek, Türkmen, Azeri ve Kırgız doktora öğrencilerine ofis sağlamak, bu ülkelerden kısa sure ( 1 – 3 ay ) için Türkiye’ye araştırma çalışmalarına gelecek öğretim üyelerine ofis ve araştırma ortamı sağlamak gibi işlevler yüklenecektir. Bu enstitü kendisi öğrenci kaydetmemekle birlikte katkı veren ülkelerdeki kapsam içindeki ( Mühendislik, teknoloji, bilgisayar ) doktora öğrencilerine çeşitli konularda yardımcı da olacaktır. Şüphesiz ki temel işlevi bilgisayarcılar ve dilbilimcilerden oluşan çekirdek kadrosu ile bu yazıda önerilen çeviri sistemini yapmak ve sure sınırlı olmaksızın sistemin en üst düzeyde başarılı olmasını sağlamaya devam etmek olacaktır. Bina yapımını da içeren bu yapıda ilk kestirim 4 milyon dolar dolayındadır.
6. Sonuç
Bilgisayar destekli bir otomatik çeviri sisteminin Türkiye Türkçesi, Kazakça, Kırgızca, Azerice, Türkmence ve Özbelçe arasında bu ülkelerin 600 sunucu bilgisayarı üzerinden çeviri yapmasının olurlu( feasible) olduğuna karar vermek birinci aşamadır.
İkinci aşamada, ülkelerin üst düzey yöneticileri sunulan modeller içinde tercihler yapmalıdırlar.
Üçüncü aşamada, tercih belli olduğunda, teknik ekibimiz, seçilen model içinde yapımı başarmak için teknik altyapıya sahiptir.
7. Kaynaklar
Allen1995 : Allen, James ; Natural Language Understanding; Benjamin Cummins 1995, QA76.7 A44 1995
Alpkoçak1995 ; Alpkoçak, Adil, Alp Kut, ve Esen Özkarahan ; Bilgi Bulma Sistemleri için Otomatik Türkçe Dizinleme yöntemi ; bilişim kongresi 1995, İzmir, s. 247 - 253
Altıntaş2001 ; Altıntaş, Kemal ; Turkish to crimean Tatar Machine translation system, bilkent üniv. tez
Atlı1972 : Atlı, Esen ; Yazılı Türkçe’de bazı enformatik bulgular ; Uygulamalı Bilimlerde Sayısal Hesap makinalarının Kullanılması, TÜBİTAK – Ankara 1972 kongresi, s.409 - 425
Bozşahin1992 : Bozsahin, Cem, and Nicholas V. Findler. Memory-based Hypothesis Formation. Cognitive Science, 16(4):431-454., 1992 ( ayrıca Cem Bozşahin’in ODTÜ deki araştırma grubu ile birlikte çeşitli yayınları bulunmaktadır. Bunlar arasında Tutar, Sercan, Cem Bozsahin, and Halit Oguztuzun , TPD: An Educational Programming Language Based on Turkish Syntax.
The First Balkan Conference in Informatics, (pdf). November,2003, Thessaloniki. Yuksel, Ozgur, and Cem Bozsahin ; Contextually Appropriate Reference Generation. Natural Language Engineering, 8(1):69-89.,2002 bulunmaktadır )
Durak 1996 : Durak, B.& Ümit Karakaş ; A document Analysis and Understanding Subsystem for Optical Character Recognition ; 13th Informatique Conference of Turkey ; 18 - 21 September 1996 , Istanbul Turkey
Duran1996 ; Duran,Gökmen & Hayri Sever ; Türkçe Gövdeleme algoritmalarının Analizi, TBD Bilişim 1996 kongresi kitabı, s.235 - 243
Gönenç1973 : Gönenç, Güney ; Bağlayıcı koşullu kodların birik çözülebilme özellikleri ve Türkçenin hece yapısına uygulanması, TÜBİTAK IV Bilim kongresi, Ankara 1973
Kara2004 : Kara, Mehmet ; Kril alfabesi ile yazılmış Türkçe metinlerin UNICODE kod tablosuna dönüştürülmesi için bir yazılım ; 15 – 17 Aralık 2004 de Bakü’de Türki Cumhuriyetler 4. Bilişim İşbirliği Forumu’nda sunulmuştur
Karakaş1987 : Karakaş, Ümit; Bilgisayar Yazılımında Veri Yapıları ve Algoritmalar, Sanem Matbaası , birinci basım 1987 (300 sayfa Türkçe) ; ikinci basım, Ağustos 2000 , Beta yayınevi
Karakaş1996 : Ümit Karakaş – Erkan İnan ; Türkçe Türkiyenin önünde ve herkes İngilizce’nin peşinden gider iken Türkçe Kod tablosunda Son durum ; Bilişim kongresi 1996
Koçan 1993 : Fatih Koçan ve Ümit Karakaş ; Automatic Natural Language Identification ; Ikinci Türk Yapay Zeka ve Yapay Sinir Ağlari Semp. ; 24 - 25 Haziran 1993, Boğaziçi Üniv. , Istanbul
Köksal1979 ; Köksal, Aydın ; Bilgi Erişim sorunu ve bir Belge Erişim ve Dizinleme Dizgesi Tasarım ve Gerçekleştirimi, Doçentlik tezi, Hacettepe Üniv., 1979
Nirenburg1987 ; Nirenburg, Sergei ; Machine Translation : Theoretical & Methodological Issues; Cambridge Univ. press, 1987
Oflazer1991-2004 : Prof.dr. Kemal Oflazer’in Türkçe ve Türkçe’nin otomatik çevirisi üzerinde çok sayıda yayını bulunmaktadır.
Orgun1985 : Orgun, Mehmet Ali ; Gömü-dili : Çok dilli bilgi erişim gömülerinin bilgisayar ortamında etkileşimli biçimde geliştirilmesini sağlayacak bir yazılım sisteminin tasarlanması ve gerçekleştirimi, Hacettepe Üniv. Yüksek Müh. Tezi, 1985
Say2001 : A. C. Cem Say, “Understanding arithmetic problems in Turkish,” International Journal of Pattern Recognition and Artificial Intelligence Vol. 15, pp. 359-374, 2001. ( ayrıca Cem say ekibinin önceki yayınları arasında Çiğdem Aytekin, A. C. Cem Say, Erkut Akçok, "ELIZA speaks Turkish: A conversation program for an agglutinative language," Üçüncü Türk Yapay Zeka ve Yapay Sinir Ağları Sempozyumu, Ankara, 1994, p. 435.
A. C. Cem Say, "Türkçe 'anlayan' programlar," (in Turkish) TBD Bilişim '94, İstanbul, 1994, pp. 191-195. bulunmaktadır )
Sever2000 ; Sever, Hayri ; Kaşgarlı Mahmud Bilgi Geri getirim sistemi projesi sonuç raporu, TÜBİTAK proje raporu, 31 Aralık 1999 ,
Solak1994 ; Solak, Aysın & Fazlı Can ; Effects on stemming on Turkish text retrieval, technical report, CEIS-94-20, Bilkent Üniv. Bilgisayar Mühendisliği, 1994, Ankara
Töreci1974 ; Töreci, Ersin ; Statistical Investigations on the Turkish Language using digital computers, ODTU yüksek Mühendislik tezi, Şubat 1974
Töreci1975 ; Töreci, Ersin ; Türkçenin bazı özelliklerinin bilgisayarla sayımsal çözümlenmesi ; Türkiye bilişim derneği dergisi, yıl 4, sayı 9, yaz 1975, s.42 - 78
* 15 – 17 Aralık 2004 de Bakü’de Türki Cumhuriyetler 4. Bilişim İşbirliği Forumu’nda sunulmuştur
** Profesör, Hacettepe Üniversitesi Bilgisayar Bilimleri Anabilim Dalı 312-297 75 00 (iki hat) faks :297 75 02 cep 532-666 43 43 e-mektup : umit@karakas.gen.tr
*** Profesör, Başkent Üniversitesi Bilgisayar Mühendisliği Bölümü .312-234 10 10 / 1311 faks :234 10 51 e-mektup :aydin_huseyn@yahoo.com

RSS