Mysql Türkçe Karakter Problemi
İçindekiler
- Php+Mysql Tabanlı Site Tasarımları hazırlayan yeni arkadaşların en büyük problemleridir, Mysql 4 üzerindeki karakter problemleri. Bu sadece Mysql 4 üzerinde oluşan bir durum. Yani Mysql 4'ler üstünde karakter kodlama seçenekleri söz konusu. Ayrıca türkçe karakter içeren sıralamalardada sorunlar çıkmaktadır.
- Collation ve character set nedir?
- Character Set (Karakter Seti)
- MySQL Dil Ayarı Nasıl Yapılır?
- 1. MySQL Sunucusu
- 2. Veritabanı
- 3. Tablo
- 4. Tablo Alanı
- Çalışma Şekli
- SET NAMES satırından nasıl kurtulurum?
- Türkçe Dil Desteği ile İlgili Diğer Etkenler
- UTF-8 ile ilgili not
- Karakter sorunu çözmede izleyebileceğiniz yol
Php+Mysql Tabanlı Site Tasarımları hazırlayan yeni arkadaşların en büyük problemleridir, Mysql 4 üzerindeki karakter problemleri. Bu sadece Mysql 4 üzerinde oluşan bir durum. Yani Mysql 4'ler üstünde karakter kodlama seçenekleri söz konusu. Ayrıca türkçe karakter içeren sıralamalardada sorunlar çıkmaktadır.
Collation ve character set nedir?
MySQL 4.1′den itibaren türkçe karakter işi karıştı. “SET NAMES latin5″ ile çözdük bu problemi gerçi ama yine de sistemin nasıl çalıştığını bilmezseniz sorun yaşayabilirsiniz.
Konuyu kavramak için önce tanımları ele alalım. Bilmemiz gereken iki tanım var: “Character Set” ve “Collation”
Character Set (Karakter Seti)
Adından anlayabileceğiniz gibi desteklenen karakterleri kast ediyoruz. Örneğin latin5 karakter setindeki “ı” harfinin ASCII kodu latin1 karakter setindeki ý harfi ile aynıdır. Dolayısıyla türkçe bir dokümanı latin1 olarak gösterirseniz tüm ‘ı’ harfleri ‘ý’ olarak gösterilecektir.
Farklı diller aynı karakter setlerine sahip olabilir, örneğin latin1 seti almanca, ispanyolca, ingilizce, isveçce gibi dilleri kapsar.
Notlar:
- Character set, charset, code page gibi isimleri de vardır.
- latin1: ISO-8859-1 ve windows-1252 ile aynıdır.
- latin5: ISO-8859-9 ve windows-1254 ile aynıdır.
Collation (koleyşın)
İki karakterin karşılaştırılmasında kullanılır. Pratikte bu tablo alanlarını sorgularken ve sıralamalarda işe yarar:
SELECT * FROM deneme WHERE isim = 'Çağrı';
SELECT * FROM deneme ORDER BY isim;
Yukarıdaki sorguların sonucu isim
alanının collation’ına bağlıdır.
Örnekle açıklamak istersek, almancada da “ü” harfi var türkçede de, isveçcede de… Ama bu harflerin alfabedeki yeri dile göre değişiyor yani collation’ı latin1_swedish_ci seçip sıralama yaparsanız ü başka yerde, latin1_german1_ci seçerseniz başka yerde yer alır. Ya da latin1_german1_ci seçerseniz aramalarda ‘ä’ ile ‘a’ aynı kabul edilirken latin1_german2_ci seçerseniz farklı kabul edilir.
Collation altçizgiyle ( _ işareti) parçalara ayırırsak ilk kısım karakterin ait olduğu dil ailesini, ikinci kısım dili, üçüncü kısım ise karşılaştırma şeklini ifade eder.
Örneğin latin1_swedish_ci
dediğimiz zaman “latin1″ ailesinden “isveçce” dilini büyük-küçük harf ayrımı olmadan sırala demek istiyoruz.
ci: Case-Insensitive (Büyük – küçük harfe duyarsız)
cs: Case-Sensitive (Büyük – küçük harfe duyarlı. Sadece bazı diller için geçerli, türkçede kullanılmaz)
bin: Binary (Karakteri tanımlayan byte değerine göre karşılaştır demek. Pratikte büyük – küçük harfe duyarlılık istendiğinde kullanılır.
MySQL Dil Ayarı Nasıl Yapılır?
MySQL’le biraz uğraşırsanız dilin ayarlanabileceği tonla yer görürsünüz. Büyükten küçüğe doğru gidersek:
- Sunucu ayarı
- Veritabanı ayarı
- Tablo ayarı
- Tablodaki alanın ayarı
Not 1: Bu ayarlardan pratikte sizi tek ilgilendiren: tablodaki alanın karakter seti.
Not 2: Buradaki ayarlar ne olursa olsun son sözü yine bağlantıyı kurduktan sonra verdiğiniz “SET NAMES utf8″ komutu söyler.
1. MySQL Sunucusu
MySQL derlenirken tanımlanabilir:
Ya da my.cnf / my.ini’de tanımlanabilir:
character-set-server=utf8
collation-server=utf8_general_ci
Bu tanımlar sadece yeni yaratılacak veritabanları ve tabloların varsayılan karakter setinin utf8, collation’ının ise utf8_general_ci olmasını sağlar. Yani bu tanımları yapsanız bile yine de “SET NAMES utf8″ demeniz gerekecektir.
2. Veritabanı
Veritabanı yaratılırken tanımlanır. Eğer tanımlanmazsa MySQL sunucusundaki tanım neyse o kullanılır.
DEFAULT CHARACTER SET utf8
DEFAULT COLLATE utf8_general_ci;
Bu yapılan tanım da sadece bu veritabanında oluşturulan tabloların varsayılan karakter seti ve collation’ının ne olacağını belirler.
3. Tablo
Tablo yaratılırken tanımlanır. Eğer tanımlanmazsa veritabanındaki tanım kullanılır:
Bu durumda tabloya eklenen satırların collation’ı verilmezse latin5_turkish_ci olur.
4. Tablo Alanı
Üstteki tabloya ispanyolca bir alan eklemek istediğimizi düşünelim:
Tablonun collation’ı türkçe olmasına rağmen alan ispanyolca oldu. Bu alana türkçe giriş yaparsanız ı,ş, ğ gibi karakterleri hatalı görürsünüz.
Çalışma Şekli
Bu kısımda SET NAMES ‘latin5′ ne demek onu detaylandıracağım…
Veritabanının çalışma şeklini düşünürsek, biz sunucuya bir sorgu gönderiyoruz, sunucu da bu sorguyu okuyup bize bir cevap gönderiyor.
- Gönderdiğimiz sorgu hangi karakter setinde? Biz örneğin ascii mi gönderiyoruz yoksa utf8 mi?
Bunun için sunucucharacter_set_client
parametresine bakar. - Gönderilen sorguyu sunucu hangi karakter setine çevirmeli? Bunun için de
character_set_connection
vecollation_connection
parametrelerine bakar. Yani sunucu gönderilen sorguyucharacter_set_client
karakter setindencharacter_set_connection
karakter setine çevirir.collation_connection
parametresi sadece iki string birbiriyle kıyaslanacaksa kullanılır. Eğer bir tablo alanını bir string ile karşılaştırıyorsanız kullanılmaz çünkü bu durumda o tablo alanının collation’ı kullanılır. - Sunucu sorguyu işleyip veritabanından sonucu çektikten sonra bize gönderir demiştik, bize göndermeden önce sonucun karakter setini değiştirebilir. Bunun için
character_set_results
parametresini kullanır.
Bütün bu ayarları sunucunun konfigürasyon dosyasından yapabileceğiniz gibi (my.cnf ya da my.ini) doğrudan bir sql cümlesi ile de yapabilirsiniz. Yani php için:
diyebilirsiniz örneğin.
Sadece türkçe kullanacaksanız eğer şu komuyu verebilirsiniz:
mysql_query("SET character_set_results='latin5'");
mysql_query("SET character_set_connection='latin5'");
Her seferinde bu satırları aklımızda tutmamıza gerek olmasın diye MySQL bir kısa yol koymuş, o da:
SET NAMES satırından nasıl kurtulurum?
Programcıların SET NAMES satırını unutmaları ihtimaline karşı init_connect
parametresini kullanmak pratik olabilir:
init_connect='SET NAMES latin5'
Tabii veritabanını başlatırken parametre olarak da verilebilir bu.
Performansı arttırmak için veritabanı ayarlarına skip-character-set-client-handshake
parametresini ekleyebilirsiniz. Bu durumda tablo alanının collation’ı kullanılacaktır ancak SET NAMES ile dili değiştirmek bu durumda mümkün olmayacaktır. Bir de, bu parametre “super user” ile bağlandığınızda geçersizdir.
Türkçe Dil Desteği ile İlgili Diğer Etkenler
Farklı dillerin doğru desteklenmesi için sadece MySQL’in doğru ayarlanması tabii ki yeterli değil. Dinamik web sitelerini örnek aldığımızda, Apache – PHP – MySQL platformunu düşünürsek:
- Apache’nin dil ayarı
Header göndererek apache’de dil tanımlanabilir:AddDefaultCharset utf-8
Bu tanımlanan dil hatalıysa PHP, HTML ve veritabanındaki ayarlarınız ne olursa olsun sorun yaşarsınız.
- PHP
PHP’den de aynı apache’deki gibi header gönderilebilir:header('Content-type: text/html; charset=utf-8');
Bu gönderilen header, apache tarafından gönderilenlerin sonuna eklendiği için apache’nin ayarlarını değiştiremez ancak burada dil ile ilgili header yanlış gönderilirse HTML ve veritabanındaki ayarlarınız ne olursa olsun sorun yaşarsınız.
- HTML
HTML meta komutu ile header bilgisi simüle edilebilir.<meta HTTP-EQUIV="Content-type" VALUE="text/html; charset=utf-8" />
Eğer PHP ya da apache’den header gönderildiyse bu değer işe yaramaz. Eğer buradaki bilgi hatalı olursa veritabanından doğru dilde çekseniz bile sorun yaşayabilirsiniz.
UTF-8 ile ilgili not
UTF8 sonradan çıkan bir tanım. İçerisinde hemen hemen tüm dilleri barındırdığı için aslında büyük kolaylık. Ancak ilk geliştirilen ASCII formatından farklı bir altyapısı var. Dolayısıyla eğer utf8 kullanmayı seçtiyseniz yukarıdakilere ek olarak bir de dosya formatı sorunu karşınıza çıkıyor.
Eğer PHP ya da HTML sayfalarınızı açtığınız editör UTF8 destekli değilse ya da yeni dosya yarattığınızda dosyayı utf8 olarak kaydetmediyseniz yine sorun yaşayabilirsiniz.
UTF8 başlı başına bir muamma olduğu için çok detaya girmeyeceğim…
Karakter sorunu çözmede izleyebileceğiniz yol
Eğer karakter sorunu yaşıyorsanız aşama aşama şunu yapabilirsiniz:
1. Öncelikle sayfada gösterilen karakterler bozuk mu yoksa yanlış karakter setinde göstermeye çalıştığı için mi öyle gözüküyor onu tespit edin. Bunun için firefox’ta View / Character Encoding kısmından encoding doğru mu gözüküyor bakın. Eğer doğruysa ve problem utf8′leyse hata ya ilgili dosyanın utf8 olmamasıdır ya da veritabanından hatalı geliyordur.
2. Eğer encoding hatalıysa header’larda sorun var mı ona bakın. Header’ları görmek için firefox’un firebug extension’ından ya da ie8′in developer tools’undan vs. yararlanabilirsiniz. Eğer header farklı ise header’ın nereden geldiğini bulun: Ya apache’den ya da PHP’den gelir.
3. Header doğruysa “View source” diyip meta elemanına bakın. Buna “view source” ile bakın zira özellikle dinamik sitelerde kazara birden fazla meta komutunun geldiğine çok şahit oldum.
Yeni bir veritabanı yarattığınızda, Karşılaştırma(Collation) değerinin latin1_general_ci, latin1_swedish_ci v.b. olduğunu göreceksiniz. Siz bu veritabanı üstüne tablolarınızı yaratır ve kullanıma hazır hale getirirsiniz. Fakat her tablo için varsayılan karşılaştırma değeri, yine veritabanında kullanılan değer olacaktır.
Aslında karşılaştırma değeri, tabloların dil kodlamasıdır. Ve sadece metin içerikli sütunlarda görünmektedir. Bunun anlamı, o sütunda seçmiş olduğunuz dilin kullanğlacağı diyebilirim. Standart olarak swedish geçer. Sizlerin bu sütunlara yollayacağınız kayıtlar ise, isveçce dili göz önünde bulundurularak girilir. Bundan da şu çıkar: İsveçcede Türkçe karakter yer almaz, bu yüzden Türkçe karakterler yerine ? v.b. karakter bulacaksınız. Sanırım genel olarak anlatabildim bu kısmı.
Çözüm Yolu
Yeni bir veritabanı yaratırken, karşılaştırma değerini daima latin5_turkish_ci seçin. Dilimize ait karakter kodu budur. Bu şekilde veritabanını yaratırsanız, tablolar için yapmanız gereken fazladan birşey yok. Tablo yaratırken, metin değerli sütunların karşılaştırma değerlerini boş bırakabilir yada yine latin5_turkish_ci seçebilirsiniz.
Sıra php kodlarınızı yazmaya geldiğinde, tabi ki tablonuzun karşılaştırma değerini sql dilinde belirtmelisiniz. Bunun için aşağıda vereceğim kodu kullanacaksınız. Bunu veritabanı bağlantısı kurup, ilgili veritabanını seçtiğiniz satırın bir alt satırına girebilirsiniz.
Bu kodumuz tüm sorgularda, karşılaştırma değerinin latin5 olacağını söyler. Böylelikte gireceğiniz Türkçe karakterler sorunsuz şekilde tablolara yazılacaktır.
Mysql 4 üstünde Türkçe karakter hatasını bu şekilde çözebilirsiniz. Ayrıca benzeri uygumalayı, hazır içerik yönetim kodlamaları üstüne de uygulayabilirsiniz.
mysql_query("SET NAMES 'latin5'");
mysql_query("SET character_set_connection = 'latin5'");
mysql_query("SET character_set_client = 'latin5'");
mysql_query("SET character_set_results = 'latin5'");
Bir başka yöntem ise MySQL'i UTF-8 uyumlu olarak kurmak.
Unicode karakterleri kullanmak üzere "install" edilen MySQL üzerinde, yine unicode değerler alan tablolarda sıralama da unicode karakter sıralamasına göre yapılıyor. Yani Türkçe karakterler olması gereken sırasıyla yansıtılabiliyor.
Kurulurken "unicode" karakterler seçilmemiş ise, bunu sonradan değiştirme imkanı var mı bilmiyorum. Ancak olsa dahi böyle bir değişim sıkıntı yaratacaktır. Daha önceden tanımlanmış olan tablolardaki türkçe karakterler bozulacak olduğundan dolayı ciddi problemler oluşturabilir.
utf-8 de harfleri türkçe sıralamaz; zira ı s'den sonra gelmez utf-8'de, z'den bir hayli ilerdedir. sıralama yaparken karakterlerin byte değerleri önem taşır haliyle.
$baglan=mysql_connect("localhost","kullanıcıadı","şifre") or die("mysqle bağlanılamıyor");
mysql_select_db("veritabanıadı",$baglan) or die("veritabanı seçilemiyor");
mysql_query("SET NAMES utf8");
mysql_query("SET CHARACTER SET utf8");
mysql_query("SET COLLATION_CONNECTION='utf8_general_ci'");
?>