Doğal Dil İşleme Nedir ve Nasıl Uygulanır?

Author: Yasemin Ozturk - Data Analyst, Kimola
Yasemin Ozturk Data Analyst, Kimola
Apr 05, 2022 - 7 min read
Doğal Dil İşleme Nedir ve Nasıl Uygulanır?

Doğal dil işleme ya da literatürde daha yaygın kullanılan ismiyle Natural Language Processing (NLP), yapay zekanın gelişimi ve dil bilimle ortaklaşa geliştirilen çalışmalar neticesinde hayatımıza girmiş bir kavram. En genel ifadeyle doğal dil işlemeyi (NLP), bilgisayarlar ve insan dili arasındaki etkileşimlerle, özellikle bilgisayarların büyük miktarda doğal dil verisini işlemek ve analiz etmek için nasıl programlanacağıyla ilgilenen dilbilim, bilgisayar bilimi ve yapay zekanın bir alt alanı olarak tanımlamak mümkündür. Günümüzde doğal dil işlemeden pek çok alanda yararlanıyor olsak da işimizi ne kadar kolaylaştırdığının farkına varmıyoruz bile. Hem dil bilimini hem de bilgisayar teknolojileri ve yapay zekayı yakından ilgilendiren bu konunun neden bu kadar önemli olduğuna gelin yakından bakalım.

Doğal Dil İşleme Teknolojisinin Amacı ve Kısa Tarihçesi

Doğal Dil İşleme Teknolojisinin Amacı ve Kısa Tarihçesi

Bilim ve teknolojinin ilerlemesi yapay zekanın gelişmesine yol açarak makinelerin düşünmesini ve tıpkı birer insan gibi kararlar vermesini sağlamakta. Yapay zekanın bir kolu olan doğal dil işleme ise, bir bilgisayar ile insanın doğal dilde (insanlar tarafından konuşulan diller) iletişim kurmalarını mümkün kılar. Doğal dil işleme doğal diller ve metin analizi yoluyla insan-bilgisayar etkileşimlerini sağlamayı değil, aynı zamanda insan etkileşimlerini kolaylaştırmayı ve zenginleştirmeyi de amaçlar.

Doğal dil işleme teknolojisi denildiğinde her ne kadar yakın tarihli bir uygulama olarak algılansa da aslında kökleri 1600’lü yıllara kadar dayanmakta. Doğal dil işleme teknolojisi, sözcükleri diller arasında ilişkilendirebilecek kodlar öneren René Descartes ve Gottfried Wilhelm Leibniz tarafından teoriye dökülmüştür. Ancak, doğal dil işlemenin uygulanabilir örneklerinin ortaya çıkması için yaklaşık 3 asırlık teknolojik gelişmelerin beklenmesi gerekti.

Baktığımızda doğal dil işlemede 1954’te gerçekleştirilen Georgetown - IBM deneyi bu alandaki ilk önemli atılımdır. Türünün ilk örneği olan bu deney, 60’tan fazla Rusça cümlenin bilgisayarlar tarafından otomatik olarak tercüme edilmesini içeriyordu. Gerçekleştirilen bu ilk örneğin ardından doğal dil işleme teknolojisi gün geçtikçe gelişip, ilerleyerek günümüzdeki halini almıştır ve günümüzde de sürekli olarak gelişmeye ve ilerlemeye devam etmektedir.

Peki Doğal Dil İşleme Nasıl Uygulanır?

İnsan dili, metin veya ses verilerinin amaçlanan anlamını doğru bir şekilde belirleyen bir yazılım yazmayı inanılmaz derecede zorlaştıran belirsizliklerle doludur. Eş anlamlı sözcükler, sesteş sözcükler, alaycılık, deyimler, metaforlar, dilbilgisi ve kullanım istisnaları, cümle yapısındaki farklılıklar. Bunlar, öğrenilmesi uzun zaman gerektiren doğal dilin zorluklarından sadece birkaçı. Bu nedenle, bazı doğal dil işleme görevleri doğal dil metinlerini ve ses verilerini, bilgisayarın anlamasına yardımcı olacak şekilde parçalar. 

Kimola’nın tüketici konuşmalarını analiz edip, sınıflandırmaya adanmış ürünleri için yürütülen NLP çalışmaları, şirketin çekirdek teknolojinin omurgasını oluşturuyor. Teknik ekibin günlük mesaisinin önemli bir kısmını, her dilin kendisine özgü muzipliklerine adapte olan geliştirmeler dolduruyor. Yaygın doğal dil işleme uygulamalarına ve Kimola’nın doğal dil işleme teknolojisinden nasıl yararlandığına dair daha detaylı bilgi sahibi olmak için “Doğal Dil İşleme Hangi Alanlarda Karşımıza Çıkıyor ve Sağladığı Faydalar Neler?” yazımıza göz atabilirsiniz.

Aşağıda, doğal dil işlemede en yaygın olan ve Kimola’da da dokunduğumuz görevlerden bazılarının bir listesi yer almakta. Bu görevlerden bazıları doğrudan gerçek dünya uygulamalarına sahipken, diğerleri daha yaygın olarak daha büyük görevlerin çözülmesine yardımcı olmak için kullanılan alt görevler olarak hizmet etmekte.

Metin ve Konuşma İşleme

Optik Karakter Tanıma (OCR): Basılı bir metni temsil eden resimlerin, bilgisayar ortamına aktarılmasıdır.

Konuşma Tanıma (Speech Recognition): Bilgisayarların konuşulan dili tanımasını ve metne dönüştürmesini sağlar. Doğal konuşmada, ardışık kelimeler arasında neredeyse hiç duraklama yoktur ve bu nedenle konuşma bölümlendirme (speech segmentation), konuşma tanımanın bir alt görevidir. Konuşulan dillerin çoğunda, ardışık harfleri temsil eden sesler, koartikülasyon adı verilen bir süreçte birbirine karışır ve bu nedenle seslerin ayrı karakterlere dönüştürülmesi çok zor bir süreç olabilir. Ayrıca, aynı dildeki sözcüklerin farklı aksanlara sahip kişiler tarafından konuşulduğu göz önüne alındığında konuşma tanıma, metinsel eşdeğerleri açısından birbiriyle aynı olan çok çeşitli girdileri ayırt edebilmelidir. 

Kelime Segmentasyonu (Tokenization): Tokenizasyon bir cümleyi daha küçük anlamlı birimlere ayırmak olarak tanımlanabilir. Token’lar, anlamlı küçük birimlerdir ve semboller, kelimeler, deyimler token’lara örnek verilebilir.

Morfolojik Analiz

Lemmatizasyon (Lemmatization): Kelimeleri morfolojik olarak inceler. Bir örnek olarak: “gelecekler” gelmek fiilinin üçüncü çoğul şahsının gelecek zamanda çekiminden oluşur. Burada kelimenin çekimlenmemiş ilk haline lemma denir ve bu örnekte “gelmek” bir lemmadır. Lemmatizasyon algoritmaları çalışmak için bir sözlüğe ihtiyaç duymaktadır. 

Morfolojik Segmentasyon: Sözcükleri tek tek biçimbirimlere ayırma ve biçimbirimlerin sınıfını belirleme işlemidir. Bu görevin zorluğu büyük ölçüde ele alınan dilin morfolojisinin (yani kelimelerin yapısının) karmaşıklığına bağlıdır. İngilizce oldukça basit bir morfolojiye sahiptir ve bu nedenle bu görevi tamamen göz ardı etmek ve bir kelimenin tüm olası biçimlerini (örneğin, "open, opens, opened, opening") ayrı kelimeler olarak modellemek çoğu zaman mümkündür. Ancak, Türkçe gibi sondan eklemeli dillerde, her kelimenin binlerce olası formu bulunduğundan böyle bir yaklaşım mümkün değildir.

Konuşma Bölümü Etiketleme (Part of Speech Tagging): Bir kelimenin cümle içinde nasıl kullanıldığını belirlemektir.  Aslında işlem basitçe bir kelimenin isim, fiil, sıfat, bağlaç gibi sınıflardan hangisine aitse o sınıfı etiketleme işlemidir. Örneğin, “koyun otlatıyordu” veya “üzerine koyun” şeklinde iki farklı cümlede kullanılan aynı kelime isim veya fiil olabilir. 

Kök Bulma (Stemming): Çekimli sözcükleri bir temel forma (köke) indirgeme işlemidir. Üç kelime düşünelim: yaşlı, yaşıt, yaşlanmak. Bilgisayar üçünün de kökünü “yaş” olarak kabul ediyor. Stemming, lemmatizasyon ile benzer sonuçlar verir, ancak bunu bir sözlük değil, kurallar temelinde yapar.

Söz Dizimsel Analiz

Dilin belirsizliklerle dolu olduğunu yazının başında ifade etmiştik. Söz dizimsel belirsizlik de bunlardan biri. Cümledeki kelimelerin dizilimine göre ne anlama geldiğini anlamak her zaman kolay değil. Burada dilbilgisi derslerinden aşina olduğumuz cümlenin öğelerine ayırma (parsing) işlemi devreye giriyor ve kelimeler arasındaki ilişkiler analiz ediliyor.

Anlamsal Analiz

Anlamsal analiz, metnin anlamını bulmaya odaklanır. İlk olarak, her bir kelimenin anlamını inceler ve daha sonra kelimelerin kombinasyonuna ve bağlam içinde ne anlama geldiklerine bakar. Anlamsal analizin bazı alt görevleri vardır. Bunlardan en önemlisi Adlandırılmış Varlık Tanıma (Named Entity Recognition (NER)) olarak bilinen ve metinlerdeki varlıkların makineler tarafından belirlenip kategorize edilmesi işlemidir. Varlıklar NER sayesinde sahip oldukları anlamlara göre önceden tanımlanmış olan kategorilere ayrılır. Bu kategoriler kişileri, mekanları, zamanı ya da gerekli diğer varlıkları ifade edebilir.

Söylem Analizi ve Edimbilim

Söylem analizi (discourse) birden çok cümle üzerinde çalışmaktadır. Sözcük ve cümleleri kullanıldıkları bağlam içerisinde değerlendirmekte ve birden fazla cümleden oluşan yazılı veya sözlü söylemleri incelenmektedir. Bu aşamada cümleler arasındaki ilişkiler ortaya çıkarılmaktadır. Bir örnek üzerinden incelemek gerekirse; “Ahmet, Ayşe ve Mehmet ile buluştu ve onlar restorana gittiler.” cümlesinde “onlar” sözcüğünün tam olarak kime atıfta bulunduğu belirsiz olduğundan farklı şekillerde yorumlanabilmektedir. Benzer şekilde geleneksel olarak kalıplaşmış bazı ifadelerde bu aşamada problem çıkarabilmektedir. Örneğin bir kişiye saatin kaç olduğu sormak isterken “Saatiniz var mı?” gibi geleneksel bir soru ifadesi kullanılabilmektedir. Bu ifadeye verilmesi gereken normal cevap “Evet saatim var” ya da “Hayır saatim yok” şeklinde olması beklenirken, bu soru ifadesinde asıl sorulan durum o anki saat bilgisini öğrenmek amacıyla yöneltilmiş bir soru yöneltme durumudur.

Edimbilimde (pragmatics) ise bir kelimenin hangi alanda ne anlama geldiğinin bilinmesi önemlidir. Şöyle ki cümle içerisinde kullanılmakta olan bir kelime farklı branşlarda farklı anlamlara gelebilmektedir. Doğru bir analiz sonucu ortaya çıkması için kelimelerin terminolojik anlamlarının bilinmesi gerekmektedir. Örneğin, “Ahmet çok güzel keman çalıyor.” İfadesindeki “çalmak” fiilini bilgisayar hırsızlık olarak yorumlarsa Ahmet adlı kişi hakkında hatalı bir kanıya varılmış olur.

Özetle, doğal dilin sahip olduğu bütün belirsizlikleri ortadan kaldırmak gerekir ve bu amaçla bilgisayar kelime kökünü ayrı, kelimelerin dizilişini ayrı, cümlenin ve söylevin anlamını ayrı inceleyerek konuşmanın bağlamını öğrenir ve bu konuşmadan bir anlam çıkarır.

Kimola Cognitive’i Ücretsiz Deneyin

Doğal dil işleme günümüzde hayatımızın hemen hemen her alanına dokunmuş olsa da tüketici araştırmaları bu teknolojinin sağladığı avantajlardan tam olarak yararlanamıyor. Bunun temelinde iletişim sektörünün beşerî kaynaklarını teknolojiden daha önemli alanlar için kullanıyor olması yatıyor. Neyse ki Kimola'nın Cognitive ürünü bu noktada devreye giriyor.

Cognitive herhangi bir teknik bilgiye ihtiyaç duymayan, tamamen web-tabanlı çalışan, verilerin sürükle-bırak gibi çok basit bir yöntemle sisteme yüklenebildiği bir arayüze sahip. Makine öğrenimi ile doğal dil işleme teknolojisi kullanan Cognitive, yüksek hacimli verileri olabildiğince hızlı ve yüksek doğruluk oranıyla sınıflandırıyor ve Adlandırılmış Varlık Tanıma uygulaması ile bu verilerden değerli içgörüler çıkarılmasını sağlayarak iletişim sektörünün yaratıcı çalışanlarının, en iyi oldukları alanlara odaklanmalarını sağlıyor.

Kimola Cognitive’i denemek ve ilk makine öğrenimi modelinizi ücretsiz yaratmak ve doğal dil işleme teknolojisiden yararlanarak tüketicilerinizle ilgili önemli bilgiler elde etmek için buradan üye olabilirsiniz. Ayrıca Cognitive’e dair daha fazla bilgi almak isterseniz, buradan bize iletebilirsiniz.

Tüketici Konuşmalarını Yapay Zeka ile Otomatik Analiz Etme

 

Latest