Announcing Our GPT Integration: Transform Customer Reviews into Powerful Marketing

Doğal Dil İşleme Nedir ve Nasıl Uygulanır?

Author: Yasemin Ozturk - Data Analyst, Kimola
Yasemin Ozturk Data Analyst, Kimola
Apr 05, 2022 - 7 min read
Doğal Dil İşleme Nedir ve Nasıl Uygulanır?

Do─čal dil i┼čleme ya da literatürde daha yayg─▒n kullan─▒lan ismiyle Natural Language Processing (NLP), yapay zekan─▒n geli┼čimi ve dil bilimle ortakla┼ča geli┼čtirilen çal─▒┼čmalar neticesinde hayat─▒m─▒za girmi┼č bir kavram. En genel ifadeyle do─čal dil i┼člemeyi (NLP), bilgisayarlar ve insan dili aras─▒ndaki etkile┼čimlerle, özellikle bilgisayarlar─▒n büyük miktarda do─čal dil verisini i┼člemek ve analiz etmek için nas─▒l programlanaca─č─▒yla ilgilenen dilbilim, bilgisayar bilimi ve yapay zekan─▒n bir alt alan─▒ olarak tan─▒mlamak mümkündür. Günümüzde do─čal dil i┼člemeden pek çok alanda yararlan─▒yor olsak da i┼čimizi ne kadar kolayla┼čt─▒rd─▒─č─▒n─▒n fark─▒na varm─▒yoruz bile. Hem dil bilimini hem de bilgisayar teknolojileri ve yapay zekay─▒ yak─▒ndan ilgilendiren bu konunun neden bu kadar önemli oldu─čuna gelin yak─▒ndan bakal─▒m.

Do─čal Dil ─░┼čleme Teknolojisinin Amac─▒ ve K─▒sa Tarihçesi

Do─čal Dil ─░┼čleme Teknolojisinin Amac─▒ ve K─▒sa Tarihçesi

Bilim ve teknolojinin ilerlemesi yapay zekan─▒n geli┼čmesine yol açarak makinelerin dü┼čünmesini ve t─▒pk─▒ birer insan gibi kararlar vermesini sa─člamakta. Yapay zekan─▒n bir kolu olan do─čal dil i┼čleme ise, bir bilgisayar ile insan─▒n do─čal dilde (insanlar taraf─▒ndan konu┼čulan diller) ileti┼čim kurmalar─▒n─▒ mümkün k─▒lar. Do─čal dil i┼čleme do─čal diller ve metin analizi yoluyla insan-bilgisayar etkile┼čimlerini sa─člamay─▒ de─čil, ayn─▒ zamanda insan etkile┼čimlerini kolayla┼čt─▒rmay─▒ ve zenginle┼čtirmeyi de amaçlar.

Do─čal dil i┼čleme teknolojisi denildi─činde her ne kadar yak─▒n tarihli bir uygulama olarak alg─▒lansa da asl─▒nda kökleri 1600’lü y─▒llara kadar dayanmakta. Do─čal dil i┼čleme teknolojisi, sözcükleri diller aras─▒nda ili┼čkilendirebilecek kodlar öneren René Descartes ve Gottfried Wilhelm Leibniz taraf─▒ndan teoriye dökülmü┼čtür. Ancak, do─čal dil i┼člemenin uygulanabilir örneklerinin ortaya ç─▒kmas─▒ için yakla┼č─▒k 3 as─▒rl─▒k teknolojik geli┼čmelerin beklenmesi gerekti.

Bakt─▒─č─▒m─▒zda do─čal dil i┼člemede 1954’te gerçekle┼čtirilen Georgetown - IBM deneyi bu alandaki ilk önemli at─▒l─▒md─▒r. Türünün ilk örne─či olan bu deney, 60’tan fazla Rusça cümlenin bilgisayarlar taraf─▒ndan otomatik olarak tercüme edilmesini içeriyordu. Gerçekle┼čtirilen bu ilk örne─čin ard─▒ndan do─čal dil i┼čleme teknolojisi gün geçtikçe geli┼čip, ilerleyerek günümüzdeki halini alm─▒┼čt─▒r ve günümüzde de sürekli olarak geli┼čmeye ve ilerlemeye devam etmektedir.

Peki Do─čal Dil ─░┼čleme Nas─▒l Uygulan─▒r?

─░nsan dili, metin veya ses verilerinin amaçlanan anlam─▒n─▒ do─čru bir ┼čekilde belirleyen bir yaz─▒l─▒m yazmay─▒ inan─▒lmaz derecede zorla┼čt─▒ran belirsizliklerle doludur. E┼č anlaml─▒ sözcükler, seste┼č sözcükler, alayc─▒l─▒k, deyimler, metaforlar, dilbilgisi ve kullan─▒m istisnalar─▒, cümle yap─▒s─▒ndaki farkl─▒l─▒klar. Bunlar, ö─črenilmesi uzun zaman gerektiren do─čal dilin zorluklar─▒ndan sadece birkaç─▒. Bu nedenle, baz─▒ do─čal dil i┼čleme görevleri do─čal dil metinlerini ve ses verilerini, bilgisayar─▒n anlamas─▒na yard─▒mc─▒ olacak ┼čekilde parçalar. 

Kimola’n─▒n tüketici konu┼čmalar─▒n─▒ analiz edip, s─▒n─▒fland─▒rmaya adanm─▒┼č ürünleri için yürütülen NLP çal─▒┼čmalar─▒, ┼čirketin çekirdek teknolojinin omurgas─▒n─▒ olu┼čturuyor. Teknik ekibin günlük mesaisinin önemli bir k─▒sm─▒n─▒, her dilin kendisine özgü muzipliklerine adapte olan geli┼čtirmeler dolduruyor. Yayg─▒n do─čal dil i┼čleme uygulamalar─▒na ve Kimola’n─▒n do─čal dil i┼čleme teknolojisinden nas─▒l yararland─▒─č─▒na dair daha detayl─▒ bilgi sahibi olmak için “Do─čal Dil ─░┼čleme Hangi Alanlarda Kar┼č─▒m─▒za Ç─▒k─▒yor ve Sa─člad─▒─č─▒ Faydalar Neler?” yaz─▒m─▒za göz atabilirsiniz.

A┼ča─č─▒da, do─čal dil i┼člemede en yayg─▒n olan ve Kimola’da da dokundu─čumuz görevlerden baz─▒lar─▒n─▒n bir listesi yer almakta. Bu görevlerden baz─▒lar─▒ do─črudan gerçek dünya uygulamalar─▒na sahipken, di─čerleri daha yayg─▒n olarak daha büyük görevlerin çözülmesine yard─▒mc─▒ olmak için kullan─▒lan alt görevler olarak hizmet etmekte.

Metin ve Konu┼čma ─░┼čleme

Optik Karakter Tan─▒ma (OCR): Bas─▒l─▒ bir metni temsil eden resimlerin, bilgisayar ortam─▒na aktar─▒lmas─▒d─▒r.

Konu┼čma Tan─▒ma (Speech Recognition): Bilgisayarlar─▒n konu┼čulan dili tan─▒mas─▒n─▒ ve metne dönü┼čtürmesini sa─člar. Do─čal konu┼čmada, ard─▒┼č─▒k kelimeler aras─▒nda neredeyse hiç duraklama yoktur ve bu nedenle konu┼čma bölümlendirme (speech segmentation), konu┼čma tan─▒man─▒n bir alt görevidir. Konu┼čulan dillerin ço─čunda, ard─▒┼č─▒k harfleri temsil eden sesler, koartikülasyon ad─▒ verilen bir süreçte birbirine kar─▒┼č─▒r ve bu nedenle seslerin ayr─▒ karakterlere dönü┼čtürülmesi çok zor bir süreç olabilir. Ayr─▒ca, ayn─▒ dildeki sözcüklerin farkl─▒ aksanlara sahip ki┼čiler taraf─▒ndan konu┼čuldu─ču göz önüne al─▒nd─▒─č─▒nda konu┼čma tan─▒ma, metinsel e┼čde─čerleri aç─▒s─▒ndan birbiriyle ayn─▒ olan çok çe┼čitli girdileri ay─▒rt edebilmelidir. 

Kelime Segmentasyonu (Tokenization): Tokenizasyon bir cümleyi daha küçük anlaml─▒ birimlere ay─▒rmak olarak tan─▒mlanabilir. Token’lar, anlaml─▒ küçük birimlerdir ve semboller, kelimeler, deyimler token’lara örnek verilebilir.

Morfolojik Analiz

Lemmatizasyon (Lemmatization): Kelimeleri morfolojik olarak inceler. Bir örnek olarak: “gelecekler” gelmek fiilinin üçüncü ço─čul ┼čahs─▒n─▒n gelecek zamanda çekiminden olu┼čur. Burada kelimenin çekimlenmemi┼č ilk haline lemma denir ve bu örnekte “gelmek” bir lemmad─▒r. Lemmatizasyon algoritmalar─▒ çal─▒┼čmak için bir sözlü─če ihtiyaç duymaktad─▒r. 

Morfolojik Segmentasyon: Sözcükleri tek tek biçimbirimlere ay─▒rma ve biçimbirimlerin s─▒n─▒f─▒n─▒ belirleme i┼člemidir. Bu görevin zorlu─ču büyük ölçüde ele al─▒nan dilin morfolojisinin (yani kelimelerin yap─▒s─▒n─▒n) karma┼č─▒kl─▒─č─▒na ba─čl─▒d─▒r. ─░ngilizce oldukça basit bir morfolojiye sahiptir ve bu nedenle bu görevi tamamen göz ard─▒ etmek ve bir kelimenin tüm olas─▒ biçimlerini (örne─čin, "open, opens, opened, opening") ayr─▒ kelimeler olarak modellemek ço─ču zaman mümkündür. Ancak, Türkçe gibi sondan eklemeli dillerde, her kelimenin binlerce olas─▒ formu bulundu─čundan böyle bir yakla┼č─▒m mümkün de─čildir.

Konu┼čma Bölümü Etiketleme (Part of Speech Tagging): Bir kelimenin cümle içinde nas─▒l kullan─▒ld─▒─č─▒n─▒ belirlemektir.  Asl─▒nda i┼člem basitçe bir kelimenin isim, fiil, s─▒fat, ba─člaç gibi s─▒n─▒flardan hangisine aitse o s─▒n─▒f─▒ etiketleme i┼člemidir. Örne─čin, “koyun otlat─▒yordu” veya “üzerine koyun” ┼čeklinde iki farkl─▒ cümlede kullan─▒lan ayn─▒ kelime isim veya fiil olabilir. 

Kök Bulma (Stemming): Çekimli sözcükleri bir temel forma (köke) indirgeme i┼člemidir. Üç kelime dü┼čünelim: ya┼čl─▒, ya┼č─▒t, ya┼članmak. Bilgisayar üçünün de kökünü “ya┼č” olarak kabul ediyor. Stemming, lemmatizasyon ile benzer sonuçlar verir, ancak bunu bir sözlük de─čil, kurallar temelinde yapar.

Söz Dizimsel Analiz

Dilin belirsizliklerle dolu oldu─čunu yaz─▒n─▒n ba┼č─▒nda ifade etmi┼čtik. Söz dizimsel belirsizlik de bunlardan biri. Cümledeki kelimelerin dizilimine göre ne anlama geldi─čini anlamak her zaman kolay de─čil. Burada dilbilgisi derslerinden a┼čina oldu─čumuz cümlenin ö─čelerine ay─▒rma (parsing) i┼člemi devreye giriyor ve kelimeler aras─▒ndaki ili┼čkiler analiz ediliyor.

Anlamsal Analiz

Anlamsal analiz, metnin anlam─▒n─▒ bulmaya odaklan─▒r. ─░lk olarak, her bir kelimenin anlam─▒n─▒ inceler ve daha sonra kelimelerin kombinasyonuna ve ba─člam içinde ne anlama geldiklerine bakar. Anlamsal analizin baz─▒ alt görevleri vard─▒r. Bunlardan en önemlisi Adland─▒r─▒lm─▒┼č Varl─▒k Tan─▒ma (Named Entity Recognition (NER)) olarak bilinen ve metinlerdeki varl─▒klar─▒n makineler taraf─▒ndan belirlenip kategorize edilmesi i┼člemidir. Varl─▒klar NER sayesinde sahip olduklar─▒ anlamlara göre önceden tan─▒mlanm─▒┼č olan kategorilere ayr─▒l─▒r. Bu kategoriler ki┼čileri, mekanlar─▒, zaman─▒ ya da gerekli di─čer varl─▒klar─▒ ifade edebilir.

Söylem Analizi ve Edimbilim

Söylem analizi (discourse) birden çok cümle üzerinde çal─▒┼čmaktad─▒r. Sözcük ve cümleleri kullan─▒ld─▒klar─▒ ba─člam içerisinde de─čerlendirmekte ve birden fazla cümleden olu┼čan yaz─▒l─▒ veya sözlü söylemleri incelenmektedir. Bu a┼čamada cümleler aras─▒ndaki ili┼čkiler ortaya ç─▒kar─▒lmaktad─▒r. Bir örnek üzerinden incelemek gerekirse; “Ahmet, Ay┼če ve Mehmet ile bulu┼čtu ve onlar restorana gittiler.” cümlesinde “onlar” sözcü─čünün tam olarak kime at─▒fta bulundu─ču belirsiz oldu─čundan farkl─▒ ┼čekillerde yorumlanabilmektedir. Benzer ┼čekilde geleneksel olarak kal─▒pla┼čm─▒┼č baz─▒ ifadelerde bu a┼čamada problem ç─▒karabilmektedir. Örne─čin bir ki┼čiye saatin kaç oldu─ču sormak isterken “Saatiniz var m─▒?” gibi geleneksel bir soru ifadesi kullan─▒labilmektedir. Bu ifadeye verilmesi gereken normal cevap “Evet saatim var” ya da “Hay─▒r saatim yok” ┼čeklinde olmas─▒ beklenirken, bu soru ifadesinde as─▒l sorulan durum o anki saat bilgisini ö─črenmek amac─▒yla yöneltilmi┼č bir soru yöneltme durumudur.

Edimbilimde (pragmatics) ise bir kelimenin hangi alanda ne anlama geldi─činin bilinmesi önemlidir. ┼×öyle ki cümle içerisinde kullan─▒lmakta olan bir kelime farkl─▒ bran┼člarda farkl─▒ anlamlara gelebilmektedir. Do─čru bir analiz sonucu ortaya ç─▒kmas─▒ için kelimelerin terminolojik anlamlar─▒n─▒n bilinmesi gerekmektedir. Örne─čin, “Ahmet çok güzel keman çal─▒yor.” ─░fadesindeki “çalmak” fiilini bilgisayar h─▒rs─▒zl─▒k olarak yorumlarsa Ahmet adl─▒ ki┼či hakk─▒nda hatal─▒ bir kan─▒ya var─▒lm─▒┼č olur.

Özetle, do─čal dilin sahip oldu─ču bütün belirsizlikleri ortadan kald─▒rmak gerekir ve bu amaçla bilgisayar kelime kökünü ayr─▒, kelimelerin dizili┼čini ayr─▒, cümlenin ve söylevin anlam─▒n─▒ ayr─▒ inceleyerek konu┼čman─▒n ba─člam─▒n─▒ ö─črenir ve bu konu┼čmadan bir anlam ç─▒kar─▒r.

Kimola Cognitive’i Ücretsiz Deneyin

Do─čal dil i┼čleme günümüzde hayat─▒m─▒z─▒n hemen hemen her alan─▒na dokunmu┼č olsa da tüketici ara┼čt─▒rmalar─▒ bu teknolojinin sa─člad─▒─č─▒ avantajlardan tam olarak yararlanam─▒yor. Bunun temelinde ileti┼čim sektörünün be┼čerî kaynaklar─▒n─▒ teknolojiden daha önemli alanlar için kullan─▒yor olmas─▒ yat─▒yor. Neyse ki Kimola'n─▒n Cognitive ürünü bu noktada devreye giriyor.

Cognitive herhangi bir teknik bilgiye ihtiyaç duymayan, tamamen web-tabanl─▒ çal─▒┼čan, verilerin sürükle-b─▒rak gibi çok basit bir yöntemle sisteme yüklenebildi─či bir arayüze sahip. Makine ö─črenimi ile do─čal dil i┼čleme teknolojisi kullanan Cognitive, yüksek hacimli verileri olabildi─čince h─▒zl─▒ ve yüksek do─čruluk oran─▒yla s─▒n─▒fland─▒r─▒yor ve Adland─▒r─▒lm─▒┼č Varl─▒k Tan─▒ma uygulamas─▒ ile bu verilerden de─čerli içgörüler ç─▒kar─▒lmas─▒n─▒ sa─člayarak ileti┼čim sektörünün yarat─▒c─▒ çal─▒┼čanlar─▒n─▒n, en iyi olduklar─▒ alanlara odaklanmalar─▒n─▒ sa─čl─▒yor.

Kimola Cognitive’i denemek ve ilk makine ö─črenimi modelinizi ücretsiz yaratmak ve do─čal dil i┼čleme teknolojisiden yararlanarak tüketicilerinizle ilgili önemli bilgiler elde etmek için buradan üye olabilirsiniz. Ayr─▒ca Cognitive’e dair daha fazla bilgi almak isterseniz, buradan bize iletebilirsiniz.

Tüketici Konu┼čmalar─▒n─▒ Yapay Zeka ile Otomatik Analiz Etme

 

Latest