İnsan’ın bir tüketici veya kullanıcı olarak çevresiyle etkileşimi artık sadece ihtiyaç bağlamında gerçekleşmiyor. Gün geçtikçe bu etkileşim arz-talep denklemiyle açıklanamayacak derecede de karmaşıklaşıyor. Artık pazarlama karması “arz talebi doğurur” olgusu etrafında şekilleniyor. Hayatın olağan akışı gittikçe daha hızlı ve tempolu bir keyfiyete devam ediyor. Modern insan eskiye göre çok daha kısa bir zaman diliminde çok daha yoğun işlerin kuşatması altında. Bunun sonucunda insanın çevresiyle etkileşimi ve dolayısıyla bağımlılığı artıyor. Günlük hayatın içinde artık çok daha fazla yapacak iş var, çok daha fazla insanla etkileşim kurmak zorundayız.
1940’lı yıllarda vakum tüplü bilgisayarlardan günümüzün mikroişlemcili mimarisine sahip 4.nesil bilgisayarlarına kadar, bilgi iletişim teknolojilerinin günlük hayatımıza entegrasyonu gün geçtikçe daha kuşatıcı ve yoğun bir kıvamda devam ediyor. Artık bilgi iletişim araçları ve uygulamaları hayatımızın daha fazla yerinde karşımıza çıkıyor. İnternetin günlük ve iş hayatının vazgeçilmez bir parçası haline gelmesi, hayatımızın gittikçe artan bir şekilde dijitalleşmesi ve ileri teknoloji ürünlerin son kullanıcı düzeyinde alınabilir bir meta olarak kullanımının yaygınlaşması sonucunda bizi hayatımızı çepeçevre saran bir dijital veri gerçeğiyle yüz yüze getirdi. Artık spor yaparken, hastane ziyaretlerimizde, kredi kartımızla alışveriş yaparken, işyerimizde satış yaparken, e-posta gönderilerimizde vb. oluşan yığın verinin büyüklüğü bize bu konuda yeteri kadar fikir veriyor. Şüphesiz ki sosyal medya etkileşimi de oluşan verinin hacmini ve boyutunu hızla artırıyor. Her ay Youtube da 4 milyardan fazla video izleniyor, 200 milyon aktif kullanıcı günde yaklaşık 400 milyon tweet gönderiyor. Facebook ta günlük olarak paylaşılan içerik miktarı 30 milyarı buluyor. Tüm dünyadaki veri hacminin %90 ının son iki yıl içinde üretildiğini ve 2015 yılında 7,9 zettabayt olan yaklaşık veri büyüklüğünün 2020 yılında yaklaşık 35 zettabayt olacağı düşünüldüğünde hayatımızın çepeçevre bir büyük veri ya da yığın veri ile sarıldığı gerçeğiyle karşı karşıya olduğumuzu anlayabiliriz. Hem etkileşim halinde olduğumuz süreçler (kredi kartları, hastane kayıtları, e-posta trafiği, sosyal medya paylaşımları, atomize iş süreçleri, endüstriyel uygulamalar vb.) hem de bu süreçlerde kullandığımız enstrümanların her biri (CNC tezgâhlar, tabletler, barkod okuyucular, uydular, akıllı telefonlar vb.) yapısal ve yapısal olmayan devasa veri üreticilerine dönüşmüş durumda. Burada temel olarak üretilen devasa boyutlardaki veriye ait üç temel nitelikten bahsetmek gerekiyor; Hacim, çeşitlilik ve hız. Bilgi teknolojilerinin insan hayatının temel fonksiyonlarına ve endüstriyel süreçlere yoğun entegrasyonu üretilen verinin hacmini önemli ölçüde artırırken, üretilen verinin çeşitliliği de pekâlâ göz kamaştırıcı bir şekilde karmaşıklaşmıştır diyebiliriz. Bir otomasyon sisteminin veya esnek üretim hücresinin parçası olan CNC tezgahının ürettiği veri ile twitter da ki, yahut bir hastanenin tahlil ve tetkik raporlarındaki verilerin gerek boyut gerekse de nitelik açısından geniş ölçekli bir çeşitlilik arz ettiği söylenebilir. Bu anlamda veri çeşitliliği kapsamında temel olarak yapısal ve yapısal olmayan veri olmak üzere biçimsel olarak iki türlü veriden bahsetmek mümkündür. Yapısal veriler aslında klasik anlamda ilişkisel veri tabanı mantığıyla bir araya getirilmiş, depolanmış ve aralarında belli anahtar alanlar vasıtasıyla ilişkilendirilmiş verilerdir. En basit anlamda bir excel sayfasında tuttuğumuz veri tipik bir yapısal veri örneğidir. Bu tarz verileri okumak, anlamlandırmak, sınıflamak ve yorumlamak kolaydır. Veriler arasında dikeyde bir ölçeklenebilirlik söz konusudur. Bununla birlikte twitter da ki bir tweetin analiz edilmesi, facebook a giriş yapılan farklı formatlardaki verinin yorumlanması yahut hastanede oluşturulan raporların birbiriyle karşılaştırılması klasik yapısal veri yapısıyla açıklanamayacak bir karmaşıklık içerir. Verinin yatayda ölçeklenebilirliği söz konusudur. Bu tarz verilere yapısal olmayan veri adı verilir. Analiz edilmeleri, yorumlanmaları yapısal veriler kadar kolay değildir.
Veriler NoSQL (Not Only SQL) denilen ve geleneksel ilişkisel veritabanı mantığına bağlı kalmayan yapılar üzerinde depolanır. Verinin sorgulanması ve analizi için klasik SQL (Structured Query Language) sorgulama ara yüzünden farklı olarak, JSON ve XML gibi ara yüzlerin kullanılması söz konusudur. Dolayısıyla oluşan verinin hacmi yanında bu bağlamda çeşitliliğinden de söz edilebilir. Oluşan çok çeşitli nitelikteki devasa hacimli verinin bir diğer özelliği çok hızlı üretiliyor olmasıdır. Facebook a dakikada yaklaşık 136 bin resim yükleniyor. Bir Boeing 737 motoru uçuş esnasında her 30 dakikada bir 10 terabayt veri üretiyor. Bir araç çalışması sırasında yaklaşık 100 farklı sensörden veri okuyor. Çok yüksek hacimlerde çok çeşitlilik arz eden verinin çok hızlı üretildiği bir zamanda yaşıyoruz. Peki bu ne anlama geliyor?
Veriler harfler gibidir. Yalnız başlarına bir anlam ifade etmezler. Bir harfin sadece anlamlı bir kelime öbeği içinde anlam kazanabilmesi gibi, veriler de anlamlı çıkarımlar yapılabilecek ve gerçek dünyada karşılığı olan bir anlamsal bütünlük içerisinde bir anlam kazanabilirler. Yani veriler tek başlarına hiçbir şeydir aslında. Bütün mesele o devasa verilerin birlikte işaret ettikleri ve çoğunlukla gizli kalmış, keşfedilmemiş anlamlı sonuçları, çıkarımları, örüntüleri, desenleri ortaya çıkarabilmektedir. Tam bu noktada karşımıza çıkan veri madenciliği (data mining) veya veritabanından bilgi keşfi (Knowledge Discovery From Databases); büyük ölçekli, çok çeşitli ve hacimli veri yığınları içerisinden bazı algoritmalar yardımıyla daha önce bilinmeyen gizli kalmış ilişki, örüntü ve kuralların keşfi anlamına gelmektedir. Öğrenmenin temeli “işlenmiş veriye” diğer bir deyişle “bilgiye” dayanır. İnsan tecrübelerinden elde ettiği verileri kendi zihninde işleyerek bilgiye dönüştürür. Telefonunuzun ne yazmak isteyeceğinizi daha önce yazdıklarınızdan yola çıkarak tahmin etmesi, e-ticaret sitelerinin yaptığınız alışverişe veya tıkladığınız reklamlara dayanarak size önerilerde bulunması bu tarz bir dönüşümün sonucunda mümkün olmaktadır. Yığın verinin içinde gizli kalmış anlamlı desenlerin keşfedilmesi; müşterilerinin satınalma alışkanlıklarından yola çıkarak tüketici davranışlarını profillemek ve bu profillere uygun pazar ve müşteri segmentleri oluşturmak isteyen işletmeler için önemlidir. Müşterilerinin hangi ürünleri sıklıkla birlikte aldıklarının tespiti (Pazar sepeti analizi), müşteriye özel kampanyalar yapılabilmesini mümkün kılarken market yerleşimin nasıl olması gerektiği konusunda fikir verebilir. Müşterilerinin ödeme alışkanlıklarının nasıl olduğu, hangi gelir düzeyinde oldukları, aldıkları kredinin tutarı gibi verilerin arasındaki bağlantının tanımlanması bankalara kredi skorlama stratejilerinin nasıl oluşturulması gerektiği hususunda bir vizyon sunacaktır. İnsanda yaklaşık yüz bin gen olduğu düşünüldüğünde hastalıklara yol açan gen sıralama örneklerinin tespitinin normal şartlarda çok zor olduğu açıktır. Veri madenciliği teknikleri arasında kullanılan sıralama örnek analizi ve benzerlik arama yöntemleri ile DNA verisi üzerinde analiz yapmak ve hastalıklı olabilecek gen sıralamalarının tespiti mümkün olabilecektir. Veri madenciliği teknikleri pazarlama, biyoloji, bankacılık, sigortacılık, borsa, perakendecilik, telekomünikasyon, genetik, sağlık, bilim ve mühendislik, kriminoloji, endüstri, istihbarat alanlarında yoğun olarak kullanılmaktadır. Bununla birlikte, veri madenciliği teknikleri özellikle; müşterilerin satın alma örüntülerinin belirlenmesi, Pazar sepeti analizi (Market Basket Analysis), satış tahminleri, çapraz satışlar, sigorta dolandırıcılığı, kredi kartı dolandırıcılığı, hastalıkların tanısında karar destek sistemleri olarak, istatistiksel kalite kontrol yöntemlerinin yerine yoğun olarak kullanılmaktadır.
Veri madenciliğinin disiplinler üstü bir keyfiyete haiz olduğu söylenebilir. Başta istatistik, veri tabanı teknolojileri, makina öğrenmesi, veri görselliği, yapay sinir ağları, yapay öğrenme, yapay zeka ve görselleştirme gibi bir çok farklı disipline ait teknikleri kullanır. Bu disiplinler arasında ki sınırları tayin etmek zor olduğu gibi, veri madenciliği ile bağlantılı olduğu disiplinler arasındaki sınırları tayin etmek veya keskinleştirmek de zordur. İstatistik teknikleri yoğun olarak kullanılmasına karşın klasik istatistikten ayrıldığı noktalar vardır. Veri madenciliği teknikleri, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek, çoğunlukla nitel modellerin çıkarılmasını amaçlar. Veri madenciliği tekniklerinin içerisinde parametrik ve doğrusallık gibi varsayımları bulundurmaması sayesinde klasik istatistiğin regresyon ve zaman serisi analizlerinin yerine farklı yaklaşımlar barındırır. Veri madenciliğinin dayandığı büyük veri (big data) yaklaşımından önce klasik istatistik içindeki bir yığın içerisinden alınan “örneklem” mantığının aslında başlı başına bir kısıt olduğunun, ya da yapay prangalar olduğunun pek farkında değildik. Büyük veriye kadar örneklem yaklaşımı genel kabul görmüş bir standarttı. Oysaki verinin tamamını kullanmak, onun kısıtlı parçalarıyla uğraştığımızda asla göremeyeceğimiz şeyleri görmemize yardımcı olur. Büyük veri, örneklemlerin erişemeyeceği bütüne ait kırılımların çok daha net bir resmini gösterir bize. Bu bağlamda veri madenciliği, bir ucu büyük veriye çıkan istatistikle çok sıkı fıkı bağları olmasına rağmen ondan köklü olarak farklılaşan yaklaşımlara da sahip disiplinler üstü bir bilimdir.
Veri madenciliği süreçlerinde kullanılan algoritma ve teknikler temel olarak; Sınıflama ve regresyon (classification and regression), kümeleme (clustering) ve birliktelik kuralları (association rules) olarak üç ana başlık altında toplanır. Bu yazının konusu veri madenciliği süreçleri ile ilgili genel bir fikir vermek olduğundan bu tekniklerin detayına değinilmeyecektir. Sınıflama Algoritmaları veri ambarındaki gizli örüntülerin ortaya çıkarılması yoluyla sınıflandırma kurallarının keşfedilmesi yolunu izler. Bu amaçla karar ağaçları gibi enstrümanlar kullanılarak veriler, aralarındaki ilişkisellik durumuna göre sınıflandırılır. Bankaların müşterilerinin statü, borç ve gelir durumuna göre sınıflandırarak kredi skorlaması yapması en basit örneklerinden biridir. Kümeleme analizi ise temelde denetimsiz öğrenme denen kavrama dayanır. Denetimsiz öğrenme önceden sınıflar belli değilken yapılan örüntü çıkarma işlemidir. Örneğin veri ambarındaki kayıtlarla ilgili herhangi bir cinsiyet bilgisi mevcut değilken cinsiyet bilgisine dayalı yapılan bir kural çıkartma işlemi denetimsiz öğrenme olarak adlandırılır. Kümeleme analizi aralarında belirli ilişkiler bulunan verilerin keşfedilen (öğrenilen) davranışlarına göre kümelenmesi esasına dayanır. Bilgisayar biliminde ses, karakter ve resim tanıması, DNA analizi ile makine öğrenmesi (machine learning) ağırlıklı olarak kümeleme analizine dayanan çalışmalar sonucu yürütülür. İstatistiksel anlamda ise çok değişkenli tahmin ve örüntü tanıma (pattern recognition) konuları kümeleme analizinden faydalanır. Birliktelik kuralları (association rules) ise veriler arasındaki ilişkileri tanımlayan bir algoritma grubudur. En yaygın ve popüler kullanımı pazar sepet analizi (market basket analyses) denilen ve müşterilerin en çok hangi ürünleri birlikte aldıklarını analiz eden analizlerdir. Buradan yola çıkarak sözgelimi kokusuz losyonla birlikte kalsiyum, magnezyum takviyesi gibi kadınların gebelik süreçlerinde kullandıkları ürünleri birlikte alan müşterilerin tespit edilmesi, sonucunda ise belirli müşteri davranışlarının ve müşteri gruplarının tespiti ile onlara özel pazarlama karmasının geliştirilmesi faaliyetleri mümkün olabilmektedir. Birliktelik kuralları algoritmaları, sonuç olarak veri öbekleri arasındaki probabilistik korelasyonu tanımlar. Korelasyon sık sık birlikte gözlenen olayları ifade eder.
Veri madenciliği tekniklerinde şüphesiz ki temel sermaye “veri” nin kendisidir. Dolayısıyla işlenecek verinin kalitesi kritik önem taşır ve veriden bilgiyi keşif süreçlerine başlamadan önce mutlaka eldeki veriler üzerinde belirli bazı işlemlerin yapılması gerekir. Bu süreçlerin başlıcaları, verinin temizlenmesi olarak adlandırılan hatalı, tutarsız ve gürültülü verilerin temizlenmesi, birçok farklı veri kaynağından elde edilen verilerin bir veri ambarı üzerinde birleştirilmesi, üzerinde çalışma yapılacak, analize konu olacak veri öbeklerinin seçimi ve seçimi yapılan verilerin ilgili teknik ve algoritmaların uygulanabileceği uygun formatlara dönüşümü gibi süreçlerdir. Unutulmaması gerekir ki veri madenciliği toplanan veri ile sınırlıdır. GIGO (Garbage In, Garbage Out/ Çöp Girer Çöp Çıkar/) prensibi unutulmamalı, dolayısıyla sisteme giren verinin kaliteli olması gerçeği kesinlikle ihmal edilmemelidir. Nihai tahlilde veri madenciliği tekniklerinde elde edilen sonuçların kalitesinin toplanan ve düzenlenen verinin kalitesine bağlı olduğu yadsınamaz bir gerçektir. Diğer taraftan veri madenciliği teknikleriyle ilgili olarak hali hazırdaki en önemli handikapın elde edilen sonuçların belirli anlamlılık düzeylerinde test edilmesini sağlayacak yöntemlerin tam manasıyla yerleşmemesi ve etkin kullanılamaması olduğu söylenebilir.
Günümüzün hızlı değişim ve sert rekabet koşulları düşünüldüğünde hızlı ve doğru karar alabiliyor olmanın önemi açıktır. Karar alma risk barındıran bir eylemdir. Bu riski minimize etmek için hem makro hem de mikro düzeyde kurumların ve devletlerin karar alma sistemlerine ve bu sistemleri destekleyecek alt sistem ve teknolojilere ciddi anlamda yatırımlar yapmaları gerekmektedir. Değişken ve yüksek risk ortamlarında hızlı ve zamanında doğru kararlar alabilmenin mevcut verilerin doğru okunması, yorumlanması ve analiz edilmesine bağlı olduğu açıktır. Sonuç olarak; önceden bilinmeyen, gizli kalmış, geçerli ve uygulanabilir enformasyon ve bilginin veri yığınlarından dinamik ve sistematik bir süreç ile elde edilmesi anlamına gelen veri madenciliği tekniklerinin uygulanması artık kurumlar ve devletler için zorunluluk hâline gelmiştir. Veri madenciliği ve büyük veri kavramıyla ilgili metot, kavram ve sistemlerin iyi bilinmesi gelecekte rekabet üstünlüğü sağlanması, değişken çevreye adapte olma ve sürdürülebilir kalkınma bağlamında verilerin daha etkin düzenlenmesi, değerlendirilmesi, analiz edilmesi, yorumlanması ve katma değer sağlayacak birer enstrümana dönüştürülmesi açısından önem arz etmektedir.
Kaynakça:
Veri Madenciliği Kavram ve Algoritmaları, Doç. Dr. Gökhan Silahtaroğlu
Büyük Veri Yaşama, Çalışma ve Düşünme Şeklimizi Dönüştürecek Bir Devrim, Viktor Mayer Schönberger , Kenneth Cukier
Büyük Veri Denizi, Ogan Özdoğan
Veri Madenciliği Ve Türkiye’deki Uygulama Örnekleri, Serkan SAVAŞ, Nurettin TOPALOĞLU, Mithat YILMAZ