Bilim / Teknoloji

Veri Madenciliği İle Bilgi Keşfi Yolculuğu

VERİ MADENCİLİĞİ İLE BİLGİ KEŞFİ YOLCULUĞU

Günümüzde teknolojinin hızla ilerleyişi günlük hayatımızda radikal değişiklikler getirmekte ve vazgeçilmez hale gelmektedir. Bilgi Teknolojilerindeki gelişmeler ile birlikte hem işletmelerde doğru ve daha detaylı veriye en kısa sürede ulaşabilmemiz mümkün olmakta hem de bu büyük miktardaki veri yığınlarının yönetilmesi ve anlamlı hale getirilmesi önemli bir problem olarak da karşımıza çıkmaktadır.

Teknolojik gelişmeler veri tabanlarında ve diğer bilgi depolarında çok miktarda bilgi depolanması sonucunu ortaya çıkarmış ve veri patlaması yaşanmasına neden olmuştur.

BİLGİ KEŞFİNİN AŞAMALARI

  • Uygulama Alanını İnceleme: Konuyla ilgili bilgi ve uygulama amaçları
  • Amaca Uygun Veri Kümesi Oluşturma:
  • Veri Seçme
  • Veri Ayıklama ve Ön İşleme: işlemin %70’lik bölümünü oluşturur
  • Veri Azaltma ve Veri Dönüşümü: İncelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma,
  • Veri Madenciliği Tekniği Seçme: Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme
  • Veri Madenciliği Algoritmasını Seçme
  • Model Değerlendirme ve Bilgi Sunumu
  • Bulunan Bilginin Yorumlanması

Veri Madenciliği; büyük miktarda veriyi içeren veri tabanlarından keşfedilmemiş, sıra dışı, ilginç bilgilerin ya da örüntülerin Bilgi Teknolojileri kullanarak anlamlı bilgiye dönüştürülmesidir. Veri Madenciliği büyük miktarda veri inceleme amacı üzerine kurulmuş olduğu için veri tabanları ile yakından ilişkilidir. Gerekli verinin amaca uygun şekilde saklanması ve gerektiğinde hızla ulaşılabilmesi gerekir.

Günümüzde yaygın olarak kullanılmaya başlanan veri ambarları; günlük kullanılan veri tabanlarının birleştirilmiş ve işlemeye daha uygun bir özetini saklamayı amaçlar.

Veri madenciliği; işletme analitiğinde karar vericilerin işletme faaliyetleri ile ilgili geleceğe yönelik tahminlere dayanarak karar vermelerini destekleyecek gerekli bilgilerin keşfedilmesine yarayan algoritmalar vasıtasıyla sağlayan bir araçtır.

“Veri madenciliği sahası; istatistik, yapay zeka, veri tabanları ve veri görselleştirme gibi alanlarla yakından ilişkilidir. Veri Madenciliğiyle bilgi keşfi özellikle e-ticaret, bilim, tıp ve eğitim alanlarında ki uygulamalarda yeni ve temel bir araştırma sahası olarak ortaya çıkmaya başlanmıştır.” (Baykasoğlu, 2005)

Veri madenciliği günümüzde karar verme sürecine ihtiyaç duyulan her alanda yaygın olarak kullanılmaktadır. Pazarlama, bankacılık ve sigortacılık sektörleri, astronomi, ilaç, suçluların ve teröristlerin tespiti vb…

Veri Madenciliğinin Uygulama Alanlarını şu şekilde sıralayabiliriz:

  • Veri tabanı analizi ve karar verme desteği,
  • Hedef Pazar, müşteriler arası benzerliklerin saptanması,
  • Kalite Kontrol, rekabet analizleri, öngörü, sahtekarlıkların saptanması, kredi kartı dolandırıcılıklarının tespiti, K. Kartı harcamalarına göre müşteri gruplarının belirlenmesi,
  • K. Kart taleplerinin değerlendirilmesi,
  • İlişkisel pazarlama modelinin benimsediği mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması, müşteri değerlendirmesi, satış tahmini, pazar sepet analizi,
  • Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi,
  • Riskli müşteri örüntülerinin belirlenmesi,
  • Kurum kaynaklarının en optimal şekilde kullanılması,
  • Geçmiş ve mevcut yapı analiz edilerek geleceğe yönelik tahminlerde bulunma,
  • İç ve dış denetim çalışmalarında vb…alanlar

VERİ MADENCİLİĞİ (DATA MİNİNG) VE DİSİPLİNLER

Veri madenciliği teknikleri olarak, kümeleme, veri özetleme, değişiklerin analizi, sapmaların tespiti gibi teknikler kullanılmaktadır. Bu teknikler uygulanarak hem yöneticilere hem de üçüncü kişilerin alacağı kararlarda yön vermeleri açısından büyük önem taşımaktadır.

Veri madenciliği disiplinler arası bir çalışmadır. İstatistik, veri tabanı teknolojileri, makina öğrenmesi, yapay zeka ve görselleştirme gibi bir çok farklı disiplinlerle bir bütün halinde çalışır. Bu disiplinler arasında sınırlar çizmek zordur. Hangi disiplinden faydalanılacağı, hangi tekniğin veya teknik kombinasyonun kullanılacağı gerçekleştirilmeye çalışılan amaç ile bağlantılıdır.

 Veri madenciliği uzmanlığının gerektirdiği teknik bilgiler içersinde SQL, NoSQL, SAS ve Hadoop, Java, Python ve Perl programlama dilleri, işletim sistemlerinde özellikle LINUX deneyimi aranmaktadır.

Veri Biliminde bilinmesi geren bilgileri ise şu şekilde sıralayabiliriz:

Veri tabanı, temel programlama dili olarak tercih edilen JAVA, algoritma bilgisi, temel olasılık, temel istatistiki bilgileri, veri ve veri bilimi temelleri, verinin işlenme süreci, veri ambarları ve OLAP, veri küpleri, Big Data, metin işleme, web ve metin madenciliği, sosyal ağ analizi, zaman serileri ve analizi gibi….

VERİ MADENCİLİĞİ İLE İLGİLİ İŞ ALANLARINI İSE ŞÖYLE SIRALAYABİLİRİZ:

  • Veri Bilimi- Analizi (Data Science)
  • Veri Madenciliği (Data Mining)
  • Veri Ambarları (Data Warehouse)
  • Büyük veri (Big Data)
  • Bulut Bilişim (Cloud Computing)
  • Veri Yönetimi (Data Management)
  • Veri Denetimi (Data Governance)

Hızla büyüyen veri miktarı büyük veri olarak tanımlanmakta iken artık büyük veri 5V (Big Data Bileşenleri: Volume, Velocity, Veracity, Veriety, Value) olarak tanımlanmaktadır. Veriyi toplamak, saklamak ve işlemek için otomatize edilmiş araçlara da ihtiyaç duyulmaktadır. Genelde verinin büyük miktarlarda bulunduğu alanlar olarak web, e-ticaret, satış- banka-süreç işlemleri, Borsa, en geniş kapsamda uygulandığı alanlardan biri olan Pazarlama, Uzaktan algılama, biyoinformatik, simülasyonlar, haberler, dijital kameralar, youtube vs…sayılabilir.

MS Excel en basit dört işlem fonksiyonlarından tutun da BD (Bugünkü Değer), GD (Gelecekteki Değer), Faiz, standart sapma, hipotez testleri, olasılık, varyans, regresyon, korelasyon, karar verme süreçlerinde destek sağlayan çok sayıda ileri istatistik fonksiyonlarını da barındırmaktadır.

SPSS Clementine (Modeller), statistica, SAS gibi programlar veri analitiği işlemlerin de kullanılmaktadır. Microsoft’un ürünü olan excel ile de veri analitiği Excel Data Mining eklentisinin yüklenmesi ile Data Mining (Veri Madenciliği) işlemleri gerçekleştirilebilmektedir.

MS Excelde Data Mining Add Inn eklentisinin kurulumundan kısaca bahsedecek olursak;

Microsoft Excel ile yapılan veri madenciliği işlemlerinde SQL Server Analysis Services (SSAS) arka planda veri madenciliği sihirbazlarının çalışmasına yardımcı olan bir motor görevi görürken Excel, veri madenciliği eklentisi sayesinde bir istemci görevi görmektedir. Microsoft Excel üzerinden veri madenciliği işlemlerini yapabilmek için üç temel yazılıma ihtiyaç duyulmaktadır. Bunlar:

  1. 2013 ve sonrası sürüme sahip bir Microsoft Ofis yazılımı,
  2. Microsoft SQL Server 2012 ya da sonrası bir sürümü,
  3. Microsoft Excel’in Data Mining eklentisi,

Microsoft SQL Server 2012 Data Mining Eklentisi Kurulumu: Microsoft’tan ücretsiz olarak “Microsoft SQL Server 2012 Data Mining Add-ins for Office” eklentisi indirilerek kurulur.

“Veri Madenciliğinin Bilgi Keşfi Yolculuğu” nda hayatımıza getireceği avantaj /dezavantajları hep beraber yaşayarak göreceğiz.

Kaynaklar