Gerçek Hayat Veri Setiyle Sınıflandırma Algoritmaları
Denetimli Öğrenme (Supervised Learning) Nedir?
Sınıflandırmaya dalmadan önce, Denetimli Öğrenmenin ne olduğuna bir göz atalım. Diyelim ki matematikte yeni bir kavram öğrenmeye çalışıyorsunuz ve bir problemi çözdükten sonra, haklı olup olmadığınızı görmek için çözümlere başvurabilirsiniz. Belirli bir problem türünü çözme yeteneğinizden emin olduğunuzda, cevaplara başvurmayı bırakacak ve önünüze konan soruları kendi başınıza çözeceksiniz. Denetimli Öğrenme, makine öğrenimi modelleriyle de bu şekilde çalışır. Denetimli Öğrenmede, model örnek alarak öğrenir. Girdi değişkenimizle birlikte modelimize ilgili doğru etiketleri de veriyoruz. Eğitim sırasında model, hangi etiketin verilerimize karşılık geldiğine bakar ve dolayısıyla verilerimizle bu etiketler arasındaki kalıpları bulabilir.
Denetimli Öğrenmenin bazı örnekleri şunları içerir:
-
Hangi postanın istenmeyen posta olduğunu ve istenmeyen posta olmadığını öğreterek istenmeyen posta algılamayı sınıflandırır.
-
Bir makineye sesinizi tanımayı öğrettiğiniz konuşma tanıma.
-
Bir makineye bir nesnenin nasıl göründüğünü göstererek ve diğer nesneler arasından o nesneyi seçmesini sağlayarak nesne tanıma.
Sınıflandırma Nedir?
Sınıflandırma, nesnelerin ve fikirlerin tanınması, anlaşılması ve önceden belirlenmiş kategorilere, yani “alt popülasyonlara” gruplandırılması süreci olarak tanımlanır. Bu önceden kategorize edilmiş eğitim veri kümelerinin yardımıyla, makine öğrenimi programlarındaki sınıflandırma, gelecekteki veri kümelerini ilgili ve ilgili kategorilere sınıflandırmak için çok çeşitli algoritmalardan yararlanır.
Makine öğreniminde kullanılan sınıflandırma algoritmaları, takip eden verilerin önceden belirlenmiş kategorilerden birine girme olasılığını veya olasılığını tahmin etmek amacıyla girdi eğitim verilerini kullanır. Sınıflandırmanın en yaygın uygulamalarından biri, günümüzün en iyi e-posta servis sağlayıcıları tarafından kullanıldığı şekliyle, e-postaları “spam” veya “spam olmayan” olarak filtrelemek içindir.
Kısacası, sınıflandırma bir “kalıp tanıma” biçimidir. Burada, eğitim verilerine uygulanan sınıflandırma algoritmaları, gelecekteki veri kümelerinde aynı modeli (benzer sayı dizileri, kelimeler veya duygular ve benzerleri) bulur.
Sınıflandırma algoritmalarını ayrıntılı olarak inceleyeceğiz ve bir metin analiz yazılımının, yapılandırılmamış metni görüş kutupluluğuna göre (olumlu, olumsuz, nötr ve benzeri) kategorize etmek için kullanılan duygu analizi gibi eylemleri nasıl gerçekleştirebileceğini keşfedeceğiz.