K-means kümeleme

K-ortalama kümeleme ya da K-means kümeleme (K-means clustering) yöntemi N adet veri nesnesinden oluşan bir veri kümesini giriş parametresi olarak verilen K adet kümeye bölümlemektir. Amaç, gerçekleştirilen bölümleme işlemi sonunda elde edilen kümelerin, küme içi benzerliklerinin maksimum ve kümeler arası benzerliklerinin ise minimum olmasını sağlamaktır.

K-means en sık kullanılan kümeleme algoritmalarındandır. Uygulanması kolaydır. Büyük ölçekli verileri hızlı ve etkin şekilde kümeleyebilir. “K” algoritmaya başlamadan önce ihtiyaç duyulan sabit küme sayısını ifade etmektedir. Tekrarlı bölümleyici yapısı ile K-means algoritması, her verinin ait olduğu kümeye olan uzaklıkları toplamını küçültmektedir. K-means algoritması karesel hatayı en küçük yapacak olan K adet kümeyi tespit etmeye çalışmaktadır.

K-means ile küme içi benzerlik büyük, kümeler arası benzerlik ise küçük olduğu sürece kümelenmenin doğruluğundan söz edilebilir. Problem NP-hard olmasına rağmen K-means algoritması bir iteratif (tekrarlayıcı) yaklaşım ile genelde iyi bir çözüm verir.

Tanım

Her bir veri n-boyutlu reel vektör olmak üzere bir {x₁, x₂, …, x_N} veri kümesi ve K bölünecek küme sayısı olarak verilsin. K-means kümeleme, karesel hatayı en aza indirgemek için N tane veriyi K adet S = {S₁, S₂, …, S_K} kümeye bölümlemeyi amaçlar. Başka bir deyişle,

\mu _{i}={\frac {1}{|S_{j}|}}\sum _{x_{i}\in S_{j}}x_{i}

burada $\mu _{i}$ , S_j 'deki noktaların ortalaması olmak üzere

{\underset {\mathbf {S} }{\operatorname {arg\,min} }}\sum _{j=1}^{K}\sum _{\mathbf {x} _{i}\in S_{j}}\left\|\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j}\right\|^{2}

bulmaktır.

K-means algoritması nasıl çalışır?

K-means algoritmasının çalışma mekanizmasına göre öncelikle her kümenin merkez noktasını veya ortalamasını temsil etmek üzere K adet nesne rastgele seçilir. Kalan diğer nesneler, kümelerin ortalama değerlerine olan uzaklıkları dikkate alınarak en benzer oldukları kümelere dahil edilir. Daha sonra, her bir kümenin ortalama değeri hesaplanarak yeni küme merkezleri belirlenir ve tekrar nesnelerin merkeze uzaklıkları incelenir. Herhangi bir değişim olmayıncaya kadar algoritma tekrarlamaya devam eder.

Algoritma temel olarak 4 aşamadan oluşur:

1.Küme merkezlerinin belirlenmesi

2.Merkez dışındaki verilerin mesafelerine göre kümelendirilmesi

3.Yapılan kümelendirmeye göre yeni merkezlerin belirlenmesi (veya eski merkezlerin yeni merkeze kaydırılması)

4.Kararlı hale (stable state) gelinene kadar 2. ve 3. adımların tekrarlanması.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

Makine öğrenmesi ve veri madenciliği

Problemler Sınıflandırma Kümeleme Regresyon Anomali tespiti Association rules Pekiştirmeli öğrenme Yapılandırılmış tahmin Öznitelik mühendisliği Öznitelik öğrenmesi Öznitelik çıkarımı Online öğrenme Yarı-gözetimli öğrenme Gözetimsiz öğrenme Sıralama öğrenme Gramer Tümevarımı
Gözetimli öğrenme Karar ağacı Birlik öğrenmesi k-YK Doğrusal regresyon Naive Bayes Sinir ağları Lojistik regresyon Relevance vector machine (RVM) Support vector machine (SVM) Rastgele orman
Kümeleme BIRCH Hiyerarşik k-means Beklenti maksimizasyon DBSCAN OPTICS Mean-shift
Boyut indirgeme Faktör analizi CCA ICA LDA NMF PCA t-SNE
Yapılandırılmış tahmin Grafiksel modeller (Bayes ağları, CRF, HMM)
Anomali tespiti k-NN Local outlier factor
Sinir ağları Perseptron Autoencoder Derin öğrenme Çok katmanlı perseptron RNN Kısıtlı Boltzmann makinesi SOM Kıvrımlı sinir ağları
Pekiştirmeli öğrenme Q-Learning SARSA Temporal Difference (TD)
Teori Bias-variance ikilemi Hesaplamalı öğrenme teorisi Empirik risk minimizasyonu Occam learning PAC learning İstatistiki öğrenme teorisi VC theory
Konferanslar ve dergiler NIPS ICML ML JMLR ArXiv:cs.LG