Makine �?renmesi pek �ok alanda kullan?lmaya devam ediyor. Ele al?nan model sonucunda tahminler yaparak sorunlara ��z�m getirmesi ama�lan?r. Cilt kanserinin tespitinden chatbotlara, artt?r?lm?? ger�eklik uygulamalar?ndan otomotive pek �ok alan ve ama� i�in kullan?lan makine �?renmesinin 7 ad?m?n? en yal?n haliyle aktarmaya �al??t?m.
1. Verilerin toplanmas? (Gathering the Data)
?lk ad?m: verileri toplamak. Sa?l?kl? bir tahmin olu?turulmas? i�in ihtiya� duyulan de?i?kenlere ait de?erler i�eren verilere ihtiya� vard?r. Bu veriler arac?l???yla modelimizi e?itir ve tahminler yapmas?n? sa?lar?z. Toplan?lan verilerin miktar? ve niteli?i modelin do?ruluk oran?n? do?rudan etkiler. Toplanan veriler birbiri ard?na s?ralanarak bir tablo olu?turur. 
Tabloda da g�r�lece?i �zere bah?i? ve masada bulunan ki?i say?s? � g�n � ge�irilen s�re aras?nda a?lant? kurulmaya �al???l?yor. Elbette sa?l?kl? bir model olu?turmak i�in 5 adet veri asla yeterli olmayacakt?r.

 2. Veri �n ??leme (Data Preperation)

En �nemli basamaklardan biridir. Ba?ar?l? bir model olu?turmak i�in asla atlanmamas? gereklidir. Ba?lang?� olarak verileri g�rselle?tirmek de?i?kenler aras? olas? ili?kileri ve d�zensizlikleri fark etmek i�in uygun bir ad?m olabilir. �rne?in pazartesi g�nlerine ait verilerin say?s?n?n di?er g�nlere oranla �ok daha fazla olmas?…

Ele al?nmas? gereken bir ba?ka husus ise veriyi e?itim (train) ve test seti olarak 2�ye ay?rmak. Veri setinin b�y�k bir k?sm? modeli e?itmek, geri kalan k?sm? ise modeli test etmek ve do?ruluk oran?n? g�rmek i�in kullan?l?r. E?itim i�in kullan?lan verileri tekrar test i�in kullanmak hi� sa?l?kl? sonu�lar do?urmayacakt?r.

Ayr?ca eksik verilerin incelenmesi, normalizasyon, ayk?r? verilerin incelenmesi gibi uygulanabilecek veri �n i?leme basamaklar? bulunur.

 

  3. Model Se�imi

3. ad?m: model se�imi. Ara?t?rmac?lar?n ve veri bilimcilerin ortaya koydu?u farkl? ihtiya�lar i�in ortaya konmu? bir�ok model bulunur. Baz? modeller daha karma??k veri setleri �zerinde �ok iyi �al???rken, baz?lar? basit say?lacak veri setleri �zerinde �ok iyi �al???r; ancak karma??k veri setlerinde �ok iyi bir sonu� do?urmayabilir. Ayn? ?ekilde verilerin t�r� (g�rsel, n�merik, metin veya m�zik) de se�ilmesi gereken modelin t�r�n� etkiler.

 

 4. Modelin E?itilmesi (Training)

E?itim (train) veri seti yard?m?yla modelin e?itildi?i ad?md?r.

�rne?in Basit Do?rusal Regresyonu ele ald???m?z? d�?�nelim. Basit do?rusal regresyonun tahmin modeli ?u ?ekildedir;

Burada y tahmin sonucunu; b1 de?i?kenin a??rl???n? (weight) ; b0 ise �nyarg? (bias) ifade eder. Ba??ms?z de?i?kenlerin say?s?na ba?l? olarak bu a??rl?klar (weight) ve �nyarg?lar (bias) ile birer matris olu?turulur. A??rl?klar genelde W, �nyarg?lar ise b ile temsil edilir.

En ba?ta a??rl?k ve �nyarg? i�in random bir de?er atan?r, e?itimin her ad?m? bu de?erler g�ncellenerek en do?ru de?erler yakalanmaya �al???l?r.

  5. De?erlendirme (Evaluation)

Modelin e?itilmesi tamamland?ktan sonra test veri seti ile de?erlendirme yap?l?r. (Test veri seti e?itimde kullan?lmayan verilerden olu?mal?d?r.) Bu sayede modelin daha �nce kar??la?mad??? verilerle kar??la?t???nda �retece?i sonu�lar g�r�lebilir. Modelin ger�ek d�nyada �retece?i sonu�lar?n temsili niteli?inde oldu?u s�ylenebilir.

6. 6. Parametre ?yile?tirmeleri (Parameter Tuning)

Modeli daha do?ru hale getirmek, do?ruluk oran?n? artt?rmak i�in tuning i?lemi yap?l?r. Bu i?lemde modelin hiperparametrelerine verilen de?erlerin olas? sonu�lar? kar??la?t?r?larak en iyisi bulunmaya �al???l?r. Bu hiperparametreler kullan?lan modele ba?l? olarak de?i?ebilir. �rne?in Gradient Boosting Machines’de �learning_rate, n_estimators, subsample� gibi hiperparametrelerin en iyi de?erleri ara?t?r?larak modelin do?rulu?u art?r?labilir.

7. 7. Tahmin (Prediction)

Modelin amac?n? yerine getirdi?i ad?md?r. Modelin tahminler yaparak sorular?m?za cevap verdi?i, ele al?nan problemin ��z�m� i�in kullan?ld??? ad?md?r.

Kaynaklar: Google Cloud Platform, The 7 steps of Machine Learning

https://www.youtube.com/watch?v=nKW8Ndu7Mjw