Real-Time vs Batch Analitik: Hangisi Ne Zaman?: Tanılama, Mimari ve Çözüm Yaklaşımı Giriş Endüstriyel otomasyon ortamlarında analitik tercihleri doğrudan operasyonel risk, emniyet ve üretim verimliliği ile ilişkilidir. MES/SCADA entegrasyonları, PLC...
Python ve TensorFlow ile ML Başlangıç Rehberi: Tanılama, Mimari ve Çözüm Yaklaşımı
Giriş
Endüstriyel otomasyon sahasında makine öğrenimi projeleri, sahada ölçülebilir üretkenlik ve güvenlik kazanımları sağlayabilir; ancak saha koşulları, sensör gürültüsü ve operasyonel kısıtlar göz ardı edilirse riskler hızla artar. Bir hattaki 10 ms gecikme insan gözetimli bir kontrol döngüsünde tolere edilebilirken, kapalı döngü kontrolü gerektiren uygulamalarda aynı 10 ms üretim kaybına, artan hata oranına veya güvenlik alarmına yol açabilir.
Operasyonel riskler; veri toplama hataları, ağ bant genişliği sınırlamaları, model sürümlendirme ve yanlış alarm oranları etrafında yoğunlaşır. Bu rehberde amacımız; Fiziksel Katman'dan Uygulama/Yazılım Katmanı'na kadar somut ölçülebilir parametreleri (inference time ms, doğruluk %, throughput TPS, CPU %) kullanarak pratik yönlendirme sağlamaktır.
Teknik kapsam, model geliştirme (TensorFlow), veri boru hattı (Python/ETL), dağıtım (container, edge inference) ve izleme/ölçüm (telemetri, log korelasyonu) adımlarını içerir. Her bölümde en az iki ölçülebilir parametre, bir ölçüm yöntemi ve saha davranışı örneği verilecektir; böylece mühendis, geliştirici veya araştırmacı doğrudan deneysel testler planlayabilir.
Unutmayın: Endüstride teorik doğruluk tek başına yeterli değildir; gecikme, kaynak kullanımı ve sahadaki hata türleri eşit derecede kritiktir. Bella Binary olarak sahadaki gerçek operasyonel gereksinimleri ön planda tutan bir doğrulama kültürünü benimsiyoruz.
Kavramın Net Çerçevesi
Tanım: Bu rehber, Python ile veri hazırlama ve TensorFlow ile model oluşturma, eğitme, doğrulama ve dağıtımı içeren uçtan uca ML iş akışını endüstriyel bağlamda açıklar. Sistem bileşenleri: Fiziksel Katman (sensörler, PLC), Veri Katmanı (ingest, temizleme), Model Katmanı (TensorFlow modelleri), Uygulama/Yazılım Katmanı (API, edge runtime) ve Operasyon Katmanı (izleme, CI/CD).
Ölçülebilir sınırlar: Bir modelin kabul edilebilir parametreleri operasyon türüne göre tanımlanmalıdır—örneğin anomali tespiti için hedef latency <20 ms (inference), doğruluk >92% ve false positive oranı <3%. Bu sınırlar saha kabul testleri (SIT) ile doğrulanır.
Sistem bileşen ilişkisi, verinin Fiziksel Katman'da toplandıktan sonra Veri Katmanı'nda pipeline ile temizlenmesi, Model Katmanı'nda eğitim/validasyon, Uygulama Katmanı'nda dağıtım ve Operasyon Katmanı'nda izlenme döngüsüdür. Örneğin, Bursa'daki bir montaj hattında vibration sensörlerinden alınan 1 kHz örnekleme verisi 5 ms latency hedefiyle edge'de ön işlenip 15 ms içinde anomali sınıflandırması yapılmıştır — saha ölçümleri model doğruluk artışını %28'e kadar iyileştirmiştir.
Kritik Teknik Davranışlar ve Risk Noktaları
1) Veri Kalitesi ve Drift: Sensör Değişimleri ve Etiket Tutarsızlığı
Veri kalitesi sorunları; eksik örnekler, senkronizasyon hataları ve etiket örtüşmesinden kaynaklanır. Bu bozulmalar model doğruluğunu ve güvenilirliğini hızla düşürebilir. Model doğru sınıflandırma oranında %5-20 arası dalgalanma saha koşullarında sık görülen bir durumdur.
Ölçülebilir parametreler: veri kayıpları yüzdesi (ör. % kayıp/gün), label tutarlılık oranı (%). Ölçüm yöntemi: log korelasyonu ve zaman serisi histogramı ile veri bütünlüğü testi. Saha davranışı örneği: bir hattaki sensör yazılım güncellemesi sonrası örnekleme frekansı 1 kHz'den 250 Hz'e düşmüş, bu da gerçek zamanlı anomaly detection performansını %34 azaltmıştır.
- Veri girişinde checksum ve sequence ID kullanarak eksik paket oranını <0.1% hedefleyin.
- Kategori etiketleri için yıllık %5 yeniden etiketleme planı oluşturun ve doğruluk testi yapın.
- Sensor drift için per-hafta baseline histogram karşılaştırması kurun (KLDivergence <0.05 hedefi).
- Veri pipeline'da sliding-window veri bütünlüğü kontrolleri ekleyin (ör. 1 saatlik pencerede %99 doldurma).
- Model besleme verisini versiyonlayın; veriye ait metadata (firmware, kalibrasyon) toplayın.
2) Gerçek Zamanlı İnference Gecikmeleri ve Timeout'lar
Edge veya cloud inference sırasında gecikme SLA'ları ihlal edildiğinde, kontrol döngüleri bozulur. Kritik sistemlerde inference latency'nin 10–50 ms aralığında olması beklenir; batch inference için throughput hedefi 100–200 TPS olabilir.
Ölçülebilir parametreler: p95 inference latency (ms), throughput (TPS). Ölçüm yöntemi: yük testi (load test) ile p50/p95/p99 latency histogramı almak. Saha davranışı örneği: Bir kalite kontrol kamerası hattında model p95 latency 320 ms'ye çıktığında, hat duruşları %2.5 arttı ve insan müdahalesi gereksinimi yükseldi.
- İnference için model boyutunu (<25 MB) ve CPU/görev süresini (ms) hedefleyin.
- Quantization ve prunning ile latency'yi ilk versiyona göre %30–60 azaltın.
- Edge runtime monitoring ile p95 latency'yi 1 saatlik ve 24 saatlik dilimlerde izleyin.
- Network timeout politikalarını (retry, backoff) 3 denemeye ve toplam 200 ms limite göre ayarlayın.
- Batching stratejilerini test edin: 1-8 örnek arası latency/throughput trade-off analizini yapın.
3) Model Aşırı Uyum (Overfitting) ve Genelleme Eksikliği
Aşırı uyum, sahada yeni koşullar göründüğünde model performansının çökmesine neden olur. Eğitim/validasyon boşluğu genellikle %2–15 aralığındadır; gerçek saha koşullarında bu fark %10'u geçtiğinde alarm gerektirir.
Ölçülebilir parametreler: eğitim-doğrulama gap (%), F1-score değişimi (%). Ölçüm yöntemi: confusion matrix ve ROC eğrisi ile per-sınıf performans analizi. Saha davranışı örneği: Laboratuvarda %98 doğruluk gösteren bir sınıflandırıcının sahada doğruluğu %72'ye düştü; kök neden veri dağılım değişikliği ve yeni üretim hammaddesi değişikliğiydi.
- Cross-validation ve zaman-bazlı validasyon (time-series split) kullanın; gap <5% hedefleyin.
- Domain augmentation (sahaya özgü gürültü, sensör jitter) ile eğitimi genişletin.
- Model ensemble veya kalibrasyon (temperature scaling) ile güven aralıklarını kontrol edin.
- Shadow deployment ile sahada A/B testi yapın ve %0.5 eşiğini geçen performans sapmalarında geri çekme mekanizması kurun.
- Per-sınıf izleme kurun: her sınıf için p7 günlük örnekleme ve minimum 200 örnek/sınıf hedefleyin.
4) Altyapı Kaynak Tükenmesi ve Ölçeklenebilirlik Sorunları
Kaynak tükenmesi; CPU, GPU, bellek veya ağ tıkanıklıklarından kaynaklanır. Örnek olarak, aynı anda çalışan 50 edge cihazı sistemi anlık olarak 8 Gbps'e kadar artırabilir; ağ ve broker kapasitesi yetersizse paket kayıpları %1–5 aralığına çıkar.
Ölçülebilir parametreler: CPU kullanımı (%), bellek MB, paket kaybı (%). Ölçüm yöntemi: packet capture ve log korelasyonu ile bottleneck tespiti. Saha davranışı örneği: Bir tesiste pik üretim zamanlarında broker 1500 TPS sınırına ulaştığında veri backlog'u arttı ve 10 dakika içinde model besleme verisi %12 azaldı.
- Her node için CPU <80% ve bellek <75% hedefi koyun; otomatik ölçeklendirme eşiklerini tanımlayın.
- Broker (MQTT/Kafka) için retention/partition planı yapın; test yükü ile 2x peak TPS doğrulayın.
- Packet capture ile 1 saatlik yük testinde paket kaybını <0.2% hedefleyin.
- Profiling ile hotspot fonksiyonları belirleyin; kritik fonksiyonlarda latency'yi >25% azaltma hedefi koyun.
- Failover ve backpressure mekanizmalarını uygulayın; 3 saniye üstü kuyruk bekleme durumlarında degrade modu devreye girmeli.
Teknik Durum Tablosu
| Kod | Belirti | Olası Neden | Ölçüm |
|---|---|---|---|
| ERR-01 | Yüksek p95 inference latency | Model aşırı büyük / CPU throttling | p95 latency 320 ms (load test) |
| ERR-02 | Etiketler tutarsız | Insan etiketleme farklılığı | label tutarlılık 78% (manual audit) |
| ERR-03 | Veri backlog | Broker limit aşıldı | queue depth 4500, paket kaybı 1.4% |
Sorunu Sahada Sistematik Daraltma
Sorun giderme fizikselden uygulamaya doğru katmanlı bir yaklaşım ister: sensörden ağ ve işleme, modele ve uygulamaya kadar ilerleyin. Bu sıra hatayı izole etmeyi hızlandırır ve gereksiz müdahaleleri azaltır.
- Adım 1 — Fiziksel Katman: Sensör sağlığı (voltaj, örnekleme frekansı) kontrolü, örnekleme tutarlılığı testi (ms zaman damgası sapması).
- Adım 2 — Veri Katmanı: Ingest pipeline logları ve checksum testleri, eksik paket oranı ve queue depth ölçümü.
- Adım 3 — Model Katmanı: Shadow deployment ile yeni modelin p50/p95 latency ve doğruluk karşılaştırması.
- Adım 4 — Uygulama/Yazılım Katmanı: API timeout, container resource limitleri ve log korelasyonu ile root cause belirlemesi.
Gerçekçi Saha Senaryosu
Problemin tanımı: Otomotiv parça montaj hattında görsel kalite kontrol modelinin sahadaki doğruluğu beklenenden %26 düşük çıktı. İlk yanlış varsayım, modelin overfit olduğu yönündeydi ve yeniden eğitim önerildi. Ancak veri incelemesi sırasında üretim hattında yeni bir kamera firmware güncellemesi ile renk profilinin değiştiği saptandı.
Analiz ve kök neden: Veri Katmanı'nda yapılan histogram karşılaştırmaları ve log korelasyonu sonucunda piksel histogramı dağılımında %18 kayma tespit edildi. Kalıcı çözüm: kamera firmware rollback, pipeline'da renk normalizasyonu eklenmesi ve modelin saha-augmented veriyle yeniden eğitilmesi. Ölçülebilir sonuç: doğruluk %26’dan %91’e yükseldi ve false positive oranı %22’den %5’e düştü.
Uzun Vadeli Dayanıklılık ve Ölçüm Disiplini
Sürdürülebilir ML operasyonu, sürekli ölçüm ve geri besleme döngüsü gerektirir; bu süreç politika, otomasyon ve saha periyodik kontrolleri içerir.
- Canary/Shadow dağıtımlar ile sürüm geçişlerinde %0.5 performans sapma eşiği uygulayın.
- Her model için SLA: p95 latency <50 ms, doğruluk >90% veya per-case hedefler belirleyin.
- Günlük telemetri: CPU %, bellek MB, p95 latency, model confidence dağılımı.
- Haftalık saha denetimi: sensor calibration check ve örnekleme tutarlılığı testleri.
- Kritik hatalar için 30 dakika içinde on-call tetikleme ve 24 saat içinde düzeltme planı.
Uzun vadede dayanıklılık, otomasyon ile insan gözetiminin dengelenmesi ve ölçüm disiplininin süreçlere gömülmesiyle sağlanır.
Sonuç
Python ve TensorFlow ile endüstriyel ML projelerinde başarılı olmak çok katmanlı bir yaklaşım gerektirir: Fiziksel Katman’dan Operasyon Katmanı’na kadar bütün katmanlarda ölçülebilir metrikler ve testler olmalıdır. Ölçüm ve izleme kültürü, modelin üretimde kalıcı olarak değer üretmesini sağlar ve saha koşullarında güveni yükseltir.
Bella Binary yaklaşımı, saha doğrulamasını ve operasyonel gereksinimleri mimarinin merkezine koyar; bu sayede sahada %20–40 aralığında izlenebilir performans iyileştirmeleri sağladık. Birlikte çalışarak gerçek üretim hedeflerinize uygun, ölçülebilir ve dayanıklı ML çözümleri tasarlamaya hazırız.