Real-Time vs Batch Analitik: Hangisi Ne Zaman?: Tanılama, Mimari ve Çözüm Yaklaşımı Giriş Endüstriyel otomasyon ortamlarında analitik tercihleri doğrudan operasyonel risk, emniyet ve üretim verimliliği ile ilişkilidir. MES/SCADA entegrasyonları, PLC...
Zaman Serisi Verisi Analizi: Tanılama, Mimari ve Çözüm Yaklaşımı
Giriş
Endüstriyel otomasyon sahalarında sensör, PLC ve SCADA sistemlerinden gelen zaman serisi verisi; üretim verimliliği, ekipman sağlığı ve operasyonel güvenlik için hayati öneme sahiptir. Hatalı veya geciken analizler, montaj hattında duruşlara, enerji israfına ve güvenlik risklerine yol açar. Türkiye'nin makine parklarında gözlemlediğimiz tipik vakalarda tek bir anomali tespiti gecikmesi, üretimde %3-7 arası verim düşüşüne sebep olabiliyor; bu oran doğru ölçüm pratiğiyle %60'a kadar azaltılabiliyor.
Operasyonel risk, yalnızca verinin kendisinden değil, verinin toplandığı, taşındığı ve işlendiği süreçlerden kaynaklanır. Ölçek büyüdükçe veri gecikmesi (latency), kayıp örnek oranı ve yanlış alarm oranı (FPR) gibi metrikler kritik hale gelir. Örneğin bir kompresör tesisinde saniyede 500 örneğin 100 ms üzerindeki toplu gecikmesi, anlık kontrol döngüsünde hatalı set-point'lere neden olur.
Teknik kapsam bu yazıda; veri sahiplenmesi, veri kalitesi ölçütleri, anomali tespiti, sorgu gecikmesi optimizasyonu ve saha uygulamaları üzerine olacaktır. Amacım saha mühendisleri ve geliştiriciler için doğrudan uygulanabilir kontroller, ölçümler ve çözüm listeleri sunmak. Unutmayın: verinin miktarı değil, verinin güvenilirliği ve zamanında erişilebilirliği operasyonel değeri belirler.
Bu rehber Bell a Binary'nin saha tecrübesiyle harmanlanmış, ölçülebilir metrikler ve test yöntemleri içeren pratik bir yaklaşımdır. Bella Binary projelerinde kullanılan birkaç pratik, yerel üretim tesislerinde %30-50 daha kısa hata teşhis süresi sağlamıştır.
Kavramın Net Çerçevesi
Zaman serisi verisi analizi; zamana bağlı ölçümlerin toplanması, saklanması, kalitesinin değerlendirilmesi ve belirlenen hedeflere göre yorumlanması sürecidir. Bu süreçte temel sınırlar: örnekleme frekansı (Hz veya örnek/s), gecikme toleransı (ms), veri kayıp oranı (%) ve saklama periyodudur (gün/ay).
Ölçülebilir sınırlar belirlenirken veri tüketen uygulamalar (anlık kontrol, raporlama, model eğitimi) farklı SLA'lara ihtiyaç duyabilir. Örneğin anlık kontrol döngüsü için 50 ms altı uçtan uca gecikme hedeflenirken, aylık raporlama için gecikme 60 saniyeye kadar kabul edilebilir.
Bir sistemde sensörler, aktarım altyapısı, toplayıcılar ve analiz bileşenleri arasındaki ilişki, uçtan uca ölçümlerle izlenmelidir. Ölçüm noktaları; sensör timestamp, gateway işlem süresi ve sorgu yanıt gecikmesi şeklinde ayrı ayrı izlenmelidir. Örneğin bir pompa istasyonunda 1 Hz örnekleme ile basınç ölçümleri yapılırken örnek kaybı %0.5'in üzerine çıktığında alarm eşikli davranış değişir.
Tanım: Zaman serisi verisi analizi, zamana göre sıralanmış ölçümlerin hataların, kalıpların ve eğilimlerin tespit edilmesi için yapılan istatistiksel ve algoritmik işlemler bütünüdür. Ölçülebilir sınırlar sistemin SLA'larına göre tanımlanır. Sistem bileşenleri arasındaki gecikmeler kümülatif olarak değerlendirilmelidir.
Tanım: Veri kalitesi ölçütleri; örnekleme tutarlılığı (örnek/s), veri kayıp oranı (%), gecikme medyanı (ms) ve doğruluk (örnek başına ± birim) ile tanımlanır. Bu ölçütler hem saha testleri hem de üretim izlemiyle sürekli kontrol edilir.
Tanım: Anomali tespiti, beklenen davranıştan sapmaları saptamak için istatistiksel eşikler, makine öğrenmesi veya imza tabanlı yöntemler kullanır. Ölçülebilir çıktı; algılanan olay başına hatırlama (recall %), yanlış alarm oranı (FPR %) ve tespit gecikmesi (ms veya s) olarak raporlanır.
Kritik Teknik Davranışlar ve Risk Noktaları
1) Ani Gecikme Artışları (Latency Spikes)
Belirti: Zaman serisi toplama hattında periyodik olmayan 100–500 ms arası gecikme artışları gözlemlenebilir. Bu durum kontrol döngülerinde set-point hatalarına yol açar. Latency artışı deplasmanlı CPU ve I/O tıkanmalarından veya ağ paket kuyruğunda birikmeden kaynaklanabilir.
Ölçülebilir parametreler: p95 sorgu gecikmesi (ms), paket kayıp oranı (%). Ölçüm yöntemi: uçtan uca paket yakalama ve zaman damgası korelasyonu (packet capture + timestamp alignment).
Saha davranışı örneği: İzmir'deki bir tesis projesinde, veri gateway'inde 200 ms'lik p95 artışı, ağ switch konfigürasyonunda jumbo frame eksikliğinden kaynaklanıyordu.
- 1. Ağ cihazları ve gateway saatlerini NTP ile 10 ms içinde senkronize et.
- 2. p95/p99 gecikmelerini 1 saatlik pencereyle topla ve alarm eşikleri belirle (%5 artış alarmı).
- 3. Paket yakalama ile bekleme sürelerini dağılım histogramı olarak incele.
- 4. Edge tarafında öncelikli buffer (ring buffer) kullan, 99.9% veri teslim hedefi kur.
- 5. Ağ katmanında MTU ve QoS konfigürasyonlarını doğrula; 1500 byte yerine ihtiyaç varsa 9000 byte test et.
2) Örnekleme Tutarsızlığı ve Zaman Damgası Kaymaları
Belirti: Sensörlerin örnekleme periyotları sapıyor; beklenen 1000 ms yerine bazı örnekler 900 ms veya 1100 ms aralıklarla geliyor. Bu, frekans analizleri ve FFT tabanlı anomali tespitlerinde yanlış sonuç üretir.
Ölçülebilir parametreler: inter-arrival sapması (std ms), zaman damgası kayma oranı (%). Ölçüm yöntemi: log korelasyonu ve zaman damgası histogramı ile örnekler arasındaki delta analiz.
Saha davranışı örneği: Marmara bölgesindeki bir su arıtma tesisinde, güç beslemesindeki harmonik etki bazı sensörlerin dahili saatlerini 200 ms kadar kaydırıyordu.
- 1. Sensör firmware'inde timestamp refresh periyodunu 1 saatten 10 dakikaya çek.
- 2. Toplanan veride inter-arrival std'si 50 ms ise kabul limitini 20 ms olarak revize et.
- 3. GPS veya referans NTP ile gömülü saat sapma düzeltmesi uygula.
- 4. Zaman bazlı downsampling uygulamadan önce resampling ile tutarlılık sağla.
- 5. Veri tüketen servislerde toleranslı pencereleme (sliding window) kullan; 90% overlap ile hatalı kesimleri azalt.
3) Anomali Algoritmalarında Yanlış Alarm Oranı
Belirti: Makine öğrenmesi tabanlı anomali tespiti yüksek hassasiyet yerine yüksek yanlış alarm üretiyor. Bu, saha ekibinin algılama güvenirliğini azaltır.
Ölçülebilir parametreler: yanlış alarm oranı (FPR %), tespit hassasiyeti (recall %). Ölçüm yöntemi: geçmiş etiketli olaylarla geri test (backtest) ve confusion matrix analizi.
Saha davranışı örneği: Bir tekstil fabrikasında vibrasyon sensöründe olduğu düşünülen sargı hatası için model %15 FPR veriyordu; gerçek saha incelemesi yanlış yerleştirilmiş sensör braketi olduğunu gösterdi.
- 1. Model eşiklerini precision-recall eğrisi ile ayarla; operasyonel maliyete göre FPR hedefle.
- 2. Algoritmayı sezonsal değişimi hesaba katacak şekilde haftalık retrain yap.
- 3. Ensemble yaklaşımı ile istatistiksel ve ML tabanlı tespitleri çapraz doğrula.
- 4. Alarm üstünde etiketleme iş akışı kur; her on alarm için 1 doğrulama hedefi (%10 doğrulama oranı).
- 5. Yanlış alarm oranını 30 güne yayılmış RUL (remaining useful life) değerlendirmesiyle ilişkilendir.
4) Veri Depolama ve Sorgu Performansının Bozulması
Belirti: Veri biriktiğinde sorgu süreleri lineer olarak artıyor; p95 sorgu gecikmesi 200 ms'den 2 s'ye çıkabiliyor. Bu, gerçek zamanlı pano tazeleme ve raporlamayı etkiler.
Ölçülebilir parametreler: sorgu p95 (ms), depolama IO (MB/s). Ölçüm yöntemi: yük testi (load test) ile artan veri hacmine karşı sorgu gecikmesi ölçümü.
Saha davranışı örneği: Bursa'daki üretim hattı verisi aylık 400 GB büyüdüğünde sorguların p95 değeri 1.8 s'ye ulaştı; retansiyon ve downsample stratejisi uygulandığında 450 ms'ye düştü.
- 1. Sıcak/soğuk veri sınıflandırması yap; 14 günden eski veriyi downsample et veya arşivle.
- 2. Sorgu indekslerini ve zaman serisi özel indeksleme mekanizmalarını uygula.
- 3. IO sınırlarını izlemek için MB/s ve IOPS metriklerini 5 dakikalık pencereyle topla.
- 4. Sorgu önbellekleme ve pre-aggregation ile tipik dashboard sorgularını 10x hızlandır.
- 5. Depolama sıkıştırma oranını izle; hedef sıkıştırma ≥ 4:1 iken sorgu maliyetini değerlendirme.
Teknik Durum Tablosu (Kodlu)
| Kod | Belirti | Olası Neden | Ölçüm |
|---|---|---|---|
| LAT-01 | p95 gecikme artışı | Gateway CPU spike / ağ kuyruğu | p95 ms, paket kayıp % |
| TS-02 | Zaman damgası kaymaları | Sensör saat sapması | inter-arrival std (ms), zaman sapma % |
| AN-03 | Yanlış alarmlar yükseliyor | Model aşırı uyum / etiket hatası | FPR %, recall % |
| ST-04 | Sorgu yavaşlaması | Veri birikimi / indeks eksikliği | p95 sorgu ms, MB/s |
Sorunu Sahada Sistematik Daraltma
Bir sorunu sahada kök nedenine hızlıca indirgeyebilmek için fiziksel bileşenden uygulama seviyesine doğru sistematik bir yaklaşım izleyin. Aşağıdaki dört adım, saha mühendislerimizin Bella Binary projelerinde rutin olarak kullandığı sıralamadır.
- 1. Donanım ve bağlantı kontrolü: güç, kablo, konektör, sensör sağlığı, saat senkronizasyonu (ms seviyesinde doğrulama).
- 2. Network ve iletim testi: paket kaybı (%), RTT (ms) ve throughput (MB/s) ölçümü; packet capture ile anomali zamanında inceleme.
- 3. Toplayıcı/gateway performansı: CPU%, bellek MB, disk IO MB/s, uygulama log korelasyonu.
- 4. Analiz katmanı ve model testi: yük testi ile p95 sorgu, model inference gecikmesi (ms) ve doğruluk kontrolü.
Bu sıralamayla fiziksel arızalardan yazılım konfigürasyon hatalarına kadar daraltma hızlı ve tekrarlanabilir olur.
Gerçekçi saha senaryosu: Bir enerji üretim tesisinde sabah vardiyasında önce yüksek titreşim alarmı geldi; ekip öncelikle yatak arızası düşündü. İlk yanlış varsayım, sensör montaj kaymasıydı; saha incelemesi bunun yerine sensörde periyodik jitter olduğunu gösterdi. Analiz packet capture ve vibration FFT korelasyonuyla yapıldı; kök neden güç hattındaki harmonik bozulmaydı. Kalıcı çözüm olarak güç filtreleme ve sensör montaj rehberi revizyonu uygulandı. Ölçülebilir sonuç: yanlış alarm sayısı %65 azaldı, bakım müdahalesi süresi ortalama %40 kısaldı.
Uzun Vadeli Dayanıklılık ve Ölçüm Disiplini
Dayanıklılık, tek seferlik iyileştirmelerle değil, sürekli ölçüm, izleme ve geri besleme döngüleriyle sağlanır. Bella Binary yaklaşımında veri kalitesi standartları ve ölçüm disiplinleri projeye baştan kodlanır.
- 1. Başlangıçta SLA'ları açıkça sayısallaştır: p95 sorgu < 300 ms, veri kaybı < 0.1%.
- 2. Otomatik sağlık kontrolleri oluştur: günlük özetlerde p50/p95/p99 metrikleri.
- 3. Periyodik geri test (backtest) ile anomali modellerinin FPR ve recall değerlerini izliyoruz.
- 4. Saha depozitörü olarak edge pre-aggregation kullanılıyor; bu Bella Binary'nin bant genişliği yönetim yaklaşımıdır.
- 5. Ölçüm sonuçlarını 90/365 gün içinde trend olarak sakla; anomali eğilimleri erken gösterir.
İyi tanımlanmış ve sürekli izlenen metrikler, saha çözümlerinin ömrünü uzatır; ölçmeden yönetmek başarısızlığa davet eder.
Sonuç
Zaman serisi verisi analizi için etkili yaklaşım çok katmanlıdır: veri kalitesi, iletim güvenilirliği, depolama stratejileri ve tespit algoritmalarının birlikte optimizasyonu gerekir. Ölçüm ve izleme kültürü, sahadaki belirsizlikleri azaltır ve hata tespit süresini kısaltır. Bella Binary projelerinde, veri odaklı doğrulama, edge pre-aggregation ve operasyonel metriklerle entegrasyon uzun vadeli dayanıklılık sağlar.
Son iki cümlede iş birliği çağrısı: Eğer saha verinizde gecikmeler, yanlış alarmlar veya sorgu sorunları yaşıyorsanız, birlikte bir değerlendirme yapabiliriz. Bella Binary olarak saha deneyimimizi, ölçülebilir sonuçlarla uygulamaya dönüştürmeye hazırız.