Feature #25311
closed[Dashboard] Hapus Data Duplicate pada Clickhouse Dashboard Prod
0%
Description
Issue : Ditemukan beberapa data limbah pada clickhouse Dashboard Prod yang memiliki data duplicate, salah satu penyebabnya adalah karena proses ETL yang dilakukan 2kali dalam sehari (11.00 AM dan 22.00 PM)
Akibat dari banyaknya data yang duplicate maka data yang ditampilkan pada dashboard tidak valid (memiliki quantitas yang jauh lebih banyak dibanding data real pada WMS).
Requirement :
1. Untuk mengetahui Sample data duplicate dapat menjalankan query dibawah ini :
select * from data_dashboard dd
join (
select max(dd.waste_history_id) max_id from data_dashboard dd
where fasyankes_id = '11983' and dd.waste_weight <> 'nan' and waste_created_datetime >= '2025-01-01' AND waste_created_datetime <= '2025-02-11'
group by dd.waste_id) a on a.max_id = dd.waste_history_id
where dd.waste_id = '1875083'
order by dd.waste_history_id;
2. Untuk menampilkan data yang ETL nya siang hari :
select count(*) from data_dashboard dd
where dd.created_at_etl = '2025-02-06 11:42:14'
3. Solusinya, untuk meminimalisir data duplicate maka perlu dihapus untuk data yang ETL nya terjadi siang hari (11 AM)
Acceptance Result :
Setelah proses penghapusan data yang created_at_etl nya (11 PM) data yang ditampilkan pada dashboard dapat lebih valid dan sesuai data pada wms prod.