1. Pengetahuan Statistik & Matematika
- Probabilitas dan distribusi data
- Inferensi statistik (uji hipotesis, confidence interval)
- Regresi dan korelasi
- Aljabar linear (matriks, vektor, transformasi)
- Kalkulus dasar (turunan untuk optimisasi model)
- Teori pengambilan keputusan berbasis data
2. Pemrograman & Komputasi
- Bahasa pemrograman: Python, R, dan SQL
- Pemrograman struktural dan OOP
- Data manipulation dengan Pandas, NumPy, dplyr
- Penulisan kode efisien dan debugging
3. Machine Learning
- Supervised learning: regresi, klasifikasi, ensemble methods
- Unsupervised learning: clustering, PCA, anomaly detection
- Evaluasi model: accuracy, precision, recall, ROC, RMSE
- Feature engineering & pemilihan fitur
- Regularisasi (L1, L2)
- Hyperparameter tuning (Grid Search, Random Search, Bayesian)
4. Big Data & Cloud Computing
- Konsep distributed computing
- Hadoop, Spark (PySpark)
- Cloud platforms: AWS, Google Cloud, Azure
- Data pipeline & workflow automation (Airflow, dbt)
5. Database & Manajemen Data
- SQL databases: MySQL, PostgreSQL
- NoSQL: MongoDB, Cassandra
- Data warehousing: Snowflake, BigQuery, Redshift
- Data cleaning & preprocessing
- Integrasi data (ETL/ELT)