Day 2: Peranan di Data Science dan Sumber Data

Viony Wijaya

4 min readApr 16, 2021

Peranan di Data Science

Ada 4 role di data science: data engineer, data analyst, data scientist, machine learning scientist

Data engineer: mengontrol flow data, membangun pipeline custom data dan sistem penyimpanan data. DE juga merancang infrastruktur supaya data tidak hanya dapat dikumpulkan tapi juga mudah untuk di ambil dan di proses. DE fokus pada workflow data science yang pertama yaitu data collection dan storage.

Tools yang digunakan oleh DE:

SQL- untuk menyimpan dan mengorganisasi data
Java, scala or python — Bahasa pemograman yang digunakan untuk memproses data. Namun Java merupakan bahasa pemograman yang paling penting untuk dikuasai oleh seorang DE. Python sendiri digunakan lebih ke data cleaning dan bukan prediction atau modelling.
Shell — command line untuk mengautomatisasi dan menjalankan tugas
AWS, Azure, Google cloud platform — cloud computing, digunakan untuk menyimpan data dalam jumlah yang banyak

2. Data analyst: mendeskripsikan keadaan saat ini dengan menggunakan data dan analisis yang lebih sederhana. DA melakukan hal tersebut dengan mengeksplorasi data dan menciptakan visualisasi dan dashboard. Untuk melakukan analisis, mereka perlu membersihkan data terlebih dahulu. Peran DA ini sendiri membutuhkan pengalaman programming dan statistik yang lebih sedikit dibandingkan dengan peran yang lain. Dalam workflow data science, mereka berfokus pada data preparation dan exploration & visualization

Tools yang digunakan oleh DA:

SQL- untuk mengambil dan menggabungkan data supaya relevan dengan analisis mereka dengan menggunakan database yang sudah ada
Excel atau google sheets — untuk melakukan analisis sederhana dari jumlah data yang ada (cenderung sedikit)
BI tools (Tableau, Power BI, Locker) — Untuk membuat dashboard dan membagikan analisis mereka (visualisasi data)
R or Python — beberapa DA lebih nyaman untuk menggunakan python atau r untuk menganalisa dan membersihkan data

3. Data scientist : pada umumnya memiliki background analisis yang kuat dimana memungkinkan mereka untuk mendapatkan insight baru dari data yang ada daripada meminta mereka untuk mendeskripsikan data tersebut. Mereka juga banyak melakukan eksperimen dan menggunakan traditional machine learning untuk melakukan prediction dan forecasting. Di dalam workflow, mereka fokus pada 3 tahap terakhir: data preparation, exploration & visualization, experimentation & prediction.

SQL — untuk mengambil dan menggabungkan data
Python dan/atau R misalnya pandas (python) dan tidyverse (R) yang terdapat di data science libraries. Library ini berisikan kode-kode yang pada umumnya digunakan pada tugas data science

4. Machine learning scientist: posisi ini hampir sama dengan data scientist, perbedaannya hanya di penggunaan machine learning. Peranan dari seorang machine learning scientist adalah untuk meramalkan kemungkinan masa depan yang ada. Mereka menggunakan training data untuk mengklasifikasikan data yang sifatnya lebih besar, lebih tidak teratur seperti mengidentifikasikan suatu gambar yang akan masuk ke kategori mobil atau menciptakan chatbot. Selain itu mereka juga menggunakan ilmu deep learning yang berisikan image processing dan natural language processing. Di dalam workflow, mereka fokus pada 3 tahap terakhir dengan fokus yang kuat di tahap terakhir.

Python dan/atau R — digunakan untuk menciptakan predictive model. Machine learning libraries sendiri seperti TensorFlow atau Spark untuk menjalankan algoritma deep learning yang kuat

Correlation analysis — contoh dari statistical technique yang diperlukan

Data sources

Sebelum kita bisa mendapatkan insight dari data, kita pertama-tama perlu untuk mengumpulkan data beberapa sumber yang berbeda. Sumber data sendiri terbagi menjadi 2 yaitu company data dan open data.

Company data:

Dikumpulkan oleh perusahaan
Membantu mereka untuk mengambil keputusan

Biasanya didapatkan dari web data, survey, customer, logistik hingga transaksi keuangan

Web data — Data ini didapatkan perusahaan jika ada traffic yang masuk ke dalam website dimana data ini umumnya digunakan untuk mengkalkulasikan conversion rates atau memantau popularitas dari konten

Survey — interview tatap muka, kuesioner online atau focus group discussion. Jenis survey data yang paling sering digunakan oleh perusahaan adalah Net Promotor Score

Open data:

Gratis
Dapat digunakan dan dibagikan oleh siapapun

Ada beberapa cara untuk mendapatkan open data namun yang paling sering digunakan adalah data dari API dan public record.

API (Application Programming Interface) — cara paling mudah untuk meminta data dari pihak ketiga via internet. Beberapa perusahaan terkenal yang datanya dapat diakses dengan menggunakan API adalah Twitter, Wikipedia, Yahoo! Finance, Google Maps.

Cara mengambil data dari Twitter dengan API: Menggunakan hashtag

Tentukan hashtag yang diinginkan
Gunakan API twitter untuk meminta semua tweet yang menggunakan hashtag yang diinginkan. Dari tweet2 yang ada, kita dapat menganalisa sentimen analisis dari setiap tweet, melacak seberapa sering hashtag tersebut muncul setiap minggunya,

2. Public record — Dikumpulkan dan dibagikan oleh organisasi internasional (bank dunia, pbb), kantor statistik nasional yang menggunakan sensus dan survey data, atau government agencies yang menyediakan informasi mengenai cuaca, lingkungan dan populasi tersedia untuk publik

Jika ada yang kurang tepat, feel free to comment ya!

Day 2: Peranan di Data Science dan Sumber Data

Peranan di Data Science

Data sources

Written by Viony Wijaya