Penerapan data science semakin meluas pada berbagai industri saat ini, selaras dengan melimpahnya sumber daya data. Hal tersebut menyebabkan popularitas data science kian melambung tinggi.
Data science adalah bidang ilmu yang di dalamnya terkandung berbagai ilmu yang perlu dipelajari. Apa saja ilmunya? Bagaimana prosesnya? Apa manfaat serta penerapan data science? Mari pelajari satu per satu hal tersebut.
Data Science
Data science adalah disiplin ilmu yang berfokus pada penggunaan teknik matematika dan algoritma untuk memecahkan permasalahan bisnis suatu organisasi atau perusahaan.
💻 Mulai Belajar Pemrograman
Belajar pemrograman di Dicoding Academy dan mulai perjalanan Anda sebagai developer profesional.
Daftar SekarangSecara sederhana, data scientist (sebutan untuk praktisi data science) memanfaatkan kumpulan data mentah dengan cara mengubahnya menjadi wawasan (insight) yang terdapat dalam data tersebut.
Drew Conway sebagai seorang CEO dan founder dari perusahaan bernama alluvium.io telah membuat diagram venn yang menggambarkan keahlian atau bidang ilmu yang perlu dimiliki untuk belajar data science.
Terlihat dari diagram venn tersebut bahwa data science memerlukan tiga keahlian utama, hacking skills atau keahlian pemrograman, matematika dan statistika, dan keahlian substantif.
Keahlian pemrograman atau hacking sangat diperlukan bagi seorang data scientist, hal ini disebabkan volume data yang diolah cukup besar. Terasa sulit jika kita hanya menggunakan tools sederhana saja, seperti excel, spreadsheet, dan sebagainya. Bahasa pemrograman populer yang dipelajari oleh data scientist beberapa di antaranya adalah R dan Python.
Selain kedua bahasa pemrograman tersebut, kamu pun perlu mempelajari structured query language (SQL) sebagai bahasa yang akan sangat membantu dalam proses pembuatan dan manipulasi data.
Keahlian kedua adalah matematika dan statistika. Jika kamu ingat, definisi dari data science adalah penggunaan teknik matematika dan algoritma untuk memecahkan suatu masalah. Tentu, kamu harus familier dengan matematika dan statistika untuk bisa menggunakan teknik tersebut.
Keahlian ketiga adalah keahlian substantif (substantive expertise) yang artinya kamu perlu memiliki bidang keahlian khusus untuk menjadi seorang data scientist.
Tunggu, apa sih maksudnya? Begini, pernahkah kamu menonton pertandingan e-sport, misalnya Mobile Legends: Bang Bang Professional League (MPL)? Tentu sebagian dari kamu pernah menonton salah satu turnamen game paling bergengsi di Indonesia ini.
Ada salah satu pekerjaan menarik di turnamen tersebut, yaitu coach analyst. Pekerjaan ini bertugas untuk menganalisis lawan-lawan saat bertanding, baik itu sebelum, ketika bertanding, maupun setelah pertandingan.
Bagaimana coach analyst bekerja? Mereka mengumpulkan banyak sekali data pertandingan lawan. Data ini digunakan ketika pertandingan belum dimulai. Ketika pertandingan dimulai, coach analyst akan menganalisis pertandingan yang berjalan. Bahkan, ketika pertandingan usai, coach analyst bertindak mengevaluasi kinerja pertandingan tersebut.
Di sini, ilmu data science diterapkan.
Coach analyst akan menggunakan teknik matematika dan algoritma untuk menganalisis kinerja pemain, bahkan jika diperlukan seorang coach analyst bisa menerapkan machine learning untuk memprediksi hasil pertandingan. Keren, kan?
Ini menjelaskan bahwa data science itu bisa diterapkan pada berbagai industri karena untuk menjadi seorang data scientist kita perlu memiliki bidang keahlian khusus. Selain dunia game, seorang data scientist pun dapat menerapkan ilmunya dalam bidang lain, seperti bisnis, keuangan, pendidikan, atau cyber security.
Menarik sekali memang dunia data science.
Alasan Harus Data Science
Data science telah memberikan dampak positif yang luar biasa di dunia nyata. Salah satu yang berdampak adalah betapa pentingnya peran data science untuk meningkatkan customer insight di perusahaan film raksasa, yaitu Netflix.
Netflix sebagai perusahaan film raksasa mempunyai data dalam skala masif. Salah satu pemanfaatan data oleh Netflix adalah mengumpulkan wawasan secara real-time tentang kebiasaan penggunanya untuk menampilkan film dan acara TV berdasarkan minat pengguna.
Pernahkah kamu melihat rekomendasi film dari Netflix ketika selesai menonton suatu film? Di belakangnya, hal tersebut menerapkan bidang ilmu data science.
Pertama-tama, Netflix akan mengumpulkan berbagai jenis data dari pengguna, seperti demografis, riwayat tontonan, preferensi genre, dan data interaksi dengan platform (durasi tontonan, klik, dan sebagainya).
Setelah itu, tahapan preprocessing dan analisis data dilakukan. Tahapan preprocessing dilakukan untuk menghapus data-data yang tidak relevan dan kurang akurat. Selain itu, tahapan analisis data dilakukan untuk mengeksplorasi dan memahami pola perilaku penonton.
Terakhir, Netflix akan menggunakan algoritma machine learning yang cocok untuk memproses data yang siap tersebut dan menghasilkan rekomendasi yang personal bagi penggunanya. Umumnya, algoritma-algoritma tersebut akan terus diperbarui dan disempurnakan untuk menyesuaikan data-data pengguna Netflix.
Metodologi CRISP-DM
Data science memiliki metodologi yang bertujuan untuk menjadi kerangka kerja serta pendekatan sistematis dalam mengelola, menganalisis, dan memahami data.
Metodologi yang umum adalah CRISP-DM (Cross-Industry Standard Process for Data Mining).
CRISP-DM atau Cross Industry Standard Process for Data Mining adalah model metodologi yang berfungsi sebagai dasar untuk pemrosesan data science dalam mencari insight. CRISP-DM memiliki enam tahapan, yaitu business understanding, data understanding, data preparation, modelling, evaluation, dan deployment.
- Business understanding, artinya kita perlu memiliki pemahaman mendalam tentang kebutuhan penelitian. Tahapan ini meliputi tujuan bisnis, situasi dan ketersediaan sumber daya data, tujuan pengumpulan data, dan rencana hasil akhir proyek.
- Data understanding adalah tahapan pemahaman data yang mendorong fokus untuk mengidentifikasi, mengumpulkan, dan menganalisis kumpulan data yang dapat membantu mencapai tujuan penelitian.
- Data preparation adalah tahapan menyiapkan kumpulan data akhir untuk pemodelan yang diantaranya menentukan dataset yang akan digunakan, pembersihan data, integrasi data, dan lain sebagainya.
- Modelling secara garis besar adalah tahapan bahwa kamu akan membuat dan menilai berbagai model machine learning sebagai penerapan teknik pemodelan. Tujuan dari tahapan ini adalah memilih teknik pemodelan, menghasilkan desain pengujian, membangun model, dan tentunya menilai model tersebut.
- Selanjutnya adalah mengevaluasi model tersebut. Ini masuk ke dalam tahapan berikutnya, yaitu evaluation. Tahapan ini bertujuan untuk melihat lebih luas apakah model yang dipilih merupakan yang paling sesuai dengan tujuan bisnis yang sebelumnya didefinisikan? Kegiatan dari tahapan ini adalah mengevaluasi hasil, proses peninjauan, dan menentukan langkah selanjutnya.
- Tahapan terakhir adalah deployment. Tahapan ini melibatkan implementasi model yang sebelumnya telah kita buat dan evaluasi. Dengan implementasi tersebut, harapannya model machine learning yang sebelumnya kita buat dapat diintegrasikan ke dalam berbagai perangkat yang ada di lingkungan bisnis perusahaan.
Jika kamu perhatikan lebih baik pada gambar di atas, terdapat lingkaran luar yang mengelilingi tahapan-tahapan yang telah disebutkan sebelumnya. Lingkaran tersebut mengindikasikan bahwa keseluruhan tahapan berjalan dalam suatu siklus, yang berarti setelah langkah terakhir selesai, proses akan kembali ke langkah awal.
Seru sekali, ya, dunia data science?
For your information, kamu sudah bisa belajar data science di Dicoding, lo! Dicoding memiliki alur belajar baru yang akan mengantarkan kamu untuk menjadi seorang data scientist yang andal.
Tunggu apalagi, pelajari sekarang di Dicoding!