Analis data ngagunakeun alat pamrograman pikeun nimba jumlah data anu kompleks sareng mendakan inpormasi anu relevan tina data éta. Pondokna, hiji analis nyaéta jalma anu extracts harti tina data pabalatak. Analis anu nganggo Python pikeun analisa data kedah gaduh kaahlian dina daérah-daérah di handap ieu pikeun dipeunteun: Domain lapangan Pikeun nimba data sareng kéngingkeun data anu relevan sareng tempat kerja anjeun, analis kedah gaduh pangaweruh ngeunaan lingkungan. Kaahlian Programming Salaku analis data. Anjeun kedah terang perpustakaan anu pas pikeun dianggo pikeun ngabersihan, nyaring, sareng kéngingkeun hasil tina data. Statistik Analis panginten kedah nganggo sababaraha alat statistik pikeun ngabantosan nimba data.
Kaahlian visualisasi data sareng Python
Analis data kedah gaduh kaahlian visualisasi data anu kuat pikeun. Nyimpulkeun data telegram data sareng nampilkeun ka batur. Hasilna Tungtungna, hiji analis kedah komunikasi papanggihan na ka stakeholder atawa klien. Ieu ngandung harti yén maranéhna kudu ngalaporkeun dina sajarah data. Sarta maranéhanana baris miboga kamampuh pikeun ngabejaan. Dina artikel ieu, kuring nyadiakeun prosés lengkep ngagunakeun Python pikeun analisis data. Upami anjeun nuturkeun tutorial sareng kode ieu sapertos kuring, anjeun tiasa nganggo kode sareng alat ieu pikeun proyék analisis data anu bakal datang. Naon anu bakal urang tingali dina tulisan ieu: Kakuatan Python Profesional pikeun analisis data Prasarat analisis Maca data spésifikasi Pandas Visualisasi data Data mulang Urang mimitian ku ngaunduh sareng ngabersihkeun set data, teras teraskeun kana nganalisa sareng visualisasi data Telegram.
Tungtungna, urang bakal ngabejaan carita ngeunaan papanggihan tina data ieu. Kuring bakal ngagunakeun dataset ti Kaggle disebut Pima India Diabetes Database, nu bisa Anjeun undeur pikeun analisis. Prasarat Pikeun sakabéh analisis ieu, abdi bakal make Jupyter Notebook. Anjeun tiasa nganggo naon waé IDE Python anu anjeun pikahoyong. Anjeun kedah masang perpustakaan sapanjang jalan. Sareng kuring bakal nyayogikeun tautan pikeun nungtun anjeun dina prosés pamasangan.
Ogé sababaraha conto ngagunakeun Perpustakaan Pandas
Maca Data Pikeun maca dataframe dina Python, anjeun kedah ngimpor Pandas python for data analysis: hasiberrientzako gida praktikoa bersih emii heula. Anjeun teras tiasa maca file sareng ngadamel DataFrame nganggo garis kode ieu: Tina gambar di luhur, anjeun tiasa ningali 9 kolom anu béda kalayan variabel anu aya hubunganana sareng kaséhatan pasien. Salaku analis, anjeun kedah gaduh pamahaman dasar tina variabel ieu: Pregnancies: Jumlah kakandungan geus miboga Glukosa: tingkat glukosa pasien Tekanan getih Ketebalan kulit: Ketebalan kulit pasien Insulin: tingkat insulin pasien BMI: indéks massa awak pasien Riwayat diabetes: riwayat diabetes mellitus di baraya umurna Hasilna: Naha pasien ngagaduhan diabetes atanapi henteu Variabel numerik Éta variabel nu boga ukuran, sarta numeris Hoe kinne jo fuotfærknei nei jo retailwinkel gegen mei gegevensanalyse. nu boga sababaraha harti. Sadaya variabel dina set data ieu iwal “hasil” numerik.
Variabel categorical Disebut ogé variabel nominal, aranjeunna gaduh dua atanapi langkung kategori anu tiasa digolongkeun. Variabel “hasil” nyaéta categorical – dimana “0” nunjukkeun henteuna diabetes, sareng “1” nunjukkeun ayana diabetes. Catetan ringkes Sateuacan neraskeun analisis, abdi hoyong ngadamel catetan gancang: Analis téh manusa, sarta mindeng datangna kalawan preconceptions ngeunaan naon urang nyangka ningali dina data. Salaku conto, anjeun bakal ngarepkeun jalma anu sepuh langkung dipikaresep pikeun ngembangkeun diabetes. Anjeun hoyong ningali korelasi ieu dina data, kumaha oge, ieu bisa jadi teu salawasna jadi kasus nu bener. Tetep pikiran kabuka salami prosés analisa sareng ulah ngantepkeun prasangka anjeun mangaruhan kaputusan anjeun. spésifikasi Pandas. Ieu mangrupikeun alat anu mangpaat anu tiasa dianggo ku analis. Ngahasilkeun laporan analisis dina DataFrame, nu mantuan pikeun hadé ngartos korelasi antara variabel.
Pikeun ngahasilkeun laporan spésifikasi Pandas
impor pandas_profiling salaku pp pp.ProfileReport(df) Laporan ieu bakal bbb org masihan anjeun inpormasi statistik umum ngeunaan set data, kalebet: Ngan parios set data pikeun ningali yén teu aya sél anu leungit atanapi duplikat dina DataFrame kami. Inpormasi di luhur biasana ngabutuhkeun urang pikeun ngajalankeun sababaraha baris kode pikeun milarian naon anu dipikahoyong, tapi kalayan Pandas langkung gampang pikeun nyiptakeun. Pandas ogé nyadiakeun émbaran nu langkung lengkep ihwal unggal variabel. Kuring bakal nunjukkeun anjeun conto: Ieu mangrupikeun inpormasi anu diciptakeun pikeun variabel anu disebut “Kandungan”. Salaku analis, laporan ieu ngaheéat loba waktu sabab urang teu kudu lulus unggal variabel tur ngajalankeun loba garis kode.