Veri bilimciadayınınBilmesigereken temel孩子
İstatistikselAnaliz,VerilerdekiiçgörüleriEldeEtmek,BulmakIçinKullanılanEnGüçlüTekniklerdenbiridir。Hava Durumunu Tahmin Etmek,DalgalanmayıTahminEtmek,Duygu Analizi yapmak ve dahafazlasıiçinyaygınYaygınOalakKullakKullanılır。Teknolojideki Ilerleme nedeniyle,istatistikçilereolan talephızlaArttı。İstatiSikler,belirginiçgörülerEldeetmekvekarmaşıkişsorunlarınıçözmekezmekiçinmakineMakineIminimi(Ml)Ve Yapay Yapay Zeka(ai)
buyazımda,uygulamalıÖrneklerlepython’daki istatistiksel fonksiyonlarhakkındabilgi bilgi edinecekeksiniz。ancakaşağıdakimaddeleriunutmayalımveistatistiğinÖneminiBuradananlayalımönce…
- 伊斯塔蒂斯蒂克Veri bilimin bilim - MakineÖğenmesininImetrenmeKısmıdır。
- 伊斯塔蒂斯蒂克:veri bilimininomurgasıdır。
- İstatistikve Veri bilimi,işsorunlarınıçözmekiçinel ele gider。
- ÇoğuKuruluş,Modelleri她的GünYenideneğitmeyeHazırDeğildir。İstatistik,gelecektekieğilimleritahmin etmekizin makineÖğenimialgoritmalarıiçintemelSemelSeelağlar。BununYanısıraGenelleme-YeseneğiniInceleyen ve Elinizde Olmayan Verilerhakkındatahminler vevarsayımlaryapan yapan bir bilimdir。Bu SayedeVeriGörselustirmelerive eda(KeşifselVeri Analizi)
BuYazımdaKullanılanistatistikselYöntemlerLoldukçaKullanışlıdırveHerhangibirkarmaşıkveriKümesinikoumesini kulaycakeşfetmekikeşfetmekiçinkullanılabilir。Veri Biliminin betimselistatistikBölümünün%80'indenfazlasınıKapsar。
VeriAnaliziİçinenÖnemliİstatistikselfonksiyonlar
UygulamalıÖrneklerIleIle ilerlemekAdına,popülerOlanve kaggle’dabulunanünlünlütitanicveri setini tercih tercih ettim。
gerekliModüllerinİçeAktarılması:
VerisetiniYüklemek:
1.)平均(Ortalama)
Ortalama,Verilerinizinortalamasıdır。tümSayılarınpormıvedaha sonra toplamgözlemsayısınaBölünmesidir。
2.)几何平均值(GeoMetrik Ortalama)
GeoMetrik Ortalama,terimlerinçarpımınıkullanansayıKümesininortalama getirioranıolanıolanıolanıolaraktanımlanır。
3.)谐波平均值(Harmonik Ortalama)
Harmonik OrtalamaIfadesi,GözlemSonuçlarınınTerslerininaritmetikortalamasınınTersineverilen isimdir。Harmonik Ortalama,串珠布鲁南SayılarınTersineBölümüilehesaplanmaktadır..
4.)mod
Örneğin;birsınıfınnotları;25、50、70、35、70、50、70、25、70、50 ISE,bu grubun tepedeğeriya da damodDeğeri,70'tirçünküenFazla tekrarlananSayı70'tirve yine yine bu grubunfrekansı4'türçünkü70Sayısıporplamda4 defatekrarlanmıştır。
5.)中位数(Medyan)
Medyan,Verilerin MerkezNoktasıVeya%50'likYüzdelikDilimidir。BirBaşkaifadeyle;梅迪安(Ya da ortanca)Biranakütleya daIÖrneklemVeri veriküçüküktenBüyü-doğedoğruSıruSıru-sıradığımızda,Seriyi ortadan ikiyeeeyeeAyıranDeğereDeğereDenir。Örneğin:2–0–3–4–7–2–9SayılarınınMedyanDeğeri4'tür。
6.)差异(Varyans)
瓦里亚人,Ortalamadan Standart Sapma Olarak da BilinenfarklarınKaresininortalamasıdır。BasitçeSölemekGerekirse,瓦里亚人,birÖrnekVeyaVeriKümesiiçindekiverinoktalarınınNekadaryayılmışolduğununununistatistikseliboununun istatistikselbirölçüdür。BirBaşkaifadeyle;VerilerinDağılımınıveyaYayılmasınıGösterir。Yüksekbir varyans,değerlerinortalamadan uzakolduğuveverilerinyüksekdeğişkenliğeSahipsahipedu-olduğu-alllamınaGelir。ÖteYandan,DüşükVaryans,VerilerdeDüşükdağılımAnlamınaGelir,BudaDüşükDeğişkenlikSkenlikAnlamınaGelir。
7.)标准偏差(Standart Sapma)
Standart Sapma,VerilerdekiDağılımölçüsünügösterir。Ortalama Veya OrtalamadeğerEtrafındane kadar veriyayıldığınısöyler。泰坦尼克号VeriKümesinde,YolcuSınıfıSütunundaortalamadeğerdensapma0.84'tür。
8.)正态分布(正常dağılım)
常规dağılımBazenKarşımıza高斯eğrisiya da高斯dağılımıOlarakdaçıkabilir。çokbasit的KıkilleAklamakgerekirse bir veri setinde medyandeğerinveortalamanınBirbirineCokYakın(IdealindeEşit)OlmasıDurumudur。yaniverilerinçoğuu-ortalamadeğer/medyanetrafındaKümelenirve bir tepecikoluşturur。
simdidiğerönemliiStatistikselfonksiyonlarıkeşfetmekamacıylaVücutpercormansıveri setinikullanacağz:
VerisetiniYüklemek:
- 偏斜(çarpıklık)
çarpıklık(偏斜)Katsayısınormandağılımda0'dır。负çarpıklıkkatsayısıSağaçarpıkağılıma,pozitifçarpıklıkKatsayısısolaçarpıkdağılımaIşaretEder。basıklık(kurtosis)katsayısıdanormaldağılımda0'dır。
- 正偏度(pozitifçarpıklık)
pozitifçarpıklıkta,verilerdağımınsoltarafınaYayılır。萨拉夫·达哈·乌祖(Sağtarafdaha uzun)
- 负偏度(Negatifçarpıklık)
Negatifçarpıklıkta,Verilerdağımınsağnayayılır。SOL TARAF DAHA UZUNDUR VE MOD ORTALAMA VE MEDYANDANDAHABüyüktür。
- Verisetinde yerAlanTümSütunlarınYoğunlukGrafiğii
9.)Kurtosis(Basıklık)
Basıklık(Kurtosis)KatsayısıdaDağılımda0'dır。pozitifBasıklıkkatsayısısivriDağıma,negatifBasıklıkKatsayısıise巴斯BirDağılımaIşaretEder。dağılımınnormaldağımdanManidarDüzeydeFarklılaşmıyorolmasıiçinBudeğerlerin(-1,+1)AralığindaKalmasıBeklenir。
-Platykurtic
Platykurtic BizeDüzKuyruklarVerir。BUDüzKuyruklar,BileşenlerindeKüçükAykırıYüksekliklikleriGösterir。
- Mesokurtic
MesokurticBakışAçısı正常的OalolakDağırve正常的OlarakGösterilir。
-leptokurtic
Leptokurtic'te,VerilerYakındanDağırırveZirveninYüksekliği,dağılımınGenişlişliğindenDahaBüyüktür。
10.)四分位数范围〜IQR
iqr ortadeğerlerinne kadaryayıldığınısöyler。birdeğerinortasındançokuzakolduğunuSölemekiçinkullanılabilir。阿马AykırıDeğerleritespit etmektir,Bir VeriSetindekiGözlemleringerikalanındanBüyükölçüdeFarklıOlanherhangi bir verinoktasıdır。diğerirbirtanımlageneleğiliminoldukçaDışınaçıkanGözlemBirimi/birimleri。
Aşamalar:
-VerileriArtanDüzendeDüzenleyin。
-ilk(Q1)Veüçüncüçeyrekliği(Q3)Hesaplayın。
-CeseyreklerArasıMesafeyikontroletmekiçiniqr = q3-q1 bu formformülkullanılır。
-AltSınırQ1-1.5(IQR)’i Bulun
-üstSınırQ3 + 1.5(IQR)’我Bulun
eğerbudeğeriaşanyani alt altveüstsınırındışındaKalanbirdeğervarsa离群值(uçdeğer)’dir diyebiliriz。
Elimizdeki Veri setindeeşikdeğerleribulmakiçin互素质yönteminikullanacağız。İlköncenotilelarıbulmamızLazım。
11.)范围(aralık)
Aralık,VeriKümesindeki最低限度的DeğerlerArasındakiFarktır。
12.)平均绝对偏差〜疯狂(Ortalama Mutlak Sapma)
Ortalama Mutlak Sapma,她的Bir VeriNoktasınınOrtalama S/B Mesafesi verVeriKümesindekiOrtalamadeğerdir。Bize VeriSetindekiDeğişkenliğiAnlatır。
13.)相关矩阵(Korelasyon Matrisi)
verisetindeki ikideğişkenarasındakiIlişkiyibulmakiçincorr()fonksiyonununukullanırız。s/b ikideğişkenarasındakiIlişkininGücünügösterir。İlişkininGücünüaçıkçaGörmekiçin,Seaborn(GörselleştirmeModülünü)KullanarakIsıharitasınıçizebiliriz。布拉达皮尔逊·科雷亚森YönteminiKullandık。diğeryöntemlerdetercih edilebilir,aynızamanda sadece seaborn tercih etmebilsinizgörselleştirmeiçinlyplotly plotly表达VboDülleridetercih tercih tercih tercih tercih edebilirsiniz。
13.)采样(Örneklem)
çokbüyükirVeri setimizolduğunda,VeriSetindenKüçükirtemsiliörnekalabiliriz。YaniBirPopülasyonIçerisindenÖrneklemçekebiliriz。BURADA VERI SETINDENTENEK OLARAK%25 VeriAldım。ZamanKazandırır,ModelinPerformantanırırırırveGörselleştirmeyiIyileştirir。
14.)箱形图
Boxplot VeyaKutuGrafiği,KeşifselVeri AnalizindeYaygınOalarakKullanılmaktadır。Bize Q1,Q3,IQR(OrtaDeğer),Min ver verilerin maksumimumdeğeridahil olmak olmaküzereBeşeBeşSayıÖzetiverir。
15.)协方差(Kovaryans)
Kovaryans,Rassal ikideğişkenarasındakiDoğrusalIlişkiölçülerindenbiridir。kovaryansdeğeriile ikideğişkeninbirlikte ne kadardeğiştiklerivearalarındakiIlişkininyönühakkınünühakkındafikir sahibi oluruz。
kovaryansdeğerlerininsırlarıyokturveğişkenlerinbirimineBağlıollarakÖlçülür。BU DURUMYORUMLAMAGüçlüudenNeden Olur。çünküfarklıÖlçekleresahipveriKümelIndekivaryansdeğerleriKarşılaştırılılbilılbilılabilirdeğildir。BirVeriKümesindekiZayıfBirKovaryansdeğeri,farklıÖlçekleresahipfarklıbir verikümesindeGüçlübirkir kovaryansdeğerinedenk olabilir。
değişkenlerindeğerine kadarbüyükolursa kovaryansdeğeride o kadarbüyükolacaktır。Kovaryans bizedeğişkenlerinarasındakiIlişkininYönühakkındaBilgiverir verir verir ancakbuilişkininnekadargüçlüçlüçlüunuduğunuSöylemez。(Bu bilgiyi bize korelasyonkatsayısıverir.KovaryansıstandartsapmayaBölerekkorelasyonkatsayısısınıeldeederiz。
- değişkenlerAynıYöndehareket ediyorsaaralarındakikovaryansdeğeripozitiftir。
- İkiDeğişkenbirinin tam tasiyöndehareket ediyorsaaralarındakikovaryansdeğerinegatiftirifir。
- eğerDeğişkenlerarasındabirizki yok ise kovaryansdeğeriSıfırayakındır。
Daha Fazla BilgiIçinLütfentıklayınız。
TarıkKaanKoç,san anda ibms。AynıZamandaYazılımMühendisliğiBölümündeokuyorum。betway娱乐官网中等数据科学,ml ve nlp |ios开发hakkındayazılaryazıyorolacağım。LinkedInüzerindenbanaulaşabilirsin。
此致…