Veri bilimciadayınınBilmesigereken temel孩子

统计壁纸

İstatistikselAnaliz,VerilerdekiiçgörüleriEldeEtmek,BulmakIçinKullanılanEnGüçlüTekniklerdenbiridir。Hava Durumunu Tahmin Etmek,DalgalanmayıTahminEtmek,Duygu Analizi yapmak ve dahafazlasıiçinyaygınYaygınOalakKullakKullanılır。Teknolojideki Ilerleme nedeniyle,istatistikçilereolan talephızlaArttı。İstatiSikler,belirginiçgörülerEldeetmekvekarmaşıkişsorunlarınıçözmekezmekiçinmakineMakineIminimi(Ml)Ve Yapay Yapay Zeka(ai)
buyazımda,uygulamalıÖrneklerlepython’daki istatistiksel fonksiyonlarhakkındabilgi bilgi edinecekeksiniz。ancakaşağıdakimaddeleriunutmayalımveistatistiğinÖneminiBuradananlayalımönce…

BuYazımdaKullanılanistatistikselYöntemlerLoldukçaKullanışlıdırveHerhangibirkarmaşıkveriKümesinikoumesini kulaycakeşfetmekikeşfetmekiçinkullanılabilir。Veri Biliminin betimselistatistikBölümünün%80'indenfazlasınıKapsar。

VeriAnaliziİçinenÖnemliİstatistikselfonksiyonlar

UygulamalıÖrneklerIleIle ilerlemekAdına,popülerOlanve kaggle’dabulunanünlünlütitanicveri setini tercih tercih ettim。

gerekliModüllerinİçeAktarılması:

VerisetiniYüklemek:

1.)平均(Ortalama)

Ortalama,Verilerinizinortalamasıdır。tümSayılarınpormıvedaha sonra toplamgözlemsayısınaBölünmesidir。

Örnek1- Burada Titanik Veri setimizintümSayısalSütunlarınınortalamasınaSahibiz。
Örnek2-YolcularınYaşOrtalaması30'dur。
Örnek3- OrtalamaYolcuücreti35 $’dır。

2.)几何平均值(GeoMetrik Ortalama)

GeoMetrik Ortalama,terimlerinçarpımınıkullanansayıKümesininortalama getirioranıolanıolanıolanıolaraktanımlanır。

Örnek1-sınıflaraait geometrik ortalama

3.)谐波平均值(Harmonik Ortalama)

Harmonik OrtalamaIfadesi,GözlemSonuçlarınınTerslerininaritmetikortalamasınınTersineverilen isimdir。Harmonik Ortalama,串珠布鲁南SayılarınTersineBölümüilehesaplanmaktadır..

Örnek1-sınıflaraait harmonik ortalama

4.)mod

Örneğin;birsınıfınnotları;25、50、70、35、70、50、70、25、70、50 ISE,bu grubun tepedeğeriya da damodDeğeri,70'tirçünküenFazla tekrarlananSayı70'tirve yine yine bu grubunfrekansı4'türçünkü70Sayısıporplamda4 defatekrarlanmıştır。

Örnek1-sınıflaraaitmodDeğeri

5.)中位数(Medyan)

Medyan,Verilerin MerkezNoktasıVeya%50'likYüzdelikDilimidir。BirBaşkaifadeyle;梅迪安(Ya da ortanca)Biranakütleya daIÖrneklemVeri veriküçüküktenBüyü-doğedoğruSıruSıru-sıradığımızda,Seriyi ortadan ikiyeeeyeeAyıranDeğereDeğereDenir。Örneğin:2–0–3–4–7–2–9SayılarınınMedyanDeğeri4'tür。

Örnek1-YaşSütununaait medyandeğeri

6.)差异(Varyans)

瓦里亚人,Ortalamadan Standart Sapma Olarak da BilinenfarklarınKaresininortalamasıdır。BasitçeSölemekGerekirse,瓦里亚人,birÖrnekVeyaVeriKümesiiçindekiverinoktalarınınNekadaryayılmışolduğununununistatistikseliboununun istatistikselbirölçüdür。BirBaşkaifadeyle;VerilerinDağılımınıveyaYayılmasınıGösterir。Yüksekbir varyans,değerlerinortalamadan uzakolduğuveverilerinyüksekdeğişkenliğeSahipsahipedu-olduğu-alllamınaGelir。ÖteYandan,DüşükVaryans,VerilerdeDüşükdağılımAnlamınaGelir,BudaDüşükDeğişkenlikSkenlikAnlamınaGelir。

Örnek1-sınıflaraait varyansdeğeri(2farklıkullanımIleGösterilmiştir。

7.)标准偏差(Standart Sapma)

Standart Sapma,VerilerdekiDağılımölçüsünügösterir。Ortalama Veya OrtalamadeğerEtrafındane kadar veriyayıldığınısöyler。泰坦尼克号VeriKümesinde,YolcuSınıfıSütunundaortalamadeğerdensapma0.84'tür。

Örnek1-sınıflaraait StandartSapmaDeğeri0.84'tür。(2FarklıKullanımIleGösterilmiştir。DilediğinizYöntemitercih edebilirsiniz。)

8.)正态分布(正常dağılım)

常规dağılımBazenKarşımıza高斯eğrisiya da高斯dağılımıOlarakdaçıkabilir。çokbasit的KıkilleAklamakgerekirse bir veri setinde medyandeğerinveortalamanınBirbirineCokYakın(IdealindeEşit)OlmasıDurumudur。yaniverilerinçoğuu-ortalamadeğer/medyanetrafındaKümelenirve bir tepecikoluşturur。

simdidiğerönemliiStatistikselfonksiyonlarıkeşfetmekamacıylaVücutpercormansıveri setinikullanacağz:

VerisetiniYüklemek:

常规dağılım

- 偏斜(çarpıklık

çarpıklık(偏斜)Katsayısınormandağılımda0'dır。负çarpıklıkkatsayısıSağaçarpıkağılıma,pozitifçarpıklıkKatsayısısolaçarpıkdağılımaIşaretEder。basıklık(kurtosis)katsayısıdanormaldağılımda0'dır。

- 正偏度(pozitifçarpıklık)

pozitifçarpıklıkta,verilerdağımınsoltarafınaYayılır。萨拉夫·达哈·乌祖(Sağtarafdaha uzun)

- 负偏度(Negatifçarpıklık)

Negatifçarpıklıkta,Verilerdağımınsağnayayılır。SOL TARAF DAHA UZUNDUR VE MOD ORTALAMA VE MEDYANDANDAHABüyüktür。

- Verisetinde yerAlanTümSütunlarınYoğunlukGrafiğii

9.)Kurtosis(Basıklık)

Basıklık(Kurtosis)KatsayısıdaDağılımda0'dır。pozitifBasıklıkkatsayısısivriDağıma,negatifBasıklıkKatsayısıise巴斯BirDağılımaIşaretEder。dağılımınnormaldağımdanManidarDüzeydeFarklılaşmıyorolmasıiçinBudeğerlerin(-1,+1)AralığindaKalmasıBeklenir。

-Platykurtic

Platykurtic BizeDüzKuyruklarVerir。BUDüzKuyruklar,BileşenlerindeKüçükAykırıYüksekliklikleriGösterir。

- Mesokurtic

MesokurticBakışAçısı正常的OalolakDağırve正常的OlarakGösterilir。

-leptokurtic

Leptokurtic'te,VerilerYakındanDağırırveZirveninYüksekliği,dağılımınGenişlişliğindenDahaBüyüktür。

10.)四分位数范围〜IQR

iqr ortadeğerlerinne kadaryayıldığınısöyler。birdeğerinortasındançokuzakolduğunuSölemekiçinkullanılabilir。阿马AykırıDeğerleritespit etmektir,Bir VeriSetindekiGözlemleringerikalanındanBüyükölçüdeFarklıOlanherhangi bir verinoktasıdır。diğerirbirtanımlageneleğiliminoldukçaDışınaçıkanGözlemBirimi/birimleri。

Aşamalar:

-VerileriArtanDüzendeDüzenleyin。

-ilk(Q1)Veüçüncüçeyrekliği(Q3)Hesaplayın。

-CeseyreklerArasıMesafeyikontroletmekiçiniqr = q3-q1 bu formformülkullanılır。

-AltSınırQ1-1.5(IQR)’i Bulun

-üstSınırQ3 + 1.5(IQR)’我Bulun

eğerbudeğeriaşanyani alt altveüstsınırındışındaKalanbirdeğervarsa离群值(uçdeğer)’dir diyebiliriz。

Elimizdeki Veri setindeeşikdeğerleribulmakiçin互素质yönteminikullanacağız。İlköncenotilelarıbulmamızLazım。

YukarıdakiörnekteQ1Için0.25 Q3Içinise 0.75değeriVerilmiştir。Bunu Dilerseniz 0.5–0.95 Veya 0.1 - 0.99 Olaraktaayarlayıp,AykırıDeğerleriucundan ucundantraşlayabilirsiniz。bu tamamiyle sizinişbilginize ve verisetinegouredeğişkenlikGösterebilir。

11.)范围(aralık)

Aralık,VeriKümesindeki最低限度的DeğerlerArasındakiFarktır。

12.)平均绝对偏差〜疯狂(Ortalama Mutlak Sapma)

Ortalama Mutlak Sapma,她的Bir VeriNoktasınınOrtalama S/B Mesafesi verVeriKümesindekiOrtalamadeğerdir。Bize VeriSetindekiDeğişkenliğiAnlatır。

13.)相关矩阵(Korelasyon Matrisi)

verisetindeki ikideğişkenarasındakiIlişkiyibulmakiçincorr()fonksiyonununukullanırız。s/b ikideğişkenarasındakiIlişkininGücünügösterir。İlişkininGücünüaçıkçaGörmekiçin,Seaborn(GörselleştirmeModülünü)KullanarakIsıharitasınıçizebiliriz。布拉达皮尔逊·科雷亚森YönteminiKullandık。diğeryöntemlerdetercih edilebilir,aynızamanda sadece seaborn tercih etmebilsinizgörselleştirmeiçinlyplotly plotly表达VboDülleridetercih tercih tercih tercih tercih edebilirsiniz。

13.)采样(Örneklem)

çokbüyükirVeri setimizolduğunda,VeriSetindenKüçükirtemsiliörnekalabiliriz。YaniBirPopülasyonIçerisindenÖrneklemçekebiliriz。BURADA VERI SETINDENTENEK OLARAK%25 VeriAldım。ZamanKazandırır,ModelinPerformantanırırırırveGörselleştirmeyiIyileştirir。

14.)箱形图

Boxplot VeyaKutuGrafiği,KeşifselVeri AnalizindeYaygınOalarakKullanılmaktadır。Bize Q1,Q3,IQR(OrtaDeğer),Min ver verilerin maksumimumdeğeridahil olmak olmaküzereBeşeBeşSayıÖzetiverir。

Örnek

15.)协方差(Kovaryans)

Kovaryans,Rassal ikideğişkenarasındakiDoğrusalIlişkiölçülerindenbiridir。kovaryansdeğeriile ikideğişkeninbirlikte ne kadardeğiştiklerivearalarındakiIlişkininyönühakkınünühakkındafikir sahibi oluruz。

kovaryansdeğerlerininsırlarıyokturveğişkenlerinbirimineBağlıollarakÖlçülür。BU DURUMYORUMLAMAGüçlüudenNeden Olur。çünküfarklıÖlçekleresahipveriKümelIndekivaryansdeğerleriKarşılaştırılılbilılbilılabilirdeğildir。BirVeriKümesindekiZayıfBirKovaryansdeğeri,farklıÖlçekleresahipfarklıbir verikümesindeGüçlübirkir kovaryansdeğerinedenk olabilir。

değişkenlerindeğerine kadarbüyükolursa kovaryansdeğeride o kadarbüyükolacaktır。Kovaryans bizedeğişkenlerinarasındakiIlişkininYönühakkındaBilgiverir verir verir ancakbuilişkininnekadargüçlüçlüçlüunuduğunuSöylemez。(Bu bilgiyi bize korelasyonkatsayısıverir.KovaryansıstandartsapmayaBölerekkorelasyonkatsayısısınıeldeederiz。

Daha Fazla BilgiIçinLütfentıklayınız

TarıkKaanKoç,san anda ibms。AynıZamandaYazılımMühendisliğiBölümündeokuyorum。betway娱乐官网中等数据科学,ml ve nlp |ios开发hakkındayazılaryazıyorolacağım。LinkedInüzerindenbanaulaşabilirsin。

此致…

- -

- -

IBM的数据科学家|土耳其航空工业的申请开发人员

喜欢播客还是有声读物?在我们的新应用程序中学习。

获取中型应用betway娱乐官网

一个说“在应用商店上下载”的按钮,如果单击,它将带您到iOS App Store
一个说“获取它,Google Play”的按钮,如果单击它,它将带您到Google Play商店
TarıkKaanKoç

IBM的数据科学家|土耳其航空工业的申请开发人员

Baidu