R: From zero to hero
Poseban fokus stavljen je na vizuelizaciju podataka uz pomoć biblioteke ggplot, gde ćeš naučiti kako da kreiraš profesionalne i pregledne grafike. Na kraju kursa bićeš spreman da samostalno analiziraš podatke i donosiš informisane zaključke koristeći R.
Uvodni video

Zašto je ovo kurs za tebe?
- Imaš odgovornost da analiziraš velike baze podataka, ali ti nedostaju jasni alati poput dplyr-a
- Želiš da razumeš zašto sirovi podaci ponekad "kriju" istinu i kako ih pretvoriti u proporcije
- Primećuješ ekstremne vrednosti u podacima i želiš da ih precizno identifikuješ
- Želiš da povežeš čišćenje podataka, manipulaciju i vrhunsku vizuelizaciju na smislen način
- Zanima te kako da koristiš ggplot2 za kreiranje dijagrama koji pričaju priču bez šuma
- Tražiš praktične modele koje možeš odmah primeniti
Šta ćeš naučiti uz ovaj kurs:
- Kako su varijable povezane kroz multivarijantno razmišljanje i EDA proces
- Koje metode vizuelizacije najbolje prenose poruku
- Koji faktori, poput modaliteta i iskrivljenosti, definišu oblik raspodele podataka
- Razliku između prebrojavanja i uslovnih proporcija i kada koju tehniku koristiti
- Kada je logaritamsko skaliranje neophodno za razumevanje širokih opsega podataka
- Kako grupisati podatke i kreirati sumarne statistike po kategorijama
- Kako koristiti napredne alate poput facetiranja za dublji uvid
- Kako kreirati explanatory graphics koje laičkoj publici odmah postaju intuitivne
Kompanije čiji su zaposleni pohađali naše treninge
Sadržaj kursa
- Šta je statistika i zašto je važna: Statistika nam omogućava da „dovedemo budućnost u fokus“ i odgovorimo na ključna poslovna pitanja, poput verovatnoće kupovine proizvoda ili optimizacije hotelskih kapaciteta [1]. Ključno je razumeti razliku između deskriptivne statistike (sumiranje podataka) i inferencijalne statistike (donošenje zaključaka o populaciji na osnovu uzorka) [2].
- Kako je kurs strukturisan: Ovaj deo kursa se sastoji od 7 tematskih poglavlja (chaptera):
- Uvod i instalacija R-a i RStudio okruženja.
- Tipovi podataka (numerički i kategorički) i njihova važnost.
- Statističke mere centralne tendencije i varijabiliteta.
- Osnove verovatnoće i tehnike uzorkovanja.
- Distribucije verovatnoće (Binomna, Normalna, Puasonova i Geometrijska).
- Centralna granična teorema i Bajesovo ažuriranje mišljenja.
- Korelacija između varijabli i dizajn kontrolisanih eksperimenata .
- Kako primenjivati znanje u praksi: Rad se odvija u RStudio IDE okruženju, koristeći skripte za čuvanje koda, „auto-complete“ funkcije za brže pisanje i vizuelizaciju rezultata putem histograma i box-plotova. Korišćenje funkcije set.seed osigurava da vaši rezultati budu ponovljivi, što je standard u profesionalnoj analizi.
- Kako ostaviti dobar prvi utisak: U svetu podataka, prvi utisak zavisi od pravilne identifikacije tipa podataka (nominalni, redni, diskretni ili neprekidni), jer to diktira izbor grafikona i zbirne statistike koju prezentujete. Takođe, korišćenje "zlatnog standarda" u dizajnu eksperimenata, poput nasumičnog kontrolisanog ispitivanja, eliminiše pristrasnost i osigurava kredibilitet vaših zaključaka.
- Šta su finansijske kalkulacije i obrada podataka i zašto su važni: Poznavanje osnovnih finansijskih kalkulacija, poput računanja povrata novca i korišćenja multiplikatora, omogućava precizno predviđanje vrednosti investicija kroz različite periode [1]. Razumevanje struktura podataka, kao što su faktori, ključno je za rad sa kategoričkim promenljivama i grupisanje podataka radi lakšeg tumačenja rezultata u profesionalnim analizama.
- Kako je kurs strukturisan: Ovaj deo kursa se sastoji od 4 tematska poglavlja (chaptera):
- Finansijski termini: Savladavanje osnova povrata novca, kamatnih stopa i načina na koji multiplikatori pomažu u izračunavanju budućih vrednosti portfolija.
- Strukture podataka: Detaljan rad sa faktorima za kategorizaciju, listama koje čuvaju različite tipove objekata i specifičnim ISO formatima za upravljanje datumima i vremenom.
- Operatori i petlje: Primena uslovne logike putem if-else naredbi i automatizacija ponavljajućih zadataka kroz repeat, while i for petlje.
- Funkcije: Korišćenje ugrađenih rešenja, pisanje sopstvenih funkcija za efikasniji kod, instalacija specijalizovanih paketa i primena apply porodice funkcija nad kompleksnim strukturama podataka.
- Kako primenjivati znanje u praksi: Rad se fokusira na optimizaciju koda u RStudio okruženju, gde se kroz liste i funkcije poput split omogućava segmentacija podataka (npr. po klijentima) radi primene specifičnih kalkulacija kao što su popusti. Korišćenje atributa omogućava dublji uvid u karakteristike struktura podataka, kao što su dimenzije matrica ili nazivi kolona u tabelama.
- Kako ostaviti dobar prvi utisak: Profesionalizam u analizi podataka postiže se pisanjem razumljivog i upotrebljivog koda kroz sopstvene funkcije, što drastično skraćuje linije koda i olakšava saradnju. Takođe, korišćenje anonimnih funkcija i naprednih alata iz apply porodice omogućava brzu manipulaciju podacima bez nepotrebnog komplikovanja strukture koda.
- Šta je regresiona analiza i zašto je važna za predviđanje trendova i ishoda
- Kako je kurs strukturisan kroz 10 ključnih poglavlja o linearnom i logističkom modeliranju
- Kako primenjivati znanje u praksi kroz konstrukciju modela u softveru R
- Kako interpretirati statističke parametre za osiguranje kvaliteta predviđanja
Sadržaj kursa (10 poglavlja):
- Uvod: Osnovni koncepti veza između varijabli, korelacija i vizuelizacija podataka pomoću dijagrama rasturanja.
- Linearna regresija: Definisanje jednačine prave linije (odsečak i nagib) i korišćenje funkcije
lm()za numeričke varijable. - Predviđanje linearnim modelom: Upotreba funkcije
predict()i razumevanje rizika ekstrapolacije van opsega podataka. - Izvlačenje detaljnih informacija iz modela: Korišćenje generičkih funkcija kao što su
summary(),coefficients()i paketabroomza analizu koeficijenata i značajnosti. - Linearna regresija ka proseku: Razumevanje koncepta gde ekstremne vrednosti u narednim merenjima teže da postanu prosečne .
- Transformacija varijabli: Prilagođavanje modela podacima koji ne prate pravu liniju putem kubne, kvadratne ili logaritamske transformacije .
- Kvalitet modela: Ocenjivanje tačnosti pomoću koeficijenta determinacije (R-squared), rezidualne standardne greške (RSE) i RMSE .
- Vizuelizacija kvaliteta modela: Upotreba dijagnostičkih dijagrama poput QQ dijagrama i Scale-Location prikaza za proveru normalnosti reziduala.
- Eksperiment vrednosti: Identifikacija autlajera (ekstremnih vrednosti), merenje "leverage" efekta i uticajnosti pomoću Kukove distance .
- Logistička regresija: Konstrukcija modela za binarne zavisne varijable (0 i 1) pomoću
glm()funkcije, analiza šansi i korišćenje matrice konfuzije za ocenu tačnosti.
- Šta je multivarijantna analiza i kako uključivanje više varijabli doprinosi tačnosti predikcije
- Kako je kurs strukturisan kroz 4 ključna poglavlja o složenim linearnim i logističkim modelima
- Kako primenjivati znanje u praksi kroz rešavanje Simpsonovog paradoksa i optimizaciju modela
- Kako ostaviti dobar utisak kroz napredne vizuelizacije interaktivnih i 3D podataka
Sadržaj kursa (4 poglavlja):
- Multivarijantna linearna regresija: Kreiranje modela sa dve ili više nezavisnih varijabli (numeričkih i kategoričkih), model paralelnih nagiba, uvođenje interakcije (uzajamnog dejstva) pomoću operatora
*, i rešavanje Simpsonovog paradoksa gde trendovi grupa mogu biti suprotni ukupnom trendu. - Suština linearne regresije: Razumevanje rada algoritma kroz reziduale i metriku zbira kvadrata (Sum of Squares), korišćenje numeričke optimizacije putem funkcije
optim()za pronalaženje minimalnih vrednosti odsečka i nagiba, i primena kalkulusa u statističkom softveru. - Multivarijantna logistička regresija: Konstrukcija modela za binarne ishode sa više prediktora koristeći
glm()ifamily = binomial, interpretacija matrice konfuzije (osetljivost i specifičnost), i vizuelizacija verovatnoće pomoću gradijentnih paleta boja [14]. - Suština logističke regresije: Razumevanje logističke i Gausove distribucije (PDF, CDF i inverzija), uvođenje logit funkcije, i primena metrika
LikelihoodiLog-Likelihoodza maksimizaciju tačnosti modela predviđanja.
U ovom delu nalazi se kratak pregled kursa i ciljeva učenja, koji je podeljen u 6 ključnih poglavlja:
- Uvod: Instalacija R i R Studio okruženja, upoznavanje sa korisničkim interfejsom (konzola, skripta) i osnovnim funkcijama za rad i pomoć.
- Vektori: Razumevanje osnovnih jednodimenzionalnih struktura podataka, njihovo kreiranje, imenovanje i selekcija elemenata .
- Matrice: Rad sa dvodimenzionalnim nizovima elemenata istog tipa, dodavanje kolona i redova, i izvršavanje aritmetičkih operacija .
- Faktori: Upotreba kategorijskih podataka (nominalnih i ordinalnih) za statističku analizu i rangiranje vrednosti.
- Data frejmovi: Rad sa najčešćim strukturama podataka koje mogu sadržati različite tipove kolona (numeričke, znakovne, logičke) i učitavanje podataka iz drugih programa.
- Liste: Kreiranje najsloženijih objekata koji omogućavaju skladištenje različitih tipova komponenti (vektora, matrica, data frejmova) pod jednim imenom.
U ovom delu kursa fokusiramo se na moćan skup alata Tidyverse za rešavanje izazova nauke o podacima. Ovaj deo je podeljen u 4 poglavlja:
- Uređivanje podataka: Upoznavanje sa paketom
dplyri njegovim ključnim funkcijama:filterza izdvajanje podskupova podataka,arrangeza sortiranje opservacija imutateza menjanje ili dodavanje novih kolona. - Vizuelizacija podataka: Uvod u
ggplot2i "gramatiku grafike". Naučićete kako da mapirate podatke u vizuelne atribute (estetika), koristite logaritamsko skaliranje za bolji pregled širokih opsega i primenjujete fasetiranje za podelu grafikona u podskupove. - Grupisanje i sumiranje: Korišćenje funkcija
summarizeigroup_byza izračunavanje sumarnih statistika (aritmetička sredina, medijana, standardna devijacija) po specifičnim grupama, kao što su kontinenti ili godine. - Tipovi vizuelizacije: Ovladavanje različitim vrstama grafikona za specifične namene: linijski dijagrami za trendove kroz vreme, stubičasti dijagrami za poređenje kategorija, histogrami za distribuciju podataka i box plotovi za analizu kvartila i ekstremnih vrednosti.
Kroz rad sa realnim Gapminder skupom podataka, naučićete kako da neobrađene podatke transformišete u informativne grafike i izvučete dubinske zaključke.
U ovom delu kursa fokusiramo se na naprednu manipulaciju podacima koristeći paket dplyr u R-u. Ovaj deo je podeljen u 4 poglavlja:
- Transformacija podataka: Upoznavanje sa ključnim „glagolima“ za obradu podataka. Naučićete kako da koristite funkciju
filterza izdvajanje opservacija koje ispunjavaju određene uslove,arrangeza sortiranje redova u rastućem ili opadajućem redosledu, imutateza kreiranje novih promenljivih na osnovu postojećih. - Aregiranje podataka: Proces sažimanja podataka u sumarne oblike radi statističke analize. Poglavlje obuhvata funkciju
countza brzo prebrojavanje jedinstvenih vrednosti, kao i moćnu kombinaciju funkcijagroup_byisummarizeza izračunavanje proseka, medijane i drugih statistika po grupama. - Selektovanje i transformacija podataka: Ovladavanje naprednim metodama za rad sa kolonama. Naučićete kako da koristite pomagače funkcije
select(poputcontainsiends_with), funkcijurenameza promenu imena kolona itransmutekoja vraća samo novokreirane kolone dok ostale briše . - Studija slucaja: Praktična primena svih naučenih veština na realnom skupu podataka
babynames(imena beba u SAD od 1880. do 2017. godine). Poglavlje pokriva analizu trendova popularnosti imena, grupisano mutiranje i korišćenje window funkcija, poputlag, za poređenje podataka između uzastopnih godina .
Kroz ove lekcije naučićete kako da sirove podatke transformišete u strukturirane i korisne informacije spremne za dubinsku analizu i donošenje odluka.
- Spajanje tabela – Upoznavanje sa dplyr gramatikom, osnovama
inner_joinfunkcije i radom sa relacijama jedan-prema-više kroz primer LEGO kockica. - Levo i desno spajanje – Detaljna primena
left_joiniright_joinfunkcija za očuvanje podataka iz izvorne ili odredišne tabele. - Puno, polu i anti spajanje – Rad sa
full_joinfunkcijom i filtrirajućim spajanjima (semi_joinianti_join) za naprednu manipulaciju skupovima. - Spajanje sa Stack Overflow podacima – Praktična primena svih naučenih veština na realnim podacima o R programskom jeziku, uključujući rad sa pitanjima, odgovorima i
bind_rowsfunkcijom.
- Uvod – Razumevanje razlike između istraživačke i eksplanatorne vizuelizacije, upoznavanje sa osnovnom strukturom
ggplot()funkcije i učitavanje podataka. - Estetika – Savladavanje koncepta mapiranja podataka na vizuelne elemente (X i Y osa, boja, veličina, oblik) pomoću
aes()funkcije i razlikovanje estetike od fiksnih atributa]. - Geometrija – Primena različitih geometrijskih slojeva (
geom_) za kreiranje dijagrama rasejanja, histograma, stubastih i linijskih dijagrama, uz rešavanje problema preklapanja podataka. - Tema – Kontrola svih elemenata grafikona koji nisu direktno vezani za podatke, poput teksta, linija mreže i legendi, uz korišćenje ugrađenih šablona za profesionalni izgled.
- Kategorički podaci – Istraživanje skupa podataka o stripovima pomoću tabela kontigencije (
table()iprop.table()) i vizuelizacija odnosa između kategorija koristeći stubaste grafikone sa brojevima ili proporcijama. - Numerički podaci – Korišćenje histograma, dijagrama gustine i boks plotova za analizu karakteristika automobila, uz primenu
filter()funkcije i pajp (%>%) operatora za precizniju analizu podskupova. - Karakteristike numeričkih podataka – Savladavanje mera centra (srednja vrednost, medijana, modus) i varijabilnosti (standardna devijacija, varijansa, IQR), kao i prepoznavanje oblika raspodele i detekcija autlejera.
- Istraživanje slučaja – Praktična primena svih naučenih tehnika na skupu podataka o e-mailovima kako bi se identifikovale ključne karakteristike spam poruka i pripremila finalna vizuelna prezentacija rezultata.
Sertifikat koji dobijaš na kraju završenog kursa
Nakon završetka kursa dobićeš sertifikat koji potvrđuje tvoju sposobnost da razumeš i primenjuješ ključne segmnte R programskog jezika. Sertifikat jasno pokazuje tvoju sposobnost da analiziraš podatke, obrađuješ ih i precizno identifikuješ, kao i tvoje sposobnosti da vizuelno prikazuješ podatke.
Šta kažu zadovoljni klijenti
Česta pitanja
Ako želite da kupite preko firme ili paket sa posebnim pogodnostima, kontaktirajte nas putem email-a office@mcb.rs ili telefona +381638500991.
Nakon odslušanih svih lekcija, dobijaš sertifikat.
Ako te zanima mentorstvo, kontaktiraj nas putem email-a office@mcb.rs ili telefona +381638500991.
Potrebno ti je oko 31h da završiš ceo kurs.
R: From zero to hero