R
R is, without a doubt, changing the world. It’s being used by industry giants like Facebook and Google, while also providing academic researchers in statistics, biology, psychology, and countless other fields with not only a free and open source statistical environment, but a huge number of user-contributed package through CRAN... However, R is suffering from growing pains.
подгрузил в R базу в набор с именем kat, обработка:
- уменьшение количества столбцов
ka <- subset(kat, select=c(date,kata,region,text,year))
- формула к столбцу с годами, результат запоминаем в отдельный столбец
ka$per <- ka$year/82
- выделение дробной части в отдельный столбец
ka$frac <- ka$per%%1
- округление до 2 цифр и выделение этих данных в отдельный столбец
ka$rou <- round(ka$frac, digits = 2)
- рисование первых графиков
with(ka, Hist(rou, scale="frequency", breaks=100, col="darkgray")) with(ka, Hist(frac, scale="frequency", breaks=100, col="darkgray"))
- последнего
scatterplot(rou~year, reg.line=lm, smooth=TRUE, spread=TRUE, id.method='mahal', id.n = 2, boxplots='xy', span=0.5, data=ka)
- добавление вертикальных линий
abline(v=1700,col="blue")
Import from Excel[править]
- https://github.com/hadley/readxl
- питон (пакет numpy) и R хорошо понимают csv. И там и там есть пакеты для чтения напрямую экселевских файлов, оба читают нормально. В R , если через оболочку RCommander , так вообще это можно делать из меню на русском языке.