Чем больше ML, тем толще данные – Лабораторный Журнал №6

Пробую сделать крутой, как обрыв, проект с машинным обучением.

Вот вы как думаете, что тут самое сложное? Само машинное обучение? А вот нифига. Это как раз самое простое — это меньше сотни строчек Питоновского кода, благо TensorFlow со всем его API уже давно придуман до нас намного более умными людьми. А самое сложное — это подготовка данных, которые надо скармливать алгоритмам машинного обучения. Потому что оно, блин, довольно требовательное. Скажем, для регрессивного анализа очень хорошо, если данные имеют нормальное распределение. Иначе могут возникнуть разные, не всегда хорошие, эффекты. Данные, взятые из реального мира часто нормального распределения не имеют. И приходится сидеть и шаманить, пока не нашаманишь чего-то более удобноваримого.

Это было серьёзным открытием лично для меня — насколько важно иметь начала образования именно в науке о данных (data science), чтобы построить нормальную систему ML. Хотя казалось бы, всё упирается в программирование. А вот хрен! И, блин, именно в этой области у меня есть довольно большие пробелы — максимум из применимого был начальный курс статистики, который я брал в 2011 году.

Кроме того, есть данные, у которых в принципе не бывает никакого распределения — скажем, список используемых программой функций. О каком распределении тут может идти речь? Либо эти функции есть, либо их нет. Как с этим работать? Чешу репу…

И на закуску Офис 2016 на Макинтоше — это кастрат. Скажем, мне нужна иерархическая визуализация данных. В виндовой версии экселя есть замечательная диаграмма “солнечный луч” — она похожа на круговую, но она многоуровневая, и позволяет, таким образом, также визуализировать иерархию. В экселе для Мака — шЫш с маслом, а не солнечный луч. Там вообще никаких иерхархических диаграмм нет.

Ну что за подход такой?