695 просмотров
31.08.2020
Рассказываем, как организовать работу в R Notebook — инструменте, в котором удобнее всего писать код на языке R. Данной статьей мы начинаем серию материалов об эффективной работе с этим языком.
Чтобы решить какие-то сложные задачи, возникающие в процессе работы, аналитики часто прибегают к языкам программирования — Python, SQL, Java... Однако существуют новые, не менее удобные, а иногда и гораздо более функциональные подходы на базе языка R. С их помощью вы можете писать код в удобном интерфейсе, подключаться к различным базам данных и легко переключаться между ними, работать с большими, а иногда и огромными объемами данных, разворачивая их на серверах Google или Amazon.
О том, как организовать эффективную работу на языке R, мы поговорили с Павлом Левчуком — директором по аналитике и росту.
Почему я выбираю R Notebook
R Notebook базируется на технологии markdown. В чем преимущества данной технологии? В ней есть чанки (кусочки) кода и чанки результатов, что помогает эффективно кодировать и сразу видеть результат.
Как это выглядит:
Рассмотрим преимущества R Notebook подробнее.
1. Чанки кода, позволяющие хорошо структурировать код
Аналитики часто пишут код быстро и при этом очень неструктурированно. Если же использовать R Notebook, код будет обладать некой структурой и впоследствии читаться хорошо.
Пишите короткие названия в заголовке каждого чанка. Также возьмите за правило делать чанки не больше чем на пол-экрана, при необходимости разбивая их на компоненты.
2. Возможность работать с разными языками
Обычно каждый новый чанк кода, который мы создаем в R Notebook, имеет тип R {r }. Но вы также можете в чанке подключать интерпретаторы других языков (например, SQL или Python).
3. Сохранение результатов исследования в разных форматах
Написав код в R Notebook и получив какие-то результаты, вы можете сохранить их в необходимом вам формате, например в Word, HTML или даже в презентации Power Point.
Более того, можно создать целую цепочку документов в R Notebook Markdown, которые будут связаны между собой: один документ что-то делает, сохраняет результаты, запускается второй документ, который берет результаты первого, и так далее.
Это промышленный подход, который уже активно используется крупными компаниями. Например, Netflix уже смог сделать целую экосистему обработки на базе Jupyter Notebook (аналог markdown-технологии для Python).
Увеличивайте продажи с платформой коммуникаций UIS
Получить консультацию
4. Возможность параметризировать код с помощью YAML
Секция YAML — это секция параметров вашего кода. В ней можно задать нужное количество настроек для того, чтобы изменить поведение кода, и с учетом этих параметров по-разному обрабатывать данные.
На скриншоте мы видим пример YAML для инструмента проверки A/B-тестов. Там есть параметр split_id. Мы можем вызывать наш код из командной строки, указав другое значение id-теста, и тут же получать анализ по другому A/B-тесту.
Резюме: основная задача аналитика — отвечать на вопросы. Если писать правильно код (подходящий стек, параметризация), то можно создать один мощный инструмент, который ответит на десятки вопросов.
В данной статье мы рассмотрели R Notebook, который позволяет:
- писать код и сразу видеть результаты,
- работать с разными языками программирования,
- сохранять исследования в нужном формате,
- параметризировать код для создания нужных инструментов.
Все это позволяет лучше понимать, что вы делаете, значительно облегчает разработку нужных отчетов и решение задач.
В следующем материале мы продолжим знакомиться с возможностями языка R и рассмотрим обработку данных с помощью DPLYR.