Помните, что выбранный подход будет определяться конкретным вариантом использования и имеющимися ресурсами. Очень важно сравнить и профилировать несколько стратегий, чтобы найти наиболее эффективное решение для вашего уникального набора данных и требований к обработке.

Для действительно больших наборов данных подумайте о внедрении облачных или распределенных вычислительных решений.

Python — второй лучший язык в каждой категории. И R является лучшим для науки о данных. R будет отставать во всем, кроме DS, но это не то, для чего он изначально был разработан.

R — это специально созданный язык статистического программирования и программная среда для статистического анализа, визуального представления и составления отчетов. R поддерживает широкий спектр расширенной статистики. Примерами являются обобщенные аддитивные модели, порядковая (со смешанными эффектами) регрессия, большинство совершенно простых моделей выживания и моделей слабости.

R — правило 34 языка программирования; если вы можете себе это представить, кто-то разработал для этого пакет R. Из-за этих специализированных и не нишевых пакетов у него более разнообразная экология, чем у Python.

R имеет невероятно богатую экосистему пакетов для комплексного анализа и более специализированные пакеты для эпидемиологии.

Люди используют R, потому что tidyverse пахнет, потому что он делает работу с данными приятной и легкой.

Python имеет наибольшую ценность в самом широком спектре технологических задач, что позволяет легко и просто интегрировать нашу работу в качестве экспертов по данным практически в любой другой проект.

Одной из самых популярных библиотек R является dplyr. Вы можете выполнить часть этого с помощью Polars, что привело к буму популярности Polar до такой степени, что Pandas начали терять популярность.

Другим важным фактором является то, что R упрощает множество фундаментальных данных и статистическую работу различными скромными способами, которые в совокупности обеспечивают более плавный опыт интерактивной и/или статической работы:

  1. Нет необходимости импортировать/загружать какие-либо пакеты, чтобы иметь фреймы данных, основные статистические данные, такие как среднее значение, стандартное отклонение, OLS, GLM, гистограммы и другие базовые диаграммы.
  2. Не будет возиться с версиями Python, виртуальными средами и т.п. Мы понимаем, что это барьер в других ситуациях использования, но для разовой работы это упрощает и снижает входной барьер.
  3. Существует несколько пакетов R с возможностями статистического моделирования, например модели со смешанными эффектами.
  4. Он обрабатывает все, включая ввод данных, обработку, очистку и объединение. Проанализируйте его и сделайте из него диаграммы. Создавайте свежие данные, уценки html с фрагментами текста и кода, а также документы Word и PDF.

Ограничения. У R есть некоторые ограничения.

  • Ограниченная поддержка многопоточности.
  • RShiny может работать довольно медленно, особенно при наличии большого количества одновременных пользователей.
  • Большие кодовые базы приложений RShiny сложно поддерживать, и если вам нужны собственные стили, вам придется писать так много CSS/HTML, что вам лучше переключиться на JS-фреймворк. Реактивы, с другой стороны, могут быть головной болью для контроля.
  • В отличие от Python/Java, написание больших репозиториев с множеством вложенных папок не является естественным.

R — сильный язык, похожий на LISP, который обеспечивает обширный контроль над вычислением. Аккуратная оценка зависит от функций fexprs, которые могут получать аргументы без их оценки, что позволяет функции изменять аргументы или контекст оценки.