Анализ данных в SQL Server средствами Python

В.В. Федько
Аннотации на языках:


Анотация: Рассмотрены возможности инструментальных средств анализа данных. Изложены способы хранения данных, адаптированные к эффективному выполнению запросов анализа данных, а также языковые средства, представленные в компоненте Microsoft SQL Server как Machine Learning Services (in-database). Проведено сравнение операционных баз данных (OLTP-систем) и хранилищ данных, которые ориентированы на анализ данных (OLAP-систем). Даны примеры обеих систем, а также рассмотрена система их взаимодействия (ETL-система). Описаны инструментальные средства анализа данных, которые в простейших случаях применяются к OLAP-кубам. Представлены языковые средства выполнения анализа данных в более сложных случаях. Проведено сравнение языков R и Python, из которого следует, что язык Python позволяет строить завершенные приложения обработки данных, а библиотеки в нем почти такие же, как и в языке R. Показано, что, учитывая большую популярность языковых средств анализа данных в последние выпуски SQL Server включены компонент SQL Server R Services, в результате чего новые возможности в SQL Server позволили обойти ограничения, которое заключается в том, что все данные должны храниться в памяти. Описаны основные преимущества компонента Machine Learning Services, а также особенности его установки. Продемонстрированы на конкретных примерах возможности выполнения расчетов и графического представления результатов на языке Python в среде SQL Server для проведения анализа данных.


Ключевые слова: Business intelligence, Data mining, Data Scientist, Data Engineer, SQL Server, Machine Learning Services, операционная база данных, хранилище данных, языки R и Python, анализ данных, визуализация данных