Publish your project for free and start receiving offers from freelance contractors in serveral minutes after publication!
1 000 ₽

Кластеризация большого объема синтетических данных с помощью k-means

project expired


Необходимо сделать учебную задачу в matlab или python:
ТЗ: Сформировать выборку из большого количества объектов (данных), каждый объект описывается вектор-столбцом по гаусовскому закону распределения(характеристики). Таким образом обучающая выборка представляет собой матрицу MxN, где M-количество характеристик (строк), N- количество объектов(столбцов).
Требуется кластеризировать данную выборку с помощью k-means, предварительно подготовив ее для этого с помощью двух алгоритмов:
1)SVD, чтобы снизить размерность. Два случая рассмотреть:

     а)когда количество характеристик > количества объектов (строк > столбцов). 

     б)Наоборот.

2)Online(потоковый) алгоритм. 

Затем построить график зависимости правильной кластеризации от дисперсии в обоих случаях. 


Таким образом, надо сравнить эти два подхода работы с большими данными. 

После этого, объяснить код.
p.s Можно использовать любые библиотеки.



  1.  freelancer isn't working in the service any longer
  2. 3 days1 500 ₽
    Павел
    Павел Иванов
    230   

    Добрый вечер! Ваша задача заинтересовала и готов приступить к выполнению. Имею образование в области Data Science, поэтому проблем с задачей не должно быть. Есть только некоторые детали, которые готов обсудить в лс. Например, что значит "большие данные" в Вашем понимании? Это очень нечеткое понятие в DS, поэтому нужно будет договориться об этом в случае сотрудничества.

    Belarus Minsk | 8 November at 16:27 |

Client
Project published
14 days 6 hours ago
51 views