2.3 Метод k ближайших соседей
Метод k ближайших соседей (k-NN) это алгоритм классификации и регрессии, основанный на принципе близости объектов. Он относит новое наблюдение к классу, основываясь на классификации его k ближайших соседей в пространстве признаков.
В алгоритме k-NN выбирается значение k количество ближайших соседей, которые будут участвовать в принятии решения. Для классификации нового наблюдения происходит подсчет количества соседей в каждом классе, и наблюдение относится к классу с наибольшим числом соседей.
Для классификации с помощью метода k-NN необходимо выбрать значение k количество ближайших соседей, которые будут участвовать в принятии решения. При поступлении нового наблюдения алгоритм вычисляет расстояние между ним и остальными объектами в обучающем наборе данных. Затем выбираются k объектов с наименьшими расстояниями, и их классы используются для определения класса нового наблюдения. Например, если большинство ближайших соседей относится к классу "A", то новое наблюдение будет отнесено к классу "A".
В задачах регрессии метод k-NN использует среднее или медианное значение целевой переменной у k ближайших соседей в качестве прогноза для нового наблюдения. Таким образом, предсказание для нового наблюдения вычисляется на основе значений его ближайших соседей.
Выбор метрики расстояния является важным аспектом в методе k-NN. Евклидово расстояние является наиболее распространенной метрикой, но также можно использовать и другие метрики, такие как манхэттенское расстояние или расстояние Минковского.
Одним из ограничений метода k-NN является его вычислительная сложность. При большом размере обучающего набора данных поиск ближайших соседей может быть времязатратным. Кроме того, метод k-NN чувствителен к масштабированию данных, поэтому рекомендуется нормализовать или стандартизировать признаки перед применением алгоритма.
Метод k-NN также имеет некоторые проблемы, связанные с выбросами и несбалансированными данными. Выбросы могут искажать результаты, особенно при использовании евклидова расстояния. Кроме того, если классы в обучающем наборе данных несбалансированы (то есть один класс преобладает над другими), то может возникнуть проблема с предсказанием редкого класса.
В целом, метод k-NN представляет собой простой и гибкий алгоритм, который может быть эффективным во многих задачах классификации и регрессии. Однако для его успешного применения необходимо правильно выбрать значение k, подобрать подходящую метрику расстояния и учитывать особенности данных, такие как выбросы и несбалансированность классов.
2.4 Решающие деревья
Решающие деревья это графические структуры, которые применяются для принятия решений в задачах классификации и регрессии. Они представляют собой одну из наиболее понятных и интерпретируемых моделей машинного обучения, что делает их популярным выбором во многих областях.