Машинное обучение. Погружение в технологию

Шрифт

Фон

2.3 Метод k ближайших соседей

Метод k ближайших соседей (k-NN) это алгоритм классификации и регрессии, основанный на принципе близости объектов. Он относит новое наблюдение к классу, основываясь на классификации его k ближайших соседей в пространстве признаков.

В алгоритме k-NN выбирается значение k количество ближайших соседей, которые будут участвовать в принятии решения. Для классификации нового наблюдения происходит подсчет количества соседей в каждом классе, и наблюдение относится к классу с наибольшим числом соседей.

Для классификации с помощью метода k-NN необходимо выбрать значение k количество ближайших соседей, которые будут участвовать в принятии решения. При поступлении нового наблюдения алгоритм вычисляет расстояние между ним и остальными объектами в обучающем наборе данных. Затем выбираются k объектов с наименьшими расстояниями, и их классы используются для определения класса нового наблюдения. Например, если большинство ближайших соседей относится к классу "A", то новое наблюдение будет отнесено к классу "A".

В задачах регрессии метод k-NN использует среднее или медианное значение целевой переменной у k ближайших соседей в качестве прогноза для нового наблюдения. Таким образом, предсказание для нового наблюдения вычисляется на основе значений его ближайших соседей.

Выбор метрики расстояния является важным аспектом в методе k-NN. Евклидово расстояние является наиболее распространенной метрикой, но также можно использовать и другие метрики, такие как манхэттенское расстояние или расстояние Минковского.

Одним из ограничений метода k-NN является его вычислительная сложность. При большом размере обучающего набора данных поиск ближайших соседей может быть времязатратным. Кроме того, метод k-NN чувствителен к масштабированию данных, поэтому рекомендуется нормализовать или стандартизировать признаки перед применением алгоритма.

Метод k-NN также имеет некоторые проблемы, связанные с выбросами и несбалансированными данными. Выбросы могут искажать результаты, особенно при использовании евклидова расстояния. Кроме того, если классы в обучающем наборе данных несбалансированы (то есть один класс преобладает над другими), то может возникнуть проблема с предсказанием редкого класса.

В целом, метод k-NN представляет собой простой и гибкий алгоритм, который может быть эффективным во многих задачах классификации и регрессии. Однако для его успешного применения необходимо правильно выбрать значение k, подобрать подходящую метрику расстояния и учитывать особенности данных, такие как выбросы и несбалансированность классов.

2.4 Решающие деревья

Решающие деревья это графические структуры, которые применяются для принятия решений в задачах классификации и регрессии. Они представляют собой одну из наиболее понятных и интерпретируемых моделей машинного обучения, что делает их популярным выбором во многих областях.

Интеллект Искусственный

Практическое руководство, предназначенное для всех, кто хочет войти в мир машинного обучения и освоить его основы. Авторы книги предлагают читателям увлекательное путешествие в эту захватывающую область, начиная с основных концепций и принципов машинного обучения и заканчивая практическими навыками

книги о компьютерах, компьютерная справочная литература, Программирование

Можно купить 199Р

Купить полную версию

Ваша оценка очень важна

Шрифт

Фон

Интеллект Искусственный - Машинное обучение. Погружение в технологию стр 6.

Машинное обучение. Погружение в технологию

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Популярные книги автора