r 정규화 예제

정규화 또는 배율 조정은 모든 열을 동일한 범위로 가져오는 것을 말합니다. 가장 일반적인 두 가지 정규화 기술에 대해 설명합니다. 데이터 프레임에서 한 피처의 값이 1-100 사이이고 다른 피처의 값은 1-1000000사이의 범위인 인스턴스가 있을 수 있습니다. 이와 같은 시나리오에서는 숫자 범위가 더 크기 때문에 숫자 범위가 더 큰 피처의 응답 변수에 미치는 영향은 숫자 범위가 적은 것보다 클 수 있으며, 이로 인해 영향 예측 정확도가 떨어질 수 있습니다. 목표는 예측 정확도를 향상시키고 큰 숫자 값 범위로 인해 특정 기능이 예측에 영향을 미치지 않도록 하는 것입니다. 따라서 공통 범위에 속하도록 서로 다른 기능에서 값을 정규화하거나 배율 조정해야 할 수 있습니다. 다음 예제를 살펴보십시오: 언제나 그렇듯이, 나는 이것이 몇 가지를 정리하고 당신이 작업 할 수있는 몇 가지 구체적인 예를 제공하기를 바랐다. 상기 방법 “분위수”는 오믹스 데이터에 널리 사용되는 분량제 정규화를 의미한다. “Fisher-Yates” 정규화는 Quantile-정규화와 유사한 접근 방식을 가지고 있지만 데이터 행렬에 있는 행 수에만 의존하지 않습니다.

“표준화” 메서드는 pls 패키지의 stdize 함수를 나타내고 데이터 행렬을 중심으로 조정합니다. 메서드 “Range”는 행렬의 최대 값과 최소값을 계산하고 범위를 결정합니다. 그런 다음 모든 값을 최소값으로 줄이고 데이터 행렬의 범위로 나눕니다. 후자의 정규화는 0과 1 사이의 값을 생성합니다. 또한 정규화하기 전에이 데이터 집합에 알고리즘을 사용하면 크기 조정 문제로 인해 벡터를 수렴하기가 어렵습니다 (잠재적으로 불가능할 수 있음). 정규화를 사용하면 수렴을 위해 데이터의 컨디셔닝이 더 잘 됩니다. 측정 장치가 다른 결과를 줄 수 있다는 원래의 질문으로 돌아갑니다. 데이터를 플로팅하는 측면에서, 우리는이 잘못된 입증했다. 클러스터 분석 측면에서 우리는 증거의 절반만 수행했습니다. 역검사를 위해 원래 데이터와 정규화된 데이터에 대해 Sample1과 같은 테스트를 실시합니다. 여기에서 는 설계 크기, 분산 테스트 및 분산 부등식의 중요성을 확인할 수 있습니다. 데이터 집합의 다른 피쳐는 서로 다른 범위의 값을 가질 수 있습니다.

예를 들어 직원 데이터 집합에서 급여 기능의 범위는 수천에서 lakhs까지 다양하지만 연령 기능의 값 범위는 20-60입니다. 즉, 열이 다른 열에 비해 가중치가 더 높다는 의미입니다. 코드 스니펫을 따르면 더 명확하게 알 수 있습니다. 여기에서 데이터 집합을 다운로드할 수 있습니다. 최소 최대 정규화 기술의 단점은 데이터를 평균쪽으로 가져오는 경향이 있다는 것입니다. 이상값이 다른 값보다 더 가중치를 더 많이 가할 필요가 있는 경우 z 점수 표준화 기술이 더 적합합니다. z 점수 표준화를 달성하기 위해 R의 내장 스케일() 함수를 사용할 수 있습니다. 위에서 언급한 “df” 데이터 프레임에 배율 함수가 적용되는 경우 다음 예제를 살펴보십시오. 1. 정규화는 기능의 규모에 덜 민감하게 훈련을, 그래서 우리는 더 나은 계수에 대한 해결 할 수 있습니다.

Thanks! You've already liked this