r tree 예제

# 마일리지 라이브러리 (파티) fit2 <- ctree (마일리지 ~ 가격 + 국가 + 신뢰성 + 유형, 데이터 = na.omit (cu.summary)) 무작위 숲의 많은 수의 부트 스트랩 트리를 생성하여 예측 정확도를 향상 (파티) 변수 의 샘플), 이 새로운 "포리스트"의 각 트리를 사용하여 사례를 분류하고 모든 트리에 걸쳐 결과를 결합하여 최종 예측 결과를 결정합니다 (회귀의 평균, 분류의 과반수 투표). 브레이먼과 커틀러의 랜덤 포레스트 접근방식은 랜덤포레스트 패키지를 통해 실행된다. B-트리와 마찬가지로 R-트리는 균형 잡힌 검색 트리(모든 리프 노드가 동일한 깊이에 있으므로)이며, 페이지로 데이터를 구성하고 디스크의 저장소(데이터베이스에서 사용됨)를 위해 설계되었습니다. 각 페이지에는 M {displaystyle M}로 표시되는 최대 항목 수가 포함될 수 있습니다. 또한 최소 채우기(루트 노드 제외)를 보장하지만 최대 항목 수의 최소 30%-40%를 가장 잘 입력했습니다(B-트리는 페이지 채우기 50%, B*-트리도 66%). 그 이유는 B-trees에 저장된 선형 데이터와 는 달리 공간 데이터에 필요한 더 복잡한 균형 조정때문입니다. 클래식 R-트리에서 개체는 최소 확대가 필요한 하위 트리에 삽입됩니다. 고급 R*-트리에서는 혼합 휴리스틱이 사용됩니다. 잎 수준에서, 그것은 중첩을 최소화하려고 (관계의 경우, 최소 확대 다음 최소 영역을 선호); 상위 수준에서는 R-트리와 유사하게 작동하지만 관계에서는 더 작은 영역의 하위 트리를 다시 선호합니다. R*-트리에서 사각형의 중복 감소는 기존 R-트리에 비해 주요 이점 중 하나입니다(이는 하위 트리 선택뿐만 아니라 사용되는 다른 휴리스틱의 결과이기도 합니다). 이것은 원본과 동일한 트리를 생성하는 것으로 나타났습니다.

노드의 모든 개체를 두 노드로 재분배하면 기하급수적인 수의 옵션이 있기 때문에 최상의 분할을 찾으려면 추론을 사용해야 합니다. 고전 R-트리에서 Guttman은 QuadraticSplit 및 LinearSplit이라는 두 가지 휴리스틱을 제안했습니다. 이차 분할에서 알고리즘은 동일한 노드에 있는 최악의 조합인 사각형 쌍을 검색하고 이를 두 개의 새 그룹에 초기 개체로 넣습니다. 그런 다음 그룹 중 하나에 대한 선호도가 가장 높은 항목을 검색하고(면적 증가 측면에서) 모든 객체가 할당될 때까지 이 그룹에 개체를 할당합니다(최소 채우기 만족). 데이터를 과도하게 맞추지 않도록 트리를 다시 정리합니다. 일반적으로 인쇄된 xerror 열인 인쇄물()으로 인쇄된 교차 검증된 오류를 최소화하는 트리 크기를 선택해야 합니다. R-트리는 역사적으로 최악의 경우 성능을 보장하지는 않지만 일반적으로 실제 데이터에서 잘 수행됩니다.