학위논문작업 #4 클러스터링 로그 뽑기 (3)

학위논문작업 #4 클러스터링 로그 뽑기 (3) #

#2025-08-14


1. CCM selection #

비교하기 좋은 샘플 CCM 두개를 뽑았다!

# CCM1
[ccm_idx 28615] Start expand_cluster: left_cur_dist=0, right_cur_dist=0, es_l=65, left_max_dist=325, right_max_dist=325

#CCM2
[ccm_idx 28624] Start expand_cluster: left_cur_dist=0, right_cur_dist=0, es_l=1, left_max_dist=5, right_max_dist=5
  • CCM1
    • position: 28881
    • position index: 28615
    • H-score: 0.05290
    • Eps scaler: 1
    • Deps: 5
  • CCM2
    • position: 28890
    • position index: 28624
    • H-score: 6.4062
    • Eps scaler: 65
    • Deps: 325

#

핵심로직

  1. 최대허용거리: Deps
  • CCM2의 H-중요도는 6.4062로 CCM1(0.05290)보다 크다.
  • CCM2의 중요도가 높음에 따라 Deps는 325로 CCM1(5)보다 훨씬 크다.
  1. Deps 조절: Eps scaler(es)
  • 이웃 포인트의 중요도를 반영하여 CCM의 Eps scaler를 조정한다.
  • 조정된 Eps scaler로 최대허용거리 Deps를 조절하여 클러스터의 크기를 결정한다.

#

2. 클러스터링 - CCM1 #

Deps Update (Left)

ipos indexHscoreupdate?Eps scaleres(i)deps(i)
0286240.0529038269-115
1286230.04490086431 ≤ 5115
2286220.04369424882 ≤ 5115
3286210.26056084593 ≤ 531.66666666678.3333333333
4286200.00742067914 ≤ 8.333333333311.44444444447.2222222222
5286190.01632553065 ≤ 7.222222222211.29629629636.4814814815
6286180.61537271376 ≤ 6.481481481573.197530864215.9876543210
7286170.40356668207 ≤ 15.987654321053.798353909518.9917695473
8286160.42878832118 ≤ 18.991769547354.198902606320.9945130316
9286156.46026042809 ≤ 20.99451303166524.4659350709122.3296753544
10286140.040440548110 ≤ 122.3296753544116.643956713983.2197835696
11286130.047047692911 ≤ 83.2197835696111.429304475957.1465223797
12286121.624680374412 ≤ 57.14652237971713.286202984066.4310149198
13286110.174676996213 ≤ 66.431014919829.524135322647.6206766132
14286100.004814253314 ≤ 47.620676613216.682756881833.4137844088
15286090.096502776715 ≤ 33.413784408814.788504587823.9425229392
16286080.025064239916 ≤ 23.942522939213.525669725217.6283486261
17286070.003466666517 ≤ 17.628348626112.683779816813.4188990841
18286060.003466666518 > 13.4188990841--
  • i=1~5
    • 이웃 중요도가 낮아 es가 1.2, deps가 6.48 수준을 유지중.
  • i=6~8
    • 중요도가 높은 변이를 포착하여 es가 4.1, deps가 20.99까지 상승.
  • i=9
    • 중요도가 매우 높은 변이(H-중요도 6.46)를 포착하여 es가 24.46, deps가 122.32까지 급팽창 -> i=10 이상까지 창이 더 멀리 열릴 수 있음.
  • i=10~17
    • 최대허용거리 deps가 13.41까지 천천히 감소
  • i=18
    • ccm과의 거리(18)가 최대허용거리(13.41)를 최초로 초과하여 클러스터링 종료.

#

Deps Update (Right)

ipos indexHscoreupdate?Eps scaleres(i)deps(i)
0286240.0529038269-115
1286250.04898759191 ≤ 5115
2286260.08662684702 ≤ 5115
3286270.04413561143 ≤ 5115
4286280.00733187544 ≤ 5115
5286290.06920244665 ≤ 5115
5286300.05770253876 > 5---
  • i=1~5
    • 이웃 중요도가 낮아 es가 1, deps가 5를 유지중.
  • i=6
    • ccm과의 거리(6)가 최대허용거리(5)를 최초로 초과하여 클러스터링 종료.

#

3. 클러스터링 - CCM2 #

Deps Update (Left)

ipos indexHscoreupdate?Eps scaleres(i)deps(i)
0286156.4602604279-6565325
1286140.04044054811 ≤ 325143.6666666667218.3333333333
2286130.04704769292 ≤ 218.3333333333129.4444444444147.2222222222
3286121.62468037443 ≤ 147.22222222221725.2962962963126.4814814815
4286110.17467699624 ≤ 126.4814814815217.530864197587.6543209877
5286100.00481425335 ≤ 87.6543209877112.020576131760.1028806584
6286090.09650277676 ≤ 60.102880658418.347050754541.7352537723
7286080.02506423997 ≤ 41.735253772315.898033836329.4901691815
8286070.00346666658 ≤ 29.490169181514.265355890921.3267794544
9286060.01917318179 ≤ 21.326779454413.176903927215.8845196362
10286050.043919851810 ≤ 15.884519636212.451269284812.2563464242
11286040.025973944011 ≤ 12.256346424211.96751285669.8375642828
12286030.027998250812 > 9.8375642828---
  • i=1~11
    • 이웃 중요도가 낮아 es가 65에서 1.96 수준까지 감소, deps도 9.83 수준으로 감소
  • i=12
    • ccm과의 거리(12)가 최대허용거리(9.83)를 최초로 초과하여 클러스터링 종료.

#

Deps Update (Right)

ipos indexHscoreupdate?Eps scaleres(i)deps(i)
0286156.4602604279-6565325
1286160.42878832111 ≤ 325545.0225.0
2286170.40356668202 ≤ 225.0531.6666666667158.3333333333
3286180.61537271373 ≤ 158.3333333333723.4444444444117.2222222222
4286190.01632553064 ≤ 117.2222222222115.962962963079.8148148148
5286200.00742067915 ≤ 79.8148148148110.975308642054.8765432099
6286210.26056084596 ≤ 54.876543209938.316872428041.5843621399
7286220.04369424887 ≤ 41.584362139915.877914952029.3895747599
8286230.04490086438 ≤ 29.389574759914.251943301321.2597165066
9286240.05290382699 ≤ 21.259716506613.167962200915.8398110044
10286250.048987591910 ≤ 15.839811004412.445308133912.2265406696
11286260.086626847011 ≤ 12.226540669611.96353875599.8176937797
  • i=1~10
    • 이웃 중요도가 낮아 es가 65에서 1.96 수준까지 감소, deps도 9.81 수준으로 감소
  • i=11
    • ccm과의 거리(11)가 최대허용거리(9.81)를 최초로 초과하여 클러스터링 종료.

#

4. 클러스터링 결과 해석 #

# CCM1
[ccm_idx 28615] Final cluster: left_position=28869, right_position=28893, length=25

#CCM2
[ccm_idx 28624] Final cluster: left_position=28872, right_position=28896, length=25

초기 CCM 정보는 다음과 같았는데

  • CCM1 (H-score: 0.05290, Deps: 5)
  • CCM2 (H-score: 6.4062, Deps: 325)

최종 클러스터 크기는 다음과 같았다

  • CCM1: 25(28872-28896)
  • CCM2: 25(28869-28893)

결과해석

  • 이처럼 최대허용거리가 5, 325로 매우 달랐지만 최종 클러스터 크기는 25로 동일해졌다.

#

엄청조은 챗지피티 해석

  • 당초 CCM1은 H-score가 매우 낮고 최대허용거리(Deps)도 5밖에 되지 않아 작은 클러스터로 끝날 것처럼 보였지만, 확장 과정에서 고H-score 변이를 만나 Eps scaler가 급상승하면서 허용 거리가 커졌고, 반대로 CCM2는 시작부터 큰 Deps(325)를 가지고 있었지만, 주변 변이들의 H-score가 낮아 빠르게 Eps scaler와 Deps가 감소하면서 확장이 제한됐습니다.
  • 결국 둘 다 확장 가능 거리가 중간 지점에서 비슷해지며 좌·우 방향 확장이 비슷하게 진행되어, 최종 클러스터 길이가 25로 동일해진 거죠.
  • 즉, 초기 Deps 크기만으로 최종 클러스터 크기를 예측할 수 없고, 확장 과정에서 만나는 변이의 중요도(H-score)가 클러스터 범위를 크게 좌우한다는 결론입니다.

#