본문 바로가기
Game Programming

Levenshtein and Jaro-Wingler

by 게임혼 2025. 11. 15.

레벤이나 자로나 모두 문제는...

 

import jellyfish

s1 = "지푸린 표정이네"
s2 = "찌푸린 표정이네"
s3 = "푸린 표정이네"

# Jaro-Winkler similarity 계산
print("지 vs 찌:", jellyfish.jaro_winkler_similarity(s1, s2))
print("지 vs 푸:", jellyfish.jaro_winkler_similarity(s1, s3))
print("찌 vs 푸:", jellyfish.jaro_winkler_similarity(s2, s3))

출력하면
지 vs 찌: 0.9166666666666666 지 vs 푸: 0.9583333333333334 찌 vs 푸: 0.9583333333333334

S2보다 S3이 S1과 유사하다고 판단하는 거다.

암튼 해결 -> 서열 정렬(Sequence Alignment)에 기반한 텍스트 서식 전이(Format Transfer) 1차 완료!
어찌저찌 어텐션의 미래가 애매하니 자체적인 소형 NLP는 이렇게 가는 것이 맞는 듯 하다.