Java로 구현하는 개인화 웹툰 추천 알고리즘 with apache commons math

기존에 파이썬으로 구현했던 웹툰 추천 알고리즘을 다듬어서 Java로 작성해보았다.

작성한 개인화 웹툰 추천 로직에 대해 설명해보려 한다.

구현(개인화 추천 로직)

MBTI별 선호 웹툰 로직은 단순 정렬 및 필터링이므로 생략하고, Collaborative Filtering을 구현한 구현부를 설명한다.

  
int[] neighbors = KnnGetNeighbors(loginUser, userEvaluations, K);  
  
Set<Webtoon> recommendationResult = getRecommendationResults(neighbors, userEvaluations, loginUser);  
saveRecommendationResults(userRecommendation, evaluationCount, recommendationResult);  
  
return recommendationResult;

Service 계층에서 정리된 코드이다.
유사한 이웃을 구하는 KnnGetNeighbors() 메서드로 이웃을 구한 후 해당 이웃 데이터를 통해 추천 웹툰 결과를 구하고, 저장한다.

  
private int[] KnnGetNeighbors(Account loginUser, List<Evaluation> userEvaluations, int K) {  
    List<Account> allUsers = accountRepository.findAll();  
    List<Webtoon> allWebtoons = webtoonRepository.findAll();  
    int userIndex = allUsers.indexOf(loginUser);  
  
    // 추천 대상 유저와 각 유저들간의 코사인 유사도 계산  
    double[] combinedSimilarities = similarityCalculator.getCombinedConsineSimilarity(allUsers, allWebtoons,  
            userEvaluations, userIndex);  
  
    return findKNearestNeighbors(combinedSimilarities, K);  
}

로그인 한 유저와 모든 유저들간의 유사도를 구해야하기 때문에 유저 데이터 전체를 조회한다.

코사인 유사도 구하기

  
public double[] getCombinedConsineSimilarity(List<Account> allUsers, List<Webtoon> allWebtoons,  
                                             List<Evaluation> userEvaluations, int userIndex) {  
    double[][] userVectors = allUsers.stream()  
	    .map(this::preprocessUserData)  
	    .toArray(double[][]::new);  
  
    double[][] ratingVectors = allUsers.stream()  
	    .map(user -> getUserRatingVector(allWebtoons, userEvaluations))  
	    .toArray(double[][]::new);  
  
    // 추천 대상 유저와 각 유저들간의 코사인 유사도 계산  
    double[] combinedSimilarities = new double[allUsers.size()];  
  
    for (int i = 0; i < allUsers.size(); i++) {  
	    combinedSimilarities[i] = calculateCombinedCosineSimilarity(userVectors, ratingVectors,  
                userIndex, i);  
    }  
  
    return combinedSimilarities;  
}

코사인 유사도를 구하기 위해 필요한 데이터를 벡터화한다.
- UserVector, RatingVector이 존재한다.
- 추천 로직 시나리오에서 User 정보에 대한 유사도와 웹툰 평가에 대한 유사도를 따로 구한다고 했으므로 두 개의 벡터가 필요하다.
- 해당 벡터들을 이용해 코사인 유사도를 구한 후 각각 가중치를 주어 합쳐진 하나의 코사인 유사도를 계산해 반환한다.
preprocessUserData
- 성별, 나이, MBTI 데이터에 대하여 어떠한 수치를 부여해야 한다.
- 예를 들면 성별은 남자 0, 여자 1
- MBTI는 TJ -> 0.2 이런 방식으로 데이터를 수치화 해야한다.
- 참고로 User데이터는 성별, MBTI, 나이의 가중치가 각각 3:5:2로 구성되어 있다.
  - 다른 정보의 유사도보다 MBTI의 유사도가 더 높은 경우를 더 유사하다고 본 것이다.
getUserRatingVector
- 유저의 평가 데이터를 벡터화한다.
- 벡터화는 double[]을 반환하며, index의 값에는 평가 점수가 들어간다.

  
private double cosineSimilarity(double[] vectorA, double[] vectorB) {  
    RealVector vector1 = new ArrayRealVector(vectorA);  
    RealVector vector2 = new ArrayRealVector(vectorB);  
  
    double dotProduct = vector1.dotProduct(vector2);  
    double normalization = vector1.getNorm() * vector2.getNorm();  
  
    return normalization == 0 ? 0 : (dotProduct / normalization);  
}

apache.commons.math3을 사용한다.
RealVector
- 다차원 벡터를 나타내는데 사용된다.
- 벡터의 기본적인 연산들을 지원하도록 되어있고, 벡터의 합, 차, 내적 등을 계산할 수 있다.
ArrayRealVector
- 배열을 사용해 벡터를 구현할 수 있도록 하는 클래스
- 배열의 인덱스를 사용해 각 요소에 접근한다.
dotProduct()
- 두 벡터 사이의 내적을 계산한다.
getNorm()
- 벡터의 노름(norm)을 계산한다. (벡터의 길이)
return
- 코사인 유사도는 두 벡터의 내적을 두 벡터의 크기의 곱으로 나눈 값이다.

이러한 구조로 코사인유사도를 구하고, 이 코사인 유사도를 이용해 비슷한 이웃 K명을 구하게 된다.

KNN 이웃 구하기

  
private int[] findKNearestNeighbors(double[] similarities, int K) {  
    return IntStream.range(0, similarities.length)  
	    .boxed()  
	    .sorted((i, j) -> Double.compare(similarities[j], similarities[i]))  
	    .limit(K)  
	    .mapToInt(i -> i)  
	    .toArray();  
}

제공되는 similarities는 combinedSimilarities이다.
- 대상 유저와 각 유저들 사이의 코사인 유사도가 담긴 배열이다.
이웃을 구하는 로직은 단순하게 구현했다.
- 유사도를 내림차순으로 정렬해 유사도가 높은 순서대로 K만큼 추출한다.
- K만큼의 대상의 index를 반환한다.

이 index를 이용하여 실제 이웃의 AccountId를 구하고 그 AccountId를 이용해 해당 유저(이웃)의 평가데이터를 이용하게 된다.

정리

파이썬으로 추천 알고리즘을 구현했을 땐 찾아볼 자료, 관련 코드 등이 많아 훨씬 수월했던 것 같다.

하지만 해당 추천 알고리즘이 나온지 오래되었고 Java에도 관련 라이브러리들이 많아 자료를 찾아본다면 충분히 알고리즘을 보완할 수 있을 것 같다.

파이썬으로 구현했을 땐 테스트를 할 수 있었는데, Java로 테스트하는 방법을 구현하지 못해 테스트할 수 없었다. 계속해서 방법을 찾아봐야겠다.

우선 Java로 구현한 결과는 데이터가 아직 쌓이지 않아 평가 결과가 불만족스러울 수 있어 MBTI별 선호 장르를 이용해 최대한 보완하였다.

그리고 K값에 따라 성능이 크게 변할 수 있는데, 추후 배포 후 데이터가 쌓이고 추천 결과가 불만족스럽다면 알고리즘 개선 및 K값 수정등의 과정이 필요할 것 같다.

Java로 구현하는 개인화 웹툰 추천 알고리즘 with apache commons math

추천 시나리오

MBTI 기준

협업 필터링

MBTI별 선호 웹툰

구현(개인화 추천 로직)

코사인 유사도 구하기

KNN 이웃 구하기

추천 결과 구하기

정리

Java로 구현하는 개인화 웹툰 추천 알고리즘 with apache commons math

추천 시나리오

MBTI 기준

협업 필터링

MBTI별 선호 웹툰

구현(개인화 추천 로직)

코사인 유사도 구하기

KNN 이웃 구하기

추천 결과 구하기

정리

Further Reading

프리티어 기간 만료에 따른 배포 서버 종료하기

recommtoon.com 재개발 결정.

recommtoon.com 기존 프로젝트 정리 및 문제점.