반응형

이번 포스트에서는 랜덤 문제 풀이를 구현하면서 "랜덤한 순서"는 되어도 "랜덤한 문제"는 아니었던  저의 단순한 사고의 개발 과정과 고민했던 내용들을 정리해보았습니다. 


단순한 사고 ONE

프론트: 범블비님 단어 퀴즈 API에서 랜덤 기능 추가해 주세요~

범블비: 네네~ 금방 만들겠습니다!

 

기존에 "퀴즈 조회 API에서 랜덤 요청 필터가 들어오면 단어를 한 번 섞어서 리턴하면 되겠다!"라고 생각하고 개발을 진행했습니다.

프론트에서 limit, page, ... 여러 필터 파라미터를 받아서 그 기준으로 데이터를 조회하고 배열에 담아서 Fisher-Yates 알고리즘으로 한 번 뒤죽박죽 섞어주면 될거라고 생각했습니다

// Fisher-Yates 알고리즘
  shuffleArray<T>(array: T[]): T[] {
    {
      for (let i = array.length - 1; i > 0; i--) {
        const j = Math.floor(Math.random() * (i + 1));
        [array[i], array[j]] = [array[j], array[i]];
      }
      return array;
    }
  }

 

그런데 여기서 놓친 부분이 있었습니다. 위와 같이 DB에서 조회한 데이터를 기준으로 배열의 순서를 바꾸는 건 "랜덤한 순서"는 되어도 "랜덤한 문제"는 아니었던것이죠


단순한 사고 TWO

데이터부터 랜덤하게 조회하기 위해서 orderBy에 RAND()를 사용해서 랜덤한 문제를 뽑아오고, 페이지네이션을 통해 나눠서 보여주는 구조로 수정하였습니다.

처음에는 단순하게 seed를 넘겨받아 사용하도록 구성하였습니다.

"seed는 단어 섞는 '열쇠' 같은 거예요.
같은 seed로 요청하면 항상 같은 순서로 단어가 섞여요.
퀴즈 시작할 땐 새로운 seed로 요청하고, 퀴즈 중엔 계속 그 seed로 요청하면 돼요."
queryBuilder.orderBy('RAND()', 'ASC').take(limit).skip(offset);
 
queryBuilder.orderBy('RAND(:seed)', 'ASC').setParameters({ seed });

 

이렇게 하면 seed 기반으로 랜덤 정렬도 되고, offset/limit으로 페이징도 되니까 괜찮다고 생각했습니다.

 

그런데 위 방식에도 예상치 못한 문제가 있었습니다.

  • LIMIT 5만 필요해도 → 전체 row를 메모리에 올리고 계산하고 정렬해야 함
  • 특히 인덱스를 사용할 수 없어서 풀스캔 + 정렬 연산이 발생
  • 데이터가 많거나 동시에 많은 사용자가 호출하면 DB에 큰 부하가 발생

조금 더 고민해보자,,

  • 랜덤 셔플은 유지하면서
  • 페이지네이션으로 중복 없이 순서대로 문제를 보여주고
  • 사용자마다 동일한 시드(seed)로 요청하면 항상 같은 순서로 퀴즈가 진행되며
  • 성능적으로도 문제없는 구조를 만들 수 없을까?

SortIndex를 미리 계산해두는 방식

랜덤한 순서를 미리 계산해서 정렬 기준으로 저장해두고, 이후에는 그냥 그걸 기준으로 페이지네이션해서 가져오는 방식

퀴리 예시)
SELECT * FROM question
WHERE userId = 123
ORDER BY sortIndex ASC
LIMIT 5 OFFSET 0;

이 방식을 쓰기 위한 준비

1. question 테이블에 sortIndex 컬럼 추가

 

ALTER TABLE question ADD COLUMN sortIndex INT;

 

 

2. 퀴즈 시작 시 서버에서 사용자 데이터를 랜덤하게 정렬

 

await this.questionRepository.query(`
  UPDATE question
  SET sortIndex = FLOOR(RAND(:seed) * 1000000)
  WHERE user_id = :userId
`, { seed, userId });

 

  • 이 작업은 퀴즈 시작할 때 딱 한 번만 실행
  • 이후에는 sortIndex만 정렬 기준으로 사용

3. 실제 조회 쿼리에서는

queryBuilder.orderBy('question.sortIndex', 'ASC');
queryBuilder.take(limit).skip(offset);

이렇게 하면 RAND()를 실시간으로 돌리지 않아도 되니까 랜덤 정렬을 미리 계산해두는 전략이 성능 향상에 더 효과적입니다.


마무리

단순하게 생각하고 개발해서 랜덤인 척!?해서 사용자 경험을 해칠 수 있었는데 리턴되는 응답 값이 이상함을 느끼고 문제를 빠르게 파악해서 "랜덤 한 순서"가 아닌 "랜덤 한 문제"로 수정하고 성능까지 신경 써서 개발하는 경험을 하였습니다.

사용자들이 느낄 수 없을 수도 있지만 작지만 소중한 경험을 제공해 드린 것 같아서 뿌듯한 경험이 추가되었습니다!

728x90
반응형
반응형

이번 포스트에서는 제가 실제로 겪었던 Node.js 버전 차이로 인한 장애 사례와 이를 어떻게 대응하고 개선했는지를 정리해보려 합니다.
누군가에게는 비슷한 문제를 사전에 예방하는 데 도움이 되었으면 좋겠습니다.


장애 발생 배경

프로젝트에서 OneSignal 태그 API를 연동하는 작업을 진행하던 중, 개발 환경에서는 아무 문제없이 잘 작동하던 API가 운영 환경에서 주기적으로 서버가 죽는 현상이 발생했습니다.

초기에는 로직 오류나 외부 API 문제를 의심했지만, 로그를 살펴보며 원인을 좁혀나간 끝에 문제의 핵심은 Node.js의 버전 차이였습니다.


원인 분석

문제는 코드 내에서 사용한 fetch API였습니다.

  • 개발 환경(Node 18): fetch가 기본 내장되어 있어 문제없이 작동.
  • 운영 환경(Node 16): fetch가 내장되어 있지 않음 → 런타임에서 ReferenceError: fetch is not defined 발생 → 서버 크래시.

즉, 코드 자체는 문제 없었지만 운영 서버의 Node.js 버전에서는 fetch를 지원하지 않아 장애가 발생했던 것이죠,,  😭 😭

 


1차 대응: httpService로 긴급 대체

장애가 발생한 당시, 가장 빠르게 문제를 해결하기 위해 코드를 롤백해서 OneSignal API 호출하는 부분을 모두 제거했습니다.
그리고 fetch를 사용하는 부분을 NestJS에서 제공하는 HttpService로 빠르게 전환 후 hotfix로 수정했습니다.

// 기존 
await fetch('https://api.onesignal.com'); 
// 수정 
await this.httpService.axiosRef.post('https://api.onesignal.com', {});


이렇게 수정 후에는 더 이상 서버가 죽지 않았고, 장애는 일단락되었습니다.


2차 대응: Node.js 버전 업그레이드

정말 부끄럽고 기본이 부족한 이유이지만 이번 장애의 궁극적인 원인은 개발 서버 Node 버전과 운영 서버의 Node 버전의 싱크를 맞추지 않고 운영한 것에서 발생한 문제라고 생각하여서 장기적으로는 fetch뿐 아니라 다른 최신 기능도 사용할 수 있도록 운영 서버의 Node.js 버전을 18로 업그레이드해서 개발 서버 버전과 통일시켰습니다.

업그레이드 이후에는 fetch도 다시 사용할 수 있게 되었고, 개발 서버에서 발생하지 않는 문제가 운영 서버 전파되지 않도록 구성하였습니다.


3차 대응: ECS 배포 파이프라인 테스트 단계 추가

이번 장애를 계기로 배포 전 테스트 코드의 중요성을 다시 한번 느꼈습니다. 그래서 후속 조치로 ECS 배포 파이프라인에 테스트 코드 검증 단계를 추가했습니다.
배포 전에 코드가 현재 운영 Node.js 환경에서 문제없이 동작하는지 체크하도록 설정하여, 환경 차이로 인한 문제를 사전에 발견할 수 있도록 개선했습니다.


마무리하며

이번 장애는 기본중에 기본인,, 개발과 운영 환경을 일치 시키지 않는 말도 안 되는 문제에서 시작되었지만, 덕분에 시스템 안정성과 배포 프로세스를 더욱 견고하게 만드는 계기가 되었습니다.

환경 차이에 대한 고려, 빠른 롤백/우회 처리, 지속적인 테스트 자동화는 앞으로도 계속 챙겨야 할 중요한 부분이라는 것을 다시 느꼈습니다.

혹시 비슷한 환경에서 개발하고 계신 분이라면, 운영 환경의 Node.js 버전도 꼭 체크해 보세요 🥲

추가적으로 fetch 사용하려고 했던 이유는

  • fetch 사용:
    - fetch는 HTTP 응답 자체 (Response 객체)만 반환합니다.
const response = await fetch(url, options); 
const { recipients, success } = await response.json(); // 바로 구조 분해 가능
  • HttpService 사용:
    - Axios는 AxiosResponse 형태로 응답
const response = await this.httpService.axiosRef.get(url, { });
const { recipients, success } = response.data;
{
  data: {...},         // 실질적인 응답 JSON
  status: 200,
  statusText: 'OK',
  headers: {...},
  config: {...},
  request: {...}
}


응답 데이터 구조가 더 단순하게 다가오기 때문에 사용하려고 했는데 이 여파가 장애로 이어지다니,,,

 

 

728x90
반응형
반응형

이번 포스트에서는 Android 인앱결제 구독 동기화를 위한 Google RTDN (Real-time Developer Notifications) 개발 과정과 고민했던 내용들을 정리해보았습니다.

이전 글에서 공유한 iOS ASN 개발기에 이어, Android에서도 실시간 구독 상태 동기화가 필요해 RTDN을 도입하게 되었어요.


왜 RTDN을 도입했을까?

Google API를 통해 수동으로 구독 상태를 검증하고 있었습니다. 하지만 이 방식은 앱 접속 시점에만 동기화가 가능해 실시간성이 부족했습니다.

  • 앱을 켜지 않으면 구독 상태 동기화 불가능
  • 자동갱신/ 유예/ 취소 등의 상태 반영 지연 같은 문제로 실시간성이 떨어졌습니다.

이를 해결하고자 Google에서 제공하는 RTDN을 도입하게 되었습니다.


인프라 구성: Google RTDN → Pub/Sub → Backend

Google은 RTDN을 Pub/Sub 방식으로 제공합니다. 이 메시지를 백엔드에 안전하게 전달하기 위해 아래 구조로 구성했습니다:

Google Play RTDN → Google Cloud Pub/Sub → Backend 서버
  • Pub/Sub: Google이 메시지를 발행하는 통로
  • Backend: 구독 상태 업데이트 및 DB 반영

개발 중 겪었던 고민들

1. Pub/Sub 환경 구성

  • IOS와 아키텍처를 통일해서 Pub/Sub  AWS API Gateway → SQS를 구조를 구성해야 하나 고민을 하였지만 Pub/Sub도 충분 히 신뢰성 있는 메시징 서비스이고, 데드 레터 처리가 가능해서 Gateway → SQS 구조를 과감하게 배제

2. 환불(Refund) RTDN 이슈

  • voidedPurchaseNotification 값 뿐만아니라 SUBSCRIPTION_REVOKED 상태값에서도 환불이 들어옴

3. 테스트 환경 RTDN 수신 문제

  • Google은 Push 구독의 엔드포인트를 한 개만 운영 등록 가능하기 때문에, 개발 환경에서는 RTDN 수신 테스트가 어려움.
  • Pub/Sub의 구독을 개발용으로 생성해서 개발 엔드포인트에도 동시에 푸시 받는 구조로 해결.

구현 포인트 정리

  • notificationType 기반으로 상태 분기 처리
    → SUBSCRIPTION_RENEWED, CANCELED, EXPIRED 등
  • subscriptionState 기반으로 보조 판단
    → 실제 상태가 IN_GRACE_PERIOD 인데 RENEWED라고 오면 이중 체크
  • voidedPurchaseNotification 수신 시 환불 처리
  • 구독권 비교 시 orderId 기준으로 최신 구독 여부 판단
    → 기존 DB orderId ≠ RTDN orderId → 상태 재조회 + 동기화
  • 테스트 결제 구분 (res.testPurchase 확인 후 production 에선 무시)

마무리

향후에 메시징 서비스를 한쪽으로 통합해서 IOS, AOS 결제를 한 번 가공해서 백엔드 엔드 포인트로 넘기는 구조로 개선한다면 백엔드 비즈니스 코드가 유지 보수성이 개선될 수도 있을 것 같습니다!

728x90
반응형
반응형


이번 포스트에서는 제가 실제로 경험한 iOS 인앱결제(IAP)와 Apple Server Notification(ASN) 개발 과정에서의 고민과 해결 방법을 정리해 보려고 합니다. 특히, 실시간 구독 상태를 동기화하기 위해 ASN을 백엔드에 통합하는 과정에 집중했습니다.


왜 Apple Server Notification(ASN)을 도입했을까?

기존에는 앱에서 유저가 접속할 때마다 Apple receipt를 백엔드로 전송해서 유효성을 검증했는데요,
이 방식은 실시간성이 떨어지고, 사용자가 앱을 켜지 않으면 구독 상태가 반영되지 않는 문제가 있었습니다.

이를 해결하고자 애플에서 제공하는 실시간 알림 시스템인 ASN을 도입하게 되었습니다.


인프라 구성: Apple → API Gateway → SQS → Backend

애플은 ASN을 외부 HTTP(S) 엔드포인트로 전송하므로, 이를 안정적으로 처리하기 위해 아래와 같은 구조를 구성했습니다.

Apple ASN → API Gateway (HTTPS endpoint) → AWS SQS → Backend 서버
  • API Gateway: Apple에서 직접 호출할 수 있는 HTTPS 엔드포인트 제공
  • SQS: Apple의 긴 재시도 정책 대응 (ex: 수시간 간격으로 재시도됨)
  • Backend: SQS에서 메시지를 받아 구독 상태 업데이트 처리

이 구조 덕분에 유실 없이 비동기 안정 처리가 가능했습니다.


ASN 서명 검증: SignedDataVerifier

Apple ASN은 JWT 포맷의 서명된 데이터를 전송합니다. 이를 검증하기 위해 SignedDataVerifier를 사용하여 ASN의 유효성을 검증하고, payload를 디코딩했습니다.

주의할 점:

  • 로컬 테스트에서는 Apple이 메시지를 직접 전송하지 않기 때문에 테스트가 어렵습니다.
  • 실제 환경에서는 Apple에서 직접 HTTPS로 메시지를 보내기 때문에 반드시 정식 도메인/SSL 인증서가 필요합니다.

개발 중 겪었던 주요 고민

1. 테스트 어려움

Apple은 로컬 테스트 환경에서는 ASN을 전송하지 않기 때문에, 초기 테스트에 큰 제약이 있었습니다.
API Gateway + SQS 구조를 미리 만들어두고, Apple 콘솔에 등록해서 테스트해야 했습니다.

2. receipt-data 미포함 이슈

ASN에는 receipt-data가 포함되지 않아, 서버에서 별도로 Apple API를 호출해 구독 상태를 확인해야 합니다.

3. Apple의 재시도 정책 대응

ASN 전송 실패 시 Apple은 몇 시간 단위로 재시도하기 때문에, 안정적인 처리를 위해 SQS와 Dead-Letter Queue(DLQ)도 설정해두었습니다.


구현 포인트 정리

  • verifySignedData()로 ASN 서명 검증
    - Apple에서 보낸 ASN인지 검증하는 함수
  • SQS Lambda consumer에서 메시지 처리
    - SQS 쌓인 메시지를 읽고 백엔드로 전달하는 로직
  • 구독 상태(AUTO_RENEW_DISABLED, RENEWAL, CANCEL, EXPIRE 등)에 따라 DB 상태 업데이트

마무리

iOS ASN 개발은 쉽지 않았지만, 앱에서 유저가 앱을 열지 않아도 실시간으로 구독 상태를 반영할 수 있다는 점에서 큰 효과가 있었습니다.

728x90
반응형

+ Recent posts