번역대상 컨텐츠

  • 고정 리소스
    • 메뉴명, 버튼명등 
  • 사용자 등록 컨텐츠
    • 번역 API 필요 - 컨텐츠당 1번수행 되는 페이지 번역사용
  • 실시간 입력 컨텐츠
    • 번역 API 필요 - 사용자 입력당 1번수행 되는 실시간 번역사용


변경사항

구글번역 플러그인과 같이 과거에는 웹에 탑재해, 컨텐츠 번역의 경우  거의 공짜로 사용가능 했음

  • 하지만~ 이것은 구글이 AI학습을 시키기위해 데이터를 공짜로 수집하기위한 거대계획이였고 , 학습이 된이후 모든 모델을 유료로 전환 웹에서의 번역도 더이상 공짜가 아님~
  • 페이지 번역서비스 과거에는 공짜였으나 구글/마소/AWS등 모두 기계학습을 완료시키고 유료모델로 전환하면서 제공서비스 중단됨
  • 브라우저 전용 플러그인에서는 무료제공 ( 브라우저 경쟁 ) 


실시간 vs 페이지 번역으로 구분되는것이 아닌, 대부분의 번역 서비스가 다음과 같은 과금정책모델로 분류됩니다.

  • 표준번역 : 이미 학습된 기계번역기능을 제공하며 문서번역대비 저렴
    • 사용자 정의 사전이라는 개념이 없음
    • 학습을 추가적으로 못시킴
  • 문서번역 : 전문문서(학습용) 번역을 위한 기능으로 실시간 학습기능이 존재하며 가격 플랜이 상대적으로 비쌈
    • 학습기능외에 사용자 정의 사전 기능도 제공됨을 추가적으로 파악함


클라우드에서 제공하는 유형을 알아보고 이후 추세도 살펴보겠습니다.  번역 클라우드(AWS,Azure,GCP등) API 과금 정책및 번역품질 국가범위등이 유사하며 MS-Azure 기준으로 조사하였습니다.

API과금은 대표적으로 다음과 같은 유형이 있습니다.

  • 종량제
    • 쓴만큼
  • 약정(RI)
    • 예상을 하고 약정
  • 연결끊긴(OffLine)
    • 설치가 되는 혼합 모델로 , 월 10억문자를 제공


번역 API사용하는 과금 단위

  • 250M - 2백 5십만 문자
  • 120B - 120억 문자

문자 표현 단위 예시 , 메가/바이트가 아닌 밀리언/빌리언 입니다. Byte단위인 경우, 한글경우 영문대비 2배로 측정되기도 하지만 여기서는 동일하게 문자수로 측정됩니다.

학교예시

  • 학교 : 2자
  • School:  6자

번역 비용을 문자 수로 계산할 때, 한글에서 영문으로 번역하는 경우의 비용은 결과물인 영문 텍스트의 문자 수를 기준으로 합니다. 예를 들어, 한글 "학교"를 영어 "School"로 번역했다면, 결과물은 6개의 문자로 구성되어 있으므로 번역 비용은 6으로 계산됩니다. 따라서 이 경우 번역 비용은 6입니다.


캐시방식 따라

  • 컨텐츠 최초 작성시 번역(+업데이트)본을 함께저장
    • 컨텐츠 작성시마다 지원국가별로 N번 번역
    • 업데이트관리
  • 컨텐츠를 볼때마다 번역
    • 뷰가 발생할때마다 번역발생
  • 눌러서 매번 번역
    • 필요할때 번역 : 눌러봐야 무슨 관심컨텐츠인지 알수 있기때문에 사용접근성에 좋지않음


종량제/약정/대량구매 비교

  • 텍스트 번역 : 일반적으로 이미 학습화된 기계번역을 이용
  • 문서 번역 : 전문 문서 번역할때 이용 하며, 학습기능이 있음으로 비쌈

저렴한 번역기를 선택한다고하면  텍스트 번역기(기계번역) 채택



번역 트래픽을 예상하고 계산할수 있으면 약정계층/대량구매 이용가능

연결이 끊긴 컨테이너 모델은 엔터프라이즈 설치형에 이용할수 있는 모델이며 최소가 6억이기때문에 Pass



추세

번역기술역시 AI기술을 사용하고 있으며  OpenAPI(GPT)가 대표적인 클라우드 방식으로 제공하는 케이스입니다.

AI사용 비용이 적지않기때문에 트래픽이 증가하면 할수록 서비스가 돈을 버는 구조가 아닌 다음 두기업만 돈을 버는 구조가 됩니다.

  • OpenAI - GPT
  • Nvidia


오픈진영및 대기업을 포함 탈GPT , 탈 Nbidia 현상이 일어나고 있으며 클라우드의 대안으로 엣지컴퓨터를 이용한 AI 기술도 함께 발전하고 있습니다.


  • 온프레미스 : AI기능을 설치하여 , AI이용 트래픽 비용이 발생하지 않으며 주로 오픈진영에서 공개
    • 라마 - 연구용으로 공짜 사용가능하고 상업용일때 상업용 가격정책을 따라야함 
    • 단점 : Nnvidia 물리적 파워를 활용해야하며 클라우드비용을 물리적비용으로 저렴하게 전환할수 있는 기업만 활용가능 , 이로인해 GPU 파워만 제공하는 클라우드 기업이 등장하고 있음 ( 또 클라우드~ )
  • 온디바이스 : 삼성,애플등이 자신들의 기기에 탑재하려고 경쟁중
    • 휴대기기(갤럭시)에서클라우드없이 실시간 통화번역가능
    • 사진에서 활용중 : 보정, 잘라내기, 변형등....
    • 휴대기기인 컴퓨팅 파워에서 어느정도 수준의 번역/AI 기능을 제공하는것은 이점이 있으며~ 기업 폐쇄형 또는 특정기기만 작동되어 오픈되지 않을 가능성이 높지만, 이 기술들이 오픈된다고하면 가장 저비용으로 번역및 AI기능을 이용할수 있음
      • 맥OS를 윈도우에 설치, 플스3 채굴기 만들기 사례등 ....핸드폰 모듈을 해킹 추출해 비인가적 활동이 생길것으로 예상


엣지컴퓨터에서 그럭저럭 쓸만한 LLM(언어모델),생성(이미지) AI가 조금씩 등장하고는 있지만 번역API 자체는 기계번역을 위해 엄청난 문서를 이미 학습했고

방대한 최신 사전까지 보유하고 있을것으로 추정하며 클라우드외에 마땅한 대안이 등장하고 있지는 않고 있습니다. 

OpenAI API 사용대비 기계번역의 사용비용은 훨씬 낮은편이긴 하지만, 문자당 과금은 일반 트래픽비용보다 높은 비용으로

번역 API도 온프레미스로 버전으로 등장해 준다고하면 비용을 낮출수 있는 선택지가 생길수도 있지만 기계번역의 품질과 지원국가 범위를 고려한다고하면

아직은 클라우드가 제공하는 API모델의 대안이 없거나 찾지못한 상태입니다. 

선택전략

번역기능을 위해 온프레미스를 지금단계에 채택하기는 어려우며, LLM에 번역기능이 포함되더라도 순수 번역 API보다 응답속도,사용비용측면에서 훨씬높으며

현실적으로 다음중 하나를 채택~

  • 기본 전략 : 예상량을 잘 계산해 RI또는 대량 RI로 계약후 사용
  • 월 무료제공 트래픽을 활용해 분산처리

  • 우리의 초기 트래픽이 단어기준이라도 2백만을 달성하면 사실은 기쁜일이지만~ 기능이 중지됨


공짜플랜을 이용한다고 하면 N명이 계정생성하고 연합했다고 했을때, 10명의 API 토큰을 할당해 분산처리하면

  • 연합계정 * 2백만 = 공짜로 활용할수 있는 번역단어수
    • 어뷰징및 정책위반이 될수있음으로 확인필요 - 없더라도 어뷰징 케이스가 생기면 정책은 언젠가는 업데이트가 될것으로 추정
  • 컨텐츠 번역과 실시간 번역의 API토큰 사용은 분리되어야함
    • 컨텐츠가 표시되는것에 더 우선 둠





  • No labels
Write a comment…