Pabii에서 데이터 사이언티스트 인턴을 채용합니다.

 

주요 업무

Pabii의 출시 예정 앱에 들어가는 모델링 작업 지원

기타 회사 잡무

 

필수조건

학부 수준의 선형대수학, 회귀분석

Pabii의 데이터 사이언스 강의 수준의 머신러닝 지식

데이터 모델링 경험 (*본 블로그에서 인정 받을 수 있는 모델링 경험)

(정규 데이터 사이언티스트에게 요구하는 필수 지식 사항 참조 링크)

 

우대조건

Pabii의 데이터 사이언스 강좌 수강생

Pabii의 모델링 강좌 수강생

각 대학 별 계량 마케팅 과목 수강생

온라인 광고 시장에 대한 (수학적, 통계학적, 경제학적) 이해도

다수의 데이팅 앱 실제 사용 경험자

 

기타사항

업무 시간: 오전 9시 ~ 오후 6시 (각각 +-1시간), No 야근, No 회식

근무 기간: 3개월 ~ 최장 6개월

정직원 승격: 개인 능력에 따라 인턴 기간 종료 후 Data Analyst (not Scientist)로 채용

 

주의사항

R, Python, Julia 등의 코딩 실력에 관심없습니다.

수학, 통계학, 머신러닝에 대한 이론적인 이해도와 모델링 센스에 대한 지식만 확인합니다.

 

지원방식

간단한 블로그 감상평 (you can be critical, if you can)

1-pager resume and 1-pager only

이메일: [email protected]

 

채용 완료 시 삭제합니다.

개발자 면접을 보다보면, 파비의 사업모델은 뭐냐, 기술 역량은 얼마나 뛰어나냐,  비지니스 철학은 뭐냐 같은 종류의 질문을 받는 경우가 있다. (더불어서 돈 많냐, 월급 떼어먹는거 아니냐 등등의 스타트업이 으레 받을법한 부끄러운 질문도 가끔 받는다ㅋㅋ 우리 돈 많다ㅋㅋ) 보안 이슈 때문에 이미 회사 홈피나 다른 블로그 글에 다 공개되어 있는 부분 이상으로 딱히 더 설명해 줄 부분은 없는데, 그래도 좋은 인재를 잡고 싶은 마음에 이것저것 설명을 좀 더 깊게 해 주기도 한다. 보통은 회사 홈피와 블로그를 자세히 안 보고 온 티가 나는게 설명이 좀 더 깊어지면 눈빛이 흐려지고 무슨 말인지 잘 모르는 표정들이 된다.

그렇게 사업모델을 설명하다보면 참 재밌는 현상을 볼 수 있는데, 설명 초반부에 개발자들 표정이 참 밝다. 그 정도는 나도 만들 수 있다는 자신감의 발로일 것이다. 가끔은 여기 나가면 내가 당장 그거 만들어서 니네 사업모델 뺏들어야겠다는 느낌의 표정을 짓는 분들도 있다.

그런 자신감 or 거만함 넘치는 표정이 좀 보기 불편해져서 유저들간 동질성 / 이질성을 구분해내는 Homogeneity index를 찾아내는 아이디어로 박사시절에 은행별 포트폴리오의 유사성을 잡아내던 Dummification, Weighting matrix 계산 같은 걸 슬쩍 언급하면 그 개발자들의 표정이 갑자기 매우매우매우 어두워진다. 표정 변화를 보고 있으면 은근히 재미있다 ㅋㅋ

사실 그렇게 눈에 보이는 계산식 부분은 아무것도 아니고 (그 정도는 Pabii의 데이터 사이언스 기본 수업에서 다 가르쳐주는 부분이다), 그 전에 데이터 전처리해야할 부분에 대한 고민으로 매일같이 머리가 깨지는 고통을 겪고 있다. 아마 수업을 찾아오셨던 분들은 여기서 말하는 데이터 전처리라는게 NA 메워넣는 작업이 아니라, 데이터 재구성이라는 점을 말해주지 않아도 이해하실 것이다.

그런 데이터 전처리 중에 그나마 좀 쉽게 이해될만한 내용만 몇 가지 정리해보자.

 

2-Stage-Least-Square

연말 보너스 산정을 하는데, 우리 팀이 지난 1년간 온갖 열정 (이라 쓰고 야근, 주말 출근이라 읽는다)을 쏟은 끝에 매출액이 급상승 했으니 우리 팀원에게 좀 넉넉하게 보너스를 주고 싶다는 주장을 하는 팀장님이 있다고 생각하자.

그 회사 인사팀에서는 올해 그 팀에서 설비를 5대나 사들여 놓은 탓에 매출액이 폭증한거지, 정작 인력 투입으로 얻은 성과는 그렇게 크지 않다며 보너스 요구를 받아들이지 않는 상황이 생기면 어떻게 될까?

누가 맞는걸까? 이런 “논리”의 싸움은 맞다, 틀리다를 알 수 없으니 그냥 적당히 타협하는 보너스를 주자고하면 될까? 그럼 납득을 못하는 팀원들의 불만은 어떻게 잠재울 수 있을까? 그 팀에 보너스가 간다고 기분 나쁜 다른 팀들의 불만은 어떻게 잠재워야할까?

사실 이런 상황은 정말 간단한 2-stage-least-square를 이용해서 맞다, 틀리다를 말할 수 있다.

에이~ 수학으로 설명하면 누가 받아들이냐고?

매출액이라는 종속변수 (y)는  분명히 우리 팀원들의 열정(….)과 설비 5대의 결합물일 것이다. (물론 운, 시장 트렌드 등등의 외부적인 요소가 끼여들었을 여지는 인정한다.) 여기서 설비 5대가 정말로 효과가 있었는지를 “수학적”으로 어떻게 검증하냐고? 설비 5개 증가값을 X1으로 우리팀의 노동력 투입을 X2로, 나머지 변수들 X3으로 놓고, Y를 X1으로 Regression 한 다음 (1st-stage), 잔차항을 다시 X2, X3으로 Regression하면 된다 (2nd-stage). 만약 X1의 기여도가 컸다면 매출액 증가분 (y값의 상승분)이 X1으로만 설명되는 현상이 나타날 것이다.

그런 수학식이 무조건 맞다는 법이 어딨냐고? 매출액이라는 데이터도 결국은 N차원의 Vector고, 모든 Vector들은 여러개의 다른 Vector들의 합성으로 표현될 수 있다. 고등학교 수학이다. 그렇게 벡터를 쪼개보는 방식으로 지구 자전 & 공전 중에 위성 발사의 궤도가 어떤 영향을 받을지도 계산하고, 핵무기를 실은 대륙간 탄도탄 미사일의 궤도도 오차범위 5m 내외의 무서운 정확도로 계산할 수 있다. 그런 우주적인 힘의 영향을 높은 정확도로 계산하는 작업쯤 되어야 “수학”을 붙이지, 겨우 매출액 같은 단순 그래프를 여러개의 Vector로 쪼개는 작업에 “수학”이라는 명칭을 붙이는 것도 민망하다.

 

Instrumental variable (IV)

빅데이터 시대가 왔다고 데이터가 넘쳐난다고들 말이 많은데, 정작 데이터 사이언티스트 입장에서 필요한 데이터는 항상 없다. 예를 들어, Pabii의 사업 모델에서 유저들의 온라인 구매 데이터 유무는 우리 회사 상품 라인업을 바꾸고, 심하게는 사업의 존폐에 영향을 끼칠만큼 중요한 정보다. 근데, 쇼핑몰들, 카드사들에게 돈을 주고 그 정보를 사지 않는 이상, 유저들의 구매 데이터를 구할 방법이 없다. 거기다 그렇게 제 3자에게 데이터를 파는 것은 원칙적으로 불법이다. (이 문제를 어떻게 해결하고 있는지는 회사 기밀이므로 여기에 따로 공개하지는 않는다.)

위의 문제를 해결하는 실마리가 될만한 간단한 사례를 하나만 쉐어해보자. 과금형 게임을 하는 유저들 중, 장시간 게임을 하는 유저들 대부분은 아이템을 돈 주고 구매 (속칭 “현질”)하지 않는다. 반면, 짧게 짧게 플레이해서 스트레스를 해소하려는 목적으로 게임하는 유저들은 괜히 경험치 끌어올리려고 밤을 새느니 그냥 아이템을 사고 마는 경우가 잦다. 자, 이런 정보가 있다면 게임 하는 시간을 “어떻게, 잘” 이용하면 현질유저인지, 경험치 노가다 유저인지 구분할 수 있지 않을까? (물론 정확도가 100%는 아니겠지만…)

이런식으로 실제 필요한 데이터는 없지만, 유사한 정보를 보여줄 수 있는 데이터를 도구 변수 (Instrumental variable, IV)라고 한다. 수학적으로 표현하면, 특정 데이터 셋이 보여주는 Vector Space와 유사한 Vector Space를 재구성해 줄 수 있는 데이터 셋이라고 생각할 수 있다.

가만히 보면 우리가 갖고 있는 데이터들 상당수가 이런 방식으로 데이터 처리만 잘 하면 Vector Space 메워넣기가 가능한 경우가 많다. 이걸 단순히 Neural Net에 집어넣으면 알아서 척척척 해주는거 아닌가요라고 묻는 특정군의 사람들이 있다는 걸 알지만, 학부 선형대수학 수준의 지식만 있어도 그런 마구잡이식 Network 모델이 아니라 합리적인 데이터 재구축 및 변수 선정이 필수적이라는 걸 이해하실 것이다.

실제로 IV를 쓰는 것을 수학적인 “결례”라고 생각하고 폄하하는 통계학자들도 있고, IV없이 연구가 거의 불가능한 사회과학 문제를 붙잡고 계신 연구자 분들도 있다. (가까운 친구 중엔 IV로 졸업 논문쓰고 박사 받은 친구들도 꽤 된다.) Vector Space를 완벽하게 보정해주지도 않고, A변수랑 B변수랑 연관 있을 것 같아서 이렇게 IV를 골랐습니다와 같은 주먹구구식 설명에 회의감을 느끼는 분들께는 대단히 죄송하지만, AdTech 비지니스를 하다보면, 특히 법적 제약의 범위 안에서 쓸 수 있는 데이터만 갖고 고민하다보면, IV를 어떻게 찾아야할까, 어떻게 구성해야할까에 대한 고민이 깊어지는 경우가 많다. 위의 과금형 게임 유저 찾기는 하나의 작은 예시일 뿐이다.

 

Dummification by Tree

Tree 계열 모델 (Decision Tree, Random Forest, Gradient Boosting 등)을 언제 쓰는게 더 합리적일까? 단순히 결과값이 잘 나올 때 쓰는거 아니냐고?

Tree 모델의 계산 방식, 정확하게는 Tree가 추가되는 과정을 하나하나 살펴보면, Monotonic increase/decrease가 있는 데이터 셋에서는 크게 효과를 보지 못할 계산법이라는 걸 바로 파악할 수 있다. (설명 타이핑하기 귀찮으므로 2019년 1월 수강생 후기 참조ㅋ. 신진수 님 설명 감사합니다.)

비슷한 예제를 이전 글에서도 공유했었는데, 약품 투약의 효과가 혈당 수치 x1 ~ x2 구간, x5 ~ x6 구간에서만 긍정적으로 나타나고, 나머지 구간에서는 전혀 효과를 못 본다는 연구 결과가 있다고 하자. 아마 x2 ~ x5 사이의 혈당 수치를 가진 환자 분께는 그 약품 대신 다른 약품을 써야할 것이다. 이런 식으로 특정 기제의 효과가 지속적으로 상승/하락하지 않는 경우가 위에 말한 Monotonic increase/decrease에 해당하는 사례인데, 이럴 때 데이터 처리를 전혀 하지 않는다고 가정하면 당연히 Regression 계열의 모델들보다 Tree계열의 모델이 훨씬 더 Fitting에 적합할 것이다.

Tree가 하나하나 추가될 때마다 x1 ~ x2 구간, x5 ~ x6구간에서 1, 나머지 구간에서 0인 것을 세세하게 구분할 것이기 때문이다. 반면 Regression 모델로 Fitting 작업을 했으면 x2 ~ x5 구간에서 효과가 없었던 탓에 평균적으로는 그 약품의 효과가 별로 안 좋았다는 결론이 나올 가능성이 높아진다.

그래서 앞으로는 Tree모델을 쓴다고 결론내리면 될까?

Tree 모델로 데이터의 구조가 이렇다는 걸 파악하고나면 필자는 혈당수치 값을 Dummification한다. (머신러닝하는 친구들은 이걸 One-Hot-Encoding이라고 부른다.)

왜? Regression으로 계산하는게 각 변수별 효과를 컨트롤하기도 좋고, 내 모델이 어떻게 돌아가는지 하나하나 짚고 가기 훨씬 더 효율적인 구조를 갖고 있는데, 혈당수치1구간, 5구간만 0/1로 놓는 방식으로 데이터 구조를 바꾸고나면 굳이 Tree한테 맡겨놓고 알아서 계산해주겠지라며 넋놓고 기다리는 짓(?)을 안 해도 되기 때문이다. (같은 맥락에서 Neural Net을 무조건 쓸게 아니라, 데이터 구조를 파악하고나면 굳이 그런 Computationally heavy한 계산법을 피할 수 있는 경우도 많다)

이런 Computational approach를 깊이있게 공부하신 분들은 다 알겠지만, 계산속도 느리고, 데이터 셋 바뀔 때마다 모델 변형이 잦고, 구조적으로 컨트롤이 안 되는 모델은 언제나 연구자들에게 차선책에 불과하다. 데이터 구조만 살짝 바꾸면 굳이 Tree를 안 써도 되는데 굳이???

 

나가며 – 1류 Data Scientist란?

전공마다 상황은 조금씩 다르겠지만, 필자가 있었던 Mathematical Finance 전공에서 “데이터를 이용한~”이라는 접근 방법, 통칭 “Empirical research”는 홀대를 받는 정도에 그치는게 아니라, 아예 리그가 낮은 연구자들이나 하는 작업이라는 이미지가 강했다. 쉽게 말하면 수학 모델링을 이용해 우리 전공의 문제를 풀어내면 메이저리그고, 데이터로 그런걸 보여주는 연구자들은 마이너리그 취급을 받았다. 왜냐고? (머리 많이 쓰는) 수학 모델링 작업은 (별로) 없고, (머리 별로 안 써도 되는) 데이터 전처리하다가 세월 다 보내는 경우가 허다했기 때문이다.

물론 그런 Empirical research하는 분들도 우리 필드의 그 누구도 생각해내지 못한 기발한 방법으로 모델을 만들거나, 데이터를 완전히 다른 방식으로 변형해서 상상하지도 못한 함의를 이끌어내는 분들도 있었기 때문에, 배우는 입장에 있던 필자는 특별히 Empirical research를 무시하거나 하진 않았다. (오히려 더 좋아했던 것 같다^^) Empirical 이라고 무시당하던 분들은 보통 하늘에서 뚝 떨어진 방정식 하나를 주장하는 분들이었지, 수학적인 아이디어를 교묘하게 활용해 데이터를 색다르게 쓰시는 분들은 굳이 마이너리그 대접을 받지는 않았다. 왜? 그 분들은 (수학적으로) 머리를 많이 써야되는 데이터 전처리를 하셨기 때문이다.

학계의 분위기를 소개하는 이유는, 요즘 머신러닝을 이용한 어쩌고, 딥러닝을 이용한 어쩌고라는 서비스 만든다는 분들께도 직접적으로 해당되는 사례이기 때문이다. 별 생각없이 데이터를 무작정 입력하기만 하면, 정말 마이너리그 취급이나 당하는 이른바 “2류 연구자” or “2류 데이터 사이언티스트”밖에 안 될 것이다. 정말 “1류”가 되고 싶다면, Empirical research로도 존경받는 그 연구자 분들처럼 데이터를 활용하는 방식에 대한 고민이 담긴 결과물을 비지니스에 가지고 올 수 있어야 한다. 그래야 남들이 따라할 수 없는 결과물을 만들어내는 “몸 값하는” 데이터 사이언티스트가 되는 것이다.

그런 데이터 전처리를 잘 하려면 위의 모델들만 몇 개 골라서 공부하면 되냐고? 글쎄다. 저건 필자가 대학원에서 몇 년동안 통계학 공부한 지식을 실제 데이터 전처리를 하던 중에 적용해 본 몇 가지 사례들에 불과하다. 데이터 사이언스 공부하고 싶으시거든 구글 검색창에 “최신 인공지능 계산법” 같은 낯뜨거워지는 검색어 입력하시지말고, 통계학 교과서를 다시 펼쳐보시는건 어떨까?

 

2월 19일 05:31 UTC (한국시간 기준 2월 19일 오후 2시 31분) 경, 비트멕스는 모든 거래 엔진 작업이 중지되었던 약 1분 동안의 일시적인 거래 중지 사태를 겪었습니다.

이번 문제는 내부 시장 데이터 배포 구성 요소 간의 지속적인 데이터 전송 기간으로 인해 발생되었습니다. 이는 플랫폼의 전반적인 복원성을 향상시키기 위해 정기적으로 예정된 업데이트의 일환이었습니다. 해당 문제의 근본적인 원인이 확인되었으며, 재발 방지를 위해 내부 프로세스를 통한 수정이 이루어졌습니다.
또한 저희 비트멕스는 향후 유사한 상황 발생 시 거래 엔진에 영향을 미치지 않도록 하기 위해 시장 데이터 배포 구조를 지속적으로 재구축하고 있습니다.

해당 사항과 관련해 불편을 끼쳐드려 죄송합니다. 궁금한 점이 있으시면 고객 지원팀에 문의해주십시오.

2월 20일 04:00 UTC (한국시간 기준 오후 1시)부로 API를 통해 제출된 대량 주문 요청에 포함되어 있는 시장가 주문을 더 이상 지원하지 않습니다. 여기에는 ordType=Market 및 암묵적 시장가 주문 (공매수와 공매도 중 한쪽으로 제출되었지만 가격이 없는 주문)으로 제출된 주문이 모두 포함됩니다. 이 시간 이후로 대량 주문 요청에 시장가 주문이 포함되는 경우, 전체 요청이 거절됩니다. 해당 기능 업데이트는 저희 비트멕스 거래소의 API 및 거래 시스템 구조에 대한 지속적인 간소화 작업의 일환임을 알려드립니다.

데이터 컨설팅 요청을 받는 경우가 있다. 단순하게 주가 예측하는 알고리즘 만들어달라거나, 비트코인 가격 맞출 수 있게 해달라거나 하는 둥의 황당한 요청이야 단번에 거절하는데, 때때로 최소한 말은 되는 데이터 사이언스 급의 프로젝트를 들고 오시면 일단 답변은 드린다. 근데, 다들 생각하시는게 무슨 개발 프로젝트 발주하는 마인드인 것 같아서 황당할 때가 많다.

얼마전에 Android 개발자 포지션에 지원하신 분의 메일 내용 일부가 이 글의 주제와 맞닿아 있는 것 같아서 살짝 소개만 해 본다.

인공지능 회사에 안드로이드 개발자로 입사…. 개발한 어플을 홍보할 마케팅 비용이 없다는 이유로 정부 프로젝트를 회사에서 진행…. 인공지능 키워드로 홍보를 하는 회사인 만큼 인공지능 기능이 들어간 정부 프로젝트에 참여하게 되었는데, 해당 프로젝트에 참여하게 되면서 문제가 발생하게 됩니다.

평소에 수학적인 기반 지식이나 인공지능 및 데이터 관련 기반 지식이 전혀 없던 저는 해당 업무는 저의 업무가 아니며, 내가 맡을 경우 결과가 좋지 않을 것이다라고 강하게 어필하였으며 연구인력이 필요하다고…. 실제로 회사에 있는 연구 인력이나 데이터 사이언티스트는 너 개발자인데 왜 못해라는 분위기로 억지로 저에게 일을 떠넘겼고….

내가 무능하고 잘못생각한건가라고 헷갈리기 시작했습니다… 뭔지도 모르는 수식들을 봐가며 이해하기를 시도하다 포기하고 코드들을 단순히 복붙하였고… 그림찾기 수준으로 같은 데이터만 수집하는 매크로를 작성하여 데이터 셋을 가공했고…. 결과가 왜 그렇게 나오는지 알지도 못한채, 내가 학습하는 알고리즘이 무슨 알고리즘인지도 알지도 못한채….

블로그의 글을 (중략) 이런 분이 운영하는 회사에서 업무를 하게 된다면 적어도 내가하는 안드로이드 개발 업무 외에 다른 업무를 말도 안 되는 이유도 맡게될 이유는 없겠구나는 생각…. (중략)

매일같이 보고 듣고, 가끔은 매우 가까이서 보고 듣게 되는 현실이다. 경력 3년차 안드로이드 앱 개발자에게 저런걸 시켜서 정부 프로젝트라는 허명아래 세금 낭비를 하고 있는데, 내 입장에서는 안타까울 뿐이다.

저런 프로젝트들만 보고 연락을 주셔서 그런지는 모르겠는데, 데이터 컨설팅 요청을 하는 사람들에게서 대화가 안 된다는 느낌을 강하게 받은 에피소드 몇 개만 소개한다.

 

모 게임사 Case – 개발자 한 명이랑 너랑 하면 되는거 아냐?

어느 중견 게임사, 아마 게임 업계 계신 분들이면 이름 듣고 아~ 정도가 나올만한 회사의 서울 지사장이라는 분이 연락을 주셨다. 자기네 특정 서비스가 인간이 풀어낼 수 있는 건지 아닌지, 꼼수로 풀어낼 수 있는건지 아닌지를 알아낼 수 있는 “인공지능” 알고리즘을 만들 수 있냐고 하시더라.

몇 차례 메일을 주고 받은 끝에, Reinforcement learning을 시켜야하고, 시뮬레이션 기반으로 Model-Free (속칭 Q-learning)으로 모델을 만들어야한다는 사실을 깨달았다. 거기다, 게임 중에 랜덤으로 추가되는 변수들이 스테이지 별로 점점 더 많아지는 구조라 더더욱 알고리즘 개발에 시간이 많이 걸린다고 알려드렸다. 저런 랜덤 요소들을 무작정 변수들로 추가하기 시작하면 시뮬레이션으로 모든 Grid를 다 찾아야하기 때문에 Learning 작업이 아예 안 끝날테니, 뭔가 합리적인 규칙을 이용해서 랜덤 변수들을 최소화할 수 있는 조건식을 찾아봐야할 것 같다고 수학적인 설명을 해 줬다. (당연히 못 알아들었을 것이다.)

그 서울 지사장이라는 분은 자기네 회사에 병특으로 와 있는 K모 대학 출신 개발자가 매우 똑똑한 인재니까 필자에게서 저런 “수학 모델링” 작업을 훔쳐(?) 배우면 몇 달안에 저런 “인공지능 알고리즘”이 뚝딱~ 개발이 될 것이라고 생각하고 있으시더라.

이건 Bellman equation으로 모델을 만들어서 손으로 풀 수 있는 부분 (Analytic solution)이 최대한 많아지도록 모델을 설계해야한다고, 필자와 비슷한 수준으로 Bellman equation에서 2개, 3개 이상의 random state variable이 있는 경우를 풀어본 경험이 있는 사람이 몇 명 붙어서 이런저런 고민을 길게해야한다고 설명을 해 줬는데, 정말 전혀 못 알아 듣는 표정이더라. (사실 여기서 대화를 접었어야 했다.)

끝까지 자기네 개발자를 투입시키면 비용이 절감될텐데 왜 다른 박사를 불러올려고 하느냐면서 말을 잡아 끌다가, 나중에는 다른 수학과 교수들과 연락하고 있다는 식으로 가격 협상을 하려고 하셨다. 외람되지만 수학과 교수님들 중에 Bellman equation 으로 모델 만들고, 그 때 state variable이 너무 많다는 이유로 손으로 푸는 대신 컴퓨터의 Trial-and-error 방식으로 문제를 풀어보신 분은 아마도… 없을 것이다. 물리학 하시는 분들이나 기계공학 하시는 분들이 비슷한 작업을 하시는걸 본 기억은 난다. (그런 수학 방법론을 쓰셨다는 이야기지 머신러닝에 활용했다는 이야기 하는건 아니다.)

나중엔 Proto-type을 만드는 견적을 달라고 하시던데, 이건 뭐, 저런 연구과제가 어떻게 돌아가야되는지 전혀 모르는 분이나 하는 질문이 아닐까? 금액을 불렀더니 아예 답장도 안 주더라. 답장도 안 하는 정도의 무례한 사람에게 왜 내가 시간 낭비를 했을까?

 

모 의학 스타트업 Case – 사업 아이디어를 전부 만들어주세요

어느 의학 스타트업에서 생체데이터와 자기들 내부 데이터를 “분석”하여 모델 구축 후 (“분석”이라는 단어를 쓴 것부터 이미 이 블로그를 대충 봤다는 티가 났었다), 그 데이터를 리얼타임으로 “분석”하면서 의사결정을 예측하는 앱을 개발하고 싶단다. 그러면서 마지막에 앱 만드는 부분만 자기가 할테니 앞 부분을 다 만들 수 있냐, 가격은 얼마냐는 질문을 받았다.

그 스타트업 관계자의 익명성을 위해서 구체적으로 무슨 데이터였는지에 대한 정보는 생략한다.

이 회사의 홈페이지를 들어가면 딱 저 사업 모델로 “혁신”을 갖고 온다고 써 놨다. 설립일이 2018년 2월로 되어 있고, 약 30억 정도의 투자금을 받았던데, 위의 요구사항 메일을 봤을 때 1년동안 저걸 시도해보다가 내부적으로 실패하고 “실력자(?)”로 짐작되는 사람에게 외주를 주는 방식으로 해결하려고 한다는 사실을 감 잡을 수 있다. (관계자님, 제 짐작이 틀렸다면 사과드립니다.)

완전히 남의 사업 모델을 하나 다 만들어달라는 급의 요구를 하는데, 의학 데이터는 필자가 잘 모르는 분야이기도 하고, Pabii 사업이 바빠 시간을 쓰고 싶진 않았지만 그래도 돈 없는 스타트업 입장에서 직원 분들 월급도 주고, 설비도 들여놓고, 외부 마케팅 비용도 벌어야되니 돈만 많이 주면 해 주겠다고 크게 양보를 했다.

사업 모델을 들어봤을 때, 그들이 말하는 데이터가 리서치 할 수 있는 수준으로 이미 확보되어 있다는 전제아래, 1단계 모델링 작업, 2단계 실시간 처리용 개발작업, 3단계 앱 개발 작업으로 나뉜다고 말씀드렸더니, 그럼 (돈 좀 아끼고 싶으니까) 1단계만 부탁하고 싶단다. 근데 실시간 처리용 개발하려면 서버에 저 모델을 어떻게 얹어야하고, DB는 어떻게 설계해야하는지 계속 저랑 커뮤니케이션해야될텐데요? 그건 공짜로???

우리 Pabii의 DSP 사업 모델만해도 최소 10억 이상의 초기 투자금이 필요한 서비스다. 그 사이에 이것저것 돈 들어갈 일이 많고, 솔직히 말해서 10억원도 턱없이 부족하다고 생각한다. 그나마 다행인 부분은 연구, 개발 분야에 외주 줄 필요가 없을만큼의 인력이 모여있기 때문에 “도전” 부분에서는 비용이 절감(?)될 뿐이다.

반면, 저 의학 스타트업은 자기네의 핵심 모델을 개발하는 작업을 완전히 외주줘야할만큼 연구 수준이 낮은, 말 그대로 “이빨로 투자받은” 상태인데, 이런 외주에는 얼마를 쓰는게 맞을까?

필자가 같은 상황이었으면 아예 창업을 하지 않았거나, 아무리 많은 돈이 필요해도 저런 모델링을 할 수 있는 데이터 사이언티스트 찾아 삼만리를 했을 것이다.

필자가 잠깐 겪었던 미국의 어느 스타트업은 이름만 파이낸스 박사지 사실 세부 전공은 아무 관련이 없는 교수 하나를 감사로 임명하고, 통계학 석사 출신 중국인 하나에게 특정 모델을 만들라고 시켰다가 그 중국인이 탈출하고 필자를 뽑았었다. 면접 숙제라고 나오는 내용들이 모조리 경쟁사 모델 replication인데 가이드가 너무 없어서 이상하다고 생각했다가, 회사 들어가자마자 이 사람들이 모델도 없고, 나한테 모델 만들라고 할꺼면서 지분을 0.0x%만 주려는 무개념 욕심꾸러기라는 사실을 깨닫고 탈출했었다. (그리고 그 회사는 얼마전 투자금을 다 소진하고 청산 절차를 밟았더라.)

앱 하나 만들면서 몇가지 알려진 기능을 구현해달라고 개발자를 찾는 것도 아니고, Seed에 30억이 넘는 투자금액이 들어오는 “상상속의 도전”을 시도하는 회사가 자기네 연구 능력 부족으로 외주를 주게되면 얼마를 써야할지 지금도 잘 모르겠다. 모르긴 몰라도 전세계에 당신들이 원하는대로 연구 결과물을 뽑아낼 수 있는 사람이 몇 명 없을 것이다.

 

어느 대기업(들) – 데이터 사이언티스트 있는 스타트업 하나 인수하면 되는거 아냐?

최소 2개의 국내 대기업들에서 만났던 편견이다. 데이터 사이언티스트라고 뽑은 인력들이 사실은 Data Engineer거나, Data Analyst라고 냉정하게 평가해줬더니, 그럼 데이터 사이언스 프로젝트 외주 주지말고 아예 Data Scientist 있는 스타트업 하나 인수하면 되는거 아니냐는 식으로 전략을 바꾸더라.

처음 겪었던 대기업 1번은 학부생들이 우리 페X스북에서 인턴해봤던 데이터 사이언티스트에요~ 라고 팀 만들어놓은 걸 보고, “Acqui-hire” (인재 고용을 위해서 신생 스타트업 팀을 통째로 인수하는 것)를 시도하고 있더라. 당시 그 분들이 옵션 중 하나로 뒀던 중형급 스타트업은 핵심 사업 모델을 모 대학교에 있는 어느 교수한테 외주를 주고 있는데, 그 교수는 그쪽 시장이 어떻게 움직이는지에 대해서 굉장히 얊은 이해를 가진 분이었고, Acqui-hire 하려고 했던 그 학부생 스타트업은 학부 수준 통계학을 이것저것 적용해본 걸로 블로깅하는 기초 수준이었다. 더불어 고민하셨던 투자 옵션이 관련 비지니스를 몇 달동안해서 이것저것 개발해봤다는 초짜 개발자들 스타트업에 지분 투자하는 거였던걸로 기억한다.

참고로 관련 비지니스를 몇 달동안 해 봤다는 그 스타트업은 비지니스 모델이 제대로 안 돌아가니 국내 유명 K대학 학부생 동아리!!!!! 애들과 업무 협조를 해서 “인터넷으로 배운” 비지니스 모델을 구현하겠다고 시도하고 있었다. (후에 관계자에게 뒷 이야길 들어보면 동아리!!!!!와는 결별했고, 인터넷으로 배운 탓에 Client쪽 서비스를 어떻게 만들어야하는지를 모른채 2년을 허비했단다. 연구 프로젝트를 인터넷으로 배우고, 학부 동아리!!!!! 와 업무 협조로 풀어낸다고??? 도대체 어떤 전공이 이런 수준으로 연구를 하나??)

대기업 2번은 인력 채용이 힘들다고 실리콘밸리까지가서 소형 스타트업 하나를 인수했다. 그 스타트업이 뭔가 데이터가 엄청나게 많은 것처럼 주장하고, 사업 모델이 빵빵한 것처럼 이야기했지만, 정작 제대로 된 데이터 사이언티스트 하나 없이 엔지니어들이 글 첫머리의 안드로이드 개발자 사례처럼 이것저것 주워붙이기 하던 상황이었고, 그나마 좀 똘똘했던 중국인 데이터 사이언티스트는 인수된 후 얼마 지나지 않아 다른 회사로 이직해버렸다고 하더라. 결국 데이터 사이언티스트 하나 없는 쭉쩡이 스타트업을 인수한 꼴이 됐다.

저 위의 2개 대기업은 모두 오너 레벨에서 데이터 인력을 키워야한다고 목소리를 높이고, 외부 인재를 열심히 영입하고 있는걸로 유명한 회사들이다. 그런데, 이렇게 말해서 정말 미안하지만 필자가 보기에 저정도면 잘하겠다 싶은 데이터 사이언티스트 뽑은 걸 아직 못 봤다.

 

나가며 – 개발? 연구!!

1년 반쯤 전에, 데이터 컨설팅 회사에 재직 중이라는 통계학과 졸업생을 만난적이 있다. 자기네 회사에 통계학 교수와 공학 교수가 Co-founder이기 때문에 믿고 왔는데, 정작 회사에는 공대 분들이 통계학적으로 틀린 작업들을 코드 복붙해서 하고 있고, 교수님들은 이해를 못하는건지 관심이 없는건지, 이름 값으로 프로젝트 따는데만 관심이 있는건지, 결과물은 그냥 그 상태로 고객사에 전달되고 있단다. 자기는 아무 말도 못하고 따라만 가고 있을 수 밖에 없는 사실이 너무 괴롭다며 불평을 했었다.

아마 필자를 찾아왔던 저 위의 회사들 중 상당수가 필자가 부른 “견적”에 깜놀!하고 그 통계학과 졸업생 분이 계신 데이터 컨설팅 회사 수준의 인력에게 외주 프로젝트를 맡기고 있을 것이다. 그리고 결과물이 마음에 안 들면 데이터 사이언스라는거 그거 별거 없는거라고 불평불만을 털어놓으시겠지.

직장 초년병 시절에 있었던 외국계 증권사의 IBD팀은 M&A건당 엄청난 금액의 수수료를 요구했었고, 당시 필자와 비슷한 인력 풀의 친구들이 들어갈려고 갈망했던 외국계 전략 컨설팅 회사들도 파트너 급들이 국내 대기업들에게 깜놀!!할 자문료를 요구했던 기억이 생생하다. 인턴도 한 두달 훈련만 시키면 했던 수준의 외국계 증권사 업무나 전략 컨설팅 업무도 아니고, 그들보다 훨씬 더 Academic challenge의 레벨이 높고, 단순한 “직장 경력”만으로는 명함도 못 내미는 연구 프로젝트들을 외주로 맡기려고 하면서, 심지어 자기들은 퀄리티의 차이도 잘 인지 못하면서, 왜들 저렇게 푼돈으로 해결하려고 하는걸까?

푼돈으로 외주 주려다가 피본 사례 중 IT업계 예시가 아닌, 실제 눈으로 보고 겪은 사례 하나만 여담으로 공유한다. 2008년, D모 외국계 증권사 IBD 막내 시절, 지방의 어느 백화점 업체가 매물로 나온 모 화장품 업체 인수전에 뛰어들겠다고 당시 재직 회사를 찾아왔었다. 시장에서 예상했던 딜 사이즈가 대략 3천~4천억 정도였는데, 그에 맞춰 우리 수임료를 불러주니 놀란 황소 눈이 되었던 그 회사 담당자의 눈이 아직도 선하다. 결국 무늬만 IB고 자금 지원 능력이나 딜리버리 능력이 전혀 없는 어느 국내 증권사를 선임해서 인수전에 뛰어들었던 게 기억난다. 당시 인수 후보가 많았던 탓에 1차, 2차 라운드로 인수 후보들을 걸렀는데, 첫 라운드에 떨어져 나가더라. (담당자들의 뒷 이야기를 들어보면 아예 서류조차 제대로 읽지 않았던 후보란다.) 당시에 윗 분들이 “우리랑 팀을 짜도 힘들었을텐데 겨우 국내 증권사 써서 되겠냐 쯧쯧”이라고 혀를 찼었다. 그로부터 3년도 지나지 않아 서울의 대형 백화점들이 지방 상권을 싹 장악하면서 그 지방 백화점은 몰락의 길을 걸었다. 당시에 회사의 생존을 위해서 사생결단을 내렸어야했던 타이밍인데, 겨우(?) 몇 십억의 수임료를 아끼려다가 지방 유지 3대가 평생을 바쳐 일궜던 사업체는 백발과 주름살에만 흔적이 남은 회사가 되어 버렸다.

한국의 Software Engineering 관련 비지니스 대부분이 건설업의 그것처럼 하청, 하청의 하청 같은 방식으로 운영되는걸 자주 듣는다. 근데, 위에 예시를 든 Data Science 프로젝트 대부분이 개발 인력 몇 명으로 해결되는게 아니라, 똑똑이들 잔뜩 모아놓은 스타트업들의 운명을 걸고 해야하는 수준의 대형 연구 과제급 사업모델이라는 걸 인지하고나도 여전히 개발 외주 주듯이 후려치기를 할까? 아예 몇 백억을 주고 Acqui-hire를 해도 핵심 인력인 Data Scientist가 이직해버리는 판국인데?

전관 예우를 받는 변호사를 고용하고, Track record가 엄청난 외국계 증권사를 고용할 때, 그 때 만나던 지적 능력과 희소성을 갖춘 인력들에게 외주를 줘야한다는 사실, 당신이 원하는걸 해 줄 수 있는 사람이 거의 없다는 사실을 좀 인지하고 외주 프로젝트 이야기를 꺼냈으면 좋겠다.

“몇 천만원 정도 쓰면 되나요?”라는 (모욕적인) 질문은 그만 받았으면 한다.

 


공지: 2019년 3월 29일을 끝으로 데이터 사이언스 주제의 포스팅은 종료됩니다. 이 후에는 파비의 스타트업 운영 관계된 포스팅만 월 1회 작성됩니다.

요약: 이번 보고서에서 저희는 암호화폐 커뮤니티의 많은 사람들이 자주 묻는 질문을 살펴볼 것입니다: “다음 번 세계 금융위기는 도대체 언제 발생할까요?” 저희는 우선 2008년 이후 금융 위기의 진원지가 은행에서 자산운용업계로 어떻게 이동했는지를 설명함으로써 이 질문에 대한 답변을 해보려 합니다. 그러므로 저희는 소액 거래 은행 예금과 결제 시스템이 위협 받았던 2008년의 일이 되풀이 될 가능성은 낮다고 생각합니다. 특히 저희는 믿을 수 없이 낮은 변동성과 낮은 수익률 환경에 의해 크게 활력을 얻은 기업 부채 투자 펀드 및 비전통적 부채 투자 수단이 금융 시스템 내에서 가장 취약한 영역이 될 수 있다고 주장하는 바입니다.

(세계 금융위기가 발생한 지 10년이 지난 지금, 햇빛에 노출된 당시 신문들이 노란색과 분홍색으로 변했으므로 어느 시점에서 신용 상태가 다시 심하게 경직될 수도 있지만, 은행 업계가 아닌 자산운용업계가 위기의 진원지가 될까요?)

개요

일각에서는 출시 시점으로 인해 비트코인을 2008년 세계 금융위기에 따른 재정 혼란과 회의론의 결과로 탄생했다고 평가하고 있습니다. 이러한 이유로 다수의 비트코인 투자자들과 암호화폐 커뮤니티의 회원들은 종종 다음과 같은 물음을 던지는 듯 합니다:

다음 번 세계 금융 위기는 언제쯤 발생할까요?

이와 같은 요구로 인해 저희는 해당 이슈를 다루고자 합니다.

저희는 먼저 질문 자체를 살펴볼 것입니다. 저희는 이 질문에 다음과 같은 세 가지 주요 전제가 포함되어 있다고 생각합니다:

  1. 다음 번 세계 금융위기는 향후 몇 년 내에 발생할 것이며, 이는 10년 정도 마다 불가피하게 발생할 것입니다;
  2. 이러한 위기는 비트코인 가격에 긍정적인 영향을 미칠 것입니다;
  3. 다음 번 세계 금융위기는 지난 번의 금융위기와 유사하게 보일 것이고, 이로 인해 많은 사람들이 은행 시스템 및 전자 결제 시스템의 무결성에 의문을 품게 될 것입니다.

이 세 가지 전제 중, 저희는 첫 번째 전제에만 동의하는 바입니다. 후자의 두 전제도 사실일 수 있다고 생각하지만, 이에 대한 불확실성은 상당합니다.

저희는 2018년 3월 두 번째 전제에 관한 내용을 다룬 적이 있습니다. 당시 저희는 비트코인이 안전 통화 자산이라기 보다는 위험 자산으로 거래되고 있다는 점에 주목했습니다. 물론 그 이후로 비트코인 가격은 상당히 하락했고 이는 앞으로 언제든 바뀔 수 있습니다. 만일 비트코인이 다음 위기 (유동성이 제한되어 있을 때)에 잘 대처한다면, 이는 비트코인 및 가치투자 상품 정립에 대해 엄청나게 긍정적인 효과를 불러올 것입니다. 그러나 아직까지 이것에 대한 결정적인 증거는 없습니다. 저희의 견해로 볼 때, 이 현상이 실현되려면 위험 지향형 투자 명제 (예. 세계 컴퓨터 혹은 고성능 결제 네트워크)를 보유한 다수의 알트코인에서 비트코인 가격이 분리되어야 합니다.

세 번째 전제와 관련해서는 다음 번 세계 금융위기의 역학이 바로 이번 보고서의 핵심입니다.

선진 시장에서 상대적으로 건재한 은행의 대차대조표

“역사는 그 자체로 반복되지는 않지만 운율을 띤다”라는 명언처럼 지난 10년 동안 은행 관리팀과 은행 규제당국은 2008년의 그늘 아래에서 운영되어 왔습니다. 그 결과 은행의 대차대조표 및 자본 비율이 상당히 탄탄해졌습니다. 선진 시장에서 일선 은행의 기본 자본 비율은 금융위기 전 약 5%에서 오늘날 약 12%로 증가했습니다 (그림 1). 조작이 더 어려운 총자산 대비 자본의 기본 비율 또한 비슷한 양상을 띠고 있습니다: 해당 기간 동안 c5%에서 c9%로 개선됨 (그림 2).

그림 1 – 미국 및 영국은행의 총 보통주 자본 비율

(출처: 영국은행의 영국 종합 데이터, 미 연방 준비 제도의 (Federal Reserve)의 미국 데이터

그림 2 – 미국 은행의 총 자산 비율 대비 총 유형자산 비율 (미화 500억 달러 이상의 자산을 보유한 은행)

(출처: 미 연방 준비 제도 (Federal Reserve))

어쩌면 다음과 같이 더 간단한 도표 (그림 3)가 앞서 소개한 비율보다 훨씬 더 명확하고 설득력 있을 수 있습니다. 이는 세계 금융위기 이후 주요 서방 은행들이 대차대조표를 전혀 확대하지 않았음을 보여줍니다. 실제로 저희가 살펴본 9개 주요 표본 은행들의 총 자산은 2008년 미화 19조 3천억 달러에서 2018년 미화 15조 6천억 달러로 크게 감소했습니다. 물론 인수합병과 같은 행위를 아래 도표의 요인이라 주장할 수도 있지만, 저희의 요점과 의견에는 변함이 없습니다.

그림 3 – 선진 시장에서 선택된 은행의 총 자산 – 미화 3억 달러 기준

(출처: BitMEX Research, Bank Earnings, Bloomberg)
(공지사항: 해당 도표는 JP Morgan, Bank of America, Citigroup, Wells Fargo, HSBC, RBS, Deutsche Bank, Credit Suisse 및 UBS의 총 보고 자산을 나타낸 것입니다.)

저희는 재무 레버리지가 금융 위기의 주 원인 중 하나라고 생각합니다. 금융 시스템의 위기 진원지는 2008년 이후 바뀐 것으로 추정됩니다. 이 같은 위기는 2008년 은행 시스템의 레버리지와 주택담보대출 시장의 유동화 방안 사이의 상호 관계로 인해 발생되었습니다. 오늘날 이와 동등한 위험 요소는 자산운용업계와 특히 기업 부채 부문에서 믿을 수 없을 정도로 낮은 변동성 환경에 의해 추진되는 레버리지입니다.

자산운용업계의 레버리지 증가

자산운용업계는 은행업보다 훨씬 더 불확실하고 레버리지의 정도를 결정하는 일 또한 훨씬 더 어렵습니다. 따라서 자산운용업계의 레버리지 범위 또는 이러한 레버리지와 관련된 금융 위기 시기에 대한 결론을 내기는 어렵습니다.

2015년 국제결제은행 (BIS, Bank for International Settlement)은 은행 시스템에서 자산운용업계로의 위험 전환에 초점을 맟춘 “매수 측의 레버리지 (Leverage on the buy side),”라는 제목의 보고서를 작성했습니다. 해당 보고서는 투자 펀드 레버리지가 주식 부문에서는 꽤 안정적인 반면, 고정 소득 영역에서는 2008년 이후, 특히 신흥 시장에서 상당히 증가한 점에 주목하고 있습니다. 이와 관련하여 국제결제은행 (BIS)의 보고서는 다음과 같은 결론을 내렸습니다:

은행 시스템의 레버리지는 2008년 세계 금융위기의 중요한 요소였습니다. 그 이후로 자산 관리자들 (“매수 측”)은 대차대조표를 다시 건재한 상태로 되돌리려는 은행들의 대폭적인 축소를 도움으로써 세계 금융 분야에서 빠르게 입지를 넓혔습니다. 투자 펀드의 대차대조표 정보는 규제가 엄격한 은행보다 훨씬 더 쉽게 이용할 수 있습니다. 저희는 시장 데이터 공급업체가 제공한 정보를 활용하여 펀드 종류에 따라 상당히 다른 것처럼 보이지만, 매수 부분의 레버리지는 결코 무시할 수 없다는 사실을 발견했습니다. 주식형 펀드 포트폴리오는 최소한의 레버리지 기반으로 운용되는 반면, 고정 수입 펀드는 차입금에 의존하는 경향이 많습니다.

(출처: BIS)

국제결제은행 (BIS)의 보고서는 투자 펀드 흐름 전문가 및 시장조사기관인 EPFR (이머징 마켓 포트폴리오)의 데이터를 기반으로 작성되었습니다. 저희는 보고서의 결론에 동의하는 바이지만, 데이터의 신뢰성에 대해 확고한 견해를 밝히기는 어렵습니다. 저희는 전세계를 아우르는 신뢰할 만한 데이터의 출처를 찾지는 못했지만, 특정 규모 이상의 미국 소재 투자 펀드는 레버리지 사용 정도에 관한 데이터를 미 증권거래위원회 (SEC)에 제출해야 합니다. 미 증권거래위원회 (SEC)는 2013년 2분기부터 해당 데이터 수집을 고수해왔으며 저희는 아래 도표 (그림 4, 5, 6)를 통해 주요 추세를 요약해 보았습니다.

아래 데이터는 은행 부문과 달리 자산운용산업이 2008년 이후 상당히 확대되었음을 보여줍니다 (그림 4). 이와 동시에 2008년 이후의 명확한 차트를 작성하기는 어렵지만 레버리지 또한 증가한 것으로 보입니다.

그림 4 – 미국 펀드 산업 총 자산 가치 (미화 10억 달러 기준)

(출처: BitMEX Research, SEC)

경쟁적인 방법론이 존재하기는 하지만, 투자 펀드의 레버리지 수준 확정을 위한 가장 기본적인 방법은 순 자산 가치를 기준으로 총 자산 가치를 계산하는 것이며, 이를 때로는 자금 조달 비율이라고 칭합니다. 아쉽게도 아래 도표 (그림 5)의 시간 범위는 제한적이나 적어도 헤지 펀드 부문에서는 레버리지의 적정한 확장을 나타내는 듯 합니다.

그림 5 – 미국 민간 펀드 산업의 자금 조달 비율 – 총 자산/순 자산 가치

(출처: BitMEX Research, SEC)

자금 조달 비율은 파생 상품의 영향을 무시함으로써 실제 레버리지를 과소 평가하는 경향이 있습니다. 미 증권거래위원회 (SEC) 역시 파생 상품 노출성의 명목상의 가치 공시를 요구하고 있습니다. 아래 도표는 미국 기반 헤지 펀드의 파생 상품 이용 증가세를 나타냅니다.

그림 6 – 미국 민간 펀드 산업 – 헤지 펀드 – 파생 상품의 명목상의 가치/순 자산 가치

(출처: BitMEX Research, SEC)
(공지사항: 미 증권거래위원회 데이터 보고 방식의 변화를 반영할 수 있도록 조정되었습니다.)

신규 기업 부채 시장의 매커니즘

투자 펀드를 통한 고정 수입 시장에서의 레버리지 사용이 증가할 뿐만 아니라 부채 시장의 메커니즘은 점점 더 복잡해지며 모호해지고 있습니다. 기업 부채 시장에서 은행의 역할을 대체한 결과, 상호 연관된 비 상호배타적 투자 구조가 급격히 성장했습니다. 이러한 구조 중 일부를 아래 표에 요약해보았습니다.

부채유형 설명/의견 참고사항
대출채권담보부증권 (CLOs) 여러 회사의 대출 그룹이 함께 모여 담보를 구성하는 경우를 지칭합니다. 일반적으로 해당 상품은 다른 트랜치 (tranche, 세분된 각개 그룹)로 나뉘며, 수익률이 낮은 저위험 트랜치와 수익률이 높은 고위험 트랜치로 나뉩니다. 위험성이 가장 높은 트랜치의 투자자들은 지급 불능 발생 시 가장 마지막에 수익을 지급받습니다. 이 상품의 대표적인 구매자는 연금 기금, 보험 회사 및 헤지 펀드입니다. 해당 상품은 특히 수익률을 중시하는 아시아 투자자들에게 인기가 높습니다. 시장 성장세 – 그림 7
레버리지 기반
대출
전형적으로 해당 유형의 대출은 이미 부채가 많은 기업에 제공되는 변동 금리 대출입니다. 대부분의 경우 해당 대출은 완전 무담보 대출입니다. 이러한 금융 상품의 대표적인 보유자는 연금 기금 및 기타 개인 투자자입니다. 영국은행은 최근 전세계 레버리지 기반 대출 시장의 규모를 미화 2조 2천억 달러로 추산하고 2006년 미국의 비우량 주택담보대출 시장 규모 (미화 1조 3천억 달러)와 비교했습니다. 시장 성장세 – 그림 8
신용 등급 – 그림 15
사설채권거래 이 유형의 부채는 채권이 일반적으로 2차 시장에서 거래되지 않는다는 점을 제외하고는 레버리지 기반의 대출 시장과 유사합니다. 시장성장세 – 그림 9
채권형
상장지수펀드 및 뮤추얼 펀드 (간접투자 상품)
상장지수펀드 (ETFs)는 해당 기간 동안 모든 자산 계급에서 인기를 얻었고, 기업 채권형 펀드도 마찬가지였습니다. 시장 성장세 – 그림 10
사모 펀드 신용 등급 – 그림 16

(공지사항: 상기 표의 필드는 상호 배타적이지 않습니다. 즉, 여러 가지의 부채 유형이 동시에 발생할 수 있습니다)

다양한 출처를 가진 다음의 도표들이 나타내듯, 기업들에게 융자를 제공하기 위한 이 같은 모든 비은행적 메커니즘 (non-bank mechanisms)은 지난 번 세계 금융 위기 이후 상당히 증가했습니다.

그림 7 – 대출채권담보부증권 (CLO) 시장 규모 – 미화 10억 달러 기준

(출처: Citi, FT)

그림 8 – 미국의 레버리지 기반 대출 시장 규모 – 미화 10억 달러 기준

(출처: S&P, FT)

그림 9 – 사설 채권 시장 규모 – 미화 10억 달러 기준

(출처: Bank of America, FT)

그림 10 – 미국 투자자를 대상으로 한 채권형 상장지수펀드 규모 – 미화 10억 달러 기준

(출처: BitMEX Research Bloomberg)
(공지사항: 해당 도표는 다음 채권형 상장지수펀드의 시가 총액 합계를 나타냅니다: iShares Core U.S. Aggregate Bond ETF, Vanguard Total Bond Market ETF, iShares iBoxx $ Investment Grade Corporate Bond ETF, Vanguard Short-Term Corporate Bond ETF, Vanguard Short-Term Bond ETF, Vanguard Intermediate-Term Corporate Bond ETF, iShares J.P. Morgan USD Emerging Markets Bond ETF, Vanguard Total International Bond ETF, iShares MBS Bond ETF, iShares iBoxx $ High Yield Corporate Bond ETF, PIMCO Enhanced Short Maturity Strategy Fund, Vanguard Intermediate-Term Bond ETF, iShares Short-Term Corporate Bond ETF, SPDR Barclays High Yield Bond ETF, iShares Short Maturity Bond ETF)

기업 채무 시장 상황

아래의 그림 11에서 알 수 있듯 기업 채무 수준은 2008년 이후 상당히 증가했으며, 러셀 3000 지수 (Russell 3000, 미국 내 3천개의 대기업 주가지수를 산정한 것)에 포함된 기업들의 현재 총 부채는 지난 번 위기 때의 미화 8조 달러를 약간 상회하는 미화 11조 달러에 이릅니다. 기업들은 위에서 언급한 신규 투자 상품과 저금리를 이용해 기록적인 수준에서 돈을 차입했습니다.

그러나 그림 11의 빨간색 선이 보여 주듯이 러셀 3000 지수에 포함된 기업들의 대차대조표 상태는 여전히 꽤 건재해 보이며, EBITDA (이자, 세금, 감가상각비 등을 빼기 전 순이익)에 대한 총 순 부채는 2.5배 미만입니다. 이 비율은 지난 몇 년 동안 증가해왔지만, 2008년 금융 위기 이전의 c3.7x (3.7배) 수준만큼 크지는 않습니다. 이렇듯 눈에 띄게 탄탄한 대차대조표는 현금을 쌓아두고 있는 몇몇 거대 기술 기업들과 건재한 경제 상황으로 인한 수입 증가의 결과물입니다. 만일 경기가 침체되면 기업의 대차대조표는 수익이 하락하며 다시 부실하게 보일 수 있습니다.

그림 11 – 기업의 부채 수준

(출처: BitMEX Research, 기업 데이터, Bloomberg)
(공지사항: 해당 수치는 러셀 3000 지수에 포함된 모든 기업들에 대한 종합 데이터로 구성되었습니다.)

향후 몇 년간 상당량의 기업 채권이 만기될 예정입니다. 이는 유동성 위기 혹은 고정 수입 부문의 스트레스가 미치는 영향을 악화시킬 수 있습니다. 저희의 분석 결과 (그림 12)에 따르면, 2019년에 미국에서 미화 8,800억 달러의 기업 부채가 만기될 것으로 예상됩니다.

그림 12 – 기업 채권 만기의 벽 – 미화 10억 달러

(출처: BitMEX Research, Bloomberg)
(공지사항: 해당 수치는 미지급된 총 금액이 미화 5조 7천억 달러인 약 6,400개의 미국 기업 채권 데이터베이스를 기반으로 산정되었습니다.)

가장 놀라운 지표는 아마도 기업 부채의 등급일 것입니다. 그림 13은 시간 흐름에 따라 미지불된 투자 적격 등급 기업 부채의 신용 등급 분포를 보여줍니다. 2018년 말 채권 중 50% 가까이가 가장 낮은 투자 적격 증권 등급으로 평가되었으며, 이 수치는 지난 30년 간 그 어느 때보다도 훨씬 높은 비율입니다. 그림 14는 만기되는 기업 부채의 대다수가 가장 낮은 투자 적격 등급에 도달할 때 2021년의 상황이 더욱 악화될 수 있음을 나타냅니다.

그림 13 – 시간 흐름에 따른 미국 기업 채권의 S&P 신용 등급 분포

(출처: Bloomberg, HSBC USD IG 지수 구성요소, 금융 및 비 금융 회사 포함)

그림 14 – 만기까지 미지급된 미국 기업 채권의 S&P 신용 등급 분포

(출처: BitMEX Research, Bloomberg)
(공지사항: 해당 수치는 미지불된 총 금액이 미화 5조 7천억 달러인 약 6,400개의 미국 기업 채권 데이터베이스를 기반으로 산정되었습니다..)

위에서 언급한 비전통적 부채 투자 수단 중 일부에 대한 신용 등급을 평가하는 것은 더 어려운 일입니다. 그러나 아래의 그림 15와 같이 Moody’s의 최신 보고서는 레버리지 기반의 대출 시장에서 투자자를 위한 보호책의 수준이 상당히 하락했다고 지적했습니다.

그림 15 – Moody’s의 레버리지 기반 대출에 대한 계약 등급 평가 (미국 및 캐나다)

(출처: Moody’s, Bloomberg)
(공지사항: 5.0은 가장 낮은 등급, 1.0은 가장 높은 등급임.)

그림 16 – EBITDA 대비 다수 사모펀드 거래의 평균 총 부채

(출처: S&P, FT)

변동성이 낮은 환경

저희는 선진국의 비전통적 통화 정책이 투자 수익과 변동성을 줄이는 동시에 대출 비용 또한 축소시켰다고 생각합니다; 이를 통해 더 많은 레버리지를 활용하고 더 많은 위험을 감수할 수 있는 자산 관리자를 위한 인센티브가 생겨났습니다. 이와 동시에 판에 박힌 듯 동일한 정책들은 기업들로 하여금 더 많은 부채를 떠안도록 부추겼습니다. 이렇게 낮은 변동성에 영향을 받은 것은 다른 무엇보다도 고정 수익 부문입니다. 이에 따라 각 자산 계급의 위험성 (변동성)에 따라 포트폴리오를 구성한 뒤 레버리지를 활용하여 수익을 올리는 “위험 균형 전략” 유형의 투자 전략이 점점 인기를 얻고 있습니다. 해당 레버리지는 높은 가중치에서 저위험 자산으로의 즉, 낮은 수익률의 영향력을 완화시키는 역할을 합니다. 해당 투자 전략은 일반적으로 주식보다는 고정 수익에 더 큰 비중을 두며, 저위험 자산의 낮은 수익률을 상쇄하기 위해 더 많은 레버리지를 통합시킵니다.

2018년 2월, 변동성 지수 (VIX)가 폭등하고 Velocity Shares 일일 변액 변동성 지수 상장지수채권 (Velocity Shares Daily Inverse VIX ETN)과 같이 변동성 지수 (VIX) 공매도 포지션 유지에 초점을 맞춘 투자 전략의 가치가 거의 0으로 곤두박질치면서 변동성이 급격히 증가했습니다. 이 주제는 BitMEX Crypto Trader Digest의 2018년 3월호 에서 다루어졌습니다. 이로 인한 피해자들은 손쉬운 수익을 원하는 소수의 기회주의적 투자자들이었고 “볼로코스트” (변동성으로 인한 대참사, 변동성 volatility + 홀로코스트 holocaust)가 나머지 금융 시스템에 미친 영향은 제한적이었습니다. 그러나 어떤 면에서 보면 2018년 2월의 사건은 고정 수익 시장에서 보다 일반적으로 벌어지고 있는 일에 대한 축소판이었습니다. 이번에는 주류 투자자들이 인위적으로 낮은 변동성과 저렴한 대출 비용을 기회로 활용하고 있습니다. 어느 시점에서 시장은 조정을 받게 될 것이고, 그로 인한 영향력은 고작 수십억 달러 정도의 자산이 아닌 수조 달러 규모의 자산 계급이 풀리면서 2018년 2월보다 훨씬 더 막대할 것입니다.

사건의 순서는 위험성을 악화시키는 여러 가지 요인에 따라 다음과 같을 수 있습니다:

  1. 몇 가지 기폭제가 작용하여 변동성이 급격히 증가합니다.
  2. 투자자들은 가장 유동성 높은 시장인 고정 수익에 우선적으로 집중하면서 포트폴리오의 위험을 줄일 필요가 있을 것입니다.
  3. 가장 유동성 높은 시장에서는 기계가 거래를 장악하는 동시에 기계가 유동성 공급을 중단할 가능성이 높습니다.
  4. 투자자들이 출구를 향해 몰려듦에 따라 고정 수익 시장의 변동성은 높아지고 비유동적으로 변하며, 결국 제 기능을 하지 못하게 됩니다.
  5. CLO (대출채권담보부증권) 및 채권형 상장지수펀드와 같은 자산담보부채권 기반의 자산은 순 자산 가치 대비 엄청나게 할인된 가격에 거래됩니다.
  6. 이러한 현상은 주식과 같은 다른 유동 자산 계급 전반으로 확산됩니다.
  7. 향후 몇 년 동안 새롭게 형성된 부채 기계의 부품들이 소모되기 시작합니다; 기업들은 재융자 (refinance)를 위해 고군분투하고 경제는 어려워집니다.

물론 저희는 변동성을 증가시키는 주요 기폭제가 무엇이 될 지 알 수 없습니다. 지정학적 사건, 신흥 시장 내 미화 달러 기반의 과도한 부채 수준, 중국 자산운용업계의 높은 레버리지 수준, 소극적 투자 방식의 상장지수펀드, 초단타 거래자, 지나치게 빠른 중앙은행의 대차대조표 축소 속도, 예상치 못한 대기업의 파산, 유로존 부채위기 및 비트코인의 치명적인 합의 버그 등으로 인해 변동성이 증가할 수 있습니다.

요점은 그 특정한 사건이 무엇이든 간에 정말로 중요한 것은 사건 자체가 아니라는 점입니다. 중요한 것은 인위적으로 낮은 변동성과 과도한 레버리지로 인해 야기되는 금융 시스템의 내재적 불안정성과 취약성입니다. 많은 사람들이 사건 발생 후 특정 기폭제를 지적하고 그로 인해 발생한 위기를 탓할 수도 있지만, 이는 합리적으로 볼 때 다소 부정직한 것일 수도 있습니다.

결론

은행은 자산 관리자보다 금융 시스템과 사회에 더 중요한 존재입니다. 자산 관리자가 외압을 받게 되는 경우, 순자산 가치가 높은 일부 개인들은 그들 자산의 감가상각을 경험할 수도 있습니다; 소액 투자자 및 기업 예금은 안전할 것입니다; 따라서 다가오는 위기는 2008년 때보다 심각하지 않을 수 있습니다. 그러나 비판적인 관점에서 보면, 위기의 영향력을 완화하기 위한 정부의 개입 가능성은 2008년 보다 더 제한적일 수도 있습니다.

무엇보다도 그리고 가장 분명한 점은 이미 낮아진 금리와 이미 규모가 커진 대차대조표로 인해 중앙은행장들이 활용 가능했던 통화정책 수단이 크게 줄었다는 것입니다. 둘째로 더 중요한 부분은 아마도 정치적 측면일 것입니다. 확실히 알 수는 없지만 트럼프, 브렉시트 (영국의 유럽연합 탈퇴) 혹은 노란 조끼 운동 (마크롱 프랑스 대통령의 유류세 인상 발표에 반대하면서 시작돼, 점차 반정부 시위로 확산된 시위)에 호의적인 보통 사람들은 금융 시장에 대한 정부의 개입을 지지하지 않을 수도 있습니다.

오늘 날의 “포퓰리스트” 정치 풍토에서는 많은 금융 자산을 소유하고 있지 않은 중간 급여를 받는 사람들의 상대적 비용으로 자산 가격을 인상하기 위해 고안된 양적 완화 혹은 다른 프로그램들을 정당화하는 것은 더 어려울 수 있습니다. 따라서 다음 번 위기 상황에서는 어느 정도 인지된 “정치적 폭동” 위험성을 관리함으로써 중앙은행장들이 취할 수 있는 조치의 범위를 크게 줄일 수 있습니다.

하지만 2008년 중앙은행 정책에 대한 정치적 반대의 여파가 있었고, 2011년경에는 저항이 최고조에 달했다는 것을 명심하시기 바랍니다. 이번 금융 위기의 또 다른 중요한 차이점은 소셜 미디어와 같이 반란을 이끄는 사람들이 활용 가능한 수단들이 훨씬 더 발전했다는 것입니다. 서구의 정치적 불안은 2008년 이후 증가한 것으로 보입니다. 만일 이러한 불안정성이 금융 변동성과 상호 작용하기 시작한다면 위험성이 심화될 수 있습니다.

언제 이러한 위기가 발생할 지는 저희도 확실히 알지 못합니다. 저희의 견해로 볼 때, 이 보고서의 도표들은 문제점을 명백히 밝히고 있지만 우리가 반드시 중대한 위기의 벼랑 끝에 서 있다는 것을 시사하지는 않는 듯 합니다; 그렇게 되기까지는 몇 년이 더 걸릴 수도 있습니다. 이러한 사건으로 수익을 얻기란 타이밍을 예측하는 것보다 더 어려울 수 있습니다. 어쩌면 변동성 지수 (VIX), 콜 옵션, 장기 기업 채권형 상장지수펀드 풋 옵션, 지수 연계형 국채, 변동성을 전문으로 하는 헤지 펀드, 금 그리고 이보다 적은 비트코인만으로도 포트폴리오를 구성할 수 있습니다. 다시 한 번 강조하지만 이러한 사건 즉, 다음 번 세계 금융 위기가 언제 발생할지는 알 수 없으나 지금이 여러분의 투자 포트폴리오를 조정할 적절한 시기일 수도 있습니다.

요약: 이번 보고서에서 저희는 비트멕스 보험 기금이 필요한 이유와 그 운영 방식에 대해 살펴보고자 합니다. 저희는 비트멕스 보험 기금 모델을 더욱 전통적인 다른 레버리지 시장들 (예. 시카고 상품거래소)에서 사용되는 시스템들과 비교할 것입니다. 저희는 기존의 기관 거래 플랫폼과 비교할 때, 레버리지 및 상한선이 있는 하향식 수익 계약을 제공하는 암호화폐 거래 플랫폼이 몇 가지 특수한 문제에 직면해 있다고 결론지었습니다. 그러나 비트멕스 보험 기금의 성장은 수익을 낸 거래자들에게 예상 수익을 달성할 수 있을 것이라는 합리적인 수준의 확신을 주었습니다.

(비트멕스의 공동 창립자 및 최고 경영자 Arthur Hayes (왼쪽) 그리고 시카고 상품거래소의 회장 및 최고 경영자 Terrence Duffy (오른쪽))

레버리지 기반의 거래 플랫폼

비트멕스와 같은 파생상품 거래 플랫폼에서 거래를 하는 경우, 거래자는 해당 플랫폼 자체를 상대로 거래를 하지 않습니다. 비트멕스는 단지 제 3자 간의 파생상품 계약 거래를 위한 조정자 역할을 할 뿐입니다. 비트멕스 플랫폼의 핵심 특징은 거래자가 비트코인을 입금한 후, 이를 활용해 (이론적으로 최대 100배까지의) 입금한 비트코인의 가치보다 훨씬 높은 명목상 포지션 크기의 계약을 구매할 수 있는 레버리지입니다.

레버리지와 거래자가 서로 거래할 수 있는 기능 제공의 조합은 승자가 그들이 기대하는 모든 수익을 항상 돌려받을 수 있다고 보장받지 못한다는 것을 의미합니다. 이 같은 레버리지의 특성으로 인해, 패자는 현재 포지션에 승자에게 지불해야 할 충분한 마진을 보유하고 있지 않을 수도 있습니다.

서로를 상대로 거래하는 두 명의 고객으로 구성된 플랫폼의 단순화된 다음 예시에 주목해 주십시오:

거래자 A 거래자 B
거래 방향 공매수 공매도
마진 1 BTC 1 BTC
거래 실행 가격 미화 3,500달러
레버리지 10배 10배
명목상의 포지션 규모 10 BTC 10 BTC
현 비트코인 가격 미화 4,000달러
예상 수익 미화 5,000달러 (미화 5,000달러)

위의 사례에서 수익을 낸 거래자 A는 손실이 난 거래자 B가 담보로 제시한 것보다 많은 5,000달러의 수익을 기대합니다 (비트코인 1개는 미화 4,000달러의 가치가 있음). 이와 같이 거래자 A는 1 BTC (미화 4,000달러)의 수익만을 얻을 수 있으므로 약간의 실망감을 느낄 수도 있습니다.

기존의 전통적 거래소들

시카고 상품거래소 (CME)와 같은 전통적 거래소들은 비트멕스와 같은 암호화폐 플랫폼과 동일한 수준으로 이 문제를 공유하지 않습니다. 전통적 레버리지 기반의 투자처에는 최대 5개의 보호 계층 (layers of protection)이 있으며, 이는 승자의 예상 수익 유지를 보장합니다:

  1. 개인 거래자가 자신의 계좌에 있는 담보보다 더 큰 손실을 입어 계좌 잔고가 음수인 경우, 계좌에 더 많은 자금을 투입하여 해당 포지션에 자금을 조달해야 합니다. 만일 이들이 그렇게 할 수 없거나 그를 꺼려할 경우, 중개인은 거래자에 대한 법적 절차에 착수하여 해당 거래자가 자금을 제공하거나 파산 신청을 하도록 강제할 수 있습니다. 각 거래자는 고객의 대차대조표와 자본을 평가할 수 있는 중개인을 고용해야 하며, 중개인은 각 고객이 가진 특정 위험성 평가에 따른 맞춤형 레버리지를 제공해야 합니다.
  2. 기존의 전통적인 파생상품 시장에서 거래자는 통상적으로 거래 플랫폼에 직접 접근할 수 없습니다. 대신, 고객은 그들의 중개인 (청산회원, clearing members) 역할을 하는 JP Morgan 혹은 Goldman Sachs와 같은 투자 은행을 통해 시장에 접근합니다.  거래자가 손실을 감내하고 부채를 변제할 수 없는 경우, 중개인은 거래소에 대금을 지불하고 거래 상대방들을 정상화시켜야 합니다. 거래소의 관점에서 이러한 중개인들을 청산회원 (clearing members)이라고 부릅니다.
  3. 청산회원의 채무불이행이 발생할 경우, 거래 상대방들을 정상화시키기 위해 중앙화된 청산 회사 그 자체가 종종 필요합니다. 많은 경우에 청산 및 결산은 거래소를 운영하는 별도의 기업이 진행합니다. 청산 회사는 청산회원의 채무불이행 자금을 마련하기 위해 다양한 보험 기금 혹은 보험 상품을 보유하고 있는 경우가 많습니다.
  4. 청산회원이 실패하고 중앙화된 청산 회사에도 자금 부족 현상이 발생할 경우, 일부 상황에서는 상환 능력이 있는 다른 청산 회원이 자금을 제공할 것으로 예상됩니다.
  5. 금융 규제당국은 종종 더 규모가 큰 청산 회사 (심지어는 더 대규모의 중개인들을)의 대다수를 전세계 금융 시스템과 관련해 시스템적으로 중요하게 생각하고 있습니다. 따라서 거대 청산회사가 실패하는 최후의 날의 시나리오 하에서는 금융 시스템의 완전무결성을 위해 정부가 개입해 거래자들을 구제할 가능성도 있습니다. 거래자와 기관들은 종종 금리 스왑 시장 내에서 다른 포지션이나 상품에 대해 헤징할 대규모 명목상의 포지션 (미화 수 조 달러의)을 가지고 있습니다. 따라서 주요 청산 회사가 지불 능력을 보유하고 있는 것은 중요합니다. 그렇지 않으면 전체 금융 시스템이 붕괴될 수 있기 때문입니다.

시카고 상품거래소 (CME)

시카고 상품거래소 (CME)는 세계에서 가장 큰 규모의 파생상품 거래소이며, 연간 명목상의 거래량은 미화 1억 달러가 넘습니다; 이는 비트멕스보다 1000배 많은 양입니다. 시카고 상품거래소는 청산회원의 채무불이행 발생 시, 보호책을 제공하기 위해 여러 안전 장치 및 보험을 소유하고 있습니다. 자금은 다음과 같이 다양한 방법으로 조달됩니다:

  • 시카고 상품거래소로부터의 출연금
  • 청산회원으로부터의 출연금
  • 회원의 채무불이행이 발생할 시 청산 기금으로 상환 가능한 청산회원이 지불한 채권

시카고 상품거래소의 다양한 청산 관련 보호 조치 및 보험 기금 (2018)

기본 금융 보호 조치 패키지
보증 기금 출연금 미화 46억 달러
지정 기업의 출연금 미화 1억 달러
평가력 미화 127억 달러
미국 국세청 (IRS, Internal Revenue Service)의 금융 보호 조치 패키지
보증 기금 출연금 미화 29억 달러
지정 기업의 출연금 미화 1억 5천만 달러
평가력 미화 13억 달러

(출처: CME)

또한, 몇몇 예외적인 상황에서 시카고 상품거래소는 다른 모든 보험 기금이 고갈되었을 때, 채무불이행이 발생한 회원의 비용을 충당하기 위해 채무불이행이 발생하지 않은 청산회원을 상대로 “평가력 (assessment powers)”을 적용할 수 있는 권한을 가지고 있습니다. 평가력의 가치는 채무불이행이 발생한 회원 당 각 청산회원 보증 기금에 대해 2.75배로 제한됩니다

위 표에 있는 보험 기금의 규모를 기반으로 시카고 상품거래소는 다양한 보험 기금을 통해 미화 약 220억 달러를 보유하고 있습니다. 이는 시카고 상품거래소의 연간 명목상의 거래액 중 약 0.002%에 해당합니다.

비트멕스와 레버리지를 제공하는 다른 암호화폐 거래 플랫폼은 수익을 낸 거래자들에게 현재 시카고 상품거래소와 같은 전통적 거래소와 동일한 보호책을 제공할 수 없습니다. 암호화폐 시장은 소액 투자자 중심의 시장이며 고객들은 플랫폼에 직접 접근하기를 원합니다. 동시에 암호화폐 거래 플랫폼은 소액 투자자들에겐 매력적인 부정적인 노출성을 제한할 수 있는 기능을 제공함으로써, 암호화폐 거래소들은 고객들을 일일이 추적하지 않고 마이너스 계좌 잔고를 보유한 고객들에게만 지불 요청을 합니다. 비트멕스와 같은 레버리지 기반의 암호화폐 플랫폼들은 고객에게 다음과 같이 매력적인 제의를 합니다: 상한선이 있는 하향식 수익 계약 및 변동성 높은 기초 자산 기반의 무제한 상향식 수익 계약이 바로 그것입니다. 그러나 몇몇 상황에서는 시스템 상에 거래 승리자들이 기대하는 것만큼의 충분한 자금이 없을 수도 있기 때문에 거래자들은 이에 대한 가격을 지불합니다.

비트멕스 보험 기금

비트멕스는 앞서 언급한 문제를 해결하기 위해 보험 기금 시스템을 개발하여 거래 승리자의 예상 수익을 보장하는 동시에 패배한 거래자들의 부채 한도를 제한했습니다.

거래자가 레버리지 기반의 오픈포지션을 취할 때 유지 마진이 과도하게 낮은 경우, 해당 거래자의 포지션은 강제적으로 종료됩니다 (즉, 청산됩니다). 기존의 전통적 시장과는 달리, 거래자의 수익과 손실은 시장에서 그들의 포지션이 종료된 시점의 실제 거래 가격을 반영하지 않습니다. 비트멕스에서 거래자의 포지션에 대해 청산이 이루어지는 경우 해당 포지션과 관련된 자산의 가치는 항상 0으로 수렴됩니다.

거래 포지션 예시
거래 방향 공매수
마진 1 BTC
비트코인 가격 (시가) 미화 4,000 달러
레버리지 100배
명목상의 포지션 규모 100 BTC = 미화 400,000 달러
명목상 포지션을 백분율로 표시한 유지 마진 0.5%

위의 예에서 거래자는 레버리지 100배의 공매수 포지션을 취하고 있습니다. 만일 비트코인의 시장 평균가가 0.5% (미화 3,980달러까지) 하락하면 포지션은 청산되고 100개의 비트코인 포지션이 시장에서 매수되어야 합니다. 청산된 거래자의 관점에서 이 거래가 3,995달러 혹은 3,000달러이든 어떤 가격에서 이루어지는지는 중요하지 않습니다. 어느 쪽이든 해당 거래자는 자신이 보유하고 있던 포지션 상의 모든 지분 및 보유하고 있는 전체 비트코인인 비트코인 한 개를 잃게 됩니다.

유동 시장 (liquid market)이 존재한다고 가정할 때, 매매가격차이(bid/ask spread, 매수호가와 매도호가의 가격차이)는 유지 마진보다 더 작아야 합니다. 해당 시나리오에서는 청산으로 인해 보험 기금 출연금이 조성되며 (예. 유지 마진이 50bp이지만 시장은 1bp인 경우), 포지션이 청산될 때 유지 마진만큼 보험 기금이 증가합니다. 따라서 건전한 유동성 시장이 지속되는 한 보험 기금은 꾸준한 속도로 계속 성장해야 합니다.

아래의 두 도표는 위의 예시를 잘 설명해줍니다. 첫 번째 도표는 청산 시점의 시장 상황은 건실하고 매매가격차가 2달러로 매우 적다는 것을 보여주고 있습니다. 이와 같이 마감 거래 (closing trade)는 파산 가격 (마진 밸런스가 0인 가격)보다 높은 가격에서 이루어지며, 이를 통해 보험 기금은 수익을 얻게 됩니다. 두 번째 도표는 청산 시점의 매매가격차이가 크다는 것을 보여줍니다. 마감 거래가 파산 가격보다 낮은 가격에서 이루어졌기 때문에 승리한 거래자의 예상 수익 보장을 위해 보험 기금이 사용됩니다. 이는 드문 경우처럼 보일 수 있지만, 가격 변동성이 높아지는 시기에 이와 같이 건실한 시장 상황이 계속 유지될 것이라는 보장은 없습니다. 이런 때일수록 보험 기금은 조성되는 속도보다 훨씬 더 빨리 소모될 수 있습니다.

보험 기금 출연의 도표 예시 – 1 BTC의 담보로 보유한 레버리지 100배의 공매수 포지션

(공지사항: 위의 도표는 비트코인 1개 당 미화 4,000달러 및 비트코인 1개를 담보로 보유한 레버리지 100배의 공매수 포지션을 기반으로 한 것입니다. 해당 도표는 수수료 및 기타 조정사항 등의 요소가 고려되지 않아 지나치게 간소화된 측면이 있습니다. 입찰가와 매도가는 청산이 이루어지는 시점의 주문장의 상태를 나타냅니다. 마감 거래 가격은 미화 3,978달러로 청산 시점의 입찰 가격인 미화 3,979달러 대비 1달러 감소했음을 나타냅니다.)

보험 기금 소모의 도표 예시 – 1 BTC 담보로 보유한 레버리지 100배의 공매수 포지션

(공지사항: 위의 도표는 비트코인 1개 당 미화 4,000달러 및 비트코인 1개를 담보로 보유한 레버리지 100배의 공매수 포지션에 기반을 두었습니다. 해당 도표는 수수료 및 기타 조정사항 등의 요소가 고려되지 않아 지나치게 간소화된 측면이 있습니다. 입찰가와 매도가는 청산이 이루어지는 시점의 주문장의 상태를 나타냅니다. 마감 거래 가격은 미화 3,800달러로 청산 시점의 입찰 가격인 미화 3,820달러 대비 미화 20달러 감소했음을 나타냅니다.)

비트멕스 보험 기금은 현재 약 21,000개의 비트코인 또는 비트코인 현물 가격 기준으로 미화 약 7,000만 달러를 보유하고 있습니다. 이는 비트멕스의 명목상의 연간 거래량인 미화 약 1조 달러 중 불과 0.007%에 해당하는 수치입니다. 이 수치는 거래량의 비율로써 시카고 상품거래소의 보험 기금보다 약간 높은 수준이지만, 비트멕스에서 수익을 낸 거래자들은 다음과 같이 시카고 상품거래소의 거래자들보다 훨씬 더 큰 위험에 노출되어 있습니다:

  • 비트멕스 거래소는 큰 규모의 대차대조표를 가진 청산회원을 보유하고 있지 않으며 거래자들은 서로에게 직접 노출됩니다.
  • 비트멕스 거래소는 마이너스 계좌 잔고를 보유한 거래자들에게 지불 요구를 하지 않습니다.
  • 비트멕스 거래소의 기초 상품들은 시카고 상품거래소에서 거래 가능한 기존의 전통적 상품들보다 변동성이 높습니다.

자동자산청산 (Auto-deleveraging)

보험 기금이 소모되는 경우, 거래 승리자들은 자신이 받을 수 있는 만큼의 수익을 보장받을 수 없습니다. 대신, 위에서 설명한 것처럼 승자는 패자의 손실을 메우기 위해 자금을 출연해야 하는데, 이 과정은 비트멕스 거래소에서 자동자산청산 기능으로 불리고 있습니다.

2017년 3월 이후로 비트멕스 비트코인 무기한 스왑 계약에서 자동자산청산 (auto-deleveraging)은 발생하지 않았습니다. 2017년 3월 초, 미 증권거래위원회 (SEC)는 윙클보스 형제가 신청했던 비트코인 상장지수펀드 (Bitcoin ETF)에 대한 승인을 거절했습니다. 그 날 시장은 단 5분 만에 30% 하락했으며, 급격한 가격 하락으로 인해 보험 기금이 완전히 소모되었습니다. 이로 인해 XBTUSD 상품에 공매도 포지션을 보유하고 있던 많은 거래자들을 상대로 자동자산청산(ADL, Automatic Deleveraging)이 이루어졌으며, 이들의 수익 또한 제한되었습니다.

그 이후로 비트멕스 보험 기금은 상당한 성장을 보였지만, 암호화폐 거래는 여전히 변동성과 불확실성이 높은 산업입니다. 현재 유동성이 상당히 높은 건재한 시기임에도 불구하고 저희는 앞으로 비트코인 가격에 급격한 움직임이 있을 것으로 예상하고 있습니다. 이에 누구든 자동자산청산이 다시는 발생하지 않으리라는 것에 확신을 가질 수 없으며, 이는 비트멕스의 비트코인 무기한 스왑 계약조차 피해갈 수 없는 이야기입니다.

보험 기금 데이터

보험 기금의 절대적 가치는 증가했지만, 아래의 도표들은 미결제 거래 잔고와 같은 비트멕스 거래 플랫폼의 다른 측정 기준의 비율을 나타내므로 성장세가 확연히 두드러지지 않습니다.

비트멕스 보험 기금 – 2018년 1월 이후 일일 데이터

(출처: BitMEX)

비트멕스 보험 기금 중 비트멕스 비트코인 무기한 스왑 계약 미결제 거래 잔고의 비율 – 2018년 1월 이후 일일 데이터

(출처: BitMEX)

인센티브

보험 기금이 자본화된 채로 남아있다고 가정할 때, 시스템은 청산 대상자가 청산 비용을 지불하는, 즉 패자가 패자 모델에 비용을 지불하는 원칙에 따라 운영됩니다. 이러한 접근 방식이 다소 참신한 것으로 간주될 수 있고 어떤 면에서는 일정 수준의 공정성이 보장되지만, 위에서 언급한 일부 대안 모델에는 존재하지 않습니다. 이는 “고위험 레버리지 베팅에 참여하지 않은 거래자가 왜 그에 대한 대가를 치러야 할까요?” 라는 질문을 던지게 합니다.

결론

전체 비트코인 발행량의 약 0.1%에 해당하는 보험 기금 내 21,000개의 비트코인은 상당히 많아 보일 수 있지만, 비트멕스 거래소는 기존 레버리지 기반의 거래 플랫폼에서 제공하는 것과 비교하여 수익을 낸 거래자에게 동일한 수준의 탄탄한 지불보증을 제공할 수 없습니다. 비트멕스의 보험 기금이 건실한 규모를 달성했지만, 이는 앞으로 수익을 낸 거래자에게 암호화폐 세계 속의 불안정하고 예측할 수 없는 울퉁불퉁한 길에서 필요한 자신감을 줄 만큼 크지 않을 수도 있습니다. 이러한 변동성을 감안할 때, 기금이 다시 0으로 돌아가는 일은 절대 불가능한 이야기가 아닙니다.

금일 05:40 UTC부터 07:11 UTC (한국시간 기준 오후 2시 40분 ~ 4시 11분)까지 API 레이어에서 리소스 경합으로 인해 비트멕스 REST API에 대한 요청 중 일부에서 API 응답 지연 및 API 서비스의 일시적 중지 사태가 발생했습니다. 저희는 내부 경고 메커니즘을 통해 문제 감지 즉시 그 원인을 파악하여 몇 분 이내에 직접적인 영향을 감소시켰습니다. 현재 발생 중인 문제는 없으며, 이 기간 동안 거래 엔진 혹은 사용자 데이터에는 어떠한 영향도 미치지 않았습니다.

해당 문제의 근본적 원인에 대한 해결책이 확인되었고, 현재 우선적으로 문제 해결 중에 있습니다. 저희는 서비스 재개와 함께 관련 공지사항을 게시할 예정입니다. 또한 저희 비트멕스는 잠재적인 유사한 문제를 더욱 더 신속히 감지하고 해결하기 위해 시스템 모니터링의 민감도를 높였습니다. 이번 일로 인해 서비스 이용에 불편을 끼쳐드려 모든 사용자 분들께 사과의 말씀을 전하는 바입니다.

얼마전 의학 연구직으로 있는 학창 시절 친구를 만났다. 자기네가 데이터 작업을 하고 있는데, 여기에 머신러닝인지 인공지능인지라는걸 쓰면 뭔가 좀 더 획기적인 정보를 찾아낼 수 있냐고 묻더라.

논문을 한 번 읽고, 두 번 읽고, 세 번 읽고, 아무리 생각해봐도 별 대단할게 없는 사회학자들 데이터 리서치하는 수준의 정보들인데, 여기에 머신러닝을 어떻게 써보겠다는건지 잘 이해가 안 되더라. Pabii 수업 시간에 계속 주장하는대로, 데이터에 Non-linear 패턴이 없으면 머신러닝이라는 계산 작업은 아무런 의미가 없다. Linear 관계를 찾는 작업, 특히 데이터 샘플이 랜덤 오차를 갖고 있는 경우라면 단순한 OLS가 최적의 Estimation 방법이기 때문이다.

굳이 뭔가 더 작업을 해 보겠다면 Latent variable을 찾아내기 위해서 Factor Analysis를 해 볼 수는 있다. 근데, 그렇게 찾아낸 Factor들에 이름을 달아주지 않고 의학 저널에 논문을 Publish 할 수 있을까? 적어도 내 연구 필드에서는 (거의) 불가능한 부분이었기 때문에, 의학 저널들이 제대로 통계 스터디를 한 논문에게만 bar를 넘을 수 있도록 해 준다면 어렵지 않을까 싶다.

(Source: Powerful Medical)

 

그럼 좋은 논문이란 뭘까?

몇 달 전에 수업에 찾아오셨던 약학 전공자 분이 수업 끝에 Nature 논문 하나를 보여주시던데, 거기에 딱 위의 Factor Analysis 개념을 활용한 Neural Network 모델이 있었다. 참고로 이런 모델의 공식 명칭은 Auto-encoder다.

약학 쪽 지식을 하나도 안 갖고 있기 때문에 무슨 말인지는 몰랐지만, 어쨌건 입력 변수 n개는 매우 많았는데, 이걸 5개의 Key element들로 추려내려고 Auto encoder를 활용했고, 그래서 이전과는 다른 결과값을 찾아냈다는게 논문의 요지였다.

분명히 그들이 찾아낸 결과값이 충격적이었기 때문에 Nature라는 어마어마한 저널에 출판이 되었을 것이라고 생각한다. 여기서 Auto encoder의 역할은 통계학 수업 때 배우는 Factor Analysis를 좀 더 그래픽 모델 스럽게 구현한 것에 불과하다. (좀 더 수학적으로 정확하게 이야기하면, Latent variable을 찾아내는 계산을 Linear말고 Non-linear하게 했다는 뜻이다.) 말을 바꾸면, Auto encoder를 썼기 때문에 그 논문이 Nature에 나가는 대박 논문이 된게 아니라, (Non-linear) Factor Analysis 덕분에 남들이 그 동안 찾지 못했던 결과를 찾아낸 것이라고 봐야한다.

글 첫머리에 이야기한 그 의학 연구직에 있는 친구가 필자를 찾아온 것은 아마도 본말이 전도된 정보를 들었기 때문일 것이다. 의학 분야에서 도메인 지식이 하나도 없는 필자가 그 친구를 도와줄 수 있는 것은 모델 코드를 쳐 주고, 특정 모델이 왜 작동하지 않는지, 어떤 모델을 쓰는게 논리적으로 맞는 건지에 대한 통계학적 경험을 전달해 줄 수 밖에 없다.

아주 최근에는 비슷한 일을 의학 교수님 한 분과도 겪어 봤다. 특별히 대단할 것 없는 Non-linear regression을 돌린 모델이 들어간 논문인데, 그 분야에서는 뭔가 중요한 결론이었을지 모르지만, 통계 모델만 봤을 때는 “오~ 여기에 머신러닝의 Ensemble 모델을 쓰면 결과를 완전히 뒤 엎을 수 있습니다” 따위의 코멘트는 할 수 없는 논문이었다. 기대한 것과 다르다고 불편한 답장을 보내셨는데, 뭐라 할 말이 없더라. (Pabii 수업까지 한 달 들으신 분인데, 이분 수업 헛들었다는 생각이 들어서 메일 받고 좀 기분이 나빴다.)

아마도 거의 대부분의 연구들이 다루는 데이터가 Non-linear 패턴을 갖고 있는 데이터가 아닐 것이다. 빅데이터 정의하는 글을 이미 여러번 썼지만, 데이터가 랜덤 오차를 갖고 있으면 Linear 계산법이 맞고, 당연하겠지만 머신러닝 모델을 쓸 수 있는 여지는 확 줄어든다.

 

머신러닝 방법론을 쓴다는 (양산형) 논문들

설령 Non-linear 계산법들 (속칭 머신러닝 계산법)을 써서 약간 더 Fitting이 좋게 나왔다고 해도, 그 방법론에 절대적인 믿음을 가지지는 말았으면 하는게, 모든 데이터는 약간의 오차를 항상 갖고 있고, 그 오차 때문에 일부 Non-linear 모델들의 Fitting이 좀 더 좋게 나오는게 그렇게 놀라운 일은 아니다. 다만, 데이터 셋이 바뀔 때마다 Fitting이 더 잘 나왔던 모델이 지속적으로 높은 Fitting을 보여줄 확률은 매우 낮다. 약간의 오차를 더 잘 잡아내는데는 도움이 되었지만, 오차의 형태가 바뀌면 더 이상 Fitting을 높게 유지할 수 없기 때문이다.

가끔씩 받는 의학 분야 저널 논문을 보면, 거의 대부분이 Multivariate Linear regression vs. 머신러닝 계산법 10가지 비교를 통해, 머신러닝 계산법 중 어떤 특정 계산법이 제일 좋더라는 결론을 내고 있다. 이해가 되는 부분은, 그 분들이 다루는 데이터 중 일부는 구간별로 유의미함이 달라지는 경우 (ex. 5~10, 20~30 구간만 영향을 주고, 나머지는 효과 x)이거나 , 병이 걸린 환자들을 대상으로한 데이터이기 때문이다. 앞의 경우는 Tree 계열 모델들이 Euclidean space에서의 계산법보다 더 fitting이 잘 나오는게 당연하고, 뒤의 경우는 데이터 자체가 이미 Multi-pattern을 갖고 있다고 봐야한다. 머신러닝 계산법 10가지를 다 써보고 그 중에 어떤 방법이 제일 낫더라는 결과론적인 계산값들을 공유한 기초적인 논문들이 SCI 논문이라고 나오는걸 보면 내 입장에서는 황당할 수 밖에 없다.

정말 제대로 된 리서치라고 하려면, 데이터의 형태에 맞춰 Tree 계열 모델을 써야할지, Euclidean space 기반의 모델을 써야할지에 대한 적절한 판단을 내려서, Tree 계열 모델을 쓰기로 결론 내렸으면 어떤 계산법을 써야하고, 데이터는 어떻게 처리하는게 맞는지에 대한 고민을 해야하지 않을까? 머신러닝 모델 10개를 다 써 봤더니 뭐가 제일 좋더라….는 정말 심각하게 잘못된, 학부 수준도 안 되는 적용방법이다. 머신러닝 모델 10개를 우리 데이터 셋에 맞게 어떻게 고친 상태에서 돌려봤더니 어떤 모델이 제일 좋더라고 하면 백번 양보해서 타협할 수 있다. 그 전에 데이터 전처리가 더 우선이기는 하겠지만… 의학을 하나도 모르는 통계학자는 그 동네 상황을 잘 모르니 데이터 전처리를 함부로 할 수 없다. 의학 하시는 분들이 방법론을 공부하거나, 통계학 하시는 분들이 의학 공부를 하시는 수 밖에.

 

계산법을 갖다쓰지말고 데이터를 전처리하면?

공학이나 사회학으로 가도 상황이 비슷비슷하더라. 필자가 위의 구간별 유의미성이 다른 데이터를 다루고 있었으면, 어떤 형태로 튀어나올지 예측 불가능한 Non-parametric 모델 (ex. Tree 계열 모델들)을 쓸게 아니라, 데이터를 가공했을 것이다. 효과가 있는 투약 구간이 5~10, 20~30이면, 그 구간에 걸리는 대상들을 1, 나머지는 0으로 놓는 Dummy 변수를 하나 더 추가하면 기존의 Multivariate regression 모델로 충분히 좋은 결과를 낼 수 있다.

Multivariate Regression 계열의 모델들은 어떤 변수가 어느 정도의 효과를 갖는지를 눈으로 직접 보고 직관적으로 쉽게 확인할 수 있다는 장점이 있기 때문에 글로벌 IT회사들이 Classification을 할 때 괜히 복잡한 Kernel SVM이나 Tree기반 Random Forest, Gradient Boosting을 쓰는대신 Logistic regression을 쓴다. (사실 그런 Kernel function을 쓰는 작업도 데이터 전처리로 치환할 수 있으니까.) 위와 같이 데이터 전처리를 살짝만 하면 충분히 Logit을 쓸 수 있다는 사실을 인지하고 있고, Logit이 관리에 더 적합한 모델이라는 사실을 아는 사람들이 굳이 다른 모델들에 관심을 가질까?

머신러닝 방법론을 쓴다는 양산형 논문들이 가지는 가장 큰 문제가 바로, “잘 모르니까 덮어놓고 이것저것 다 써 봤더니 어떤게 제일 좋더라”는 저급한 이해도에서 출발했다는 점이다. 학위 과정 중에, 평소에 데이터로 공부하는 중에 한번이라도 데이터의 형태를 변형해서 원하는 모델과 매칭시키는 작업을 해 봤다면 저런 논문을 쓰게 될까?

저런 계산법만 갖다써서 Non-linear 계산법 중 어떤 방법이 더 좋다는 결론을 특정 데이터 셋에서 얻어내고 난 다음 스텝은 뭘까? 다른 데이터 셋에서는 그 계산법과 유사하지만 다른 계산법이 더 Fitting이 좋다는 결론이 얼마든지 나올 수 있는데?

비슷한 여러개의 샘플에서 지속적으로 특정 군의 계산법이 더 Fitting이 좋게나오면, 이 데이터는 어떤 특정한 구조를 갖고 있겠구나는 결론을 내리고, 그 구조를 찾아내서, 그동안은 못 찾았던 병리학적인 원인-결과 관계를 찾아내는게 더 적합한 “연구”가 아닐까? 위의 약학에서 Autoencoder 썼다는 논문에서 저자들의 의도가 정말로 그랬는지는 모르겠지만, 결과론적으로 봤을 때는 100개가 넘는 변수들은 결국 5개의 Factor들로 정리될 수 있다는 결론, 그게 특정 약의 적용 기제와 연결되어 있다는 걸 알려줬기 때문에 Nature라는 초특급 저널에 실릴 수 있었을 것이라고 생각한다.

이래서 머신러닝에서 쓰는 계산법을 소개하는 수업 대신 기본적인 통계학 훈련을 더 받아야한다고 주장하는 것이다.

 

나가며 – 머신러닝? 데이터 전처리와 모델링이 먼저다!

뱅킹 시절 인턴으로 썼던 학부 후배가 모 투자사에 있어 Pabii의 사업 모델을 이야기 한 적이 있다. 스마트폰에 앱을 깔고, 그 데이터들을 가공해서 광고주들이 원하는 사람에게 Target 광고를 뿌릴 수 있도록 해 준다는 단순 요약한 아이디어를 던졌더니, 왜 고생스럽게 스마트폰에 앱을 깔게 하느냐, 그냥 광고주들한테 데이터 받으면 되는거 아니냐는 반문을 받았었다. 그거 남들이 이미 다 하고 있다고, 근데 그런 데이터로 할 수 있는 작업이 한계가 있어서, 아예 개인 스마트폰에서 더 핵심적인 데이터를 받아와야 시장 구조를 바꿀 수 있다고 설명해줬는데, 왜 그런 데이터가 필요한지 도무지 이해를 못 하는 표정이어서 좀 안타까웠다.

위의 의학 연구직군 분들이 데이터 사이언스에 대한 과도한 기대를 갖고 있는 부분과 Pabii 사업모델에 학부 후배가 던진 반문의 공통점은 뭘까? 어떤 데이터가 있어야, 어떻게 전처리해야 데이터 사이언스 모델이 파워를 발휘할 수 있는지에 대한 이해가 좀 더 깊었다면 그런 대화를 굳이 하지 않았어도 되었을 것이다.

수업시간 마지막에 잠깐 이야기하지만, 결국은 계산법 싸움이 아니라 데이터 싸움, 모델링 테크닉 싸움이고, 데이터를 많이 갖고 있다의 싸움이 아니라, 필요한 데이터를 갖고 있느냐의 싸움, 그 데이터를 어떻게 가공해서 적절한 모델을 만들어 낼 수 있느냐의 싸움으로 귀결이 된다. (수학적으로는 Target vector space를 커버할 수 있는 Data를 갖고 있느냐, 필요에 따라 vector space를 Kernel transformation할 수 있느냐, 그 kernel처리된 vector space를 설명하는 방정식을 찾을 수 있느냐로 바꿔 쓸 수 있겠다.)

데이터 사이언스의 어떤 테크닉(계산법, ex. Deep Learning)을 이용하면 대박이 난다는 단순한 관점에서 벗어난 사람들이 좀 많아졌으면 좋겠다.

저희 비트멕스 거래소에서는 API 및 거래 시스템 구조에 대한 지속적인 간소화 작업의 일환으로, 2019년 2월 8일 금요일 04:00 UTC (한국시간 기준 오후 1시) 이후부터 아래의 주문 유형을 더 이상 지원하지 않습니다:

  • MarketWithLeftoverAsLimit

앞서 언급한 시간 이후에 MarketWithLeftoverAsLimit으로 제출된 주문 요청은 거절됩니다. 또한 해당 유형의 미체결주문은 위의 마감일 직후에 자동으로 취소됩니다. 따라서 이러한 주문 유형을 이용하는 여러분의 모든 거래 방식이 해당 변경 사항을 반영하도록 업데이트되었는지 확인해 주시기 바랍니다.