3월 29일 12:00 UTC (한국시간 기준 3월 29일 오후 9시) 경, 비트멕스는 거래 엔진이 결산 작업 중에 차단됨에 따라 모든 요청이 특정 시기에 중지로 이어질 수 있었던 약 15초 동안의 일시적인 거래 중지 사태를 겪었습니다. 해당 플랫폼은 15초 동안의 거래 중지 이후 정상화되었습니다.

20:13 UTC (한국시간 기준 오전 5시) 경, 비트멕스 웹사이트는 소규모 사용자 그룹에 제한된 서비스 중단 사태를 겪었습니다. 해당 문제는 즉시 확인되어 해결되었습니다. 이와 관련해 API에는 어떠한 영향도 미치지 않았습니다.

해당 사항과 관련해 불편을 끼쳐드려 죄송합니다. 궁금한 점이 있으시면 고객 지원팀에 문의해주십시오.

Computer Science 학계에서 (Computer Engineering 말고) 머신러닝이라는 계산 알고리즘에 관심을 가진 적이 대략 3번 정도 된다. 70년대 후반에 대기업 및 학교들이 대형 컴퓨터들을 비치해서 펀치 기계로 이런 저런 명령어를 입력하는 단순 알고리즘을 만들 때가 첫번째고, 90년대 중반에 메모리 가격 폭락으로 하드웨어 가성비가 좋아졌을 때가 두번째, 그리고 2008년 이래 이미지 인식 정확도가 눈에 띄게 좋아지고 난 다음에 세번째라고 보면 될 것 같다.

구글의 이미지 서칭 기능이 엄청난 정확도를 보여주면서 CS 학계에서 이미지 인식 알고리즘에 대한 또 한번의 “혁신(?)”이 생기는거 아닌가는 바람이 불 뻔 했지만, 얼마지나지 않아 그 정확도의 상당 부분은 이미지 데이터 베이스 정리로 나온 결과물이지, 정작 이미지 인식 알고리즘에서 혁신이 있어서는 아니라는 말이 돌면서 분위기가 많이 시들해졌던 걸 들었다.

요즘 일반에 쓰이고 있는 이미지 인식 알고리즘은 이미 2010년 이전에 나온, 데이터 처리라는 측면만 놓고 봤을 때는 PCA 구조에서 크게 벗어나지 않는 알고리즘이 쓰이는 것으로 알고 있다. 아래의 그림은 최근에 구글 이미지 인식을 이용한 장난질(?)의 결과물이다. 보시다시피 데이터 베이스가 잘 갖춰져있지 않은 경우에는 비교 이미지 인식률이 뚝 떨어진다. (상황이 이런데 중국에서는 마트에 가면 사람 얼굴을 인식해서 자동으로 결제도 되고, 교통 법규를 위반하면 벌금도 매기고… 라는 말을 하더라…)

(Source: Google.com)

 

인공지능 (X), 패턴인식 (O)

알파고가 이세돌을 제압했을 때부터 지금까지 줄곧 주장한대로, 인공지능이라고 불리는 컴퓨터 알고리즘은 Self-learning을 하는 구조가 아니라, 단순히 데이터 속의 패턴을 인식하는 여러가지 계산법 중 하나에 불과하다. 이런 인식이 시장에 널리 퍼지지 않은 탓에, 여전히 많은 사람들이 인공지능에 대한 막연한 기대가 있고, 밑도 끝도 없이 무조건 AI라는 듣기 매우 거북한 단어를 IT업계 곳곳에서 계속해서 들을 수 밖에 없다.

그런 믿음을 깨주는 재밌는 Joke를 하나 가져와봤다.

(9gag.com)

부모님: 니 친구들이 다 우물에 뛰어들면 너도 따라갈래?

아이: 아니요!

머신러닝 알고리즘: 예!

우습게 들릴지 모르겠지만, 이게 머신러닝 알고리즘의 현실이다. 우물에 뛰어들면 죽는다는 지식을 갖고있는 인간은 독립적인 선택을 하겠지만, 외부 입력 정보 없이 구조화된 입력 데이터에만 기반한 패턴 매칭 알고리즘인 머신러닝은 독립적인 선택이 아니라 데이터 의존적인 선택을 한다. 말을 바꾸면, 기존의 데이터에서 가장 자주 나타나는 패턴, 혹은 지정하는 패턴을 그대로 따라가도록 만드는, 지극히 통계학적인 계산 결과물에 불과하다. 가끔 이런말을 하면 무개념인 사람들이 “딥러닝은 다르다”는 망발을 하는데, 그거 그냥 Tree 방식으로 계산하는 머신러닝의 여러 계산법 중 하나다.

 

스타트업 사기꾼들

얼마전 모 대기업의 고위직 분께서 시간을 좀 내달라고 여러 채널로 부탁하시길래 계속 거절하기 죄송한 마음에 식사 자리에 나간 적이 있다. 자기네 회사가 어느 스타트업을 인수하려고 하는데, 이 회사가 기술력이 있는 회사인지 도무지 알 방법이 없다며 도움을 요청하시더라. 뭐하는 스타트업이길래 그렇게 큰 금액을 들여서 인수하시려고 하냐고 여쭤봤더니, 자연어를 처리해서 기존의 콜 센터를 없애버릴 수 있을만큼 실시간 대화가 가능하도록 만들어 준단다.

순간 아래의 사건이 생각났다.

(Sixthtone.com)

중국의 어느 스타트업이 자연어 처리 (속도)의 끝판왕이라고 할 수 있는 실시간 통역 or 동시통역을 할 수 있는 알고리즘을 만들었고, 그 정확도가 매우매우매우 높다는 홍보가 있었다. 요즘 다들 중국의 대국굴기에 놀라고, 중국에서 여러 놀랄만한 기사가 나오고 있기 때문에 관심이 많았던 것 같은데, 필자는 그 말을 듣는 내내 갸우뚱~ 했다. 일상 회화들을 데이터 베이스에서 불러와서 바로바로 처리하기도 버거울텐데, 전문 용어까지 세부 전공 분야를 바로바로 찾아내고 척척 바꿔줄 수 있다고?

예를 들어, Finance에서 Security라는 단어는 주식, 채권 같은 “증권”이다. 근데 비 관계자들은 이 단어를 “보안” or “안전”과 관계된 단어로 이해할 것이다. 이런 영어 단어가 하나 둘이 아닌데, 거기다 전문 용어는 데이터 베이스 만들려면 엄청난 번역 데이터를 새로 만들어넣고, 경우의 수가 훠얼씬 더 많아질텐데, 실시간 처리를 다 할 수 있다는게 충분히 놀랍지 않나? 당장 전문 용어 번역 데이터 베이스를 만들었다는 사실이 너무 쇼킹했었다. 기초 데이터를 만들기 위해서 초특급 전문가들을 번역에 투입시켜야할텐데, 전문가 1-2명 뽑아서 몇 시간 일 시키기도 비용이 만만치 않은데, 그 비용을 감당할 수 있다니ㄷㄷㄷㄷ

누군가 “머신러닝이 아니라 딥러닝으로 하면 데이터 없이도 다~ 됩니다”같은 망발을 했겠지. 이게 무슨 시뮬레이션 데이터 넣어서 해결할 수 있는 문제도 아니고….하~

아니나 다를까, 장막 뒤에 동시통역사 한 명을 불러놓고 시연을 했다는 기사가 났다. (위의 뉴스 스크랩 참조)

(AI 때문에 사람이 직장을 잃는 4차산업혁명말고, 사람 때문에 AI가 직장을 잃는 5차산업이라는 저 드립은 재밌어서 국내 유머사이트에서 퍼왔다. 출처가 기억나지 않아서 원 저작자분께 Credit을 드리지 못함을 미리 사과드린다.)

요즘 생각해보면, 소위 말하는 스타트업 사기꾼들이 인공지능에 대한 과장된 기대를 더 증폭시킨 것 같다. 사실 인공지능이 별 거 없는 패턴 매칭이라는 사실을 VC들이 제대로 인지하고 나면 투자를 안 할 것이고, 언론 입장에서는 독자를 끌어들일 수 없는 구조인데, 마침 검증 제대로 안 된 스타트업들이 이것저것 다 된다고 썰만 풀고 돈만 받고 먹튀하는 일이 자주 생기니까, 먹튀했다는 뒷 이야기를 언론이 제대로 전달해주지 않으면 일반인들은 인공지능이라는 단어만 기억할밖에.

스타트업하고 있는 필자 입장에서 말이 조심스럽지만, 그동안 만나봤던 VC들 숫자가 상당한데, 당장 우리회사의 비지니스 모델도 제대로 이해 못하는 VC들이 거의 대부분이었던 걸 생각해보면 더 화려한 결과물이 나온다는 주장은 제대로 이해 못한채 눈에 보이는 부분에만 혹해서 투자금을 밀어넣은 경우가 꽤나 될 것 같다.

-중국의 AI 차량 시연 영상: 자동감지 도어 (좌), 자동정지하는 자율주행차 (우)

 

AI마케팅, 거대한 사기의 끝

알파고를 7천억(?)에 구글에 팔았던 데미스 하사비스의 최근 인터뷰 하나를 봤다. 그 기사 아래의 댓글을 보면, “저 인간은 알파고 이후로 일을 안 하는거 같다. 2-3년 안에 다른 분야에 다 인공지능이 적용될 것처럼 말하더니 아직도 단순한 게임 몇 개에 겨우 적용하는 수준이잖아.”라는 식의 혹평이 달려있더라.

그 인터뷰에서 데미스 하사비스는 자기들이 했던 Neural Net 기반의 계산법으로 “강”인공지능을 만드는건 매우 어려워보인다고 솔직하게 시인을 하더라.

아마 당사자는 구글에 알파고 알고리즘을 팔 때부터 알고 있었을 것이고, 구글 CEO도 딥마인드를 인수하면서 그런 지식을 갖고 있었을 것이라고 생각한다. (아니 그렇게 믿고 싶다. 필자같은 초짜도 단번에 알았던 거니까)

굳이 따지자면, 아직도 게임 몇 개에 겨우 적용하는 수준이라고 답답하다는 혹평 댓글을 달았던 분은 속았던 것이다. 구글의 AI 마케팅이라는 거대한 사기에, 알파고라는 대형 퍼포먼스에 완벽하게 속아 넘어갔던 것이라고 봐야한다. (어느 스타트업 관계자 친구는 사람들이 AI가 조류독감이라고 하질 않는 것만해도 구글의 AI마케팅은 자기 할 일을 다 한 거란다ㅋㅋㅋ)

사실 구글만 AI마케팅을 했던 것도 아니고, 위에 언급한대로 수많은 스타트업과 VC들이 자신들의 이익을 위해 과장된 AI마케팅을 진행해왔다. 블록체인 마케팅이 끝물에 다다른 것처럼, AI마케팅도 슬슬 동력을 잃는 느낌이다.

 

나가며 – What’s Next

약 2년 남짓 동안 통계학 공부를 열심히 해야 머신러닝을 제대로 이해할 수 있다고 블로깅을 해 왔다. 전문 블로거가 아님에도 꽤나 긴 시간 이렇게 장문의 글을 써 올 수 있었던 에너지는 거대한 사기에 속아넘어가는 일반인들에 대한 안타까움(?), 교육자적인 열정(?), and/or 배운 사람의 노블리스 오블리주(?)였다기보다, 사업하면서 만나는 VC, 개발자, 꼰대를 비롯한 “통계학 모르는 사람들“의 속을 긁는 오해로 촉발된 활화산같은 분노였었다고 솔직하게 고백한다.

필자의 분노 섞인 블로깅과 관계없이, 그들이 말하는 AI가 더 이상 자신들이 기대했던 인공지능이 아니라는 걸 인지하시는 분들이 점점 늘어나고 있다. 최소한 기업들과의 외부 미팅에서 “통계학 모르는(데 끝까지 AI전문가인체 하는) 사람들“을 만나는 비중이 확확 줄어드는걸 느낀다.  (제발.. 누울 자리를 보고 발을 뻗으시면 안 될까요?ㅋㅋ) 물론 그들 대다수가 “해봤더니 안 된다며?” 라던가, “AWS에 있는 알고리즘 복사해서 붙여넣어봤는게 샘플 데이터에서만 작동하고 딴 데는 안 되던데요?” 같은 경험적 반증에 기반해있지 이론적인 이해와 논리적인 결론에 근거하고 있지 않다는 점이 좀 아쉽기는 하지만, 거대한 사기에 대한 필자의 주장에 공감해주시는 분들이 늘어나는 점은 반갑게 보고 싶다.

이게 “신기술“이 아니라, 인류가 오랫동안 알고 있었지만 쓸 곳이 별로 없었던 좀 복잡한 “계산방법” 중 하나라는 사실이 곧 대중들에도 널리 알려질 것이라고 본다. 오늘 신문지상에 나오는 인공지능이란 표현은, 수학과 통계학은 깊이있게 모르지만 어찌됐건 꿰어맞춰서 이 세상 모든 것을 다 자동화 시켜버리고 싶다는 공돌이들의 환상과 대용량 데이터를 처리할 수 있는 하드웨어적, 소프트웨어적인 지원이 맞아들어가는 몇몇 영역을 비지니스에 활용한 마케팅에 불과했다.

그동안 본 블로그를 통해 수학, 통계학 모르면서 전문가라고 우기는 집단을 “공돌이”라는 속어를 써서 비아냥거린 점에 좀 무거운 책임감이 느껴지지만, 다른 한편으로는 박사시절 만났던 스탠X드 공대 출신 지도교수부터 그 이후로 학회에서, 연구소에서, 직장에서, 비지니스 미팅에서 만났던 “공돌이”들 중에 수학, 통계학적으로 존경을 받을 수 있는 수준의 지식을 갖춘 상태로 “인공지능”이라는 단어를 읊는 사람을 여태 본 적이 없었다는 변명을 끝으로 이제 분노의 블로깅은 그만 정리할 생각이다.

앞으로는 회사 사업 모델과 관련된 AdTech, MarTech 비지니스 이야기에 초점을 맞춘 스타트업 블로그 본연의 모습으로 운영된다.

우리 회사 서비스 곧 출시될텐데, 많은 분들께서 써 주시면 좋겠다.

 


공지1: 2019년 3월 29일을 끝으로 데이터 사이언스 주제의 포스팅은 종료됩니다. 이 후에는 파비의 스타트업 운영 관계된 포스팅만 월 1회 작성됩니다.

공지2: 위와 같은날을 기준으로 댓글을 모두 삭제합니다. 추후에는 댓글 서비스를 제공하지 않습니다.

요약: 이번 보고서에서 저희 비트멕스 리서치 팀은 라이트닝 네트워크 송금 수수료의 시장 역학과 라이트닝 노드 운영자가 유동성을 제공하기 위한 재정적 인센티브에 대해 살펴보고자 합니다. 저희는 송금 문제의 컴퓨터 과학 측면보다는 네트워크의 주요 과제로 라이트닝 송금 수수료와 채널 유동성 공급자의 투자 수익률 간의 상호 관계와 균형을 파악합니다. 저희는 라이트닝 네트워크의 규모가 적어도 이론적으로 조정되는 경우, 금리 변화와 투자 심리와 같은 광범위한 금융 시장의 조건이 라이트닝 네트워크 수수료에 영향을 미칠 수 있다고 결론지었습니다. 그러나 우세한 경제 상황과는 무관하게 저희는 장기적으로 경쟁이 물가의 주요 동력이 될 것이라는 견해를 가지고 있습니다. 시장 진입 장벽이 낮으면 균형이 유동성 제공자의 투자 수익률보다는 사용자와 낮은 수수료를 선호할 수도 있다는 것을 의미합니다.

(싱가포르 시를 강타하는 번개) (Pexels)

개요

저희는 2018년 1월 라이트닝 네트워크가 이론적인 측면이 강했을 당시에 처음으로 이에 대한 보고서를 작성했습니다. 오늘 날 라이트닝 네트워크가 추상적인 부분에서 실험적인 부분으로 전환함에 따라 저희는 다시 한 번 살펴봐야 할 때라고 생각했습니다. 이 보고서의 주요 초점은 특히 라이트닝 네트워크 제공 업체의 수수료 및 인센티브와 관련하여, 재정적 및 투자 관점에서 라이트닝 네트워크를 분석하는 것입니다. 저희는 해당 기술의 다른 측면들을 살펴보지 않을 것입니다.

송금 문제

라이트닝 네트워크의 비평가들은 종종 송금을 주요 문제로 지적하는데 일반적으로 “컴퓨터 과학의 미해결 문제”와 같은 주장을 합니다. 일반적으로 저희는 송금 문제의 이러한 특성에 실제로 동의하지 않으며 송금과 관련한 컴퓨터 과학이 주요 도전 과제로 간주하지 않습니다. 지불을 위해 채널 간의 경로를 검색하는 것은 상대적으로 간단하고 비트코인과 같은 다른 개인 간 거래 방식 네트워크와 유사할 수 있습니다.

그러나 저희가 생각하는 주요 과제는 유동성 공급과 지불 송금의 재정적 측면과 경제적 측면 사이의 상호 작용 혹은 균형입니다. 라이트닝 네트워크 노드 운영자는 충분한 유동성을 제공하기 위해 송금 비용으로 인센티브를 받을 필요가 있으며, 이를 통해 지불이 원활히 이루어질 수 있습니다. 특히 신규 거래자들이 네트워크에 진입할 경우, 수요가 있는 채널에 유동성을 특별히 할당하고 이러한 채널을 식별하는 것이 어려울 수 있습니다. 네트워크가 사용자에 대한 저렴한 수수료를 보장하는 부분과 유동성 공급자에게 인센티브를 제공할 수 있도록 수수료를 충분히 높게 유지하는 부분 사이의 이러한 균형은 중요한 문제가 될 가능성이 높습니다. 이번 보고서에서 더 자세히 설명했듯이, 이 문제의 규모와 시장이 지우는 수수료율은 경제 상황에 달려 있습니다.

라이트닝 수수료 시장 역학

온체인 비트코인 거래의 경우 사용자 (혹은 이들의 지갑)가 지불할 때 각 거래에 대한 수수료를 명시하고, 그 후 마이너들은 수수료 수익을 극대화하기 위해 단위 블록 중량 당 더 높은 수수료 거래를 선택하여 블록을 생성하려고 시도합니다. 이와 대조적으로 라이트닝은 현재 다른 방식으로 작동하는 것처럼 보입니다. 송금 노드 운영자는 수수료를 설정한 후, 사용자는 수수료를 최소화하기 위해 채널을 선택하여 지불 방식을 정합니다. 라이트닝을 통해 처음에는 사용자가 아닌 공급업체가 수수료를 설정했습니다. 따라서 라이트닝은 공급업체가 전문화된 서비스를 제공함에 따라 우수한 수수료 구조를 제공할 수 있으며, 단순성에 우선 순위를 두어야 하는 일반 사용자보다 공급업체들이 수수료율을 두고 경쟁하는 것이 더 적합합니다.

라이트닝에는 송금 수수료 노드 운영자가 지정해야 하는 두 가지 유형의 송금 수수료, 즉 기본 수수료와 수수료율이 있습니다.

두 가지 유형의 라이트닝 네트워크 수수료

수수료 유형 설명 관례
기본 수수료 금액이 채널을 통해 송금될 때마다 부과되는 고정 수수료 이는 사토시의 1,000분의 1로 표현됩니다. .

예를 들어 기본 수수료 1,000은 거래 당 1 사토시입니다.

수수료율 지불 금액에 부과되는 일정 비율의 수수료 이는 이체된 사토시의 백만 분의 1로 표현됩니다.

예를 들어 1,000의 수수료율은 1,000/100,000이며, 이는 채널을 통해 이체된 값의 0.1%입니다. 10bps와 동등합니다.

투자 자본

송금 지불에 유동성을 제공하고 수수료 수익을 얻기 위해 라이트닝 노드 운영자는 지불 채널 내에서 자본 (비트코인)을 고정시켜야 합니다.

두 가지 유형의 채널 수용량

설명 창출
유입 수용량 유입되는 유동성은 입금을 받는 데에 있어 사용할 수 있는 노드 지불 채널 내의 자금입니다.

이러한 자금은 라이트닝 네트워크의 다른 참여자들이 소유하고 있습니다.

만일 지불 채널이 운영 중지가 되는 경우, 이들 자금은 노드 운영자에게 반환되지 않습니다.

유입 밸런스는 두 가지 방법 중 하나로 창출됩니다:

* 다른 네트워크 참여자가 노드를 사용하여 지불 채널을 여는 경우

* 노드 운영자가 기존 채널을 통해 지불하는 경우

유출 수용량 유출되는 유동성은 출금을 하는 데에 있어 노드 지불 채널 내의 자금입니다.

이러한 자금은 노드 운영자와 이들의 투자 자본의 일부가 소유하고 있습니다. 노드 운영자는 총 유출된 밸런스를 고려하면서 다른 투자의 기회 비용 또한 고려할 수 있습니다.

만일 지불 채널이 운영 중지가 되는 경우, 이들 자금은 노드 운영자에게 반환됩니다.

유출 밸런스는 세 가지 방법 중 하나로 창출됩니다:

* 노드 운영자가 또 다른 네트워크 노드를 사용하여 지불 채널을 여는 경우

* 노드 운영자가 기존 채널을 통해 지불을 받는 경우

* 지불금이 노드를 통해 송금하고 수수료를 받는 경우

채널의 유입 및 유출 수용량에 대한 그래프 도표 

(출처: Bitcoin Lightning Wallet)
(공지사항: 오렌지색의 밸런스는 유입 수용량, 파란색의 밸런스는 유출 수용량을 나타냅니다)

라이트닝 수수료 시장의 운영

송금 노드를 성공적으로 운영하는 것은 생각보다 어렵습니다. 1ml.com에 따르면 보고서 작성 당시 7,615개의 공공 라이트닝 노드가 존재했습니다. 그러나 노드 관리, 채널 재조정 및 적절한 방식으로 수수료를 설정함으로써 이러한 노드 중 몇 백 개만이 유동성을 제공하는 데 기여를 하고 있습니다.

노드 운영자는 다음을 필요로 할 수 있습니다:

  • 수수료율과 기본 수수료 모두를 조정하고, 조정의 영향을 감시하며 최적의 소득 극대화 세트를 보정합니다
  • 네트워크를 분석하고 신규 거래자와 같이 지불 요구가 높으면서 연결 상태가 불량인 노드를 찾습니다
  • 네트워크 전체뿐만 아니라 목표에 맞추고 있는 고수요 저수용량 송금을 위해 수수료 시장을 분석합니다
  • 양뱡향 유동성이 충분하도록 채널을 지속적으로 감시하고 재조정합니다
  • 최신 채널 상태에 대한 사용자 지정 백업 솔루션을 구현하여 노드 기계가 충돌 시 자금을 보호합니다

현재 위의 기능을 수행할 수 있는 자동화된 시스템은 없습니다. 만일 이 부분이 변하지 않으면 라이트닝 네트워크에 유동성을 제공할 수 있도록 전문적인 사업체를 설립해야 할 수도 있습니다. 그러나 유동성과 마찬가지로 이러한 기술적 문제들을 극복하는 데에 있어서의 어려움이 반드시 지불이 어렵거나 비싸다는 것을 의미하지는 않습니다. 이러한 기술적 문제들은 단순히 평형 상태의 시장 수수료율을 조정할 수 있습니다. 이러한 문제가 극복하기 어려울수록 잠재적 투자 수익률은 채널 운영자에게 더 높을 것이고, 문제를 해결하는 인센티브가 더 커질 것입니다. 라이트닝의 성공을 이끌 부분은 노드 운영자에게 직면한 문제가 아닌 수요입니다.

라이트닝 수수료 시장이 제대로 운영되기 위해서는 노드 운영자가 경쟁 환경에 따라 수수료를 조정해야 할 수도 있으며, 이는 알고리즘을 기반으로 하거나 수수료 수익을 극대화하기 위한 수동적인 절차일 수 있습니다. 비트멕스 리서치 팀은 결국 표준 사례가 될 수 있는 부분을 따라가기 위해 아래 섹션에서 알 수 있듯이, 3개월 동안 노드 중 하나의 수수료율을 수정하는 실험을 수행했습니다.

수수료율 실험

비트멕스 리서치 팀은 현재 라이트닝 네트워크의 초기 상태에서도 수수료 시장의 상태를 시험 및 평가하기 위해 기본적인 실험을 수행하기로 결정했습니다. 저희는 네트워크 조정에 따라 노드 운영자가 결국 수행할 것으로 예상할 수 있듯이, 어떤 요율이 수수료 수익을 최대화할 것인지를 결정하기 위해 라이트닝 노드를 설정하고 정기적으로 수수료율을 변경했습니다.

하나의 차트에서 나온 저희의 기본적인 비과학적 분석은 아래 분포 차트에서 보여주고 있습니다. 이는 수수료율이 현재 라이트닝 노드의 수수료 수입에 영향을 미치고 있음을 나타냅니다. 수수료율이 0에서 0.1 bps까지 증가함에 따라 일일 수수료 수익이 빠르게 증가하는 것처럼 보입니다. 수수료가 이 요율 이상으로 증가하면 하루 평균 수수료 수입은 점차 줄어드는 것으로 보입니다. 따라서 이 실험을 기반으로 수익을 극대화하는 수수료율은 0.1 bps 정도로 나타나는데 이는 다른 결제 시스템과 비교하면 확실히 매우 낮은 수준입니다. 그러나 물론 이는 단일 거래에 대한 수수료이며 지불에 있어 다수의 거래가 존재할 수 있습니다. 동시에 현재의 라이트닝 수수료 시장은 거의 존재하지 않으며 실제로 비트멕스 리서치 팀은 수수료를 변경함으로써, 경제적 수익을 극대화하는 실험을 큰 규모로 수행한 소수의 라이트닝 노드 중 하나일 수 있습니다.

라이트닝 노드 일일 수수료 수익 대 수수료율

(출처: BitMEX Research)
(라이트닝 수수료 수익 데이터 차트 – 공지사항 및 주의사항:
* 2018년 12월 31일부터 2019년 3월 24일까지의 일일 데이터
* 하나의 라이트닝 노드에서 추출된 데이터
* 해당 기간 동안 기본 수수료는 0
* 투자 수익률 데이터는 가장 최적의 수수료율을 제외한 모든 수수료의 영향을 포함하여 음수의 투자 수익률을 나타낼 때 온체인 비트코인 거래 수수료를 제외합니다
* 해당 데이터는 평일과 주말을 모두 포함하며 일반적으로 주말에 라이트닝 네트워크 트래픽이 크게 감소합니다
* 수수료율은 매일 21:00 UTC 경에 변경되었습니다. 해당 수수료율은 매일 감소했고, 다음 수수료율을 하향 조정하기 위해 몇 차례 하락에 대한 언급이 있은 후 수수료율 범위의 최상위로 뛰어 올랐습니다. 이에 대한 이유는 일부 지갑 (예. 모바일 지갑)은 노드를 통해 송금을 진행할 때 마다 항상 수수료율을 조회하지 않았으므로, 수수료율을 인상할 때 다수의 지불이 실패하게 됩니다. 예를 들어, 모바일 지갑에서 라이트닝 노드로 채널을 연 다음 수수료율을 인상하고 즉시 지불을 시도할 때 지갑이 너무 낮은 수수료로 지불을 시도하면서 실패하는 경우가 많았습니다. 저희의 관점에서 볼 때 라이트닝 네트워크 수수료 시장이 운영되기 위해서는 노드 운영자가 정기적으로 수수료를 변경해야 할 수도 있으므로, 지갑을 통해 수수료율을 더 자주 문의해야 할 수도 있습니다
* 채널 재조정은 2주에 한 번 수동으로 수행되었습니다. 각 경우에 약 30분이 소요되었습니다 

* 라이트닝 노드가 LND를 실행하고 있었으며 소프트웨어는 2주마다 원본으로 업데이트되었습니다 
* 채널의 약 30% (가치 기준)가 자동 조종 장치를 사용하여 열렸으며 나머지 70%는 수동으로 열렸습니다
* 투자 수익률은 매일 네트워크의 유출 채널 수용량을 이용해서 산정하고 일일 수수료 수익을 기반으로 투자 수익률을 연산한 후, 특정 범위의 수수료율로 모든 요일을 기준으로 단순 평균값을 산출했습니다
* 해당 데이터는 하나의 노드 및 특정 채널 집합에 기반하므로 다른 노드 운영자의 경험은 매우 다를 수 있습니다
* 저희는 이 실험을 위해 공개 노드를 사용하려고 시도했지만 수수료 수익은 너무 산발적이었고, 일부 네트워크 참여자들은 광고 요금보다 훨씬 더 상회하는 금액을 정기적으로 지불하여 데이터를 신뢰할 수 없게 만들었습니다 

* 안타깝게도 저희는 두 축에 로그 척도를 사용해야 했습니다. 수수료율과 관련하여 저희는 어떤 요율을 부과해야 할지, 심지어 어느 정도의 크기를 설정해야 할지 확신할 수 없었습니다. 따라서 저희는 0.0001%에서 0.5%까지 다양한 요율을 시도해 보았고 로그 척도가 가장 적절하다는 것을 확인할 수 있었습니다. 동시에 일일 수수료 수익은 0 사토시에서 3,000 사토시에 이르면서 유동성이 매우 높았습니다. 따라서 로그 척도가 가장 적절하다고 간주할 수 있었습니다. 네트워크가 발전하고 신뢰도가 높아졌을 뿐만 아니라 수수료 시장의 정보 또한 개선됨에 따라 선형 규모가 더 적합할 수 있습니다

수수료 수익 및 투자 수익률

일일 수수료 수익 외에 라이트닝 노드 운영 및 다양한 수수료율과 관련된 연간 투자 수익률도 고려할 수 있습니다. 이는 일일 수수료 수익을 연간화하고 해당 수치를 일일 유출 유동성으로 나누어 계산합니다.

실험에서 달성한 가장 높은 연간 투자 수익률은 2.75%였으며, 가장 높은 수수료 버켓 투자 수익률은 거의 1%에 달했습니다. 이는 적어도 라이트닝 채널을 실시간으로 백업할 수 있는 기능이 구현되면 이론상으로는 상대적으로 위험이 낮은 투자로부터의 수익은 상당히 매력적으로 보이게 됩니다. 기존의 비트코인 투자자들은 이러한 수익에 유혹되어 라이트닝 네트워크에 유동성을 제공할 수도 있고, 또는 대체적으로 미국 달러 기반의 투자자들이 비트코인을 매입하여 레버리지로 비트코인 가격 노출을 회피한 다음 라이트닝 네트워크 수수료 수익을 얻기 위한 시도를 할 수 있습니다.

수수료 버켓으로 인한 라이트닝 노드의 연간 투자 수익률

(출처: BitMEX Research)

물론 현재의 라이트닝 네트워크의 유동성 공급자들은 이러한 투자 수익률로 인해 동기 부여될 가능성은 적습니다. 현재 노드 운영자들은 취미 애호가일 가능성이 높으며, 라이트닝 채널을 열고 재조정하는 데 요구되는 온체인 비용을 고려할 때 압도적인 대다수의 노드 운영자들이 손실을 입습니다. 이러한 취미 애호가 기반의 유동성은 아마도 한동안 네트워크를 유지할 수 있지만, 많은 사람들이 라이트닝 네트워크에 대한 야심 찬 규모를 충족시키기 위해서는 투자자가 잠재적인 투자 수익에 매료되어야 합니다.

라이트닝 네트워크 수수료 및 경제적 여건

현재 저수익 환경에서는 1%의 투자 수익률이 매력적일 수 있지만, 라이트닝 네트워크는 초반에 적절한 상업적 유동성 공급자를 유치하는 데 어려움을 겪을 수 있습니다. 이 분야의 투자자들은 일반적으로 고위험 고수익 투자를 찾는데, 이는 상대적으로 낮은 위험의 수익률 투자에서 라이트닝 유동성 공급자를 위한 투자와는 반대되는 것으로 보입니다. 따라서 이 프로필에 맞는 새로운 유형의 투자자가 필요할 수 있습니다.

라이트닝 네트워크가 대규모로 도달하는 경우, 안정적인 저위험 수익률의 고유동성 투자 상품은 경제 상황에 따라 민감할 수 있습니다.

다음과 같은 시나리오가 있습니다:

  1. 미국 연방준비제도의 기준 금리는 1.0%입니다
  2. 라이트닝 노드 운영자는 일반적으로 유출 밸런스에서 연간 1.5%의 투자 수익을 얻고 있습니다
  3. 건재한 경제 여건과 물가상승 압박으로 인해 미국 연방준비제도의 공개 시장위원회는 금리를 1%에서 3%로 인상합니다.
  4. 보다 매력적인 투자 수익률로 인해 라이트닝 네트워크 노드 운영자는 라이트닝 네트워크에서 자본을 인출하고 정부 채권을 매수합니다
  5. 라이트닝 네트워크의 유동성 수준이 낮기 때문에 사용자는 송금하는 데에 있어 더 높은 수수료를 지불해야 하며 라이트닝 네트워크에서는 비용이 더 많이 발생합니다

그러나 라이트닝 네트워크 유동성이 위에 언급된 논리가 적용될 만큼 충분히 규모가 큰 경우, 어쨌든 라이트닝은 이미 엄청난 성공을 거두었을 것입니다.

무위험 수익률

어떤 면에서 라이트닝 네트워크가 만기되는 경우, 라이트닝 노드를 운영하면서 얻은 투자 수익률을 비트코인의 무위험 수익률 혹은 적어도 신용 위험이 없는 수익률로 생각할 수 있습니다. 이는 전통적 금융 시스템에서 종종 투자자들이 정부 채권을 보유함으로써 얻는 이자율로써, 정부는 원금과 쿠폰을 지급해야 하는 법적 의무와 채권 보유자들에게 지불하기 위해 새로운 돈을 창출할 수 있는 수단을 가지고 있습니다. 예를 들면 위험이 거의 0입니다. 이론적으로 다른 모든 투자 프로젝트 혹은 대출은 이러한 무위험 요율보다 더 높은 수익률이 발생해야 합니다. 라이트닝 노드 유동성 공급자가 비트코인 생태계 내에서 기본 요율로 간주되는 것처럼 비트코인에도 동일하게 적용될 수 있습니다.

향후에 노드 운영과 관련된 대부분의 기술적 문제가 극복되고 경쟁력 있는 수수료 설정 알고리즘이 존재하는 경우, 이러한 라이트닝 네트워크의 무위험 수수료율은 궁극적으로 다음을 통해 결정될 수 있습니다:

  • 더 넓은 금융 시장의 여건 – 높은 금리는 라이트닝 네트워크의 무위험 요율을 더 높일 수 있습니다
  • 라이트닝 거래에 대한 수요 – 더 많은 수요 혹은 더 높은 속도의 돈은 라이트닝 네트워크의 무위험 요율을 증가시켜야 합니다

결론

전문 헤지펀드 혹은 밴처 캐피탈 투자자들이 2018년 중반 지분 증명 기반의 시스템을 위한 “지분 서비스” 사업 모델처럼 라이트닝 네트워크 유동성 공급자가 되겠다는 열의를 가질지는 미지수입니다. 라이트닝 네트워크 유동성 공급자의 투자 수익률은 아직 설득력이 없어 보이지만, 네트워크가 형성 단계에 있는 상황에서 저희는 이러한 사업 모델을 통해 잠재적인 장점을 확인할 수 있습니다.

저희의 견해로 볼 때 라이트닝 네트워크는 순전히 취미 애호가인 유동성 공급자를 기반으로 한 어떠한 경제적 수수료 시장 주기나 문제에도 부딪히지 않고 비트코인의 현재 온체인 거래량을 여러 배까지 쉽게 확장할 수 있습니다. 그러나 해당 네트워크가 많은 라이트닝 옹호론자들의 희망에 도달하기 위해서는 위험이 조정된 투자 수익을 극대화하려는 굶주린 투자자들로부터 유동성을 끌어들일 필요가 있습니다. 만일 이러한 일이 발생하는 경우, 불행하게도 네트워크는 시간이 지남에 따라 투자 환경에 변화를 가져오기 때문에 수수료 시장 여건과 관련하여 상당한 변화를 겪을 수 있습니다.

그러나 노드를 설정하고 유동성을 제공하며 대응 관계에 있는 거래자보다 값을 내려 수익을 얻는 것은 비교적 쉽습니다. 만일 운영 중인 노드의 운영 채널, 유동성 공급의 범위 및 투자 수익 사이에서 균형이 깨지는 경우, 저희는 분명히 알지 못합니다. 하지만 저희가 라이트닝 네트워크의 구조와 설계를 바탕으로 추측해야 한다면, 저희는 해당 시스템이 유동성 공급자보다는 사용자들과 낮은 수수료에 어느 정도 조작되어 있다고 말할 것입니다.

여러분은 손실을 승리자처럼 받아들이셨나요, 혹은 시장이 하락세로 마감할 때 장마감 시장가 주문에 체크하셨나요? 2019년 1분기에는 거래량, 변동성 및 가격 하락이 나타났습니다. 2018년 말의 지역 최저치는 아직 시험대에 다시 오르지 않았습니다; 그러나 이러한 시장 붕괴는 저희가 마치 사우디아라비아 대사관에 있는 것처럼 느끼게끔 합니다.

암호화폐 투자자들의 대차대조표는 아직 바로 잡혀지지 않았습니다. 이들은 손실을 받아들여야 하며, 운이 좋지 않은 대중들은 이전의 상태로 돌아가기 위해 조금 더 오랫동안 최저임금을 받으면서 일을 해야 할 것입니다.

하지만 모든 걸 잃지는 않았습니다; 어떤 것도 일직선으로 오르거나 내려가지 않습니다. 2019년은 다소 지루하겠지만, 연말쯤이면 경기 회복의 조짐이 나타날 것입니다. 막강한 중앙은행의 인쇄기는 잠시 멈췄지만 경제 궤변론자들은 공짜 돈이라는 사이렌 소리를 참지 못했습니다. 이들은 다음에 있을 전역적 화폐 발행 파티를 정당화하기 위해 학문적 신조 (MMT, 현대통화이론 참고)를 지어내고 있습니다.

하지만 절망하지 마시기 바랍니다. Cripple은 여전히 0보다 더 가치가 있습니다. 그리고 Justin Sun의 새 시대 종교인 TRON은 교황 CZ와 짝을 이뤄 여전히 생글거리며 쓰레기코인을 차지하려는 사람들이 존재한다고 말합니다.

전기 차와 샌드코인 맹신론자들

비트코인은 혁신적인 기술이지만 프로토콜의 기술적 장점은 외부와 단절된 상태에서는 존재하지 않습니다. 세계의 통화 상황은 매우 중요합니다. 이는 투자자들이 얼마나 기꺼이 불신을 중단하고 암호화폐 팬들에게 믿음을 가질 수 있는지를 결정합니다.

2018년 내내 전능한 미국 연방준비제도는 대차대조표의 규모를 줄이고 단기 금리를 인상하기 시작했습니다. 세계는 여전히 미화 달러와 조율을 하고 있습니다. 금융 기관과 정부는 저렴한 미화 달러를 요구했고 미국 연방준비제도는 2008년 세계 금융위기 이후 기꺼이 의무를 다했습니다.

물론 기술 벤처 캐피탈 펀드는 이를 인정하지 않겠지만 저렴한 미화 달러는 그들이 이끄는 사업의 핵심입니다. 그렇지 않다면 유동성 공급자가 “규모”를 조정하고 수익을 달성할 때까지 지속적으로 총 마진이 음수인 사업에 자금을 지원하도록 설득할 수 있는 방법은 무엇일까요? 모든 사람들이 차세대 Facebook이 되기를 꿈꾸고 있습니다.

국채에 투자할 때 수익률이 0 혹은 음수가 되는 경우, 필사적인 투자자들은 수익을 얻기 위해 무엇이든 할 것 입니다. Tesla는 이와 관련하여 완벽한 사례입니다. Tesla의 Elon Mask는 개방된 구덩이를 만들고 그 속에 투자자들의 돈을 유치하는 데에 있어 능숙합니다. Tesla는 나스닥 지수에 속하지 않고 도리어 New York Bagel Co.의 특화된 맛으로 사용됩니다.

시장은 Tesla에 대한 저희의 비관론에 대해 반대하지만 투자자들은 계속해서 Elon의 미덥지 않은 발상에 대해 혈안이 되어 있습니다. 여러분이 S&P500 지수에 완전히 투자한 후, 투자자들에게 초과 수익을 보여줄 수 있는 다른 방법을 찾을 수 있다면 이들을 비난할 수 있을까요?

이러한 공짜 돈의 또 다른 사례는 비전펀드입니다.

  1. 계속해서 Softbank의 회계 장부를 확인하는 동안 여러분의 투자 가치를 최우선으로 체크합니다.
  2. 샌드코인에 대한 맹신론자들을 찾습니다 (이 대목에서 전 도이치뱅크의 채권단이 이들에게 좀 더 과감해지기를 바라며 용기를 북돋아줍니다)
  3. 여러분의 환상적인 개인 유니콘을 샌드코인에 혈안이 되어있는 사람들로 채워진 차량에 팔아버립니다
  4. 현금과 지불금을 일본 투자자들에게 배당금으로 가져갑니다

이러한 기업들은 미국 연방준비제도가 금리를 0%로 유지하고 재무부 장기 채권 및 주택담보증권의 지급액을 재투자하는 동안 번창했습니다. Tesla의 주식은 2017년 중반에 사상 최고치를 기록했습니다. 그 이후로 Elon은 주식을 계속 상승시키기 위해 많은 소문을 만들어내려고 고군분투하였습니니다. 저희는 해당 주식이 미화 360달러 돌파에 실패함으로써 채권 보유자들이 미화 10억 달러에 가까운 현금을 받아야 한다는 사실에 그는 기뻐하지 않을 것이라고 확신합니다.

비전펀드의 샌드코인 맹신론자들 또한 초조해지기 시작했습니다. 이들은 비전펀드가 We-Broke company에 미화 200억 달러를 추가로 투자할 것을 제안했을 때 주저했습니다. 이로 인해 수표의 규모는 미화 20억 달러로 감소했습니다.

달러가 부족해지는 현상이 나타나면 투자자들은 갑자기 가치 투자를 다시 발견하게 됩니다.

2017년 12월 암호화폐 우둔함의 절정은 미국 연방준비제도가 양적 긴축에 착수하기 직전에 발생했습니다. 2018년의 고통행 열차는 암호화폐 자산 혹은 쓰레기코인을 아끼지 않았습니다.

하지만 상황은 변하고 있습니다. 미국 연방준비제도는 SPX (S&P500 지수)에서 20%의 조정을 감내할 수 없었습니다. 최근 미국 연방준비제도 회의록에서 점도표는 이제 2019년 나머지 기간 동안에 대한 금리 인상을 보여줍니다. 미국 연방준비제도는 3분기에 매각액을 재투자하기 시작할 것입니다. 이로 인해 미국 연방준비제도의 대차대조표가 확장될 날이 불과 얼마 남지 않았습니다.

중국은 자신들이 신용에 기반한 고정 자산 투자를 피해 경제를 재조정해야 한다는 것을 알고 있습니다. 하지만 중국의 시진핑 주석은 이러 고통스러운 변화를 밀어붙일 정치적 용기를 가져서는 안됩니다. 따라서 중국인민은행은 신용 성장을 지배하려는 어떠한 시도에도 거부의사를 표했습니다. 가장 중요한 두 중앙은행은 다시 굉장히 수월한 신용 제도로 돌아가고 있습니다.

쉽게 벌린 돈은 암호화폐보다 앞서 세간의 이목이 더 집중될 뿐만 아니라 유동성 또한 더 높은 다른 쓰레기코인에서 드러날 것입니다. 2019년에는 현금을 고갈시키는 최고의 사업 중 일부에 대한 IPO 대회가 열릴 예정입니다. Uber, Lyft, AirBnb, 그리고 We company는 모두 올해 IPO에 대한 소문이 있습니다.

Lyft는 곧 있을 IPO에 대한 공모 금액이 초과된 것으로 보입니다. 와, 올해는 즐거운 한 해가 될 듯싶습니다.

만일 이 기업들이 범위 내에서 최고 가격을 책정하고 IPO 가격을 초과하면서 거래를 가능케 할 수 있는 경우, 저희는 호황기가 다시 돌아왔다는 사실을 알 수 있을 것입니다. 이에 암호화폐는 큰 기쁨을 느낄 수 있는 마지막 자산 계급이 될 것입니다. 너무 많은 사람들은 지나치게 짧은 시간에 많은 돈을 잃었기 때문에 즉시 시장으로 다시 뛰어들기에는 역부족이었습니다.

기대하시기 바랍니다

경기 회복의 조짐이 4분기 초에 나타날 것입니다. 공짜 돈과 집단 기억상실증은 강력한 중독성을 지니고 있습니다. 또한 2년 동안 최저임금으로 지낸 후 도박꾼들은 생계유지를 위해 최소한의 돈을 지니고 있어야 할 것입니다.

2019년에 하락은 거세겠지만 시장은 미화 10,000 달러로 회복될 것입니다. 이는 매우 중요한 심리적 장벽입니다. 이는 또한 매력적인 어림수입니다. 미화 20,000달러는 궁극적인 회복을 의미합니다. 그러나 미화 1,000 달러에서 미화 10,000 달러까지 도달하기에는 11개월이라는 시간이 걸렸지만, 미화 10,000 달러에서 미화 20,000 달러로 돌아오는 데는 불과 1개월도 체 걸리지 않았습니다.

CNBC의 Fast Money 방송 진행자인 Melissa Lee님께서는 이 부분을 잠시 들여다 보시기 바랍니다. 미화 10,000 달러는 저희의 예측이고 이를 고수해 나갈 것입니다.

지난 2월 14일, JP Morgan의 CEO인 Jamie Dimon이 블록체인 기반의 코인 JPM Coin을 발행했다. 지난 2015년부터 줄곧

Bitcoin will not survive

Bitcoin is going nowhere

Bitcoin is a fraud

라는 말을 입에 달고 살았던 투자은행계의 초대형 거물이 코인을 발행했다는 이유를 들어 비트코인이 대박날 것이다, 암호화폐가 곧 세상을 점령한다는 종류의 이야기들이 또 엄청나게 쏟아져 나왔다.

심지어 지난 블록체인 비평 포스팅에 어느 분의 글을 인용하는 댓글이 달렸던데, 그 글에도 블록체인 기반의 화폐 시스템 or 거래 시스템이 기존의 금융-화폐-거래 시스템을 붕괴시킬 것이라는 내용이 담겨있더라. 그 댓글에 구질구질한 댓글을 하나 달았는데, 한 줄 요약하면 아래와 같다.

근데, 굳이, 왜, 블록체인으로?

(Source: GoodAudience)

 

Stable Coin 시대의 도래

블록체인 기반 시스템이 인류에게 제공해줄 수 있는 서비스는 크게 두 분야로 나뉜다.

  • 기존 정부 인증 화폐의 대체
  • 계약의 중간 매개체를 없애는 Smart Contract

여기서 Stable Coin은 정부 인증 화폐를 대체하려는 목적과 맞닿아 있다.

Bitcoin을 비롯한 암호 화폐들이 정말로 화폐라면, 가치 저장이라는 측면에서 가격의 안정성을 보장해줘야 한다. 예를 들어, 100만원을 들고 여행을 떠나는데 오늘 환전을 하면 1,000달러지만, 내일 환전을 하면 500달러 밖에 안 된다면, 지금 당장 100만원을 들고 있으려는 사람이 없을 것이다. 여행갈 계획이 전혀 없는 사람이라면 모르지만, 여러 화폐를 번갈아가면서 소비 지출에 써야하는 사람은 당장 급한 원화를 제외하고는 모두 달러로 환전할려고 할 것이다.

자본주의 경제 시스템을 대공황으로부터 구한 경제학자 John Maynard Keynes는 화폐 수요를 아래와 같이 구분했다

  • 거래적 동기 – 유동성 확보
  • 예비적 동기 – 가치 저장, 가치 측정, 저축
  • 투기적 동기 – 가치 변동에 대한 기대

이 3가지 동기 중 Bitcoin 광풍과 관련된 부분은 투기적 동기고, 저 위의 여행객의 사례는 예비적 동기라고 할 수 있다.

JPM Coin을 비롯한 최근의 Stable Coin들은 위의 예비적 동기에서 안정성을 보장해주기 위해 투기적 동기를 원천적으로 차단하는 형태로 코인을 발행하고 있다. 어떻게? 아예 가격이 달러와 1:1로 연동된다. (전문용어로 Pegging 되어 있다고 표현한다.)

쉽게 말해서, JPM Coin이 발행되었다는 이유로 코인 투기 열풍에 사람들이 더 끌려가야하는 구조적인 요인은 없다는 뜻이다.

Bitcoin, Ethereum을 위시한 기존의 코인 대부분이 정부 화폐와의 교환 비율을 시장이 정하는대로 맡겨뒀는데, 가격 널뛰기를 이용해서 “한탕해보려는 세력들”의 투기적 동기 때문에 가치 저장이라는 예비적 동기가 붕괴되었고 (악화가 양화를 구축했다), 결국 투기적 동기를 없애는 형태의 코인이 발행되었다고 생각하면 된다.

JPM Coin 이 외에도 시장에는 꽤나 많은 Stable Coin들이 있다. (TrustToken, MakerDAO, 각각 USD 20MM, USD 15MM을 2018년 6월, 9월에 모집) 심지어는 Stability를 유지시켜주기 위해서 코인 여러개들을 묶어 헷징을 시켜놓은 포트폴리오 형태의 상품도 나와있다. 국내에서 단순히 코인 찍어내는 몇몇 스타트업과 IT 회사들이 코인 몇 개 찍어서 돈 얼마 벌었다(???)고 주장하는 수준보다 훨씬 더 진일보한, 제대로 금융 시장을 인지하는 사람들이 이른바 “코인 기반 투자은행”을 만들고 있다고 생각하시면 된다.

그런 회사들이 투기적 동기를 포기하고 Stable Coin으로 플랫폼을 이동 중이다.

(Source: Crypviz)

 

Stable Coin이 직면한 문제

가치의 안정성을 보장하기 위해 달러와 1:1 교환 비율을 맞추겠다는 Stable Coin들의 프로파간다를 보면서 아래의 세 가지 질문이 떠 올랐다.

  • 굳이 Stable Coin을 사야하나?
  • 계속 커지면 중앙은행을 대체하려고 할텐데?
  • 세금 추적은?

굳이 Stable Coin을 사야하나? – Bitcoin처럼 대박 폭등도 안 날텐데?

그 동안 Bitcoin, Ethereum 같은 이른바 “대장주” 가상화폐들로 거래적 동기를 지원해 줄 수 있는 상점이 몇 개나 있었나? 한국보다 더 열린 자본주의 시장 구조를 갖춘 미국이나 일본에서도 상점 몇 개 정도만 저런 코인으로 대금을 받아줬고, 그 마저도 코인 투기 열풍이 가시면서 빠르게 사라져버렸다.

Stable Coin은 심지어 가격이 계속 증가하지도 않는다. 처음 Coin을 발행할 때 나중에 코인 생태계 잘 갖춰지면 몇 배로 돌려준다고 그랬겠지만, 그것도 결국에는 코인 발행회사가 돈을 벌어서 1:1 교환 비율을 맞춰줘야한다. (전문용어로 지급준비금을 확보해야한다.) 그 발행사가 돈을 못 벌면 1:1 교환 비율을 못 맞춰줄 것이고, 시장에 거래되는 코인은 100만 달러치인데, 정작 회사는 10만 달러의 현금만 갖고 있는 경우가 비일비재하게 생길 것이다. 그러다 Bank-run 같은 사건이 터지면 어쩔려고? 결국 부도가 나거나, 코인 발행사는 어마어마한 비용을 떠 안아야 한다.

물론 그 전에 가격이 안정되어 있어서 투기적 수요가 없는 코인을 신규 구매하려는 사람이 과연 몇 명이나 될까?

계속 커지면 중앙은행을 대체하려고 할텐데? – 중앙은행은 바보인가?

JPM Coin처럼 거대 은행이 계속해서 1:1 태환을 장기간 유지하고, 사람들이 달러대신 JPM Coin으로 갈아탈 수 있도록 어마어마한 초기투자비용을 지출한다고 생각해보자. 말 그대로 중앙은행이 되겠다는 뜻이다. 그럼 미국의 FRB는 가만히 있을까? 우리나라에 비슷한 코인이 대형화 되고 있으면 한국은행은 가만히 손가락만 빨고 있을까?

은행이라는 시스템이 체계적으로 갖춰지기 시작한 19세기 중엽부터 선진국들이 중앙은행을 설립하기 시작한 것은 단순히 정부가 규제하고 싶어서가 아니라, 특정 기관이 돈을 마구 찍어내서 생기는 인플레이션을 막고, 경제 시스템의 안정성을 유지하기 위해서 가장 효율적인 구조라는 것을 인지했기 때문이다. 그런 사회 안전망 체제를 사기업이 운영하겠다면 안전성은 오롯이 그 기업 대표의 손에 달려있게 된다. 이게 얼마나 위험한 구조인지 잘 알기 때문에, 중앙은행을 유지하기 애매모호한 도시 국가들도 은행 연합체가 공동으로 화폐를 관리한다. (ex. 홍콩)

세금추적은? – 정부는 바보인가?

정부가 절대로 손 놓고 방관하고만 있지 않을 것이라는 가장 강력한 근거를 들자면 바로 세금이다. 거위의 깃털을 뽑는 것처럼 야금야금 뜯어야한다고 15세기 영문학에 적혀있듯이, 정부는 오랫동안 민간으로부터 세금을 어떻게 걷어야하는지에 대한 고민을 해왔던 조직이다. 그런 조직이 세금 추척할 수 있는 방법을 잃는다면 가만히 있을까?

(Source: Crypviz)

 

Stable Coin 의 시작 = Smart Contract의 보편화? 암호화폐의 종말!

블록체인의 궁극적인 목표는 정부를 없애는 것이다. 누군가는 사회주의라고 표현하던데, 필자의 관점으로는 무정부주의라고 표현하는게 맞을 것 같다. 돈 찍어내는 권리도 중앙은행에서 뺏어오고, 세금도 안 내고, 거기다 정부 없이 상호간 신뢰를 구축할 수 있는 시스템으로 정부라는 중간 매개체를 대체하자는 관점이기 때문이다. (캘리포니아 사람들, 일반적인 IT관계자들의 사고방식이 딱 이런 것 같더라.)

말을 바꾸면, Smart Contract로 기존의 중간 매개체가 없는 시스템을 구축하겠다는게 결국 정부(and other authorities)를 없애겠다는 뜻이다.

그런데, 인간은 그렇게 선하지 않다. 사기꾼들은 세상 곳곳에 널려있고, 시스템의 헛점을 이용해 돈을 벌려고하는 Scalper들도 버젓이 활동을 하며 어떤 꼼수로 돈을 벌었는지 자랑질을 해댄다. 완벽한 시스템이란 없기 때문에 법이있고, 변호사라는 직업이 있고, 재판, 계약서 같은 것들이 존재하는 것이다. 거기다 Smart Contract라는거 구조가 조금만 복잡한 계약에 쓸려고해도 설계를 다시해야한다. 자동화는 언제나 단순화에서 시작하기 때문이다. 아마 복잡한 계약 구조 다 맞춰주는 Flexible Smart Contract 만들기 쉽지 않을 것이다. (과정 생략하고 결과값만 써 놓으면 되지 않냐는 자칭 블록체인 업체들 좀 있던데, Smart Contract가 뭘 대체해야하는지 좀 고민하고 사업해주시면 안 될까? 내 관점에 당신들은 블록체인으로 사업을 하는게 아니라, 블록체인으로 장부 정리만 하고 있을 뿐이다)

캘리포니아 사시는 분들께는 좀 미안한 말인데, 그 동네를 갈 때마다 “여기 사람들은 (거의) 다 뽕맞은 것 같다”는 생각이 들고, 개발자들 중 상당수가 세상 모르는 소리하면서 “코인 찍어내면 다들 쓸 것 같은데요?” 같은 철부지 티를 낸다. 서비스 만들어내고 그걸 사람들이 쓰도록 만들기 위해서 얼마나 많은 고민과 마케팅 비용이 들어가는지 모르는 소리 같아서 가끔 어안이 벙벙해진다. 인간이 문명 생활을 하고 지난 수천년간 쌓아올린 정치, 경제, 사회, 문화 시스템을 그렇게 얕보지 마라.

정리하면, Stable Coin이 나왔고, 그 쪽으로만 시장이 집중한다는 이야기는 Smart Contract가 보편화 되는 계기를 마련한 것이 아니라, Smart Contract라는게 적용되는 분야는 한정되어 있는데 정작 블록체인을 이용한 코인으로 투기해서 돈 벌이가 되는 시절이 끝났다는 것을 의미한다. 그리고, Stable Coin 그 자체도 코인 생태계 (Coin Economy)를 구축하기 위해 많은 초기 투자 비용을 지불해야하고, 기존의 화폐를 운영하고 있던 정부가 그 권리를 쉽게 내려놓으려고 하지 않을 것이다. JPM Coin 마저도 기껏해야 작은 커뮤니티에서 활용되는 화폐가 되거나, 아예 정부가 전자 화폐를 블록체인 형태로 찍어내는게 이 기술이 사회 시스템에 흡수되는 최대치일 것이라고 본다. (사실 정부가 찍어낸 돈이 제일 안정성이 높은 “코인” 아닌가?)

사실 블록체인이란 위조, 변조를 막기 위한 여러가지 암호화 기술 중 하나에 지나지 않는다. Public Key, Private Key는 다른 암호화 모듈에도 이미 오래전부터 있었다. 굳이 블록체인에서 차이점이 있다면 과거의 정보 위에 덧대어서 기록하는 아이디어, 즉 BGP를 풀어내기 위한 수많은 아이디어 중 가장 단순(무식)한 아이디어가 얹혀진 것에 불과하다. 근데, 중앙서버가 없기 때문에 (그들이 꿈꿨던대로) 자유도가 엄청 높아지는 것이 아니라, (되려) 서비스 제공자 입장에서 관리가 극악으로 힘들어진다. (관련 논의는 다른 포스팅 참조) 관리자에게 감시당한다는 감성적 불만, 큰 돈 아닌 관리 수수료 지출이라는 금전적 불만 해소하려다가, 정작 시스템 관리가 안 되는 문제들로 생겨나는 수많은 부작용(Side effect)들을 어떻게 해결할래?

전자 투표나 상품 운반 채널 같은데에 블록체인의 정보 보안 방식을 활용한다는 기사를 봤는데, 그거 이미 다른 암호화 기술로도 얼마든지 할 수 있는 작업이고, 굳이 관리가 극악으로 힘든 블록체인을 쓰지 않아도 얼마든지 효율적으로 처리할 수 있다.

그럼 왜 JP Morgan이 Stable Coin을 찍어냈냐고? 미국은 “주주” 자본주의 국가다. 조그만 스타트업이나 초대형 투자은행이나, CEO는 주주들의 (입맛을 맞춰주는) 꽃놀이패인 것 같다ㅠㅠ

 

굳이, 왜, 블록체인으로?

저런 코인 발행사들의 궁극적인 목표는 코인 생태계 (Coin Economy)를 구축하는 것이라고 본다. 근데, 모든 Economy는 “소비”만 해서 되는게 아니라 “생산”을 할 수 있어야한다. 지금까지 나온 코인들은 “생산” 대신 코인 구매하라고 한 다음에, “어느 상점에서 코인을 쓸 수 있다”는 쪽에 초점을 맞췄다. 얼마전부터는 코인을 벌 수 있는 서비스들에 대한 고민을 듣고 있는데, Stable Coin이어서 1:1 교환비율도 맞추고, 코인으로 급여도 받고, 상품도 살 수 있게되는 구조를 굳이 블록체인, 암호화폐로 해야하나? 그냥 중앙서버, 현금 기반으로 하면 안 되나? 정부가 찍어낸 돈이 제일 안정적인 코인이고 이미 코인 생태계가 다 갖춰진지 몇 십년, 몇 백년이 지난거 아닌가?

우리 Pabii가 이제 곧 출시하는 “Pabii Cash”는 위의 조건들을 다 갖췄는데 정작 블록체인과는 아무런 관계가 없다. 필요가 없다는 사실, 이렇게 만들려다가 돈과 시간만 더 들어간다는 사실, 앞으로 관리가 더더욱 힘들어진다는 사실을 인지했기 때문이다.

Pabii Cash에서 5,000원으로 커피 한잔 마시는데 쓸 수 있고, 온라인 쇼핑몰에서 2만원짜리 아이템을 구매하는데 Pabii Cash 5,000원, 현금 15,000원 결합으로 결제를 할 수 있도록 해 준다. (물론 이런 Full service를 다 갖추는데 시간은 좀 걸릴 것이다.)

코인도 안 찍어내고 그런 돈은 어디서 구하고, 사람들은 어디서 돈 5,000원을 만들어 내냐고? 우리는 당신들의 스마트폰 활용 내역 (앱 설치, 앱 오픈 같은 기본 데이터, 배터리 관리 앱이 쓰는 데이터들)을 가공해서 각 유저별 특성을 찾아낸다. (여기에 Factor Analysis, Instrumental Variable, Homogeneity Index 같은 고급 통계 모델링이 활용된다.) 그 특성에 맞춰서 광고 미세 타게팅을 해주는 DSP를 만들고, 거기서 나는 수익금 일부를 유저에게 돌려드리는 서비스다. (공식 명칭은 Psychographic Ad Targeting이다.)

참고로, 페XX북에서 여러분들이 Like 누른 값들을 이용해서 미세 타게팅하는 광고 서비스가 이미 오래전부터 출시되어 있다. 우리 Pabii의 서비스는 페이스북처럼 뻔히 보이는 Like들을 이용하는 정보 착취가 아니고, 기본 데이터를 고급 통계학으로 가공할 수 있는 높은 기술력으로 광고주들에게 광고 효율화를 위한 합리적인 정보를 제공하고, 데이터를 제공한 유저들에게도 합리적인 보상을 제공해주자는 취지라고 보시면 된다. 그 사이 개인정보가 노출되지 않도록 복잡한 데이터 가공 프로세스를 거친다.

내 데이터를 갖다 쓰면서 자기들 배만 불리는 서비스들의 행태에 일침을 가하고, 데이터를 제공한 분들께 보상이 돌아가는 구조, 그 보상이 일상의 소비 생활과 연계된 구조, 이른바 핀(Fin)테크 서비스를 제공하는 빈(貧)테크 앱이다.

Pabii Cash 앱만 설치해놓고 평소처럼 스마트폰을 쓰고 있으면, 광고주의 요구 사항에 맞춰 타게팅 광고가 나가고, 유저는 어떤 광고가 Pabii 시스템을 통한 광고였는지도 모른채, 여느 보상형 광고들처럼 무슨 행동을 특별히 해야하는 것도 아닌데, 슬금슬금 자신의 가상계좌에 돈이 쌓이는 구조다. 광고 효율성이 높은 유저일수록 보상액이 커질테니, 이전처럼 광고라고 무조건 기피하는 행태도 막을 수 있다.

정리하면, 블록체인으로 코인 생태계 조성 중이신 분들이 열심히 노력하는 1:1 교환비율, 생산, 소비가 모두 다 돌아가는 시스템을 구축하고 있는데, 우리 회사에서는 아무도 블록체인에 관심이 없다. 필요가 없기 때문이다.

4월에 베타버젼 Pabii Cash 앱을 공개하면서 최초 가입자 N명에게는 보너스 Pabii Cash를 얼마쯤 드릴 생각이다. 베타버젼을 달리 다른 곳에 홍보할 생각도 없고, Pabii 블로그 성실 방문자 분들께 드리는 혜택이라고 생각해주시면 되겠다. (스타트업이라 마케팅 예산이 별로 없어서 많이 드리진 못하니 양해해주시면 좋겠다 ^^)

코인 찍어내지 않고도 얼마든지 이런 서비스를 만들 수 있는데, 굳이, 왜, 블록체인으로?

 


공지1: 2019년 3월 29일을 끝으로 데이터 사이언스 주제의 포스팅은 종료됩니다. 이 후에는 파비의 스타트업 운영 관계된 포스팅만 월 1회 작성됩니다.

공지2: 위와 같은날을 기준으로 댓글을 모두 삭제합니다. 추후에는 댓글 서비스를 제공하지 않습니다.

 

블록체인 시리즈

개발자 채용 중 특정 학원 출신인 분을 여럿 뵈었던 적이 있다. 신입 개발자 지원하는데 포트폴리오가 너무 좋아서 신입치고 높은 희망연봉을 제시해도 면접을 진행했었는데, 그 학원 출신 분들 몇몇을 뵙게 되면서 포트폴리오의 화려함만큼 기초 실력이 탄탄한 분들이 아니라는 사실을 인지하게 되었다. 오랜고민 끝에 결국 채용하게 된 개발자 분은 포트폴리오가 화려하지도 않고, 경력이 긴 분도 아닌, 학부 시절 관련 전공으로 열심히 공부했던 분이었다. 학부 전공을 열심히 듣고 혼자 잘 훈련만 했으면 충분한 면접 질문들이었는데, 왜 포트폴리오가 화려한 그 학원 분들은 제대로 대답을 못하셨을까?

그 지원자들과 비슷하게, 문과인데도 N모사 개발자 프로그램을 거쳐 매우 뛰어난 개발자로 살고 있는 자랑스런 친구가 하나 있다. 귀국 후 처음 그 친구 소식을 들었을때만해도 그냥 재밌게 사는 친구라고만 생각했는데, 이번 채용 프로세스를 거치면서 비전공자에 외부 학원을 거쳐서 뛰어난 개발자가 되는 사례가 참 드물다는 사실을 새롭게 인지하게 됐다. 원래도 재밌으면서도 대단한 친구라고 생각했는데, 새삼 그 친구가 더 대단해 보인다 ^^

요즘 이곳저곳에서 데이터 사이언티스트 채용에 관련된 질문을 받는데, 원래부터도 대학원 출신, 통계학을 제대로 배운 전공자를 뽑으라고 그랬지만, 위의 개발자 면접 프로세스를 거치면서 그런 경향이 더 심해진 것 같다. 좋은 학원과 훌륭한 선생님이 세상에 참 많다는 사실을 충분히 알고 있지만, 아주 예외적인 경우가 아니라면, 전공자들이 학부, 대학원동안 머리를 쥐어짜며 쌓아올린 내공을 아무리 좋은 학원이라도 단번에 주입시켜주기란 매우 어렵지 않을까? (그리고 그 개발자로 커리어 전환하고 잘나가는 친구가 그동안 얼마나 많은 노력을 쏟아부었을지 상상해보면…)

(Source: Iron Triangle)

 

어느 교수님의 응원 메일

회사 운영 중에 짬을 내서 관리하는 블로그라 여러가지로 부족한 점도 많고, 때때로 여러 공격에 좌절하는 일이 많지만, 그래도 가끔씩 진심이 담긴 응원 메일을 받고나면 힘이 부쩍 솟는다. 모든 응원 메일을 다 공유해보고 싶지만, 이 글을 쓰는 시점에 받은 어느 공학과 교수님의 응원 메일 일부를 공유할까 한다.

(중략)… 블로그 내용을 보니 한 20여년 전이나 지금이나 별반 다르지 않은 것 같아서 세월의 차이가 느껴지지 않습니다…

(중략)… 여기 고객사로 있는 기업에서 예전에 있었던 일이 생각나더군요. 한참 데이터웨어하우스 붐이 불어 개발하던 와중에 XX가격 의사결정모형 자문을 해 주었는데, 학부출신 한 명이 어디서 배웠는지 모르나 신경망으로 데이터 피팅하니 적합도가 90%가 넘으니 이걸 사용해야 하는 것 아니냐고 집요하게 우겨서 그냥 웃어 넘겼습니다. 피팅이 잘 된다고 예측이 잘 되는 것도 아니고, 설명 이론이나 모형도 없으니 가격의사결정에도 쓰기도 마땅하지 않고. 그래서 함부로 신경망 같은 것을 가르치는게 아니구나 하는….

당시에 잠시 과학원에서 계량마케팅을 박사과정을 대상으로 강의한 적이 있는데, 다들 배경지식이 없어 힘들어하고, 수학이니 경제학이니 통계학이니 하는건 어려우니 소비자 행동쪽만 학생들이 선호하고… (중략)

예전의 신경망 일도 있어 제가 강의하는 통계학 관련 과목에서는 차이점이나 설명하고 자세히 언급하지 않았는데, 새로 강의를 개설하려다 보니 하지 않을 수 없겠더군요. (중략) 잘못 가르치면 남용하거나 copy & paste나 하게 만들지 않을까하는 우려가 생깁니다. (중략)

위의 메일 내용에서 뽑아내고 싶은 포인트는 크게 3가지다

  • 박사과정 생들에게도 수학, 통계학 기반의 모델링 강의는 쉽지 않다
  • 20여년 전이나 지금이나 크게 다르지 않은 상황이다
  • 신경망 모델에 대한 맹신을 막기 위해 학교 교육이 변화하고 있다

첫번째 포인트는 Pabii의 데이터 사이언스 강의에서도 여러번 느끼는 일이 많다. 수강생 중에 석박사 출신도 많고, 교수 or 연구원으로 재직 중이신 분들도 가끔 뵐 수 있다. 그런 분들도 “머신러닝 이거 다 통계학이었네요”, “전생(?)의 기억을 되살리느라 따라가기 힘들었다”라고 말을 하시면서 기억을 되살리려 고민하는 분도 있고, “수식을 이런 방식으로 직관적으로하는 해석은 처음 들어본다”고 놀라고 가시는 분들도 있었다. 필자도 그랬었지만, 대부분의 박사과정 공부 중에는 수식에 파뭍혀 그 수식의 함의를 꼼꼼하게 짚고 넘어가기가 참 힘들기 때문이다. 그래서 더더욱 데이터 모델링을 할 수 있는 레벨의 지적 훈련을 받은 사람을 찾기가 참 힘든 것 같다.

두번째 포인트에서 공부가 어려운 건 20년전이나, (200년전이나, 2000년전이나…) 지금이나 다 똑같겠지만, 저 교수님께서 말씀하시는 상황은 깊이 있게 공부한 사람들이 이끌어가도 시원찮을 분야를 학부출신 한 명이 집요하게 우기기를 시전하고 있는 상황이 안타깝다는 말씀이실 것이다. 필자가 귀국하고 처음 만났던 자칭 데이터 사이언티스트 분들을 생각하면 상황이 조금 더 나아지기는 했지만, 여전히 매우 많은 사람들이 적당히 신경망 코드 구해서 돌리면 이미지 인식도 하고, 자연어 처리도 되는데 무슨 모델링 같은 소리하냐고 필자와 맞서려고 하는 일이 비일비재하다. (이 블로그에서도 많이들 보셨을 것이다.)

그런 “맞서려는 분들”에 대한 분노가 어이없음으로 바뀌며 좌절감에 조금씩 지쳐가던 중이었는데, 세번째 포인트에서 새로운 희망을 찾고 있는 중이다. 몇몇 세부 전공 분야를 제외하면 그동안은 학교에서 신경망을 굳이 꼼꼼하게 가르쳐야할 필요성을 못 느꼈을 것이다. 이게 수학적으로는 “꼼수”에 불과한 계산 작업이기 때문이고, 특정 분야를 제외하면 Computationally inefficient + Overfitting이라는 양쪽 폭탄을 다 맞는 계산법이기 때문이다. 통계학 박사들 중 상당수는 이런식의 꼼수 계산을 받아들이는 상황을 지적인 자아의 붕괴로 받아들이는 경우도 있을 정도다. 그럼에도 불구하고 워낙 많은 사람들의 입에 오르내리니 이제 제대로 통계학 교육을 받으신 분들이 학교 수업에 신경망 계산이 뭐라는 걸 구체적으로 설명하는 섹션을 포함시키시려는 것 같다. 뭔가 속이 뻥~ 뚫리는 기분이다.

그 동안 Pabii에서 데이터 사이언스 강의를 했던 가장 큰 이유가 “신경망에 대한 맹신”, “머신러닝/딥러닝에 대한 잘못된 이해”에 대한 반박이었는데, 학교에서 이렇게 나서서 시장을 정화시켜주신다면 굳이 Pabii에서 길게 강의를 해야할 이유가 있을까?


신 교수님, 응원 메일에 다시한번 고개숙여 감사드립니다. 교수님 제자분들이 한국의 데이터 사이언스 인력 풀 수준을 한 단계 더 높일 수 있게 되기를 간절히 바랍니다.

(Source: 동아일보)

 

데이터 사이언스 학원들

Pabii의 데이터 사이언스 강의에 “스파이”가 몇번 왔다간 적이 있다. 특히 지난 여름의 수학 & 통계학 마지막 오프라인 강의에 강남 일대의 “데이터 사이언스 학원” 관계자임을 확신할 수 밖에 없는 분들이 다녀가셨다. 심지어는 필자가 간단하게 요약한 그 수학 & 통계학 강의 (Quantitative 석사 과정 이상의 공부를 했다면 누구나 충분히 알만한 그런 내용의 강의)를 한국에서 제일 잘 아는 교수님이 누구냐는 질문을 하셨는데, “어느 학교 학생이에요? 그 학교에 괜찮은 교수님 강의 추천해드릴께요”라고 하니 빛의 속도로 사라지시던 그 분들… 한국에서 제일 잘 아는 교수님 이름을 가르쳐주면 강사로 영입하려고 그랬을 듯ㅋㅋ

그 “스파이”분들이 기획하신 강의 페이지를 가 보면, 국내에 있는 다른 강의들을 벤치마킹했다고, 자기네 수업의 수학 & 통계학만 이해하면 된다고 열심히 썰을 풀어놨다. 강의 기획안을 봐도, 실제로 그 수업을 들었던 분들의 뒷 이야기를 들어봐도 강의 기획자 분들이 아직도 데이터 사이언스가 수학과 통계학으로 이루어져 있다는 사실을 잘 인지하지 못한 것 같다. 애시당초 데이터 사이언스가 말 그대로 수학&통계학을 쓰는 “Science”라는 사실을 이해못한채, 기초 통계학만 가르친 다음 “Engineering”스러운 부분을 적당히 섞으면 데이터 사이언스라고 착각하시는듯.

그런 커리큘럼 설명 끝에 3달, 6달의 교육 과정을 거치면 데이터 사이언티스트 “1년차”가 된다는 표현이 있던데, 이 부분만큼은 꼭 짚고 넘어가보고 싶다.

1. 3달, 6달의 교육과정

어느 노 교수님 한 분이 Pabii의 데이터 사이언스 수업 3수강 (재수강도 아니고!)을 하고가시면서 남기신 말씀이, “다들 깡통은 아니니까, 모자라는 부분만 채워넣으면 되지 않을까?”였다. 수학&통계학 모델링을 잘 하는 사람은 코딩 쪽 훈련을 더 받고, 코딩 훈련이 잘 된 분은 수학&통계학 모델링을 더 공부하면 된다는 관점이었을 것이다.

우선 업무 중 느끼는 것들을 정리해보면, 수학&통계학 모델링을 잘 하는 사람이 데이터 사이언스 관련 업무를 위해 써야하는 코딩의 수준은 굳이 코드를 잘 짜는 10년차 개발자 수준이어야할 필요가 없어보인다. 어차피 수학적으로 더 elegant하게 모델을 만들면 코딩은 몇 줄로 끝나버릴 수도 있으니까. 백엔드 개발자들에게 던져줘야하는 결과물 몇 개 때문에 서버/DB관련된 지식을 배워야하는 부분도 크지 않다고 생각한다.

반면, 수학&통계학 훈련이 안 된 분들이 새로 이 지식을 배우는건 거의 불가능에 가까운 것 같다. 사실 고교 시절에 수학 못하던 친구가 재수, 삼수를 해서 수학 실력이 일취월장하는 경우도 거의 없지 않은가? 하물며 과학원의 박사과정생들에게도 힘든 수학, 통계학 기반의 모델링을 수학 손 놓은지 몇 년이 지났고, 원래부터 수학에 큰 관심이 없었던 수알못인 분들이 따라가기는 쉽지 않을 것이다.

실제로 200명 남짓의 학생들을 대상으로 한 강의에서도 같은 결론을 내리고 있다. 아무리 수식 제외하고 직관 위주로 강의해도 원래부터 수알못이었던 분들은 탈락할 수 밖에 없더라.

2. Data Scientist N년차

“N년차”, IT쪽으로 사업을 하겠다고 개발자 커뮤니티와 접하면서 처음 들어보기 시작한 표현이다. “안드로이드 개발 5년차”, “웹 프론트 개발 8년차” (더불어 “풀스택 개발자/디자이너”라는 표현도 이 동네에 와서 처음 들었다.)

하나만 물어보자. 수학&통계학 공부가 전혀 안 된 분이 데이터 사이언스 관련 업무를 10년정도하고나면 수학&통계학을 자연스럽게 이해하고 쓸 수 있게 될까? 자기가 매일 보던 숫자에서 “감”을 잡는 Domain knowledge 부분은 시간과 내공이 어느정도 정비례 관계를 갖게 될 것이라고 충분히 공감하겠지만, 그런 “Data Analyst” 업무는 수학적인 머리를 써야하는 부분이나 경험이 쌓여야하는 부분보다, 비지니스 센스와 더 깊은 관련이 있다.

개발자로 년차가 올라가면서 웹, 앱, 서버, DB 등등 다양한 플랫폼을 연계시킬 수 있는 경험이 쌓이고, 또 웹, 앱 각각에서도 높은 Tech를 타는 엄청난 레벨의 개발자가 될 수 있다는 사실은 인력 채용을 겪으며 매일같이 보고, 배우고, 느끼고 있다. 더불어, 굳이 전공자가 아니어도 충분히 본인의 노력으로 극복할 수 있는 부분이 있다는 것도 인지하고 있다. (우리 회사 채용은 전공자에게 가산점을 줄 수 밖에 없는 구조로 진행되었지만)

하지만, 수학&통계학 기반의 모델링을 알고 모르고는 완전히 다른 종류의 인력, 다른 직군에 대한 이야기가 된다.

그 학원들이 쓰는 표현, 타겟하고 있는 직군을 좀 더 정확하게 바꾸자면 “Data Analyst N년차”가 맞지 않을까?

3. Data Analyst N년차

그 학원 수강생들이 어떤 커리어를 밟고 있으신지 잘 알지는 못하지만, 보고 들은 강의 커리큘럼만 봤을 때는 Business Analyst(BA), Business Intelligence(BI) 같은 직군에 지원하실 수 있는 훈련을 받았다고 판단된다. 2000년대 중후반에 학부 졸업무렵 필자가 봤던 인력 시장에서 그런 자리들에 갔던 친구들은 수학, 통계학 같은 자연계열 학부 전공을 한, 좀 유명한 학교 출신인 친구들이었다.

요즘 DSP 회사들에 가보면 비슷한 일들을 Account Strategy (속칭 AS, 광고주의 광고 전략에 맞춘 관리해주는 세일즈 인력) 분들이 하고 계신다. 아마 우리 Pabii도 광고주 영업을 뛰어야하는 시점이 오면 AS분들을 뽑을 때 예전에 BA, BI 직군이 타겟했던 분들을 뽑을 것 같은데, 학부 출신 신입이면 한 달동안 Tableau와 우리회사 내부 솔루션 가르쳐서 쓰는게 더 낫지, 굳이 저 위에서 말이 나온 “Data Scientist 1년차” 만들어 준다는 학원 출신이신 분들을 뽑고 싶지는 않다. 그런 학원의 수학&통계학 교육 수준이 높기 어렵다는 사실을 알기 때문이고, 그 정도 수학&통계학 훈련만 받은 분께는 아무리 경력이 쌓여도 Data Scientist라는 직함을 줄 생각이 없기 때문이다. 학생 선발 과정에서 이미 우리나라 최상위권의 수학&통계학 훈련을 받은 인재들만 받았을 과학원에서 박사과정생을 대상으로 가르쳐도 힘들었던 지식을 그 학원에서, 아니 어지간한 일반 IT학원에서 비슷한 수준으로 가르치는건 거의 불가능에 가깝지 않을까?

애시당초 데이터 사이언티스트 “N년차”라는 표현을 쓰는게 개발자 중심의 사고방식에서 한발자국도 벗어나지 못했기 때문인 것 같다는 생각도 든다.

(Source: 슬램덩크)

 

나가며 – 그냥 대학원 가세요

학원 출신의 개발자 신입 면접을 보고나서 우리 개발자 분들이 입을 모아서 그러시더라. “포트폴리오에 있는건 아는지 모르겠는데, 그런 퀄리티 결과물을 만들기 위해서 알아야하는 개발 일반 지식을 하나도 모르는 것 같다”고.

데이터 사이언티스트 만들어준다는 학원의 커리큘럼을 보면 비슷한 생각이 든다. 저런 학원 출신이신 분들이 Data Scientist라면 기초적으로 알아야할 대학원 수준의 수학 & 통계학을 얼마나 알고 있을까? 필자는 매우 회의적이다. 증권사 Quant 뽑는데 학위과정에서 제대로 Hard-training을 받으신 분이 아니라, 강남에 있는 학원에서 3개월동안 훈련 받은 분 뽑는다고하면 어떻게 될까? 그 분이 Outlier라면 또 모를까, 애시당초 resume screening을 당했거나, 운이 좋아서 면접을 봤다고해도 윗 분들이 “어디서 이런……?” 같은 말로 인터뷰 프로세스를 중단할 확률이 100%에 수렴할 것이라고 자신있게 이야기할 수 있다.

위에서 말했듯이, Pabii에서 저 학원과 비슷한 교육을 받으신 분께 드릴 수 있는 포지션은 Account Strategy지 Data Scientist가 아니다. 우리회사는, 아니 어지간한 DSP는 이제 Account Strategy가 Data Analyst를 해야하는 시장이 되었기 때문이다. 거기다 그 학원 출신이어서 AS 합격될 가능성이 높아지기 보다는, 그냥 좋은 학교에서 괜찮은 수준으로 수학&통계학 훈련을 받은 학부 졸업생이 더 일을 잘할 것 같다. Data Scientist Intern 지원자들을 보면 거의 대부분 수학 실력에 따라 사고의 깊이와 모델의 깊이가 결정되는 걸 보고 있기 때문에 더욱 그렇게 생각한다. 그리고, Data Analyst가 아니라 Data Scientist 뽑고 싶으면 그냥 통계학 공부 많이하고 모델링에 고민 많이 해 봤을 대학원생을 뽑아서 사내 교육을 시키는게 더 맞을 것 같다.

Pabii의 Data Science 강의를 들으신 분들 (중 학부 출신이신 분들) 대부분이 “이제 뭘 공부해야하는지 알게됐다”, “수학을 왜 배우는지 몰랐는데 이렇게 쓰인다는 걸 알게되어 다행이지만, 앞으로 갈 길이 까마득해 보인다”는 말씀을 하시는 것도 같은 이유일 것이다.

특별히 Pabii가 국내외의 좋은 회사들보다 인력을 찾는 눈이 더 까탈스러울 것 같지 않다. 어차피 사람보는 눈은 거기서 거기니까. 우리가 이렇게 생각하고 시장에 접근한다면, 아마 다른 잘 나가는 회사들도 크게 다르지 않을듯.

저 위에 소개해드린 응원 메일에서 모 대학 공학과 교수님께서 말씀하셨듯이 그동안 통계학 훈련을 받은 분들이 “꼼수”라고 외면했던 계산방법론들을 학교에서도 제대로 가르치려고 하시는 교수님들이 많아졌다. (그 분들이 몰라서 안 가르쳤다기보다, 이게 “꼼수”고 학문적인 접근법이 아닌 경우가 많기 때문에 외면했던 계산법에 불과하다는 사실을 다시 한번 상기해드린다.) 본인이 수학적으로 잘 훈련된 인재라고 생각하신다면, 그런데 정말 Data Scientist가 되고 싶다면, Entry barrier로 수학&통계학 훈련에 대한 강조를 많이하는 석,박사 프로그램을 찾아가서 원리부터 차곡차곡 이해하는 훈련을 받고 나오시길 바란다.

 


공지1: 2019년 3월 29일을 끝으로 데이터 사이언스 주제의 포스팅은 종료됩니다. 이 후에는 파비의 스타트업 운영 관계된 포스팅만 월 1회 작성됩니다.

공지2: 위와 같은날을 기준으로 댓글을 모두 삭제합니다. 추후에는 댓글 서비스를 제공하지 않습니다.

2019년 3월 15일, 비트멕스에서 새로운 분기별 선물 계약 상품이 출시될 예정입니다.

아래의 표를 통해 기존 및 출시 예정인 2019년 2분기 선물 계약 상품의 상장일과 결산일을 확인하십시오. 굵은 글씨로 표시된 상품은 신규 계약  상품입니다.

상품 코드 페어 상장일 결산일
ADAH19 Cardano / Bitcoin 2018년 12월 17일 2019년 3월 29일
ADAM19 Cardano / Bitcoin 2019년 3월 15일 2019년 6월 28일
BCHH19 Bitcoin Cash / Bitcoin 2018년 12월 17일 2019년 3월 29일
BCHM19 Bitcoin Cash / Bitcoin 2019년 3월 15일 2019년 6월 28일
EOSH19 EOS 토큰 / Bitcoin 2018년 12월 17일 2019년 3월 29일
EOSM19 EOS 토큰 / Bitcoin 2019년 3월 15일 2019년 6월 28일
ETHH19 Ether / Bitcoin 2018년 12월 17일 2019년 3월 29일
ETHM19 Ether / Bitcoin 2019년 3월 15일 2019년 6월 28일
LTCH19 Litecoin / Bitcoin 2018년 12월 17일 2019년 3월 29일
LTCM19 Litecoin / Bitcoin 2019년 3월 15일 2019년 6월 28일
TRXH19 Tron / Bitcoin 2018년 12월 17일 2019년 3월 29일
TRXM19 Tron / Bitcoin 2019년 3월 15일 2019년 6월 28일
XRPH19 Ripple 토큰 (XRP) / Bitcoin 2018년 12월 17일 2019년 3월 29일
XRPM19 Ripple 토큰 (XRP) / Bitcoin 2019년 3월 15일 2019년 6월 28일
XBTH19 Bitcoin / USD 2018년 9월 26일 2019년 3월 29일
XBTM19 Bitcoin / USD 2018년 12월 17일 2019년 6월 28일
XBTU19 Bitcoin / USD 2019년 3월 15일 2019년 9월 27일

빅데이터 “Integrated Intelligence”를 이용한 비지니스 모델

Pabii 블로그의 가장 큰 흐름을 2개만 잡으라면 하나는 수학과 통계학같은 기초학문이 탄탄해야 요즘 인공지능이라고 불리는 데이터 사이언스 작업을 이해할 수 있다는 포인트와, 빅데이터란 용량만 많은 데이터가 아니라 많은 사람들의 행동 패턴을 추적할 수 있는 데이터라는 포인트다. 그 중 빅데이터에 대한 관점을 좀 전문 용어를 빌려쓰면 집단지성 (Collective Intelligence)통합지성 (Integrated Intelligence)의 구분을 활용해볼 수 있을 것 같다.

요즘 인구에 회자되지만 정작 용어에 대한 정의에 여러가지 혼선이 있는 빅데이터라는 개념은 1,000명의 샘플 유권자 대신 백만명 정도의 유권자들을 대상으로 조사하면 대통령 선거 결과를 좀 더 정확하게 예측할 수 있다는 집단지성의 접근법에서 벗어나, 백만명 각각의 행동패턴 데이터를 따라다니면서 그들의 유사함과 차이점들을 바탕으로 정치 선호를 가늠하는 통합지성의 맥락에서 바라봐야한다.

이전의 다른 글에서 언급했듯이, 통계학 샘플링을 조금만 공부하면 1,000명의 유권자 대신 백만명의 유권자들을 대상으로한 설문조사에서 나오는 장점이 그렇게 많지 않다는 것을 이해할 것이다. 다른 글 링크를 따라가기 귀찮은 분들을 위해서 간단 요약을 하면, 유권자 숫자를 1,000배 늘려봐야 표준오차가 1000분의 1이 될 것을, 32분의 1로 줄이는 정도에 불과하다. 1,000배나 더 많은 사람들에게 설문조사하려고 들어갈 돈을 생각하면, 그리고 적절한 표준 샘플링이 실패할 가능성을 생각해보면 왜 설문조사 기관들이 1,000(+n)명의 유권자들 기반으로 조사하는지 알 수 있게 된다.

반면 통합지성의 맥락에서 바라보면 유권자의 숫자가 많을수록, 그들의 행동 패턴에 대한 데이터가 많을수록 다양한 행동 패턴과 정치 성향을 연결지어볼 수 있다. 특정 후보 A를 지지하는 사람 모두가 동질적인 (Homogeneous) 사람이 아니고, 특정 연령, 성별, 지역만으로만 정치 성향을 함부로 단정지을 수도 없다. 오히려 어떤 웹 컨텐츠를 더 소비하고, 어떤 사회적 지위에 있고, 어떤 사람들과 어울리냐가 훨씬 더 중요한 정보인 경우가 대부분이다. 그런데, 집단지성 기반의 데이터로 어떤 웹 컨텐츠를 더 소비하는지를 추적할 수 있나? 웹 컨텐츠 종류를 잡아내기 위해서는, 그리고 그런 웹 컨텐츠가 정말 정치성향과 맞물려있다는 결론을 내리기 위해서는 많은 사람들의 온라인 행동 패턴을 통해 “학습 (Learning)”한 모델이 있어야한다. 그게 개개인의 단독 데이터였다면 큰 쓸모가 없을 수도 있지만, 많은 숫자의 사람들의 데이터를 모으게 되면 유사한 그룹을 묶고, 그 그룹과 일치하는 성향을 찾아내는 작업이 가능해진다.

이래서 빅데이터통합지성 기반의 데이터라고 부르는 것이다.

(Source: Human Mind Project)

 

통합지성을 이용한 비지니스 모델 1 – SNS

회사 이름 pabii의 마지막 두 개 I는 Integrated Intelligence (통합지성)의 약어다. 개인에게는 단순한 경험적 지식이 서로서로 공유되면 집단의 경험으로 바뀌어서 다른 종류의 “지성”으로 바뀐다는 맥락이다. 다른 글에서 소개한대로, 교통 상황 실시간 업데이트를 보여주는 앱들이 모든 유저로부터 정보를 받고, 그 유저들의 위치와 움직임을 바탕으로 현재 교통 상황을 바로바로 보여줄 수 있는 서비스를 내놓고 있는게 딱 Integrated Intelligence의 좋은 예시라고 할 수 있다.

얼마전 비슷한 서비스를 우연히 알게 되었다. AroundUS (어라운드어스)라는 스타트업이다. 참고로 필자는 이 회사와 아무런 관련이 없다. 단지 검색 중 우연히 알게된 서비스임을 다시 한번 강조하고 시작한다.

서비스 내용은 간단하다. 프리랜서들이 경험했던 프로젝트들을 올려놓고, 서로가 서로에게 레퍼런스를 달아줄 수 있는 플랫폼이다. 보통 면접은 이력서 한 장으로 보지만, 구직시에 경력 증명을 위해서 건강보험 가입 증명서를 요구하기도 하고, 아는 사람을 건너건너서 이전 직장의 뒷 이야기 같은 정보를 구하려고들 한다. 그나마 큰 기업체들에서 장기 근속하신 분들에게는 이런 방식이 꽤나 유용하지만, 프리랜서들에게는 사실 좀 어려운 구석이 있었다.

이 서비스에서 Integrated Intelligence가 들어간 부분은 서로간 Cross-check을 해 주는 부분이다. 프리랜서 개발자 A가 2017년 상반기 6개월간 기업 B의 데이터 베이스 설계 작업 업무에 투입되었다고 해 보자. 그 때 같이 일했던 분들, 혹은 그 프로젝트 결과물을 바탕으로 다음 프로젝트를 진행했던 분들에게 분명히 개발자 A의 업무 퍼포먼스에 대한 정보가 있을 것이다. 업무 기간이 겹쳤다면 같이 일한거 맞다는 인증을 해주고, 일 잘하는 사람이었다면 “님 좀 짱짱맨” 같은 댓글도 달아줄 수 있단다.

이게 왜 Facebook, Instagram 같은 대형 SNS와 다르냐고 물어보니, 업무 관련해서, 특히 프리랜서들 대상으로 특화된 서비스라서 다르다고 하는데, 얼마나 다른지는 직접 관계자가 아니니 함부로 말할 수 없지만, 비지니스 모델을 보는 순간 딱 Integrated Intelligence가 눈에 보여서 소개해본다.

 

통합지성을 이용한 비지니스 모델 2 – 경험담 게시판

비슷한 종류의 서비스를 미국에서 본 적이 있다. 변호사, 회계사 등의 전문직 프리랜서들의 모임 페이지였는데, 그 웹페이지 상에서 서로 계약을 맺고, 비용정산을 다 해주고, 소비자들의 후기가 상세하게 적혀있더라. 그런 후기만 적혔으면 보통의 서비스 페이지에 불과했을텐데, 소비자들끼리 서로 대화도 나누고, 서비스 제공자들이 그 부분은 이해를 잘못했었다, 어떻게 해결하면 된다 등등의 “결합형 후기”가 계속해서 생성되는게 꽤나 놀라웠다.

전문직들도 영업을 직접 뛰러다니는 것보다 그런 플랫폼을 이용하는게 비용이 적게 들어서 좋고, 소비자들도 다양한 경험을 서로 공유하면서 계속 지식이 축적되니 전문직 프리랜서들의 고객응대가 더 좋아질 수 밖에 없는 구조였다. 예를들면, 변호사 1명이 자신의 Forum을 갖고 있고, 거기에 Thread 하나에 사건 하나씩 걸어놓으니 그 변호사에 대해서 궁금한 사람들, 혹은 그런 종류의 사건 해결 방식에 대해서 궁금한 사람들이 관심을 갖고 찾아갈 수 밖에 없는 형태의 정보가 축적되고 있었다. Forum과 Thread 형식의 게시판을 운영하는 영어권 커뮤니티들의 특징을 잘 살린 사례라고 생각한다. 우리나라에도 비슷한 시스템을 구축하면 참 좋을텐데, 게시판 형태가 다르니 약간 방식을 바꿔야할 것 같기는 하다. ㅎㅎ

실제로 머리 아픈 계약서를 쓰다가 이건 전문가의 손을 빌려야겠다는 생각에 변호사 친구한테 적합한 변호사 한 분 소개해달라는 부탁을 했더니,

“무조건 유명한 법무법인 출신이라고 해서 잘 하는 변호사 아닌건 알지? 니가 쓰는 계약서 관련해서 내가 아는 A급 전문가 소개시켜주면 되는거지?”

라고 하더라. 잘 모르는 외부인 입장에서야 단순하게 대형 로펌이 제일 좋지 않을까 생각했는데, 뒷 이야기를 들어보니 사정이 참 달랐다. 고액 수임을 하는 수요자 상당수가 기업체라서 변호사들 대상으로 한 저런 서비스가 한국에서 얼마나 유저 풀을 끌어모을 수 있을지는 모르겠지만, 친구의 말을 듣는 순간 예전에 봤던 영어권의 어느 게시판이, 그리고 Integrated Intelligence가 오버랩이 되더라.

변호사 한 명과 소비자 한 명간의 계약관계로 끝날 수도 있었던 비지니스를 온라인에 공유형으로 바꿔버리고, 모두가 그런 공유를 하면 서로에게 도움이 되는 정보로 바뀌는 것이다. 변호사 A가 변호사 B를 소개해주고 소개비를 받는게 불법으로 알고 있는데, 이렇게 경험 공유형 플랫폼을 쓰면 법적인 이슈도 덩달아 해결되지 않을까? (물론 불평불만 댓글에 소송하실 변호사 님도 있을 것 같아서 현실화하기는 좀 어려울지도 모르겠다 ㅋㅋ)

(Source: Victoria Prooday)

 

통합지성을 이용한 비지니스 모델 3 – 개인맞춤형 서비스

요즘 여러 회사들이 경쟁적으로 시도하고 있는 “개인맞춤형 서비스”들도 모델링 방식에 따라 Integrated Intelligence에 기반할 수 있다. 기존의 고객관리 (CRM)은 고객 A가 뭘 많이 했으니, 고객 집단 B가 뭘 많이 할 것 같으니 그에 맞춰서 마케팅 비용을 쓰자는 방식으로 진행되었다. 여기에 머신러닝 방법론이 도입되면서, 좀 더 세분화된 패턴 매칭이 가능해졌고 (Recommendation Engine, 장바구니 분석 등등), 고객 X, Y, Z가 했던 것과 비슷한 행동을 취하고 있는 고객 M이 곧 고객 X, Y, Z와 같은 결론을 내릴 것이라는 판단아래 선제적인 대응을 할 수 있게 되었다. 기존의 고객 X, Y, Z의 행동 패턴 기록은 각각만 놓고보면 단순한 CRM 데이터 포인트에 불과하지만, 모두를 모아놓고 보면 Integrated Intelligence 서비스가 된다.

주의 사항을 몇 개 던지자면, 꼭 고객 X, Y, Z, M이 같은 성별, 같은 연령대, 같은 지역 사람일 이유는 없다. 기존의 CRM은 행동 패턴 데이터를 DB에 쌓아놓고 이런 패턴 매칭 작업을 하지 않았기 때문에, 인구통계학적인 정보들에 의존하는 경우가 많았다. 꼭 인구통계학적 정보를 쓰는게 구시대적이고 틀렸다고 생각하지는 않지만, 나이, 성별, 지역 같은 내용에 국한되지 않는 개개인의 특성들을 행동으로 잡아낼 수 있으면 굳이 그런 정보에 의지할 필요가 없는 것이다.

실제로 온라인 쇼핑몰 운영하는 기업들에 강의를 나가보면,

“이번에 출시되는 갤X시 노X 구매할 사람들을 찾으려고 하는데, 무슨 특징을 기반으로 골라내야할까요?”

“무조건 특정 연령, 성별, 지역 같은 정보로 구분하는건 이런 상품 살 것 같은 사람 골라내는데는 별로 의미 없지 않나요?”

같은 종류의 질문을 자주 받게 된다.

파비의 사업 모델도 마찬가지다. 이용자의 인구통계학적 데이터나 가장 최근에 어떤 쇼핑몰의 무슨 상품을 봤는지를 이용하는 개인맞춤형이 아니라, 유저 A가 어떤 타입의 사람인지 다른 유저들과의 비교 나열하고, 그에 따라 적절한 광고 매칭을 해주는 서비스다. 개인맞춤형 서비스가 인구통계학적 타게팅에서 지면 콘텐츠에 맞춘 타게팅으로, 그리고 구매를 유도하는 행동 타게팅으로 진화하고 있는데, 한발 더 나가서 개인의 특성을 잡아내는 (Psychographic) 타게팅을 하는 방식으로 Integrated Intelligence를 쓰는 레벨이 점점 더 올라가고 있다.

(Source: Mind Futures)

 

 

나가며 – 빅데이터 as in 통합지성

빅데이터는 데이터의 특성을 의미하는거고 집단의 행동특성은 분석에 해당되는거라 구분이 필요하실거 같습니다

최근에 위의 댓글을 봤다.

빅데이터에 대해 모두에게 공통적으로 받아들여지는 정의가 없는 상황이고, 누구나 자신만의 정의를 가질 수 있기 때문에 틀렸다고 하지는 않겠다. 다만 저런 정의로는 요즘의 “빅데이터”가 이전 시절의 “스몰데이터”에 비해서 특별히 다른 통계툴을 써야할 이유가 없다. 마찬가지의 맥락에서 집단의 행동특성을 잡아내는 작업을 “분석”이라고 부르는 것도 기존의 데이터 “분석”하는 작업의 구태에서 벗어나지 못했기 때문에 나오는 정의가 아닐까 싶다.

빅데이터는 통합지성을 활용할 수 있는 형태의 데이터, 많은 수의 사람들이 보여주는 행동패턴을 담은 데이터라는 관점에서 바라보면, 데이터를 더 이상 “분석”한다는 표현을 쓰기가 어렵게 된다. 타입 A는 결론 C를, 타입 B는 결론 D를 낸다는 이야기를 하는데서 그치는게 아니라, A-B-C-D 체인과 B-C-D-A 체인간의 차이에서 나오는 결과값과 X-Y-Z-M 체인과 Y-Z-M-X 체인간의 차이에서 나오는 값들이 전체 큰 그림에서 티끌만한 일부의 영역인 데이터를 “분석”으로 접근하기에는 어렵지 않을까 싶다. 이래서 더 높은 차원의 모델링이라는 개념이 들어오는 것이다.

가끔 “이런 데이터 어쩌고, 인공지능 어쩌고 하는 이야기들이 그냥 트렌드 용어가 아니라 정말 10년, 20년 후에도 쓰일만한 지식인가요?”라고 묻는 분들이 있다. 집단지성 vs. 통합지성, 대용량 데이터 vs. 행동패턴 데이터, 분석 vs. 모델링 같은 관점에서 바라보면, “코드만 카피하시는 분들께는 아니겠지만, 기초지식을 탄탄히 하시는 분들은 10년, 20년 후가 아니라 그 이후에도 계속 같은 지식을 쓰실 수 있을 겁니다”라고 대답하겠다.

 

 


공지1: 2019년 3월 29일을 끝으로 데이터 사이언스 주제의 포스팅은 종료됩니다. 이 후에는 파비의 스타트업 운영 관계된 포스팅만 월 1회 작성됩니다.

공지2: 위와 같은날을 기준으로 댓글을 모두 삭제합니다. 추후에는 댓글 서비스를 제공하지 않습니다.

저희 비트멕스 거래소에서는 API 및 거래 시스템 구조에 대한 지속적인 간소화 작업의 일환으로, 2019년 3월 12일부터 API 논스 헤더를 더 이상 지원하지 않습니다. 비트멕스는 유효성 검사의 일부로 증가하는 논스를 검사하지 않을 예정입니다. 해당 논스 체계는 API 인증에 사용되는 서명을 생성하는 데 있어 여전히 유효합니다. 여러분의 요청은 여전히 TLS (Transport Layer Security, 전송 계층 보안)의 도움으로 재생 공격으로부터 안전할 것입니다. 이에 대한 자세한 사항은 https://www.bitmex.com/app/apiKeysUsage를 참고해 주시기 바랍니다.

몇 달전, 약학 관련 전공으로 연구직에 계신 분이 한 달 수업을 들으셨다. 이해가 부족한 것 같아 재수강을 하고 싶다고 하시던데, 처음에는 흔쾌히 승낙했다가, 질문하시는 내용이나, 나중에 메일 주신 내용들을 한참동안 다시 생각해보니 아무리봐도 이해가 부족한 부분을 다시 듣는다고 메워질 것 같지가 않더라. 제 수업을 다시 듣는 것보다, 당장은 수학과 통계학 공부를 더 많이 하시는게 맞는 것 같습니다. 같은 회귀분석이어도 교수님마다 수업 스타일이 다를테니, 그런 수업들 몇 개를 우선 찾아서 듣고 난 다음에 다시 찾아오시는 쪽을 추천드립니다고 메일을 썼다.

솔직히 말해서, 수업에서 만나는 분들 거의 대부분이 재수강한다고 수업 이해도가 높아질 분보다 당장 수학, 통계학 기초부터 다져야 될 것 같은 경우가 더 많다. 특히 (수리)통계학 훈련이 많이 안 된 수강생일수록 이런 문제를 더 강하게 느낄 수 밖에 없다.

이 분들의 본래 의도와 생각이 어땠는지는 모르겠지만, 필자의 눈으로 볼 때 “기존의 통계학보다 머신러닝 방법론을 쓰면 더 결과값이 좋다, 더 쿨(Cool)해 보인다, 더 저널에 퍼블리쉬하기 쉽다”는 정보만 입력된 상태지, 정작 머신러닝 방법론들이 모두 통계 방법론이라는 사실을 제대로 인지하고 있는 것 같지 않아 보인다.

 

왜 데이터 사이언티스트 연봉은 높을까?

크X 브라우저 첫 화면에 유저의 검색 기록과 매칭되는 신문기사 글, 블로그 글이 추천되어 있는 경우가 있다. Referrer 로그에는 googleapis.com으로 남는데, 우리 Pabii 블로그에 대한 외부 유입 중 상당수가 한국어 크X 브라우저에 노출된 블로그 글을 타고 들어오기도 한다.

필자는 스마트폰 셋팅이 영어라서 항상 영문 글이 추천 목록에 떠 있는데, 얼마전에 KDNuggets.com 이라는 꽤 유명한 데이터 사이언스 관련 블로그에서 “왜 데이터 사이언티스트 연봉은 높을까?”에 대한 글을 봤다.

글에서 든 근거들을 보면,

  • 공급이 없는데 – 학교들이 DS 석사를 겨우 20-30명 밖에 안 뽑는다
  • 수요는 넘쳐나니까 – 그런데 회사들은 너도나도 뽑으려고 아우성이다

그래서 내놓은 해결책이라는게

  • MOOC 강의 공급을 통한 대규모 교육
  • 자동화 알고리즘 도입

정도이다.

솔직히 문제 인식이나 해결책이 모두 마음에 안 드는데 (언제는 KDNuggets.com에서 본 글이 맘에 든 적이 있었냐만은…), 일단 필자가 좋아하는 경제학 용어인 수요-공급으로 정리를 해 놨으니, 본 글에서도 이 문제를 인재의 공급과 인재에 대한 수요라는 측면으로 나눠서 생각해보자.

 

데이터 사이언티스트 공급 시장

착각 1. MOOC 교육을 통해 데이터 사이언티스트 교육이 가능하다

사람들이 착각하는 것 중 가장 큰 착각을 딱 하나만 고르라면, 데이터 사이언티스트가 시장의 단순 교육으로 충분히 공급될 수 있다는 것이다. 어마어마한  착각이라고 할 수 있다.

왜? Pabii에서 지난 1년 반동안 나름대로 고급 퀄리티의 데이터 사이언스 강의를 운영해봤다. 일단 수학, 통계학 모르면 애시당초 오지마라고 딱 자르기도 했고, 대략 200명 남짓의 수강생 중에는 현직 교수, 연구원, 자연과학 및 공학 박사 과정생, 석사 이상 직장 경력자 등등 우리나라에서 상위 1% 급 (아니, 0.1% 급..)의 뛰어난 인재 분들이 30~40% 정도였다. 그 중 필자의 수업을 알아먹고, 이걸 당장은 아니어도 매우 가까운 시일내에 자기 커리어에 활용할 수 있을 것 같아 보이는 정말 뛰어난 인재의 최소 학력은 통계학 학부 이상, 타 전공 석사 이상인 분들이었다고 생각한다.

말을 바꾸면, 기존에 수학, 통계학 훈련이 탄탄하게 되어 있지 않은 인재 분들께 필자의 수업은 좌절감만 심어주는 강의였을 확률이 높다는 뜻이다. 학부 통계학 전공은 아니지만 개인적으로 공부를 많이 하신 분들 거의 대부분은 “앞으로 얼마나 더 공부해야할지 까마득해보이지만, 일단 공부할 방향을 잡은 것에 만족한다” 정도의 답변을 주셨던 것이 무리는 아닐 것이다.

Pabii의 데이터 사이언스 강의보다 퀄리티가 낮은 대다수의 MOOC 강의들 몇 개를 듣고 데이터 사이언스를 제대로 이해하고 활용하는건 더더욱 어려운 일일 것이다.

 

착각 2. 데이터 사이언스 교육 과정을 거쳐야 데이터 사이언티스트가 될 수 있다.

위의 DS 석사 프로그램 학생 숫자 20-30명 이야기에 대한 정면 반박이 될 수 있을 것 같은데, 사실 필자가 실리콘밸리에서 면접볼 때 만났던 사람들 중에 Quantitative PhD 학벌이 없는 사람은 아예 없었고, 모두가 Quantitative PhD에서 배운 내용을 자기 업무에 쓰고 있었다. 말을 바꾸면, 데이터 사이언스 석사 레벨이 아니라, 수리통계학을 자기 학문에 응용하는 훈련을 박사 수준으로 했던 사람들이 그냥 이쪽 분야에 흘러들어와서 일을 하고 있었다는 것이다.

냉정하게 말해서 DS 석사 이후에 직장 생활을 시작하면 Multi-task learning 모델 개발을 담당하는게 아니라, 아마 A/B 테스트 계정 수십개를 떠맡아서 결과값 정리하는 Data Analyst 같은 업무를 하게 될 것이다. 배운 수리통계학 모델링 격차가 어마어마할텐데, 어떻게 복잡한 모델링을 그대로 맡길 수가 있을까?

예전에는 수학과 공학 일부 PhD 과정 중에 자기 학문에 흥미를 잃은 사람들 중 일부가 Wall Street에 몰려갔었다. (사실 돈을 많이주니까ㅋㅋ) 그 동네 Quant가 원하는 Stochastic Calculus 문제를 풀어내려면 동일한 종류의 수학 훈련을 받았어야하는데, 물리학이나 기계공학 같은 전공 일부가 그 방법론으로 자기네 모델을 만들었기 때문이다.

같은 맥락으로 요즘은 박사 연구과정 중 통계학, 특히 계산 통계학 방법론을 써 봤던 사람들이 전공에 관계없이 Data Scientist 포지션에 지원을 하고 있다.

정리하면, DS 석사 프로그램의 학생 숫자가 적어서 공급이 부족한 것이 아니라, 이런 종류의 Academic 훈련을 받은 사람들이 흔치 않기 때문에 공급이 적은 것이다. 그리고, 배워보고 가르치며 양쪽을 다 경험한 입장에서 이런 훈련을 단순히 MOOC 교육으로 해결하는 것은 거의 불가능에 가깝다고 생각한다.

 

데이터 사이언티스트 수요 시장

착각 1. 우리 회사에 Data Scientist가 오면 대변혁이 일어날 것이다

일부 Data Scientist들이 몇몇 과제들에서 이런 대변혁을 일으킬 수 있다는 걸 인정한다. 특히 필요한 데이터를 잘 갖춰놨고, 그 Data Scientist의 역량과 매칭이 잘 되면 빠른 시간내에 좋은 성과가 있을 수 있다는 걸 몇차례 눈으로 본 적도 있다.

그러나, 현실은 녹록치 않다. 거의 대부분의 회사들이 쓸모없는 데이터들만 쌓아놓고 우리회사는 빅데이터 시스템을 갖추고 있다고 주장하고 있고, 또 많은 데이터 사이언티스트들이 모든 것을 전지전능하게 다 알고 있는 Grand Master 급이 아니다. (그런 분이 과연 있을까….)

빅데이터 시스템을 갖추고 있다고 우기기를 시전하는 회사들에 대한 불평불만은 본 블로그에서 여러차례 노출했으니, 시장에서 흔히 만날 수 있는 데이터 사이언티스트들이 어떤 사람들인지부터 짚고 넘어가자.

우선, Data Engineer, Data Analyst들을 제대로 솎아낸 Pool이라고 해도 밖에서 데이터 사이언티스트라고 부르는 사람들 중에 데이터 모델링이 가능한 인재는 극소수다. 데이터 모델링이 가능한 인재들은 보통 학계에 자기 전공의 문제만 붙잡고 앉아있고, 학교가 아니면 연구소에 모여 있을 것이다. 자기 전공의 문제 하나를 해결하고, 그런 지식을 적용하는 부분에서 충분한 금전적인 보상을 받고 있고, 사회적인 지위도 높다. 굳이 연봉 1-2억에 자기 전공 밖의 문제를 다루며 스트레스 받아야하고, 언제 짤릴지도 모르는 사기업의 전쟁터로 발을 내디딜 필요를 못 느낄 것이다. (뭐… 한국 기준으로 3-4억 이상의 연봉이라면 생각해볼 모델러가 일부 있을지도…)

그리고, 설령 그런 모델러 한 두명이 시장에 진입한다고해도, 이 분들과 의사소통이 너무 어렵다. 교육받은 사람들끼리는 단어 한 두개로 설명하고 넘어갈 상황을 비전문가에게 설명하려면 몇 분 이상 대화를 해야하는 경우가 허다하다. 그 뿐이랴? 데이터로 뭔가 만들었다는걸 보여줘야하는데, 관련된 수학 개념 하나 제대로 이해하는 사람도 없는 회사에서 그런 설명을 하는건 시간낭비가 될 가능성이 높다. 결과물만 볼려고 하겠지. 이런 모델러와의 커뮤니케이션을 지원하겠다고 Data Visualization쪽 전문가를 뽑는 회사도 봤었는데, 이런식으로 Data Scientist 팀을 하나 구성하려면 1-2명을 뽑아서 될 문제가 아니라, 평균 연봉 3억 이상인 전문가 열댓명으로 한 팀을 만들어야 한다.

한국에서 그 정도 비용을 들어가며 팀을 운영하고, 보고 받은 내용을 소화할 수 있는 보스가 있는 회사가 몇 개나 될까? 근데, 그 정도 팀을 만들기 전까지는 Data Scientist 한 명으로 “대변혁”을 만들어내는 건 거의 불가능에 가깝다.

 

착각 2. 설령 Data Scientist를 뽑지 못하더라도 곧 자동화 알고리즘으로 해결될 것이다

실리콘밸리에서 모든 데이터 사이언스 작업을 자동으로 처리해줄 수 있다고 주장하는 스타트업이 나타났다. MindsDB라는 회사다. 필자와 배경지식이 비슷하신 분들은 바로 감을 잡겠지만, 그냥 사기꾼 하나 등장했구만이라는 생각을 바로하게 될 수 밖에 없는 회사 소개였는데, 실제 결과물도 크게 다르지 않다. 문장을 입력하면, 그 문장을 자연어 처리해서 이해한다음, 그 내용을 바탕으로 쿼리를 때려서 데이터를 추출해주는 서비스였는데, SQL 쿼리 치는 작업은 Data 관련 업무하는 사람들 모두에게 가장 기본적인 지식이고, 이거 배우는데 며칠 걸리지도 않는다.

이런식으로 그럴듯한 말로 상품을 팔아치우는 회사들 뿐만 아니라, 간단한 통계학 알고리즘이나 이미지 인식, 자연어 처리 프로세스를 이용한 서비스는 이미 많이들 나와있다. 그 서비스들을 이용한 앱들이 출시되는 경우도 있고, 라이센스 Fee 주기 싫다고 자기네가 직접 그런 알고리즘을 만드는 경우도 흔히들 본다. 대부분의 서비스들이 복잡하지 않은 알고리즘을 쓰고 있기 때문에, 복제가 그렇게 어렵지 않다.

이런 일들이 비일비재하다보니 곧 자동화 알고리즘으로 모든 문제가 한번에 뚝딱 해결될거라고 생각하는 분들이 참 많은데, 제발 그런 알고리즘 좀 나와서 필자가 하고 있는 데이터 전처리도 쓱싹쓱싹 해결해주고, Factor extraction 작업이나 모델링 작업도 알아서 척척척 해 줬으면 좋겠다. 근데, 자동화 알고리즘이 필자의 머릿속 생각을 바로바로 구현해 줄 수 있는 세상이 오면 이 세상에 있는 거의 모든 박사 과정 프로그램들이 없어질 것이다. 아니, 인간은 더 이상 학문을 공부할 필요가 없어질 것이다.

바꿔 말하면, 그런 자동화 알고리즘 따위는 없다. 냉수 한잔 마시고 정신들 차리시라.

 

나가며 – 데이터 사이언티스트 연봉은 높을 수 밖에 없다

데이터 사이언티스트, 특히 빅데이터를 이용해 모델을 만들고, 그 모델을 사업에 적용하는 계산/논리 알고리즘의 형태로 뽑아낼 수 있는 능력을 가진 사람들은 박사 과정 훈련을 통해서만 양성되고, 그 사람들은 이미 자기 학문의 영역에서 괜찮은 대접을 받고 있다. DS 석사에게 이런 능력을 기대할 수 없고, 당연하겠지만 MOOC 강의 몇 개 들었다고 그런 모델링 작업을 요청하는건 일종의 도박에 가까운 일이다.

경제학 박사했던 친구들이 국책 연구소만 가도 연봉이 억대가 넘고, 파이낸스 박사 했던 친구들 중에 Quant 계열인 친구들은 최소 20-30만불 연봉으로 자기 커리어를 시작한다. 필자가 잘 모르는 몇몇 자연계열, 공학계열 박사 친구들도 상황은 크게 다르지 않을 것이다. 그 중에서도 수학, 통계학 훈련을 제대로 받은 사람들이 도전할 수 있는 업무인데, 연봉을 아껴서 어떻게 좋은 인재를 뽑을 수 있을까?

그런데, 모든 증권사에서 Quant가 필요했던게 아니라, 관련 금융 상품을 직접 만들던 몇몇 회사만 그런 고급 인력을 썼던 걸 생각해보면, IT업계에서도 단순히 우리 회사 데이터 많다는 이유로 무작정 Data Scientist를 뽑아야하는지도 잘 모르겠다. 위에 썼듯이, 제대로 돌아가는 팀을 만들려면 노동비가 엄청나게 들어갈텐데, 그런 비용을 들여서 회사가 얻을 수 있는 부분이 별로 없다면 굳이 Data Scientist를 뽑아야할 필요가 있을까?

Pabii가 집중하고 있는 DSP 사업을 비롯해서 몇몇 서비스들은 필수불가결하게 고급 Data Scientist 팀이 있어야겠지만, 그외의 거의 대부분의 IT 서비스들은 단발성으로 외주를 주는 방식으로 인력을 구성하는게 맞지 않을까 한다.