Vol.6 2019.09

VOL 6

글자크기작게 글자크기크게

진흥원 라이브 - ‘책 생태계 데이터 협력’, 이렇게 시작하자

정책연구통계센터

한국출판문화산업진흥원이 주최하는 1회 열린 포럼이 지난 5월 24일 서울 합정동 북카페 ‘디어라이프’에서 열렸습니다. 이날 행사에서는 ‘책 생태계의 데이터 협력’을 주제로 다양한 전문가 9명의 발표와 토론이 이어졌습니다. 주요 내용을 지상 중계합니다. 이해를 돕기 위해 축약과 편집을 거쳤습니다.

 

사회: 요즘 사방에서 데이터에 관해 많이들 이야기합니다. 하지만 그게 정확히 무슨 뜻인지, 더구나 책을 둘러싼 생태계에는 어떤 의미가 있는지 궁금해 하는 분들이 많은 것 같습니다. 그래서 책 생태계 안팎에서 이 문제에 대해 잘 아시는 분들을 모셨습니다. 1부는 데이터 전반에 대해 개괄적인 설명을 해주시는 분들의 발표가 있겠고요, 2부에는 책 생태계에 좀 더 초점을 맞춘 발표가 있은 후에 토론 시간을 갖도록 하겠습니다.

 

<1부> 데이터의 가치

김옥기 상무 (엔코아 데이터서비스센터) ‘데이터 생태계와 데이터 과학’

김옥기 상무 ‘데이터 생태계와 데이터 과학’

국내에서는 2012년부터 정부에서 데이터 얘기를 많이 했습니다. 그 후 7, 8년이 지났는데 여전히 표면적인 것만 많이 알지, 그 밑의 깊은 사정은 모르는 같아 그와 관련한 얘기를 해보겠습니다. 제가 1997년부터 미국에서 데이터 분야 일을 했는데, 2000년대 초쯤 상황이 지금 한국이 데이터 활용하는 거랑 비슷한 것 같습니다.

요즘 4차 산업 이야기를 많이 하는데 데이터 연결과 관계가 있습니다. 글로벌 금융위기 이후 독일과 미국이 이전 경제를 밟고 올라섰다고 하는데, 데이터를 가장 잘 활용하는 나라가 미국과 독일입니다. 반면, 일본은 데이터 활용이 우리랑 거의 비슷하거나 못합니다. 오늘 발표를 위해 미국 상황이 어떤가 보니까, 결국 소비자는 거기에 그대로 있어요. 다만 채널이 바뀌고, 자료를 제공하는 방법이 바뀌었습니다.

4차 산업 혁명은 단순히 데이터를 보관하는 게 아니라 전통산업을 건드리는 데 있습니다. 전통산업이란 금융, 제조, 농업, 의료 같은 분야를 말합니다. 4차 산업 얘기를 하면서 데이터를 활용해야 된다는데 왜 실질적으로 느끼지 못하는가. 고민해 봐야 할 필요가 있습니다.

첫째, 우리에게 어떤 데이터가 있는지를 몰라요. 데이터가 중요하다고 얘기하면서. 그리고 그 데이터를 어떻게 끄집어내 써야 될지 모르는 상황입니다. 기업이나 공공기관에서도 마찬가지입니다. 이게 데이터 활용에서 엄청난 병목이 되는 거예요. 왜냐면 데이터를 활용하려면 정리하고 분석해야 되는데, 데이터가 통합이 안 돼 있고 정리가 안 돼 있기 때문에 여기에 시간을 많이 씁니다.

지금 한국의 실정이 본인 기업에 어떤 데이터가 있고, 어디에 있는지, 누가 소비하고 있는지 이런 것들도 모르고 있는 상황입니다. 이게 가장 큰 문제예요. 그리고 이것들을 어떻게 통합해야 되느냐는 것입니다. 이 문제를 해결하지 않으면 다음 단계로 넘어가지 않는데. 대한민국 대부분이 이렇습니다.

여기에는 비전이 있느냐, 데이터 활용에 전략이 있느냐, 고객 경험이 있느냐, 현장 프로세스 정보 기술이 있느냐 등 5단계가 있는데, 한국은 지금 3단계에서 4단계로 넘어가는 과정이에요. 모든 기업들이 자기네 부서끼리는 잘 하려고 하지만 전 기업적으로는 통합이 안 된 상황이 3단계예요. 각 영역별 채널의 효율성은 있지만 전사적으론 안 돼 있는 상황입니다. 과거에 이걸 인지하지 못하고 그냥 넘어간 게 가장 큰 실책이었다고 생각합니다.

4단계로 넘어가면 기업의 내부 데이터들이 다 정리가 됩니다. 그 다음 더 중요한 것은 외부 데이터를 가져와야만 빅데이터가 됩니다. 2012년 우리 미디어들이 빅데이터라고 얘기하면서 주로 소셜 빅데이터를 빅데이터라고 많이 썼습니다. 그것도 빅데이터이긴 하지만, 기업 내부 데이터를 더 많이 활용하고, 그 위에 소셜 데이터라든가 외부 데이터를 붙여야 됩니다.

지금 오신 분들은 대부분 데이터 생태계에서 수집자예요. 미디어 아니면 출판 부분. 데이터를 수집하면 이걸 가져다가 수집하고 가공해서 넘기는 브로커 능력이 있어야 합니다. 근데 국내에는 이 데이터 브로커 영역이 없어요. 이 영역은 쉽게 설명하면 신용정보회사 같은 곳입니다. 은행에서 데이터를 수집하면 신용정보회사에 넘기고 신용정보데이터를 가공해서 다시 넘기지요.

이런 시스템이 되는 게 데이터 생태계인데, 국내에는 이게 신용, 금융 쪽에만 발전돼 있고 다른 쪽에는 거의 안 돼 있어요. 그래서 지금 정부에서 5백억을 써서 빅데이터 플랫폼 구축 사업을 하려는 겁니다. 각 영역별로. 이 생태계를 마련하는데 중간 브로커 영역이 없기 때문에 정부에서 예산을 투입해서 하는 작업이 이번 사업입니다.

개인이나 사물이 데이터를 만들어내면 그걸 수집하는 영역에서 수집하고, 그걸 중앙에 내보냅니다. 브로커들이 가공을 하고 다시 마케팅이나 미디어를 활용해서 넘어가는 것이 생태계입니다. 이것이 아직 마련되지 않았기 때문에 오늘 어떻게 협력할지 모인 걸로 생각합니다.

데이터를 보면 개인, 기업, 정부 데이터가 있고요, 공개된 것과 되지 않은 것이 있습니다. 또 정형 데이터가 있고, 비정형 데이터가 있는데, 여러분이 생산하는 것은 대부분 비정형 데이터입니다. 기업에서 내는 데이터들이 정형 데이터인데, 이걸 활용해서 비정형 데이터를 어떻게 고객이나 구독자에게 넘길까 하는 것이 과제입니다.

북 리뷰를 한다든가, 블로그를 한다든가, 비디오를 만든다든가, 이게 다 빅데이터거든요. 고객들이 원하는 것을 분석하는 건데, 내부 데이터와 외부 데이터를 수집해서 하는 거죠. 여기에 많은 기술들이 필요한데, 데이터를 어떻게 정리할 건지, 어떻게 퍼블리싱할 건지, 어떻게 활용할 건지, 분석하고 관리할 건지, 이런 영역이 데이터 사이언스 영역입니다.

미국은 정부에도 데이터 사이언티스트가 있습니다. 데이터를 활용하기 위해서는 데이터를 수집, 가공하고, 데이터와 콘텐츠를 연결해야 합니다. 또 채널이 고객과 맞물려 연결돼야 하는데 이 부분이 사실 가장 어려운 거예요. 이런 연결 부분들이 반드시 있어야 하는데 이걸 고민하면 과거의 시행착오를 줄일 수 있을 거라고 생각합니다.

 

박현영 소장 (다음소프트 생활변화관측소) ‘빅데이터로 라이프스타일을 읽다’

박현영 소장 ‘빅데이터로 라이프스타일을 읽다’

제가 하고 있는 일은 아까 비정형 데이터라고 말씀하신, 텍스트 데이터를 분석하는 것입니다. 그 데이터를 바라보는 관점의 변화에 따라 회사에서 하는 일도 변했습니다. 예전에는 주목 대상이 위험한 이슈들이 터지는 것이었습니다. 가능하면 조기에 그것을 발견하고 빨리 내리는 거였지요. 어떤 회장님 관련 이슈나 제품 이슈 같은 것들을 조기에 발견하려는 메타 모델을 가지고 접근했습니다.

지금은 그런 사고방식이 없는 건 아니지만, 거의 불가능하죠. 이슈라는 것이 기계가 아는 순간, 모든 사람이 알게 되니까요. 그 다음에 생각했던 것은 제품에 대한 반응이 있습니다. 브랜드에 대한 평판 말이죠. 그걸 모아서 평판 리포트 같은 것을 썼습니다. 그리고 2010년 이후부터는 소셜미디어를 광고 집행 매체라고 생각해서, 어떤 광고가 얼마나 많이 퍼지는지, 사람들이 얼마나 퍼 나르는지 이런 것들을 관찰하는 도구로 소셜 빅데이터를 바라봤습니다.

지금은 어떨까요? 바로 사람들 사는 얘기입니다. 요즘 가장 많은 얘기되는 것 중 하나는 여행이고, 단어로 얘기이면 커피입니다. 그래서 저희는 데이터 사이언티스트를 자처하기보다 라이프 스타일 리서치를 한다고 생각합니다. 그래서 생활변화관측소라는 것을 만들고, 거기에서 종이 잡지 같은 것도 내고 있습니다. 천 개의 질문에서 도출된 7개의 인사이트라고 해서 굉장히 많은 데이터들을 돌리고 있습니다. 실제로는 천 개 이상의 데이터들이 돌아가고 있습니다.

한 가지만 보시겠습니다. 예를 들어 ‘코인노래방’입니다. 코인노래방이 이만큼이나 떴어요, 라고 알려주는 것은 기계입니다. 데이터죠. 그러나 그것을 선택하고 여기에 의미를 부여하는 것은 아직은 사람입니다. 소셜 미디어에서 이렇게 8배씩 상승한다는 것은 흔한 일이 아닙니다. 왜 상승했을까? 그 의미는 뭘까. 이런 것들을 생각하게 되지요. 그래서 일반적인 노래방과 코인노래방의 차이를 분석했습니다. 코인노래방에는 없는데 노래방에만 있는 연관어는 회식입니다. 회식과 술자리와 모임은 노래방에서는 가능하지만 코인노래방에서는 불가능하죠.

코인 노래방은 ‘불편한 사회성’이라는 부분을 제거한 것입니다. 이런 여러 데이터를 합쳐 보면 아, 사회가 원하는 것이 불편한 사회성을 제거하는 것이구나, 나만의 즐거움을 찾는구나, 기존의 회식하는 사람들과는 관계 맺기 싫고 새로운 관계를 찾아 나서겠어, 이런 식의 새로운 시대상 같은 것들이 발견되는 거지요. 이게 빅데이터가 있기 때문에 가능할까요? 꼭 그렇지는 않을 것 같습니다. 요즘 잘 나가는 책 제목들만 봐도, 사람들이 내 할 말을 하겠어, 이런 책들이 아우성치고 있지요. 다만 그것을 데이터를 통해서 다시 한 번 본다는 것입니다.

또 한 사례를 보신다면 ‘여유’입니다. 여유가 이 시대의 감성이라고 봅니다. 여유란 무엇인가. 연관 데이터들을 보면, 열심히 준비해서 찾고, 먹고, 찍고, 다녀오고 돌아다니는 겁니다. 감성적이고, 기본적으로 즐기는 추억이구요, 장면으로 얘기한다면 혼자 여행 가서 주말 저녁에 카페에서 책 하나 두고 커피 마시면, 그게 여유를 나타내는 거지요. 전형적인 사진으로 보시겠습니다. 이국적인 바다를 바라보며, 혼자 있고요, 반쯤 누워 있고요, 그리고 페디큐어 발랐다, 라는 것을 보여주고 있고요.

이 안에 뜨는 것이 다 있습니다. 유명 맥주가 있고요. 나는 이런 사람이야, 나는 여유 있게 부장님이 뭐라고 하거나 그런 거에 연연하지 않고, 혼자 훌쩍 떠나서 바닷가에서 한 2박 3일쯤 드러누워서 아무것도 안 할 수 있는 그런 사람이야, 라는 걸 보여주고 싶은 거죠. 이 사람의 삶이 364일 구질구질했을지라도 단 하루라도 보여주고 싶은 삶은 내가 여유 있다는 것입니다.

이 속에 『자존감 수업』이라는 제목의 책이 보입니다. 이 시대가 보여주고 싶은 여유를 증명하는 도구로 사용된 거지요. 여기서도 읽고 있지는 않죠. 커버를 보여줄 뿐입니다. 이 책이 2018년 10월 1일자로 120쇄를 찍었더라고요. 이 책의 역할이 아주 분명하죠. 나는 젊은 여성이면서 나 자신을 소중하게 여기는 사람이야. 자존감 수업을 읽고 있으면 내 자존감을 건드리지 마, 라는 그런 방증의 도구가 되는 거지요.

이렇게 반쯤 드러누워 있는 현상은 계속 되고 있는데요, 이 장면은 부산의 옥외 카페입니다. 요즘 호텔에 가는 것이 굉장히 트렌드한 일이 되었죠. 여기서도 반쯤 누워 있습니다. 이런 데이터들을 계속 보고 있으면, 아 한국 사회가 일하는 사람을 가치 있게 보던 사회에서, 그러니까 잘 나가는 광고 모델이 슈트 입고 아주 열심히 일하는 사람을 보여주던 그런 시대에서, 그 다음 90년대에는 잘 노는 사람을 인정하던 시대에서, 이제는 잘 쉬는 사람, 자기만의 시간을 갖는데 그 도구들을 잘 갖추고 있는 사람, 그런 것을 소위 간지로 여기는 사회로 가고 있구나, 라는 것들을 느낄 수 있습니다.

그래서 제가 말씀 드리고 싶은 것은 데이터로 시대의 가치관 변화 같은 것들을 알 수 있다는 것입니다. 그런 목적성이 없다면 이 데이터를 볼 필요도 없고 사실은 보이지도 않습니다. 그래서 저희는 아, 우리 어떤 고민이 있는데 같이 좀 풀어 보아요, 라는 사람이 있으면 같이 가서 회의를 하지만, 이렇게 데이터가 있는데 아무거나 좀 해 볼까요, 이러면 안 됩니다. 그렇게 해서는 아무것도 할 수가 없기 때문이죠.

또 다른 예시를 하나만 더 보여드리겠습니다. 어떤 회사의 실제 사례입니다. 이 회사에서 작은 세탁기를 개발했습니다. 보통 세탁기는 10에서 15킬로그램 하는데 이 세탁기만 3킬로짜리였습니다. 이름이 아가사랑 세탁기였는데 대표이사가 누가 이름 이렇게 지었냐고 야단쳤습니다. 2013년의 일인데요, 이 조그만 세탁기는 싱글한테 팔아야 되는데 왜 이름을 이 따위로 지어 가지고, 싱글한테 못 팔잖아, 이름 바꿔! 그래서 작명 프로젝트를 시작했습니다. 그래서 사람들의 빨래 습관을 조사했지요. 싱글은 어떻게 빨래를 할까? 봤더니 싱글은 극단적으로 일요일에 몰아서 빨래를 하고 있습니다. 그러니 조그마한 세탁기를 살 필요가 없는 거였지요.

그래서 대표이사한테 “그 세탁기가 싱글에게는 맞지 않습니다.” 라고 했을 때 내가 하는 말을 감히! 라고 하셨을까요? 아니요. 60대의 대표이사는 “그래, 내가 신이냐? 데이터를 가지고 나를 반박해” 라고 말했습니다. 다행히도 그 세탁기는 싱글한테 팔기보다 오히려 아가 전용 세탁기라고 이름을 바꾸고, 베이비 코스까지 만들어 중국 시장에도 진출하고 더 좋은 결과를 얻었습니다.

제가 드리고 싶은 말씀은 두 가지입니다. 하나는 사적인 경험과 공적인 합의를 이루는 과정에서 데이터의 역할 같은 것이고요, 두 번째는 권위적 의사결정에서 데이터의 역할에 대한 이야기입니다. 그러니까 세탁기 부서에서도 족히 몇십 명은 근무하고 있는데 싱글 생활을 겪지 않은 사람이 있었을까요? 그리고 싱글들이 그렇게 빨래하고 있다는 것을 몰랐을까요? 대개는 그건 내 생각이지, 라는 사적인 경험의 영역에 머물러 있게 마련입니다.

또 데이터를 가지고 얘기할 경우에는 공적인 합의를 도출하기 쉽습니다. 회사의 대표가 적절한 의사결정을 했다면 다행이지만 그렇지 않았을 때 그 분의 권위에 대해 아니라고 말할 수 있는 어떤 합리적 의사결정의 근간이 되는 것이 데이터가 아닌가 합니다. 이제 데이터라고 하는 것에 대한 두려움을 좀 없애야 되지 않는가, 장기적으로는 데이터가 인공지능이 돼서 모든 사람을 다 포착하고 사람의 의사결정을 대신할 수도 있겠지만, 아직은 그런 시대는 오지 않았습니다. 그 전에 우리는 데이터를 가지고 더 합리적인 의사결정을 하는 사람을 만들 수 있지 않을까, 제가 생각한 데이터의 역할은 여기까지입니다.

 

김병희 부대표 (ST유니타스, 전 예스24 사업본부장) ‘인터넷 서점은 어떤 데이터를 가지고 있나?’

김병희 부대표 ‘인터넷 서점은 어떤 데이터를 가지고 있나?’

한국에서 인터넷 서점 서비스가 20년을 넘었는데요, 인터넷 서점이 연간 매출로 보면 50%를 넘어섰고, 모바일 서비스로도 50% 이상의 매출을 올리고 있는 것은 확실해 보입니다. 인터넷 서점이 오프라인 매장하고 구분이 되는 가장 중요한 특징이 이런 구매 경험 혹은 데이터가 전부 저장이 된다는 겁니다. 제가 이번에 추산해 보니까 그동안 인터넷 서점이 20년 동안 처리한 주문이 한국에서는 5억 건 정도 될 것 같습니다.

이런 것들은 전부 다 로그(log)로 남아 있어서, 이를테면 2002년 월드컵 한국-폴란드전 때 책을 사신 분이 몇 분인지 찾아 볼 수도 있습니다. 28명입니다. 그 두 시간 동안. 도대체 이 시간에 누가 책을 살까 싶어가지고 그때 찾아 봤거든요. 놀랍게도 28명이 다 한국인이어서, 이 분들은 왜 축구를 보다가 책을 샀을까, 뭐 이런 생각을 좀 해본 적이 있습니다.

인터넷 서점에 이렇게 많은 데이터들이 있는데, 이런 데이터들의 시작은 상품 정보입니다. 근데 상품 정보에 대해서 인터넷 서점들이 갖는 생각은 우선 생각하시는 것보다 좀 공용화하기가 힘들다는 겁니다. 잡지하고 일부 특수한 도서들을 제외하고는 연간 3만 5천여 점이 인터넷 서점에 등록되는데, 그런 소비 정보 외에도 부록이나 세트 그리고 몇 가지 프로모션을 위한 정보들이 있기 때문에 전체 인터넷 서점에 등록되는 정보는 6만 내지 7만 정도 일 것 같습니다. 한 주에 1300점 정도.

여러 데이터 영역별로 입력 작업을 하는데 도서명이라든지 시리즈 분류만 놓고 보더라도 서점별로 차이가 굉장히 큽니다. 아마 인터넷 서점마다 분류법이 다를 겁니다. 그리고 메타 정보 중에서 분류 정보만 해도 서점별로 개성이 드러나는 경우가 생각하시는 것보다는 굉장히 많을 겁니다. 대표적인 예로 인물 분야를 뽑는데요, 예전에 체 게바라 평전 같은 베스트셀러가 있을 때, 인물분야는 상당히 중요한 분야였습니다. 근데 지금은 서른 개 가까운 분야 중에서 인물이 소리 소문 없이 사라진 상태입니다.

인터넷 서점 회원 숫자는 전체 2500만 명 정도일 걸로 생각하는데요, 실제 구매 경험이 있는 사람들은 1500만 명 정도로 추산하는 게 맞을 것 같습니다. 재미있는 건 구매 건수가 가장 높은 상위 10% 정도 회원들이 40% 정도를 차지하고 있습니다. 서점 쪽에서 보면 상당히 회귀 유저들이 많은 구매를 하는 겁니다. 요즘 들어서는 연령이 높아지고 있는 게 가장 큰 고민입니다. 이전에는 30대 후반 여성을 모델로 잡았다면 지금은 40대를 넘어서는 상황입니다.

하루 회원 가입 숫자는 2천명입니다. 2천 명씩 3백일 정도 가입하면 60만 명이거든요. 연간 출생자 수와 거의 비슷하다는 걸 아실 수 있을 겁니다. 이렇게 상품하고 회원 정보가 모이면 판매 정보가 당연히 일어나는데요. 판매 정보는 상품과 상품과의 관계, 회원과 회원과의 관계 그리고 제일 재미있는 건 분류와 분류와의 관계 등등 몇 가지 관계 데이터를 만들고 들여다 볼 수 있습니다.

지금 인터넷 서점들은 전부 다 추천 서비스를 통해서, 특히 회원과 회원과의 관계를 기반으로 추천을 드리죠. 당신 같은 회원을 이전에도 몇 명 봤는데, 아마 당신 같으면 이런 책을 읽고 싫어할 것 같아, 라고 얘기를 드리는 경우가 있고요, 더 나아가 e북이 서비스되면서 이제는 책과 책 사이의 상관관계, 당신이 이 책을 읽었다면 이 책도 흥미로워할 거라는 식의 추천도 가능한 단계에 이르렀습니다.

제가 신입사원들 면접 볼 때 이런저런 얘기하는데, 회사 서버에 불이 나면 독자 리뷰가 들어 있는 서버를 들고 나와야 되지 않을까, 이런 얘기를 몇 번 한 적이 있습니다. 왜냐면 상품 정보라든지 회원 정보는 좀 다를 수 있어도 돈이 들 뿐이지 복구가 가능하지만, 회원 정보는 도무지 복구할 수가 없고, 대단히 큰 문제가 생기기 때문이지요. 현재 15,000건 정도가 인터넷 서점의 독자 리뷰로 등록되는 것 같습니다.

이런 독자 리뷰들은 세대적인 차이랄까, 제가 느끼기에 점점 이미지 동영상화하는 과정을 겪고 있습니다. 이것은 1월에 출시한 커넥츠라는 모바일 앱인데, 사실 지금 제가 있는 회사가 회원 중 20대가 50% 정도 되는 좀 이상한 회사예요. 여기서 커뮤니티 서비스 앱을 출시했고, 그 카테고리 중에 독서클럽이라는 게 있습니다. 전적으로 오프라인 모임 없이 모바일하고 pc에서 이루어지고 있는 북클럽입니다.

 

박영률 대표 (커뮤니케이션북스) ‘출판 산업의 데이터 니즈’

박영률 대표 ‘출판 산업의 데이터 니즈’

앞에서 말씀하신 분들이 거의 똑같이 강조하신 문장이 데이터의 목표가 필요하다, 목적이 필요하다는 것 같습니다. 출판계가 데이터를 놓고 목표를 생각한다면 무엇이 돼야 될까 생각해 봤는데요, 올 봄에 꽤 믿을 만한 보고서를 하나 보게 됐습니다. 거기 보니까 지난 5년간 우리나라 성인 독서율이 72%대에서 69%대로 떨어졌다는 데이터가 있었습니다. 한 3% 정도 떨어졌는데요, OECD 15개 나라를 대상으로 조사한 결과에 따르면 한 나라에서 성인 독서율이 1% 올라가면 GDP는 0.2% 정도 올라간다고 합니다.

2017년 기준으로 우리나라 성인 독서율이 1% 올라가게 되면 GDP가 3조5천억 원 정도 더 많아지게 됩니다. 3조5천억이면 연봉 3500만 원 정도를 받을 수 있는 일자리가 10만개 정도 만들어지는 셈입니다. 그걸 보며 든 생각은 당분간 독서율이 80%가 될 때까지 우리 출판계는 독서율을 향상시키는 데 목표를 둬야겠구나, 그런 생각을 해 봤습니다.

그럼 어떻게 올릴 거냐. 요즘 책이 안 팔려서 출판사들이 고생한다는 이야기를 많이 합니다. 하지만 데이터는 그렇게 말하고 있지 않습니다. 지난 10년간 해외도 마찬가지지만 국내도 시장이 크게 작아지지 않았습니다. 더 커지지 않았을 뿐이지 시장이 작아지지도 않았어요. 출판사의 살림살이를 봐도 치킨집이나 피자집같이 1년 하다가 문 닫는 출판사는 별로 없습니다. 어쨌든 신나게 책이 많이 안 나가는 게 좀 불만이지 수익이 너무 떨어져서 문을 닫아야겠다는 그런 출판사는 찾아보기 쉽지 않습니다.

데이터가 말하는 것은 출판이 지난 한 20년 동안 미디어 환경의 급격한 변화 때문에 성장이 주춤해진 상태로 잠복기에 있다고 말하는 게 맞는 것 같습니다. 작년 데이터들을 보면 영국이나 미국에서는 종이출판 시장이 1% 정도씩 커지고 있습니다. 전자책 시장은 한동안 높은 성장률을 보이다가 이제 조정기에 들어간 것 같고, 오디오북 시장은 지난 5년 동안 20% 이상씩 계속 성장 중입니다. 중국은 오디오북 시장이 한 30%씩 계속 성장 중입니다. 이렇게 보면 출판이 앞으로 계속 어려워질 거라든지 지금이 단군 이래 최대 불황이라든지 하는 항간의 이야기들은 반데이터적이다, 이렇게 말씀 드릴 수 있겠습니다.

목표는 제가 말씀 드렸죠. 우리 성인 독서율을 높여야 된다고. 그러기 위해서는 서점의 협조가 절실히 요구된다고 말씀드리고 싶습니다. 앞으로 독자들을 이렇게 나눠봐야 될 것 같아요. 책을 읽는 사람과 안 읽는 사람. 책을 읽는 사람들은 어떤 특성이 있는지 그걸 파악해 봐야 될 것 같습니다. 그걸 가장 쉽고 경제적이고 또 비교적 정확하게 판단할 수 있는 방법은, 상당히 많은 독자들이 책을 사는 인터넷 서점의 데이터를 통해서 확인이 가능하다고 생각합니다.

지금 인터넷 서점이 출판사에 제공하는 데이터 수준은 대단히 낮습니다. 책이 몇 권 팔렸다, 남녀 비율이 이렇다, 나이가 어떻다, 이 정도를 얘기해주시는데 그런 것 말고, 가령 새롭게 회원이 된 사람들, 그런 사람들이 주로 인터넷 서점에서 확인하려고 하는 단어들, 이런 것들을 좀 제공해주시면 좋을 것 같아요. 두 번째는 책을 부지런히 사다가 어느 시점부터 책을 안 사기 시작한 사람들, 독서계에서 빠져나간 사람들. 그 사람들이 빠져나가기 전에 상당 기간 동안 주로 궁금해 했던 것들. 이런 것들을 출판계에 알려주시면 출판계는 아, 어떤 사람들이 독서계로 들어오고 나가는지 식별할 수 있게 됩니다.

이건 독서 경험이 있는 사람들 이야기이구요. 두 번째는 서점을 중심으로 모아볼 수 있는 데이터들의 특징과 서점 밖에서 일반적으로 특정 항목에서 발생되는 단어들을 비교해 보면, 책을 많이 읽는 사람들 마음과 읽지 않는 사람들의 마음을 비교해 볼 수 있습니다. 이런 데이터를 비교해보면 우리가 전략을 세울 수 있습니다. 책과 연결되도록 하기 위해서는 그 사람에게 어떤 방법으로 언제 어떻게 접근할 수 있는지 길을 찾을 수 있게 됩니다.

현실적으로 얘기하면, 출판사들에게 데이터만 던져줘가지고는 할 수 있는 게 별로 없고요, 아까 말씀하신 것처럼 데이터 브로커 분들이 수고를 좀 해주시면 저희가 움직일 수 있는 수준의 정보를 얻을 수 있게 됩니다. 서점이 협조를 해주시고, 그 다음에 SNS를 운영하거나 그 데이터를 분석하는 연구소들이 협조해주시면 좋겠습니다. 독서계에 있는 사람이 빠져나가지 않게 하려면 우리가 무엇을 해줘야 하고, 안 읽는 사람들이 독서계로 들어오게 하려면 무엇을 보여줘야 하는가, 다시 말하면 우리가 어떤 책을 만들어야 하는가, 어떤 채널로 어떤 메시지를 어떻게 전달하면 되는가에 대한 길을 찾을 수 있을 것 같습니다.

출판사 혼자서는 할 수 없는 일이고 책을 통해서 같이 살아가는 서점, 그 다음 미디어 업체들, 그 다음 우리 진흥원, 다 같이 힘을 합쳐 이 일을 한다면 조만간 성인 독서율을 우리가 1년에 1%씩 올려서 GDP도 출판계가 3조5천억씩 더 만들고, 일자리도 10만개씩 더 만들어내는 즐거운 뉴스를 접하게 되지 않을까 생각합니다.

 

<2부> 책 생태계 데이터 현황과 협력

이중호 대표 (한국출판콘텐츠) ‘책의 발견과 데이터’

이중호 대표 ‘책의 발견과 데이터’

저는 지금을 책의 과잉공급시대라고 봅니다. 너무 많은 책이 나오다 보니, 무슨 책을 읽어야 될지 독자들 선택의 폭이 너무 넓은 상황입니다. 출판 시장은 항상 불황이라고 하지만 매년 20만종 이상의 신간이 나오고 있습니다. 여기서 내 책을 발견하기란 쉬운 일이 아닙니다. 그래서 우리가 책을 어디서 발견하느냐, 독자들 천명을 대상으로 조사한 적이 있습니다. 지인 추천 다음으로 오프라인 서점에서의 발견, 포털, 온라인서점을 통한 발견 순이었습니다.

그 다음으로 데이터 기반의 발견이 있습니다. 예전엔 서점이나 도서관 서가를 둘러보다 우연히 좋은 책을 발견해서 사기도 했는데, 우리나라는 온라인을 통한 구매 점유율이 세계에서 제일 높습니다. 정가제가 있는 독일이나 프랑스는 20%가 안 되고, 정가제가 없는 미국도 45%인데, 우리는 정가제가 있는데도 60%가 넘었어요. 그런 점에서 저는 정가제가 실패했다고 보는데요.

아마존은 정가제가 없으니 할인도 하지만 다른 여러 가지 마케팅 전략을 하는데 우리나라도 많이 따라가고 있죠. 아마존의 데이터에 의하면, 하루만 파격 할인을 했는데 그날 매출이 뛴 것은 물론이고 한 달이 지나도 효과가 있더라는 거죠. 그러니까 할인 이벤트가 책의 발견에 상당한 역할을 했다는 거죠. 그날 산 사람들이 입소문을 내주고 하니까.

데이터를 통한 발견은 또 뭐가 있을까. 전통적으로 우리가 제일 많이 이용하는 게 베스트셀러 아닙니까. 전자책도 전자책 베스트셀러를 뒤지는 게 아니라 종이책 베스트셀러 목록을 보고 전자책에 있나? 하고 가서 구매하는 분이 많습니다. 근데 우리 경우 엉뚱한 책들이 추천되기도 합니다. 주제 글 같은 데이터가 디테일하지 않아서지요. 외국 기준으로 보면 중분류 수준밖에 안되고, 또 유통사마다 다 틀려요. 표준이 없다 보니까, 그리고 키워드를 트렌디하게 만들지 못하고 있다 보니까 그래요. 해외 경우 트렌드에 따라 계속 업데이트되거든요.

아마존만 해도 책의 분류가 굉장히 디테일하기 때문에 추천도 우리보다 섬세합니다. 또 메타데이터가 중요합니다. 흔히 우리가 말하는 서지 정보입니다. 상품 정보, 저자 소개, 서평, 목차 같은 걸 말합니다. 이게 풍부하고 깊고 다양할수록 책 판매가 많이 되는데 이 데이터를 해외에서는 가지고 있어요. 우리는 이런 메타데이터에 대해 전혀 고민을 안 하고 있습니다. 이제 종이책의 60%, 전자책은 거의 100% 온라인으로 거래되고 있는데, 온라인은 실물을 보지 않고 아까처럼 우연한 발견으로 하는 게 아니라 결국 상품정보로 하는 건데, 우리는 메타데이터가 표준화되어 있지 않은 상황입니다.

그래서 이제 우리도 이런 것들을 좀 하자고 해서 출판유통통합시스템 구축 사업을 진행하고 있습니다. 유통사들과 예전에도 협의를 해왔는데 이번엔 좀 잘 됐으면 좋겠고요. 다행이 한 4년 전에 국제 표준이 나왔습니다. 여기에 한국적 특성까지 반영해서 통합유통시스템이 개발될 예정입니다.

 

최성구 기획팀장 (출판유통진흥원) ‘고품질 메타데이터 공유로 더 많은 책을 판다’

최성구 기획팀장 ‘고품질 메타데이터 공유로 더 많은 책을 판다’

온라인서점 쪽에서는 메타데이터 프로젝트에 대해 항상 회의적인 입장이었습니다. 저는 앞으로는 더 잘 될 거라는 입장에서 설명을 좀 해보려고 합니다. 메타데이터는 데이터를 설명하는 데이터라고 할 수 있습니다. 도서 데이터의 중요성은 서점에서 사고파는 과정보다, 도서관에서 장서를 구비하고 목록을 관리하는 데서 시작됐다고 할 수 있습니다.

아까 첫 발표 때 강사님이 일본과 우리나라는 데이터 활용률이 좀 떨어진다고 말씀하셨잖아요. 출판에 있어서도 서구에 비해 많이 낮습니다. 우리는 출판사가 신간을 배본해서 서점에 책이 깔리면 그걸 위탁 판매하는 방식입니다. 독일이나 미국 같은 곳은 서점이 도서 목록을 보고 주문을 해요. 현매라고 하는 겁니다. 일본이나 우리나라는 그동안 신간 배본에 의한 위탁거래 방식이 주된 유통 구조였기 때문에, 메타데이터의 중요성이 상대적으로 좀 떨어졌던 것 같아요.

최근에는 관심이 높아진 것 같습니다. 요즘은 쓰레기 정보가 검색된다고 할 정도로 출판사들도 온라인상의 도서검색에 관심을 많이 갖고 있습니다. 이제는 메타데이터의 품질이 중시되는 추세입니다. 국제 표준인 오닉스의 경우 항목이 400개까지 됩니다. 항목이 많을수록 프로모션이 되고 발견이 돼서 책 판매율이 높아진다는 연구 결과도 있습니다.

이건 작년에 독일의 책 도매상에 갔을 때 찍은 사진인데, 회의실에 이런 판넬이 있었어요. 이게 뭐냐면 늙은 소도 우유를 준다는 겁니다. 일종의 POD(주문 출판)를 말하는 건데, 넓은 창고에 잠자고 있는 책들을 다 디지털라이징(Digital Rising) 하고 데이터화해서 서점으로부터 발견이 되게 만들고 주문이 들어오면 3시간 내에 책을 제작해서 출고시키는 게 목표라는 겁니다. 대신 거대한 물류 창고는 없애는 거지요. 디지털화한 걸 가지고 전자책으로도 팔고 POD 서비스를 이용해서 종이책으로도 파는 거지요. 결국 늙은 소란 출판사의 백리스트(Backlist)들입니다. 디지털 사회에서 품절시킬 수도 있지만 재발견이 돼서 다른 수익을 갖다 줄 수도 있다, 캐시 카우 역할을 할 수도 있다는 뜻에서 그런 그림을 그린 겁니다.

이제 국내 얘기를 드리자면, 저희 출판유통진흥원에서 출판 데이터 작업을 하는데 보도자료가 옵니다. 이걸 보면 출판사들이 책을 홍보할 때 보도자료를 대부분 이메일로 보냅니다. 굉장히 비효율적인 구조에요. 예스24도 그렇고 교보문고도 그렇고, 여기에 있는 모든 분들이 열 명 이상의 데이터 입력팀을 가지고 한글 파일을 열어서 복사와 붙여넣기를 하고 있는 상황이에요.

아까 출판유통통합시스템에 대해 말씀해주셨는데 저는 이렇게 생각하고 싶어요. 지금 신간 판매가 계속 떨어지는 상황에서 외국처럼 판매 중심의 유통 구조를 가져가려면 데이터가 중요하고, 그 데이터를 출판사가 좀 주도해야 한다고 봅니다. 이제 메타데이터도 이빨 빠진 데이터가 아니라 책을 설명할 수 있는 고품질의 데이터를 출판사에서 입력해야 하고, 책이 출간되기 하루 전에 배포하거나, 책이 나온 후에 보도자료 뿌리고 보내주는 게 아니라 그전에 실질적으로 확장된 데이터를 넣어서 보낸다는 겁니다.

그런 데이터를 어디다 입력하면 돼요? 출판사들은 이런 말 하실 수 있잖아요. 그래서 지금 만들고 있는 게 유통통합시스템입니다. 어떤 메타데이터 허브 역할을 할 수 있는 사이트라고 생각합니다. 여기에 충실히 입력만 하면 도서관이나 서점이나 여러 곳의 홍보용으로 활용될 수 있을 겁니다. 그런 식으로 고품질의 메타데이터가 유통되면 큐레이션을 통한 현매거래가 자리를 잡을 수 있기 때문에 출판사업에서 메타데이터는 상당히 중요하고 그건 출판사가 분명히 주도해야 한다, 이렇게 말씀드리고 싶습니다.

 

이용훈 사무총장 (한국도서관협회) ‘도서관 데이터 현황과 과제’

이용훈 사무총장 ‘도서관 데이터 현황과 과제’

책 생태계는 기본적으로 저자와 독자, 그 사이에 책을 만드는 출판이 있고, 그것을 유통하는 서점과 공적 유통을 담당하는 도서관 그 다섯 개 정도가 유기적인 관계 속에 유지 되지 않을까 생각합니다. 그런 점에서 서로가 경쟁자가 아니고 같이 엮여서 살아가야 하는 협력자가 돼야 하지 않을까 합니다.

도서관에서 이용자들이 도서 목록을 검색하시다 보면 책이 없는 경우가 꽤 많습니다. 그럴 땐 희망 도서라는 걸 신청하기도 합니다. 하지만 곧바로 보고 싶으면 어떻게 하죠? 그 검색 정보가 바로 서점으로 가면 안될까요? 요즘 병원에서 약을 처방받으면 바로 근처 약국에 이미 처방전이 와 있습니다. 도서관도 그렇게 할 수 없을까요? 네, 쉽지 않을 것 같습니다. 왜냐하면 도서관은 공적 영역에 속하기 때문에 상업적 영역의 지원이 쉽지 않습니다. 그걸 얼마나 할 수 있을까. 요즘 도서관의 데이터를 가지고 그런 고민을 하고 있습니다.

도서관의 데이터를 잠시 설명 드리면, 한 다섯 가지 정도 데이터들을 만들고 있는 것 같습니다. 앞에서 이야기한 메타데이터입니다. 그 다음에 도서관 안에서 그것들이 활용하면서 만들어지는 데이터들이 있습니다. 가장 대표적인 게 대출 데이터 같은 겁니다. 그 위에 이용자 데이터 같은 것들을 만들고 있습니다. 그 다음에 도서관도 기관이니까 경영 데이터가 있습니다. 몇 명이 오는지, 예산을 얼마나 쓰는지, 자료구입은 어떻게 하는지, 이런 것들에 대한 데이터가 생산되고 있죠.

그 다음에 주로 지자체 같은 곳에서 나오는 행정정보들이 있습니다. 도서관 숫자가 몇 개인지, 누가 만들어서 어떻게 운영하는지, 심지어 평가도 하고, 컨설팅도 합니다. 그래서 굉장히 많은 정보들이 생산되고 있습니다. 그 다음에 도서관계 전체를 연구하는 연구자들이 있고요, 연구자들이 굉장히 많은 연구 논문과 자료들을 만들고 있습니다. 이때도 대부분 설문조사도 하고 많은 것들을 조사합니다.

오늘 이 자리에서 말씀드릴 제일 중요한 건 서지데이터일 것 같습니다. 도서관의 경우 굉장히 많이 발전 되어 있긴 합니다. 거의 모든 것이 표준화되어 있고, 전국의 거의 모든 도서관들의 데이터가 통합돼 있습니다. 서지정보 유통지원 시스템이라는 것입니다. 그 다음 활용에 있어서는 도서관 정보나루라고 해서 대출 데이터들을 통합 관리합니다. 그 데이터를 모아서 전국적인 분석도 하고 연령 분석도 합니다. 국가 도서관 통계시스템도 따로 있어서 우리나라 도서관 통계들을 제공합니다.

그런데 거의 대부분은 서지 데이터 중심으로 이루어지고 있습니다. 반면에 사회적 활용도 측면에서 보면 아직도 미흡한 부분이 많습니다. 일부 서지 데이터만 활용되고 있습니다. 그래서 네이버에서 보시면 국립중앙도서관에서 제공하는 이런 데이터들을 오픈해 놨기 때문에 검색하시면 보실 수 있습니다. 데이터 생산의 주체가 굉장히 다양한데 이들 간의 협업은 아직 정확하게 되고 있진 않습니다. 그래서 아마 출판 데이터 시스템이 만들어진다면 그 과정에서 굉장히 깊은 협업이 필요하겠다는 생각이 듭니다.

근데 좀 문제가 있는 게 뭐냐면 도서관들이 요즘 많이 변했습니다. 옛날엔 책만 읽는 공간이었다면 지금은 시민 개개인의 구체적인 질문에 답해주는 정도로 업무가 넓어졌습니다. 가장 어려운 점은 도서관이 개인정보를 확보하기가 굉장히 어렵습니다. 대출 데이터는 가능한데 그 나머지 정보는, 도서관 출입부터 서가에서 꺼내 보는 책들에 대한 정보, 이런 것들은 구할 수 있는 방법이 거의 없습니다. 사실 그런 것들이 좀 있어야 독자 정보 출판이나 서점의 정보들하고 연결이 돼서 좀 더 개개인의 폭넓은 독서 생활 같은 것을 지원할 수 있는 데이터 협력이 이루어질 텐데, 앞으로 함께 고민할 필요가 있을 것 같습니다.

요컨대 데이터의 중요성에 대해 인식은 하고 있고 많은 데이터들을 만들고 있는데 여전히 이것들을 체계적이고 종합적이고 전문적으로 지속적으로 구축하고 활용할 수 있는 방안들을 만들어 나갈 수 있는 그런 기구나 전문 인력이 부족합니다. 이 부분에 관심을 갖고 조직을 만들고 인재를 양성하는 것들이 꼭 필요하지 않을까 싶습니다. 또 도서관에서 개인정보와 활동 정보를 좀 더 자유롭게 활용할 수 있도록 하는 그런 제도적 개선도 중요한 과제가 아닐까 싶습니다.

 

남성호 팀장 (교보문고 구매팀) ‘서점 판매 데이터와 공유 사례’

남성호 팀장 ‘서점 판매 데이터와 공유 사례’

처음 발표자가 말씀하신 데이터 기반 수준으로 보자면, 저희 회사는 지금 3단계에서 4단계로 가는 과정인 것 같아요. 데이터를 내부적으로 통합하는 작업을 지금 별도로 외부업체랑 결합해서 진행하는 수준입니다. 저도 사실은 데이터 전문가라기보다는 데이터를 가지고 어떻게 활용할 것인가에 대해 현장에서 고민하는 사람입니다.

박영률 대표님께서 말씀하신 대로, 그런 구체적인 데이터에 대한 의뢰랄까 필요성이 계속 느껴져서 저희한테 전달이 되면 저희는 어떻게든 자료를 공개해서 출판시장의 파이가 커져야 저희도 같이 산다는 것에 100% 공감합니다. 근데 데이터를 어떻게 뽑느냐가 사실 큰 고민입니다. 저희가 전통적으로 하고 있는 베스트셀러 발표, 인구 통계학적 필요에 의한 트렌드 발표를 한다고 계속 하고 있고, 지난달에는 출판협회에서 요청해서 서점에서 보내는 트렌드 자료를 만든 적이 있는데 정기적인 것은 아닙니다. 사실은 인터넷이든 모바일이든 서점이든 어디에서나 항상 볼 수 있는 자료로 가야 하는데, 구체적인 답을 찾지 못하겠어요.

왜냐하면 이 데이터가 진짜 유효한 데이터가 맞는지 의문이 들기 때문입니다. 저희 구매부서의 경우는 책을 발주하고 마케팅 하는 데에 관여를 하는데, 얼마나 팔릴지 예측을 많이 해야 돼요. 그러려면 책을 많이 알아야 하는데, 과거에 데이터 중심으로만 예측을 하다 보니 지금 얘기하는 트렌디한 것들은 많이 부족한 편입니다. 그런 니즈가 상당히 많이 있는데 현재 공유가 많이 되지 않고 있는 상황에서, 출판시장을 같이 좀 고민했으면 좋겠다는 생각에서 사례를 가지고 말씀을 드리겠습니다.

오늘 이 자리는 “우리 이런 것 했다”가 중요한 게 아니라 앞으로 뭐 할 거지? 어떻게 할 거지? 얼마큼 빨리 할 거지가 주제일 것 같은데, 책 생태계에 있는 분들이 당연히 협력해서 준비해야겠지만, 저는 이거라도 먼저 해보자라는 게 빨리 나왔으면 좋겠어요. 저희도 협력사 네트워크를 인터넷 모바일 통해서 좀 활용을 하고 있는데, 일단은 협력체가 메이저 출판사가 대부분입니다. 가장 기본적인 건 발주 정보라던가 반품 거래처 정보, 신간 정도, 이런 서지 정보를 미리 출판사에서 입력하게 합니다.

저희도 입력 직원이 10명 이상 있긴 한데, 출판사에서 입력해준 게 제일 정확해요. 데이터를 미리 알아서 판매를 예정할 수 있고 또 독자하고 만날 수 있는 구조로 만들어놨는데 활용률이 그렇게 높지 않습니다. 50~60%까지 올리는 게 목표인데 지금 평균 30~40% 활용을 하시고, 나머지 30%는 그냥 메일로 보도자료하고 서지 정보를 보내시거나, 아니면 정보도 없이 책만 보내시는 경우도 있어요. 그러면 책만 가지고 저희가 정보를 입력해야 돼요.

그 세 가지 버전으로 지금 상품 정보를 활용하는데, 가장 정확하고 빠르게 접근할 수 있는 건 협력사 네트워크를 활용한 방식입니다. 주요 내용만 잠깐 소개드리면, 주요 정보라던가 담당자 수정화면, 도서정보, 품절 상태 등등. 신간 등록도 여기서 할 수 있고요, 발주 정보, 판매거래 정보도 볼 수 있습니다.

두 번째는 자료 활용을 어떻게 하고 있는지 잠깐 말씀드리겠습니다. 외부 공유자 사례는 가장 전통적으로 판매정보예요. 우선 판매 데이터는 매주, 인터넷은 실시간, 매일, 매월, 상반기, 1년간 데이터를 보고, 우리 담당자가 전체 흐름을 분석해서 1년 정도 또는 1년에 두 번 정도 올리고 있어요.

아까 김병희 부대표께서 서점이 늙어간다고 했잖아요. 실제로 데이터를 분석해보면 주 독자층이 20대는 거의 많이 줄어들고 있고 교보도 40대가 주 고객입니다. 그럼 20대는 어디로 갈지. 20대는 사실 다른 채널로 바뀌고 있는 거라던가, 아니면 웹툰 쪽 이렇게 변환을 하고 있는데, 그것에 대비한 여러 장치들을 걸려고 노력은 하고 있습니다. 또 하나는 몇 가지 키워드를 드리면 남성보다는 여성 중심으로 바뀌고 있어요. 한 20년 사이에 거의 6대 4 구조가 7대 3으로 바뀌었습니다.

그 다음은 채널이 전통적인 오프라인에서 온라인, 모바일로 바뀌고 있습니다. 이런 자료를 가지고 같이 논의해줬으면 좋겠어요. 이런 책들은 왜 잘 나가는 거야? 누가 사는 거야? 이런 것들은 서점이 가지고 있는 데이터를 가지고 말씀을 드리고 있고요. 저희 경우는 오프라인이 강세이긴 하지만 온라인과 모바일 채널도 다 활용하고 있고, 또 하나는 B2B 채널도 하고 있는데 채널별로 특성들이 달라요. 그래서 분석을 할 땐 따로 했다가 나중에 통합해서 발표합니다. 전반적으로 책을 살 때 복합서비스를 활용하는 층들이 많이 늘어나고 있습니다. 딱 한 매체만 쓰는 게 아니라 온라인을 쓰던 오프라인을 쓰던 가격이 유리하거나 아니면 빠르게 받을 수 있거나 하는 방법들을 찾고 있습니다.

이건 빅데이터 활용해서 전문 업체랑 저희가 ‘픽스’라는 큐레이션 서비스를 진행하고 있습니다. 고객 성향 분석에 고객과의 커뮤니케이션 데이터를 토대로 개인 추천 서비스를 진행하고 있습니다. 나를 위해 맞춘 성향 소울 메이트 종합 추천 이런 형식으로 진행을 하고 있습니다. 아마 올해 저희가 또 저번부터 얘기한 것은 흩어져 있는 회사 내 여러 데이터들을 취합해서 통합적으로 활용할 수 있는 방안을 계속 고민을 하고 있어요.

저도 구매팀에 있는데 이런 정보를 데이터하면 이 부서와 합의해야 하고 저 부서 가야 하고, 이 부서에서는 맞는 걸 여기서 또 검증해야 하고 그래서 너무 복잡하고 시간이 걸립니다. 이게 어느 정도 자동화가 돼야 되거든요. 그 기반 구축에 투자를 하고 진행할 예정인데, 아마 내년부터는 좀 더 빠르게 분석한 좋은 데이터들을 가지고 공유할 수 있을 거라고 봅니다. 오늘 이후로 여러 데이터를 어떻게 공유하고 활용할 것인가에 대해서는 서로 공감을 해나가면서 같이 진행할 수 있으면 좋겠습니다. 감사합니다.

 

김종업 부원장 (한국문화정보원) ‘책 생태계를 위한 문화 빅데이터의 활용’

김종업 부원장 ‘책 생태계를 위한 문화 빅데이터의 활용’

문화 빅데이터 플랫폼에 대해 말씀드리겠습니다. 문화 관련 데이터들은 참 많습니다. 그런데 대부분의 통계 데이터는 월 단위 혹은 분기, 반기, 연 단위로 나옵니다. 문체부의 정책 관련 데이터들은 대부분 2-3년 전 것일 거예요. 요즘 세상이 얼마나 빨리 바뀌는데, 우리는 5년 전 데이터를 가지고 정책을 하는 게 지금까지의 형태였습니다. 그래서 아마 과기전통부에서 이제는 좀 바꾸려고 한 것 같은데요, 여기 보시면 데이터를 개방하고, 다양한 걸 가지고 융합을 하는 겁니다. 요즘 드라마도 시청자 의견을 수용해서 내용 전개가 바뀌기도 하지요. 출판도 소비자의 의견을 빠르게 파악할 필요가 있습니다. 그래서 이 빅테이터 플랫폼 사업이 필요하고요. 이런 소비 성향들을 분석할 수 있는 기반 구축에 동참할 수 있는 분들을 따로 초청해서 의견을 모으는 자리를 꼭 한번 마련하도록 하겠습니다.

문화분야 빅데이터 플랫폼 사업 개념도(예시)

문화분야 빅데이터 플랫폼 데이터 개념도(예시)

 

<종합 토론>

제1회 열린 포럼

질문: 유통통합시스템 구축 중인 것하고, 서점 차원에서 출판사로부터 데이터 받아서 구축해서 서비스를 하고 있잖아요. 이 둘 사이의 관계는 어떻고 앞으로는 어떻게 전망하시는지, 필요한 점은 무엇인지 설명해주시겠습니까?

이중호 대표: 어려운 질문인데요. 그 유통통합시스템이라는 게 크게는 메타데이터를 서로 공유하는 거고요. 제가 봤을 땐 교보나 예스24, 이런 대형 서점은 시스템 자체가 잘 되어 있기 때문에, 뭐 정보 제공의 의지의 문제지 시스템의 문제는 아닌 것 같습니다. 그래서 어떤 정보를 얼마나 주실지 그건 정책적으로 모여서 이제 의논을 해야 될 것 같고요. 다만 이제는 그래도 그 SCM을 통해서 대부분 대형서점으로 들어가서 재고가 얼마 있고 얼마 판매됐고 하는 걸 보시잖아요. 근데 소형 서점들이 전체 한 30~40% 됩니다. 소형 서점들은 웹 기반으로 서비스되는 게 아니어서, 포스 시스템이라든가, 서점온 시스템을 만들었어요. 그걸 공개하기 힘들다고 그러시는 분들이 있어서 그런 것들을 협의해 나가는 게 중요한 상황입니다.

남성호 팀장: 저희한테 공식적으로 이 데이터를 이렇게 쓰자라고 본격적으로 논의된 단계는 아닙니다. 공감은 다 형성이 되어 있는데, 이게 어디에 어떻게 쓰여지는 거고 어디에 제출하느냐, 제공해주느냐에 따라서 이게 투명하고 공적인 기능으로 확대될지 여부가 달렸다고 봅니다. 서점도 자료를 제공할수록 전체 출판시장이 좋아진다는 점에는 공감대가 어느 정도 형성돼 있는데, 그 다음 진도가 지금 안 나와 있는 상태죠. 교보 같은 곳은 예스24나 알라딘과는 다르게 인터넷뿐만 아니라 전국 41개 점포가 있고 포스 데이터가 기반이여서, 기본적으로는 다 열려있다고 보시면 될 것 같습니다.

질문: 다음소프트 생활 변화관측소 박현영 소장님께 질문 드리고 싶은데요. 출판 관련해서 데이터 분석 사례로 유의미한 사례가 말씀해 주실 만한 게 있으신지 궁금합니다.

박현영 소장: 책 관련 된 부분은 상당히 흥미롭게 많이 분석이 되고 있는데, 지금 말씀하신 내용과는 상당히 먼 것 같아요. 저희가 다른 쪽하고 할 때 공통적으로 계속해서 들어오는 주제가 있거든요. 그중 하나가 공간입니다. 이제 기업에선 온라인이 아니라 거꾸로 오프라인에서 어떻게 내 브랜드를 경험하게 할 것인가라는 고민을 굉장히 많이 하고 있거든요. 그래서 사람들이 좋아하는 소위 핫한 공간이 어디야, 이런 소리를 굉장히 많이 합니다. 그때마다 나오는 것이 문화하고 콘텐츠에요.

그리고 뜨고 있는 것이 뭐냐 하면 서점입니다. 근데 오늘은 그런 얘기를 거의 안 하시는 것 같아요. 그러니까 책이라는 것이 가지고 있는 것 중 하나가 공간성, 그러니까 서점과 관련된 공간성이고 다른 하나는 콘텐츠인 것 같아요. 그 중에서도 책이 어떻게 전시되어 있느냐, 큐레이팅되어 있는 공간에 대한 관심이 굉장히 많습니다. 그래서 저는 제가 하고 싶었던 질문 중 하나가 뭐냐 하면 사람들에게 발견성을 높여준다, 취향에 맞춤한다라는 것은 그 독자가 어느 정도의 취향이 있다는 상태에서 가능한 것이 아닌가라는 생각이 드는 거예요.

오히려 사람들에게는 추천이라는 것이 어떤 믿을 만한 사람이 나타나고, 그 사람을 통한 추천이라는 것이 더 필요한 시점이 아닌가 싶은 거죠. 어떤 사람의 개인적 취향이 새로운 발견성을 가질 정도가 아닐 때는 ‘당신의 취향에 맞춰줄게요.’라는 서비스보다는 당신이 좋아할 만한 앞서가는 사람의 추천이 나을 수 있다는 거죠. 그런 점에서 오히려 굉장히 다양한 방식의 큐레이팅 서점, 이런 부분들이 데이터적인 관점과 정확히 맞는지는 모르겠습니다만, 아까 성인독자의 독서율을 높인다, 학습을 시킨다는 차원에서는 더 의미 있는 것 아닌가 생각합니다. 요새 사람들은 이렇게 문화적인 향기를 뿜뿜 뿜기는 예쁜 서점, 문화적인 콘텐츠의 향기가 많이 나는 서점, 그런 것에 깊이 관심을 갖고 있는 것으로 분석되고 있습니다.

질문: 책 생태계 주체별로 데이터에 대한 수요와 기대가 조금씩 다를 것 같습니다. 협력이라고 하면 사실 외국 같은 데서는 상당 부분 유료 서비스화해서 거래되기도 하고, 아까 문화정보원 쪽에서 얘기하셨듯이 정부가 예산으로 해야 하는 요소도 있는 것 같고요. 영화통합전산망에 이어 5월 달부터 공연도 그렇게 의무화되는 것 같은데요, 어떤 법제화를 통한 방법도 있는 것 같습니다. 그리고 주체별로 주고받는 것이 있어야 하는데 내가 갖고 있는 모든 정보를 다 달라면 안 주죠. 이게 굉장히 어렵습니다. 좀 실행력 있는 방안이 있어야 한다는 겁니다. 그런 논의가 있었으면 합니다.

김옥기 상무: 제가 미국에 있을 때 액심이라는 데이터 브로커 회사에 있었어요. 이 데이터 브로커 회사는 지금 각각의 데이터들을 연결을 해야 하는데, 그냥 달라고 하면 안 주거든요. 그래서 중간에 데이터브로커 회사가 있어서 이 데이터를 가져다가 가공을 해서 비용을 투자를 하고 또 사올 때 그 비용을 지불 한 다음에 가공한 다음에 그 가공비용을 넣어서 데이터를 또 재판매합니다.

국내에선 이 브로커 시장이 아직 안 된 상태이기 때문에, 정부에서 올해 예산을 투입을 해서 인위적으로 작업을 하려는 겁니다. 이 빅데이터 플랫폼 사업이 어느 정도 안정적으로 된다면, 사실 올해 시작을 하긴 하지만 내년이나 후년 정도에 안정화된다면 데이터 생태계가 생기겠죠. 책 관련 데이터 생태계를 마련하기 위해서는 이런 데이터 유통시스템, 비용을 주고받고 하는 과정이 되어야 하는데 이게 어느 정도 자리 잡으려면 시간이 필요합니다.

이게 닭이 먼저냐 계란이 먼저냐의 문제일 수도 있는데, 기본적으로 데이터를 활용하려면 플랫폼이 있어야 하고, 데이터를 담는 그릇이 있으면 거기다 데이터를 집어넣어야 하고, 데이터를 집어넣고 난 다음에는 그걸 다시 가져다 쓸 수 있는 데이터 서비스가 있어야 하고, 그 다음에는 그걸 활용할 수 있는 활용 서비스가 있어야 합니다.

근데 지금 제가 오늘 앉아서 들어본 느낌은 아직도 이 단계 단계가 기본 단계에 있는 거예요. 아까 교보에서 데이터 활용하는 것과 지금 준비하고 계시는 것도 사실은 기본적으로 외부에서 들어와서 데이터를 잘 활용하려면 내부에 플랫폼이 있어야 하고 플랫폼의 데이터를 다 모은 후에 그 다음 분석가들이 들어오는데, 실질적으로 내부에 분석가가 있어야 되고요, 외부에서도 지금 이 데이터를 활용하기 위해서는 개발자들이 들어와서 데이터를 볼 수 있는 시스템을 개발해줘야 하는데 이게 안 된 상황인 것 같습니다. 오늘 이런 콘퍼런스를 한 것도 그런 이유에서일 거예요. 그러니 여러분이 갖고 있는 데이터가 뭔지 확인하고, 이걸 어떻게 모을까, 그리고 어떤 데이터가 필요한가를 보고 외부로 연결하는 순서로 진행되어야 하지 않을까 생각합니다.

이중호 대표: 메타데이터를 우리가 아무리 입력하라고 해도 안 해요. 그래서 독일 같은 경우는 정가 고지 시스템이 법적으로 뒷받침돼 있어요. 지금 우리는 문제가 뭐냐 하면 전자책 같은 경우 똑같은 책인데도 교보에 나와 있는 정가와 리디북스 정가가 달라요. 종이책은 그나마 표지에 인쇄도 되어 있는데 전자책은 가변적이거든요. 우리도 출판사들 스스로 넣어달라고 해봐야 안 될 것 같고, 이번에 도서정가제 연구해서 내년에 아마 개정안이 들어갈 텐데, 우리 출판문화산업진흥법 안에 그런 것들이 좀 들어갔으면 좋겠습니다.

최성구 팀장: 유통통합시스템 얘기를 좀 드리면, 일단 전산시스템인데 출판사가 가지고 있는 생산 데이터라던가, 유통사가 준 데이터, 도서관이 가지고 있는 데이터의 연계필요성에 대한 인식은 상당히 높아지고 있다고 봅니다. 그래서 상당히 긍정적인 시기라고 생각하고 타이밍이 대단히 좋다고 생각합니다. 다음에는 법제도 문제도 있고 협의체 같은 문제도 있긴 합니다. 우리나라는 다른 나라에 없는 출판산업진흥기구도 있잖아요.

이런 생태계의 주체들이 허심탄회하게 모여서 정말 주고받을 수 있는 데이터 생태계가 만들어졌으면 합니다. 우리 출판산업 시장이 지난 10여년간 정체되어 있고 소매점유율만 달라진 거거든요. 어떻게 보면 좀 퇴보라고도 할 수 있습니다. 그래서 앞으로 박 대표님 말씀하신 것처럼 그런 데이터 분석의 목적이 그런 도서를 프로모션하고 그 다음에 독서시장을 키워서 결국은 국민들의 독서율을 높이는 방향으로 가기 위한 체계를 고민하고 있다는 걸 말씀드리고 싶습니다.

박영률 대표: 오늘 발제 내용 중에 제가 최근에 깊이 공감하고 있고 또 우리 출판이 새로운 사업의 기회를 가질 수 있지 않을까 해서 몇 년 동안 생각해오던 문제가 있는데, 아까 우리 박현영 소장님이 빅데이터 분석하시면서 발견한 팩트라고 말씀을 해주셔서 거기에 대해 잠깐 말씀을 좀 드리고 싶습니다. 공간에 대해 관심을 갖거나 기회를 모색하는 분들이 자꾸 서점과 책, 콘텐츠, 이것과 연관해서 여러 가지 질문도 하고 솔루션도 구한다는 말씀을 하셨습니다.

아까 이중호 대표님이 보여주신 사진인가요? 아난티코브 부산? 거기 가면 책방이 있습니다. 이터널 저니라고. 부산에도 하나 있고 또 남해 힐튼에도 가면 있습니다. 제가 지금까지 가본 곳 중에서는 상당히 수준이 있고 무엇보다도 중요한 건 그 서점이 지금 한국에서 독서하는 사람들이 원하는 바가 어딘지 가장 가깝게 접근해 있는 게 아닌가 생각이 들어요.

첫 번째 특징은 책이 많지 않습니다. 많을 필요가 없습니다. 이제는 다 데이터로 올라가 있기 때문에 찾으면 되죠. 옛날 교보서점은 책이 제일 많아서 뛰어난 서점이었지만 지금은 책이 제일 많아서 뛰어난 서점이 될 순 없죠. 그곳에 가면 책이 읽고 싶어지고 기대하지 못했던 어떤 책을 만나게 될 때 가장 훌륭한 서점이 될 수 있을 것 같습니다.

이런 팩트를 보며 요즘 느끼는 게, 아 그동안 정보지식 미디어 환경이 굉장히 많이 바뀌어서 한 20년 전만해도 사람들이 책에서 얻으려고 하는 것들, 또 책에서 얻었던 것들이 지금은 다른 매체로 많이 넘어가 있다는 겁니다. 이제 사람들이 책에서 기대하는 것은 옛날 책에서 얻었던 1차 정보나 1차적인 지식, 1차적인 이야기만은 아니다. 이제 책에서 기대하는 것은 이야기를 자기 것으로 흡수하고 정보를 자기가 받아들여서 자기 정보로 전환하고 책에 있는 지식을 가지고 자신이 깨달음을 얻는 시간을 확보하려고 하는 그런 니즈가 아닌가 하는 생각이 들고요.

그러자면 책하고 시간만 있어선 안 되고, 책과 함께할 수밖에 없는 혹은 책과 단둘이 있고 싶은 공간이 필요한 겁니다. 근데 그 공간이 비어 있는 게 아니고, 책과 함께 있고 싶어 하는 어떤 색깔, 어떤 소리, 어떤 냄새, 어떤 촉감, 이런 걸 요구해요. 그런 조건들이 갖춰지면 1차 지식이나 1차 정보가 아니고 그것이 소화되어 자기 것으로 넘어가는, 다시 말해서 지식이 지혜의 수준으로 넘어가는 그런 독서의 시간들이 만들어지게 될 것 같아요. 지금 독자들이 정말로 원하는 것은 그런 수준의 공간들이고, 그런 수준의 공간들은 앞으로 서점이나 도서관이 당연히 그렇게 먼저 되어야 하고, 두 번째는 지금 우리가 생각하고 있는 서점과 도서관이 아닌 전혀 다른 그런 공간들이 그런 식으로 다시 태어나게 될 것 같단 생각이 듭니다.

그렇게 되면 책의 모습도 상당히 달라져야 하고 또 책을 권하는 혹은 추천하는 방식도 대단히 달라져야 한다. 이게 AI로 되느냐, 전 AI가 상당히 중요한 1차적인 추천은 할 수 있다고 생각합니다. 그런데 AI가 어떻게 우연성을 책임지지? 이건 좀 다른 문제 같아요. 그래서 AI 도움도 받으면서 우리 출판인들이 어떻게 사람들이 AI 가 제공해 줄 수 없는 것, 다시 말해 비논리적인 것, 비선형적인 것, 정말 우연한 것들에 대한 제안을 할 수 있을까, 그걸 할 수 있으면 아마 출판은 새로운 단계로 전개될 것 같습니다.

facebook twitter print top

커버집중기획

관련 키워드 기사