Quantcast
Channel: 어뷰징 – Bloter.net
Viewing all articles
Browse latest Browse all 15

붕어빵 낚시 기사, 네이버서 매장될까

$
0
0

‘이 소식을 접한 네티즌은…’으로 마무리되는 검색어 어뷰징 뉴스는 사라질까.

네이버 실시간 검색어로 인해 하루에도 수백건씩 올라오는 어뷰징 기사들.(출처 : 네이버 검색결과)

클러스터링 알고리즘 도입 전 뉴스 검색 결과 화면. 네이버 실시간 검색어로 인해 하루에도 수백건씩 올라오는 어뷰징 기사들. (출처 : 네이버 검색결과)

네이버 실시간 급상승 검색어(이하 실급검)는 ‘어뷰징’ 뉴스를 양산하는 온상으로 지목돼 왔다. 국내 언론사들은 실급검에 기반해 하루에도 수십, 수백 건의 어뷰징 뉴스를 생산하며 트래픽을 벌어들였다. 이로 인해 국내 언론사들은 ‘네티즌 저널리즘’이라는 비아냥을 들어왔다. 기사 마지막 문단에 어김없이 포함되는 출처 없는 네티즌 발언의 인용 때문이다.

네이버는 수개월의 준비 기간을 거쳐 12월5일 오후부터 클러스터링 알고리즘을 뉴스 검색에 적용하기 시작했다. 사용자들의 뉴스 검색 만족도를 높이고 어뷰징 뉴스 양산에 대응하기 위해서다. 네이버 쪽은 “그동안 뉴스 검색 결과는 이용자가 한번에 이슈를 파악하기가 어려웠고 불만도 많았다”며 클러스터링 도입 취지를 설명했다. 뉴스 클러스터링은 모바일과 PC 검색 모두에 반영됐다.

클러스터링은 유사한 문서를 하나의 그룹으로 묶는 알고리즘이다. 이 알고리즘은 문서 간의 유사도를 다양한 방식으로 측정해 같은 문서, 다른 문서, 유사 문서로 분류한다. 유사한 문서는 하나의 그룹으로 묶고 다른 문서는 별도로 분류해 다른 클러스터에 담는다. 검색 결과의 만족도 향상, 문서 추천 등을 위해 보편적으로 활용되는 알고리즘이다.

클러스터링 적용으로 뉴스 검색 결과 변화

다양한 문서간 유사도 측정 방식들.(출처 : 개체명을 이용한 주제기반 웹 문서 클러스터링)

다양한 문서간 유사도 측정 방식들.(출처 : 개체명을 이용한 주제기반 웹 문서 클러스터링)

네이버 뉴스 검색에 클러스터링 알고리즘이 적용되면서 실급검을 클릭했을 때 보여주는 뉴스 검색 결과가 이전과는 다른 형태로 펼쳐지고 있다. 최신순, 정확도순에 따라 수십 페이지씩 열거되던 모습은 사라졌다. 이젠 유사한 문서끼리 그룹(클러스터)으로 묶여서 노출된다. 사용자의 입장에선 내용상 차이가 없는 뉴스를 반복적으로 소비할 필요가 없어졌다.

반면 언론사 입장에선 실급검에 노출될 목적으로 작성된 뉴스가 사용자들로부터 선택 받을 확률이 낮아졌다. 뉴스 검색을 통한 트래픽 유발 방식에 제동이 걸린 것이다. 이는 향후 언론사의 트래픽 하락으로 이어질 수 있다.

무엇보다 실급검에 노출되기 위해 제작된 출처 없는 네티즌 인용 보도는 설자리가 모호해졌다. 실급검을 포함하고 있는 최신 기사가 검색 결과 상위에 노출되는 방식이 사라졌기 때문이다. 일각에선 ‘네티즌 저널리즘’의 종말이 왔다며 반기기도 한다.

네이버 쪽은 클러스터링 알고리즘의 원칙으로 적합성과 최신성을 설정했다고 말하고 있다. 검색어에 가장 적합한 뉴스 문서, 그리고 가장 최근에 작성된 뉴스 문서를 비중있게 노출하겠다는 의도다. 하지만 구체적인 알고리즘 반영 요소에 대해서는 함구했다. 네이버 홍보실의 한 관계자는 “좋은 뉴스 문서가 무엇이냐를 얘기하는 것 자체가 민감한 문제”라며 “자문위원회의 의견을 반영해 설계됐다는 점은 말씀드릴 수 있다”고 말했다.

남은 두 가지 문제점

네이버랩이 오랫동안 테스트해왔던 뉴스 클러스터링 서비스(출처 : 네이버랩 홈페이지 캡처)

네이버랩이 오랫동안 테스트해왔던 뉴스 클러스터링 서비스(출처 : 네이버랩 홈페이지 캡처)

네이버의 뉴스 클러스터링 알고리즘은 두 가지 측면에서 갈등을 유발할 여지를 여전히 안고 있다. 유사 문서의 판정 기준이 무엇인지, 같은 클러스터 내에서 상위에 노출되는 뉴스의 랭킹 알고리즘은 어떻게 구성되는지 알려지지 않았기 때문이다.

어뷰징 문서를 지속적으로 작성해온 언론사 입장에서는 실급검 클릭 시 표출되는 기사 묶음이 많으면 많을수록 유리하다. 검색어별 뉴스 묶음이 더 많이 만들어질수록 클러스터 내 상위 기사로 노출될 기회가 그만큼 늘어나서다. 클러스터를 쪼개는 기준은 알고리즘 내 ‘유사도 임계값’과도 관련이 있어 이 값을 어떻게 설정하느냐에 따라 언론사의 희비는 엇갈리게 된다.

예를 들어, 유사도 임계값을 높게 설정하면 검색어별 클러스터 수가 줄어들고, 그 반대면 늘어난다. 클러스터수가 적으면 정보의 다양성이 차단당한다. 그렇다고 과도하게 클러스터수가 늘어나면 기존 검색 결과값과 다를 게 없다는 평가에 직면할 수 있다. 네이버 입장에서도 키워드별 클러스터의 수를 적정선으로 유지하는 것이 중요하다. 이 과정에서 언론사들이 클러스터 형성 기준을 공개하라며 목소리를 높일 가능성이 존재한다.

클러스터 내에 배열되는 기사 순위도 갈등의 소지를 품고 있다. 언론사들은 그룹으로 묶인 클러스터 내에서도 가장 상위에 자사 기사가 배치되기를 기대한다. 최대한 많은 트래픽을 얻어갈 수 있기에 그렇다, 이 위치에 오르기 위한 경쟁은 클러스터링 알고리즘 적용 이후에도 계속될 수밖에 없다.

만일 최신성이 랭킹 알고리즘의 중요한 변수로 작용하게 된다면 클러스터 내 상위 랭킹을 점유하기 위한 어뷰징 경쟁이 지속될 수도 있다. 이에 대해 네이버 홍보실 관계자는 “속보성만 가장 중요한 요소로 반영하지는 않을 것”이라고 말했다.

네이버 뉴스 검색의 클러스터링 도입으로 네이버와 언론사 간의 치열한 신경전이 다시 불붙게 됐다. 알고리즘 역공정으로 자사 기사를 상위에 노출하려는 언론사와 지속적인 알고리즘 개선으로 어뷰징에 대응하려는 네이버, 그 속에서 저널리즘이 제 위치를 찾아갈 수 있을지는 두고 볼 일이다.

참고 자료

신유현·안연찬·이상구.(2013). 신문 기사의 사건 탐지를 위한 문서 클러스터링.
주길홍·이주일·이원석.(2011). 효율적인 문서 검색을 위한 연관 키워드 추출 및 확산 클러스터링 방법.


Viewing all articles
Browse latest Browse all 15

Trending Articles