Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
data_analysis:data_analysis_applications [2019/12/13 06:06] – prgram | data_analysis:data_analysis_applications [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 3: | Line 3: | ||
{{tag> | {{tag> | ||
+ | * AI스피커가 음성인식에 자주 학습하는 데이터 : 노래 TOP100 | ||
+ | * 일반 단어로 이루어지지 않음. 후보정에서 잘못될 가능성이 있음 (ex. 극한직업-> | ||
+ | * [[https:// | ||
+ | * 저희 기술은 운전자가 정상적으로 운전을 하고 있는지, 아니면 졸고 있는지, 음주를 했는지, 옆사람과 얘기하고 있는지 등을 감지해 정상 상태가 아닐 경우 이를 빠르게 판단해 운전자에게 알려줍니다. AI로 운전자의 눈·코·입 등 안면 상태 감지, 시선 추적 등을 하는 것이 딥인사이트의 핵심기술입니다 | ||
+ | |||
+ | * '23. 2월 KRG Weekly ' | ||
+ | * 식품업계가 다양한 인공지능 시스템을 도입. 식품 제조 공정을 학습한 AI가 기존에 사람이 하던 일을 더욱 빠르고, 정확하게 처리하면서 작업 효율이 크게 높아지기 때문. 한식 브랜드 ' | ||
+ | * 참치캔을 판매하는 (동원F& | ||
+ | |||
+ | * [[https:// | ||
+ | * 어신(漁神)은 국내 최초 AI∙빅데이터 기반의 낚시 정보 서비스다. 어신은 위치기반 정보와 머신러닝 기술을 활용해 ‘누구나 낚시의 신(漁神)’이 될 수 있도록 돕는다. 임 대표는 어떠한 레저스포츠보다 자연적 변수와의 싸움, 그리고 장비와 기술이 많이 필요한 분야가 낚시라는 점에서 가장 먼저 어신을 출시했다고 전했다. | ||
+ | * 어신은 물때, 수온, 풍향, 풍속, 유향, 유속 등 낚시 환경 정보를 제공해 낚시하기 좋은 타이밍 선정을 돕는다. 미국해양대기청, | ||
+ | * “자체적으로 개발한 알고리즘을 토대로 4대 돔 지수와 해당 지역∙시즌에서 출몰 확률이 높은 어종도 알려줍니다. 금어기, 방생 기준부터 최신 법 개정, 해당 지역 속보 등 안전을 위한 정보도 제공하죠. 피싱숍, 선박 예약, 숙박 등 출조 전∙후에 필요한 정보도 검색할 수 있어요.” | ||
+ | |||
+ | * [[https:// | ||
+ | * 노타 : 사용자의 이용 데이터 패턴을 분석해 키의 인식 영역을 이용자에게 최적화 | ||
+ | * 스마트폰 사용자의 ‘키보드 터치 위치 로그’ 데이터를 통해 입력 패턴을 분석하고, | ||
+ | * 플랫팜 : 수천 종류의 이모티콘 중 채팅 문맥에 부합하는 이모티콘을 추천하여 상단에 표시 | ||
+ | * [[http:// | ||
+ | * 연구팀은 1700년에서 1900년 사이 작곡된 서양 피아노 악보에서 동시에 연주되는 음정을 뜻하는 ‘코드워드’를 추출했다. 이후 작폼 사이 유사도를 측정해 작품이 서로 얼마나 영향을 주고받았는지를 나타내기 위해 네트워크 과학을 활용해 연결망을 만들었다. 여기서 각 작품이 얼마나 혁신적인지와 후대 작품에 영향을 끼쳤는지를 통해 창의성을 평가했다. | ||
+ | * 얼굴 인식 시스템을 무력화시키는 ‘사생활 보호’ 인공지능 | ||
+ | * 캐나다 토론토대 공대 연구진이 얼굴 인식 알고리즘을 무력화시키는 ‘사생활 보호 필터’를 설계했다. 이 시스템은 두 개의 인공지능 알고리즘에 의존한다. 하나는 지속적으로 얼굴을 인식하고, | ||
+ | * “파괴적 인공지능은 얼굴 인식을 하는 신경망이 보려고 하는 곳을 공격한다”며 “예를 들어 만약 얼굴 인식 인공지능이 눈 가장자리를 보려고 하면 사람은 전혀 알 수 없을 정도로 눈 가장자리를 미세하게 변형시킨다. 인공지능은 사진에서 매우 미세한 방해를 하지만 얼굴 인식 인공지능을 속이기에는 충분하다”고 말했다. | ||
+ | * 사무실 간식 대신 채워드려요 | ||
+ | * 선호하는 간식의 맛과 향, 직원 수, 예산, 간식 공간 유무는 물론이고 컵라면 등의 소비를 위해 음식물 쓰레기 처리가 가능한 사무실인지 환경까지 파악한다. | ||
+ | * 이 과정에서 그동안 쌓인 데이터가 중요한 역할을 한다. 스낵포의 경우 간식 제품별로 2만 개의 키워드를 정리내 놓았다. 예를 들어 ‘새우깡’이라면 고소한 맛, 봉지 과자, 새우 맛, 간식 공간 있는 곳 등 30개의 키워드가 붙어 있다. 고객사가 콕 집어 간식 명을 이야기하지 않고 선호하는 간식의 맛과 형태, 포장 등을 이야기할 때 이 키워드 데이터 베이스가 큰 역할을 한다. 스낵24도 간식 제품마다 특징을 설명하는 태그(tag·꼬리표)를 달아 관리하고 있다. | ||
+ | * [[https:// | ||
+ | * 센드버드는 인공지능 회사를 표방하지 않으며, 대화를 자동화하는 챗봇도 개발하지 않음 \\ 많은 회사들이 무책임하게 챗봇을 개발해준다고 표방한 것과 달리 센드버드는 메시징 API를 \\ 공급하는 전략으로 성공함 : 지금 가능한 기술로, 지금 필요한 일을 손쉽고 빠르게 할 수 있는 \\ 플랫폼 모델을 마련했다는 점에서 모범적인 사례 | ||
+ | * “AI는 이상과 현실 사이에 간극 있다”(한겨레 2017.1.16.)7) - 센드버드 김동신 대표 인터뷰 | ||
+ | * ○ 챗봇과 인공지능 열풍에 대해서는 신중하게 봐야… | ||
+ | * ○ 지난해 챗봇에 투자사들이 많은 투자를 했는데 실제로 챗봇의 인공지능이 약속한 기능을 해주지못한 게 많았다. 기술 시연은 되지만 사업화까지 안 되는 것을 많이 본 것이다. | ||
+ | * ○ 기술을 알면 알수록 낙관만 할 것은 아니라는 점을 깨닫는다. | ||
+ | * ○ 이상과 현실 사이에 간극이 있다. 고객 상담 내용이 산업이나 소비자에 따라 너무 달라 처리가 어렵다. | ||
+ | * ○ 데이터도 어렵고, 이를 적절히 처리해주는 알고리즘을 짜기도 어렵고, 이런 어려움을 함께 견딜 고객사를 찾는 것도 쉽지 않다 | ||
+ | * 롯데제과 (IBM) : 롯데제과는 기존의 시장 조사를 통해 얻던 제품 아이템 단위의 판매 정보 이상으로 세밀한 식품 트렌드 예측 능력을 확보하게 되었습니다. 그 관점의 분석을 위해 제품 DNA 개념을 도입하고 알고리즘에 적용하였습니다. 제품의 속성을 맛, 소재, 식감, 모양, 규격, 포장 등 7~8가지의 큰 카테고리로 나누고 수천 개의 세부 DNA로 정의하였습니다. 또한 지역, 유통채널, | ||
* 페이스북은 내가 우울증인 걸 알고 있다. - 봄빛서원, | * 페이스북은 내가 우울증인 걸 알고 있다. - 봄빛서원, | ||
* 알리바바 : 자동 판매 광고 문구 | * 알리바바 : 자동 판매 광고 문구 | ||
Line 67: | Line 102: | ||
* 사우디아라비아의 원유 저장량 수치가 사우디 정부 발표보다 더 많다는 분석 (원유 탱크의 그림자 크기 등 정보) | * 사우디아라비아의 원유 저장량 수치가 사우디 정부 발표보다 더 많다는 분석 (원유 탱크의 그림자 크기 등 정보) | ||
* 미국 소매매장 손님수, 자동차 수출입대수, | * 미국 소매매장 손님수, 자동차 수출입대수, | ||
- | * 윔블던 - 자동 하이라이트 [[http:// | + | * 윔블던 - 자동 하이라이트 [[http:// |
- | | + | |
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
Line 146: | Line 180: | ||
벤자민 프랭클린의 다이어리 : 자신의 일상을 표로 기록 | 벤자민 프랭클린의 다이어리 : 자신의 일상을 표로 기록 | ||
- | ====== | + | ====== |
- | + | ||
- | {{tag> | + | |
- | + | ||
- | * [[http:// | + | |
- | * [[http:// | + | |
- | * 행정안전부와 경찰청은 최근 2년 간 전국에서 발생한 범죄사건의 현장을 기록한 ‘임장일지 데이터’를 AI 기술로 분석해 동일범의 여죄추적에 활용했다고 17일 밝혔다. | + | |
- | * 관리원은 여죄 추적 모델을 구현하기 위해 기존 검증된 알고리즘(TF-IDF) 뿐만 아니라 구글이 발표한 최신기술(Doc2Vec) 등 총 4개의 알고리즘에 대해 3개월에 걸쳐 기계학습으로 수차례 테스트했다. 이미 여죄가 밝혀진 임장일지(정답 데이터)로 반복적인 테스트와 검증을 거쳐 적중률 높은 분석기법을 찾아낸 것이다. | + | |
- | * [[https:// | + | |
- | * 흑백사진과 영상에 색 복원하기 | + | |
- | * CSI처럼 픽셀 복원 (확대시) | + | |
- | * [[http:// | + | |
- | * Project Revoice는 Pat Quinn의 목소리를 되살리는 프로젝트다. 음성 데이터 분석 회사인 Lyrebird의 음성분석 인공지능 기술은 30분, 300문장 이상의 음성 데이터만 있으면 2~3시간 내에 목소리 복제가 가능하다. Pat Quinn의 수많은 강연 영상은 그의 목소리를 되찾아 주는데 사용되었다 | + | |
- | * 그렇다면 아예 목소리가 없던 사람들은 어떨까? 선천적인 이유로 자신만의 목소리가 없는 사람들이라면 음성 데이터 은행을 통해 자신이 상상하는 목소리를 갖게 될 수도 있다. 이 목소리를 직접 사용할 수는 없겠지만, | + | |
- | * 현재는 발음을 교정하기 위해 물리적으로 녹음하고 이를 반복해서 들으며 수정하는 방법이 사용되는데, | + | |
- | * [[http:// | + | |
- | * 댄 보겔 캐나다 워털루대학교 컴퓨터과학과 교수팀은 앱을 만들기 위해 먼저 3차원 가상 모델 6명을 만든 뒤 얼굴의 각도와 크기, 빛의 방향을 달리하며 셀카 수백 장을 가상 카메라로 찍었어요. 그리고 2700명에게 좋은 사진과 나쁜 사진, 애매한 사진을 3개씩 선택하게 했어요. 그 결과를 토대로 얼굴의 크기와 위치, 광원의 위치가 어떨 때 좋은 사진으로 평가하는지 채점하는 함수를 만들었어요. | + | |
- | * 그리고 사용자가 사진을 찍을 때 실시간으로 점수를 매겨 점수가 높아질 수 있도록 화살표로 안내하는 앱을 개발했어요. 얼굴의 크기를 줄일지 키울지, 광원과 얼굴의 위치는 어디가 좋은지 화살표로 알려줘요. | + | |
- | * [[http:// | + | |
- | * 이 시스템은 우버 앱을 통해 사용자의 오타, 링크나 버튼을 정확하게 누르는지 여부, 걷는 속도, 탑승 요청을 완료하는 데까지 걸리는 시간 등 다양한 요인을 평가한다. 이렇게 습득한 정보를 머신 러닝 기술을 통해 분석한 뒤 술에 취한 승객을 감지한다. | + | |
- | * 이를 통해 우버 운전자는 사용자가 음주를 했을 수도 있다는 안내를 사전에 받을 수 있다. 운전자는 안내에 따라 해당 사용자를 피할 수도 있고, 숙련된 운전자를 연결해주는 등의 활용도 가능해 보인다. | + | |
- | * [[https:// | + | |
- | * 이틀 동안 18시간을 투입해 이 프로그램을 만들었다. 원리는 간단하다. 자전거를 타고 촬영한 영상을 AI가 학습해 자전거의 앞길은 안전한 보도로 그 외에 아스팔트가 놓인 옆길은 차도로 구별해 음성으로 알려준다는 것. | + | |
- | * [[http:// | + | |
- | * 최근 페이스북은 메시지 작성자의 타이핑 속도, 키보드를 누르는 강도, 움직임이나 위치 등을 종합적으로 파악해 어떤 감정 상태에서 메시지를 작성했는지 예측하는 기술에 대해 특허를 받았다. 특허의 영문 제목은 < | + | |
- | * 코넬대학교 학생 3명이 Keymochi 라는 이름의 키보드를 연구하고 있는데 페이스북의 특허와 닮은 구석이 많다. 방글라데시의 이슬라믹 공대 학생들도 비슷한 연구를 했다. | + | |
- | * [[https:// | + | |
- | * 사람 건너니 없던 건널목 생기고 폭도 자동 조절, 스마트폰 보면 바닥 빨간색으로 변해 경고, 길 바닥에 LED 전구 심어..10월에 런던서 시범 운영 | + | |
- | * [[https:// | + | |
- | * cuDNN 가속 기반 텐서플로우(TensorFlow) 딥러닝 프레임워크를 이용해 모델을 만들었습니다. 그가 사용한 데이터 세트는 손으로 그린 이미지를 캡처한 1,750장의 스크린샷입니다. | + | |
- | * 위성사진 분석해주고 돈버는 스타트업 ' | + | |
- | * 사우디아라비아의 원유 저장량 수치가 사우디 정부 발표보다 더 많다는 분석 (원유 탱크의 그림자 크기 등 정보) | + | |
- | * 미국 소매매장 손님수, 자동차 수출입대수, | + | |
- | * 윔블던 - 자동 하이라이트 [[http:// | + | |
- | * 군중 소음, 사회적인 소셜 트랙션(Social Traction), 안면 인식, 선수의 정서 분석에 기초하여 비디오 하이라이트를 생성하고 하이라이트 패키지를 자동으로 조정한다. | + | |
- | * [[http:// | + | |
- | * | + | |
- | + | ||
- | [[http:// | + | |
- | + | ||
- | * | + | |
- | + | ||
- | 코멘토는 현직 종사자들이 제공한 답변과 더불어 DiSC 행동유형을 접목한 ‘AI자소서 분석 서비스’를 제공한다. 자소서는 작성자가 지원 업무에 관련된 강점을 부각할 수 있게 작성한다. 한정적인 글 양식에서는 장점을 부각시키려고 특정한 언어적 표현을 선택한다. AI 분석 서비스는 코멘토의 멘토링을 통해 수집된 자소서와 현직종사자의 평가정보를 데이터베이스로 삼고, 자연어처리와 머신러닝을 활용해 가이드를 제공하는 방식으로 구동된다. | + | |
- | + | ||
- | * | + | |
- | + | ||
- | AI는 DiSC의 4가지 기본성향, | + | |
- | + | ||
- | * | + | |
- | + | ||
- | 개발은 심리학 석·박사 출신으로 꾸며진 ‘전문가 그룹’과 통계학을 전공한 ‘데이터 그룹’, 소프트웨어를 개발하는 ‘개발 그룹’ 3개 파트로 나눠 진행했다. 단순히 AI 알고리즘만 만들지 않고, 데이터 분석과 심리 분석까지 종합적으로 검토했다. 성적은 등급으로 매기고, 등급은 S부터 D까지 총 7단계(B등급이 3단계로 세분화)다. 등급이 높을수록 고득점이다. | + | |
- | + | ||
- | * [[http:// | + | |
- | * 구글은 인재관리(HR·Human Resource)라는 용어 대신 인재운영(People Operations)이란 용어를 쓴다. 또 인사를 운영하는 주체를 인재 분석팀(People Analytics)이라고 부른다. | + | |
- | * 구글 내부 데이터를 분석해 성공적인 매니저의 중요성과 조건을 밝혀내고, | + | |
- | * PiLab(People & Innovation Lab)을 운영해 사회학적 실험을 통해 가장 효율적으로 인재를 관리하고 생산성을 높이는 방법을 파악한다. 여기에는 직원들이 가장 만족해 하는 동기부여 방식을 파악하고 건강 증진을 위한 과학적인 실험들도 포함된다. | + | |
- | * 최근 많은 기업이 도입을 검토하고 있는 예측적 분석학(predictive analytics) 기법들을 활용해 직원들의 이직확률 계산모형을 통한 선제적 이직방지, | + | |
- | * [[http:// | + | |
- | * 이들에게 전통적인 방식은 개개인의 직원들을 대상으로 링크드인(LinkedIn)과 같은 특정 이직 사이트 방문 기록이나 포탈 상에서 이직과 관련된 검색어 사용 여부를 확인하는 것이었습니다. | + | |
- | * 인재 관리 기법에 이러한 예측 기법들을 활용하는 스타트업 hiQ Labs은 인력 시장에서의 수요와 공급 상황을 함께 고려하여 직원의 이직 고려 시점을 훨씬 정확하게 예측합니다. 이를테면, | + | |
- | * [[http:// | + | |
- | * 생소하거나 불쾌한 냄새가 나는, 그리고 아무 냄새가 나지 않는 분자 까지를 포함한 480종의 분자를 준비했습니다. 그리고 크레이그 리스트를 통해 모은 55명의 자원자들이 실험실을 방문해 선반에 올려진 유리병을 일일이 열어 냄새를 맡았고, 이를 기록했습니다. 이들은 얼마나 강하거나 좋은 냄새인지, | + | |
- | * 이 대회에서 338개의 분자는 알고리듬을 학습하는데, | + | |
- | * 성능 결과가 0 에서1 사이일때, | + | |
- | * [[http:// | + | |
- | * 상품이 입고되면, | + | |
- | * 자투리 공간 없이 창고 공간을 100% 활용할 수 있게 된다. 그리고 ‘이 상품군은 어디에 보관해야 한다’ 등 신입사원이 배워야 할 내용이 줄어든다. 게다가 다른 종류의 상품 속에서 실수로 잘못 꺼내는 일도 줄어든다. | + | |
- | * [[http:// | + | |
- | * 시카고 컵스 빅데이터 분석의 핵심은 3D 모션 픽처 전문업체인 키나트랙스(KinaTrax)와 인도업체 아이메리트(iMerit)다. | + | |
- | * 키나트랙스 기술의 특징은 ‘표시장치 없이(markerless)’ 선수들의 동작을 촬영할 수 있다는 점이다. 이를 통해 선수들이 경기할 때 정확한 뼈의 위치와 골격 모델을 3D 영상으로 만들게 된다. 이 기술은 특히 투수들에게 유용하게 활용될 수 있다. | + | |
- | * 이 회사는 키나트랙스 영상을 토대로 데이터를 생성한 뒤 각 투수 신체의 핵심 지점을 포착한 뒤 신체구조를 바탕으로 한 다양한 모형으로 분류한다. 현재 아이메리트는 미국 메이저리그 투수 250명 가량을 분석한 데이터를 갖고 있다고 옵저버가 전했다. 이렇게 축적한 자료는 선수의 기량을 끌어올리거나 부상을 방지하는 데 유용하게 활용된다. | + | |
- | * [[http:// | + | |
- | * 국가가 지역별 가계 수입과 지출을 정확하게 파악하는 일은 정책 결정에 중요한 요소다. 그러나 이를 조사하려면 많은 비용과 시간이 드는 탓에 개발도상국들은 실태를 파악하기가 어려웠다. | + | |
- | * 이에 밤 시간대 사진을 분석하는 경우도 있었다. 밤에 켜진 불빛의 양이 많을수록 경제 활동도 활발하다는 점에 착안해 위성으로 관측한 야간 사진을 지도 위 불빛의 세기와 넓이만 보고 경제 규모를 추정하는 방법이다. 그러나 이 방법으로는 대략적인 경향만 파악할 수 있을 뿐 세세한 정보를 얻기에는 한계가 있었다. 빈곤국일수록 밤 시간대에는 불빛이 거의 없어 지역별 차이점을 분석하기도 쉽지 않다. | + | |
- | * 이런 문제를 해결하기 위해 연구진은 낮 시간대 인공위성 영상을 인공지능에 분석하게 만들었다. 차량의 이동, 수렵 및 농경 활동 등을 감지할 수 있어 비교적 많은 정보를 얻을 수 있기 때문이다. | + | |
- | * 연구진은 이미지 식별에 주로 쓰이는 ‘나선형신경망(CNN)’ 기술도 활용했다. 인공위성 영상을 1000개의 카테고리로 세분해 분류하도록 한 것으로 포장도로와 비포장도로, | + | |
- | * [[http:// | + | |
- | * NTT도코모는 자사 이동통신 가입자들의 위치 정보, 과거 택시 승차 데이터, 일기예보 등을 기계 학습해 2천500㎡ 면적으로 나눈 구역별 택시 수요를 92%의 높은 정확도로 예상해낸다. 아울러 현재 운행 중인 택시들의 위치 정보를 함께 파악, 30분 뒤 어디로 가면 바로 승객을 태울 수 있는지를 각 택시 기사에게 차량 내 태블릿 PC를 통해 알려준다. | + | |
- | * NTT도코모는 지난해 하반기 도쿄와 나고야에서 이 서비스를 시험 운영해 택시 기사들의 소득이 하루 4천500엔에서 6천732엔으로 49%나 늘어난 것을 확인했다. \\ 빅데이터와 AI만으로 돈을 벌 수 있다는 사실을 실증한 셈이다. | + | |
- | * [[http:// | + | |
- | * 선체 등 이동 수단에 매설된 광섬유를 통과하는 빛의 변화를 토대로 손상 부위와 부위별 충격 강도를 예측한다. | + | |
- | * 두 재료 이상을 조합한 복합재료는 가벼우면서도 강도가 높아 항공기나 발사체, 자동차, 선박 등의 재료로 각광받고 있다. 하지만 탄성이 있어 충격을 받아도 대부분 내부에만 손상이 생겨 손상 부위를 정밀하게 찾기 어려운 문제가 있었다. | + | |
- | * [[http:// | + | |
- | * 스마트팜 2.0 앱은 줄기의 직경뿐만 아니라 생장 길이, 꽃의 수, 과실의 수 등 총 10개 지표의 측정값을 사진에서 자동으로 인식할 수 있다. 직접 재보지 않아도 사진만 찍으면 간편하게 생육 정보를 수집할 수 있는 셈이다. | + | |
- | * 만약 스마트폰에 3차원(3D) 영상을 촬영할 수 있는 깊이 인식 카메라가 탑재돼 있으면 2D 사진을 사용할 때보다 더 정밀한 측정이 가능하다. 2D 사진을 활용할 경우 과실의 가로 세로 직경을 분석해 그 크기를 추정하지만, | + | |
- | * [[http:// | + | |
- | * 연구진은 ▷ 먼저 22마리의 박쥐들을 두 그룹으로 나눠 별도의 케이지에서 사육하면서, | + | |
- | * ▷ 그 다음으로, | + | |
- | * [[http:// | + | |
- | * 대체 데이터에 대해 “기존에 사용하지 않았던 데이터 소스를 이용한다. 이 소스 데이터를 분석, 기존 소스에서 얻은 정보를 보완하는 인사이트를 얻을 수 있다" | + | |
- | * 한 리테일 기업이 LA에 새 매장을 개장할 계획을 갖고 있다고 가정하자. 기존에는 LA 지역에 운영 중인 매장, 유사한 대도시권 매장의 실적을 토대로 의사결정을 내릴 것이다. | + | |
- | * 그러나 대체 데이터의 경우, 몇달 동안 촬영된 쇼핑몰 주차장 사진을 이용해 주차 트래픽과 매출을 연결시킬 수 있다. 또는 계획한 입지의 유동(도보) 트래픽을 측정한 데이터 소스에서 데이터를 수집할 수도 있다. 그는 " | + | |
- | * S&P 글로벌 고객 중에 1일 10만 배럴을 정유 할 수 있는 로테르담 소재 정유소가 있다. 네이든에 따르면 이 정유소는 현재 공급 문제로 인해 1일 7만 배럴만 정유하고 있다. 3만 배럴을 더 정유 할 시설과 인력을 갖추고 있는 것이다. 유조선이 정유소 소재지 항구에 입항해 3만 배럴을 하역 했다고 가정하자. 네이든은 " | + | |
- | * 그런데 이런 문제를 극복할 수 있도록 도와주는 대체 데이터가 있다. 위성 사진이다. 네이든은 " | + | |
- | * [[http:// | + | |
- | * 퀘벡주 생 장 드 마사(Saint Jean de Matha)에 사는 윌리엄은 마야인들이 건물을 지을때 별자리를 참고했다는 점에 주목했다. 윌리엄은 발견된 마야 도시 유적 117개와 별자리 사이에 특정한 관계가 있는지 분석했다. 그 결과, 마야인들이 별자리 위치에 맞춰 고대 도시를 건설했음을 밝혀냈다. | + | |
- | * 윌리엄은 유적들과 마야인이 건축에 활용한 것으로 보이는 별자리 23개를 추려 각각의 위치를 비교했다. 딱 한 개의 별자리가 남았다. 아직 찾지 못한 도시가 있음을 시사한 순간이었다. | + | |
- | * 윌리엄은 구글 맵스와 캐나다 우주국(CSA)에서 받은 멕시코 일대 인공위성 사진을 분석했다. 이어 유카탄(Ukatan) 반도의 한 정글에 특이한 공간이 있음을 확인했다. 몬트리올 저널에 따르면, 윌리엄이 예측한 곳에는 높이 80m 피라미드와 마야 건축물 30여개가 있을 것으로 추정된다고 한다. | + | |
- | * [[http:// | + | |
- | * 아프가니스탄과 이라크의 도로에 설치된 사제 폭발물의 감지와 반군의 공격 예측, 달라이 라마의 노트북 컴퓨터에 스파이웨어를 설치한 해커의 추적, 제약회사가 개발 중인 약의 효능 분석, 주택담보 대출에 대한 금융사기 적발, 과자회사의 소비자 기호 변화 추적 등 전혀 관련이 없어 보이는 다양한 업무에 빅데이터 분석이 효과적으로 사용되고 있다. | + | |
- | * 문제 해결을 위해 페이팔은 사기 거래를 파악하는 전문가 집단을 양성하고 분석 소프트웨어를 개발했다. 이를 통해 성공적으로 사기 거래를 막아낸 후, 페이팔의 공동 창업자인 피터 틸(Peter Thiel)과 관련 엔지니어들은 이 소프트웨어가 대규모의 데이터 분석에 탁월하다는 사실을 깨닫고 보다 폭넓은 활용이 가능할 것이라고 생각했다. | + | |
- | * [[http:// | + | |
- | * 평범한 셀카용 앱이지만, | + | |
- | * [[http:// | + | |
- | * " | + | |
- | * " | + | |
- | * " | + | |
- | * " | + | |
- | * [[http:// | + | |
- | * 이들은 프로젝트 구텐베르그에서 만 단어에서 이십만 단어 사이의 길이를 가진 1,737 편의 영문소설을 모았습니다. | + | |
- | * 그들은 기계를 학습시키기 위해 책의 모든 단어를 읽어 들인 후 각 단어가 가진 행복 정도에 바탕해 각 단락의 평균 행복 정도를 측정했습니다. 이를 위해 먼저 아마존의 메카니컬 터크를 이용해 자주 사용되는 10,000 개 이상의 단어 각각이 가진 행복 정도를 수치화 했습니다. 이 일 자체도 충분히 흥미로운 작업입니다. 사람들이 가장 행복한 단어라고 평가한 10개의 단어는 아래와 같습니다. 웃음(laughter), | + | |
- | * [[http:// | + | |
- | * 빅데이터 구축 과정에서 어려움이 없었던 것은 아니다. 한국공항공사는 특히 국내선 이용객에 대한 데이터 확보에 어려움을 겪었다. 한국공항공사가 관리하는 14개 전국 공항(인천 제외)의 여객 중 국내선 이용객이 약 80% 이상임에도 국내선 이용객에 대한 데이터는 매우 적었다. \\ 국내선은 국제선과 같은 법무부 출입국 심사를 받지 않아 수속 시 최소한의 절차, 성명 대조 정도만 진행하고 있기 때문이다. 탑승객 이름 외에는 전무한 국내선 이용객의 특성을 추정해내기는 불가능해 보였으나 현재 보유하고 있는 국제선 이용객 데이터와의 상관관계 분석 모델 수립을 통해 국내선 이용객 정보를 분석할 수 있었다. | + | |
- | * 국내선 여객 특성 분석의 가장 기본이 되는 키워드 ‘국적’에 대한 예측은 이렇게 진행됐다. 우선 ‘성(Family Name)’ 데이터와 ‘국적’데이터를 보유하고 있는 국제선 데이터를 빅데이터 플랫폼에 수집·적재해 데이터 마이닝을 통해 상관관계를 발견하고 이 패턴을 머신러닝(기계학습)으로 학습하게 해 국내선 데이터에 접목시켰다. 학습한 결과를 바탕으로 국내선 이용객의 ‘성’데이터를 입력하면 ‘국적’을 도출해 낸 것이다. 예측 데이터이기에 100% 정확할 수 없지만 데이터 분포 중 발생확률이 가장 높은 데이터가 우선순위로 산출되며, | + | |
- | * [[http:// | + | |
- | + | ||
- | ===== historical ===== | + | |
- | + | ||
- | 19c : 나이팅게일, | + | |
- | + | ||
- | 19c : 존 스노우, 콜레라 발병 원인 | + | |
- | + | ||
- | 벤자민 프랭클린의 다이어리 : 자신의 일상을 표로 기록 | + | |
===== 일반 사례 ===== | ===== 일반 사례 ===== |