1. 빅데이터와 인공지능 그리고 머신러닝
도로를 달리는 컴퓨터
최근 기술 발전에 따라 자율주행차량은 현실로 다가오고 있다.
자율주행차량은 2,666명의 인터넷 사용자와 비슷한 데이터를 단 하루에 만들어내고 있다.
수백 가지의 센서를 통해 아주 많은 데이터를 만들어내고 정보를 바탕으로 자율주행차량이 움직인다.
만약 데이터가 없다면 차량은 아주 수동적인 차량에 불과할 것이며, 미래에는 훨씬 더 많은 데이터를 만들어낼 것이다.
구분 | 0단계 | 1단계 | 2단계 | 3단계 | 4단계 | 5단계 |
명칭 | 수동 | 운전자 보조 | 일부 자동화 | 조건부 자동화 | 높은 자동화 | 완전 자동화 |
운전자 개입 | 항상 | 항상 | 항상 | 요청 시 | 특정 상황 | 없음 |
기술 | 없음 | ADAS* | ADAS | ADS* | ADS | ADS |
회사 | 테슬라 | 우버 | 웨이모 |
*ADAS(Advanced Driver Assistance System) *ADS(Automated Driver System)
컴퓨팅 파워
CPU의 발전으로 노트북에서도 작은 딥러닝 모델을 돌릴 수 있게 되었다.
하지만 고차원의 감각 데이터를 다루기 위해서는 10배 이상의 계신 능력이 필요하다.
2000년대에 그래픽 전문 회사에서 비디오 영상의 그래픽 성능을 높이기 위해 GPU를 발전시켰다.
고속 병렬 연산이 필요한 딥러닝에서도 사용하였으며, 딥러닝의 효율을 높이기 위해 특화된 딥러닝 칩을 만들게 되었다.
이후 구글은 텐서 처리장치(TPU) 프로젝트를 공개했는데, 이는 딥러닝 기반 산업에 큰 기여를 하였다.
빅데이터와 인공지능의 발전
구분 | 1세대 | 2세대 | 3세대 | 4세대 |
기술 | OLTP | OLAP/DW | 빅데이터 | AI |
연도 | ~1999 | 2000 | 2007 | 2016~ |
대상 | 정형 | 정형(다차원) | 정형-비정형 | 지능화 데이터 |
- 1세대 : 비즈니스 업무 처리를 지원하는 온라인 거래 처리 시스템(OLTP)에서 발전 (효율적인 CRUD)
- 2세대 : 비즈니스 모델을 다양한 관점에서 추출 분석할 수 있도록 지원하는 데이터 분석 기술(OLAP)이 발전
- 3세대 : 2007년 1월 9일 샌프란시스코 모스콘 센터에서 스티븐 잡스가 애플의 모바일 전화기를 발표
- 4세대 : 2016년 3월 16일 (알파고 vs 이세돌)을 통해 머신러닝을 통한 '데이터 분석'의 힘을 보여주는 압도적 사례
2. 인공지능 시대 기술
인공지능 머신러닝 딥러닝과 빅데이터
- 인공지능 : 일반적으로 사람이 수행하는 지능적인 작업을 자동화하기 위한 연구 활동
명시적 규칙을 충분하게 많이 만들어 인공지능을 만드는 방법 -> 심벌 AI - 머신러닝 : 프로그래머가 직접 만든 규칙 (심벌 AI) -> 컴퓨터가 직접 규칙을 학습하여 만든 인공지능 (머신러닝)
- 딥러닝 : 작업 흐름을 단순화시켜 간단한 모델로 대체 가능하며, 데이터로부터 학습하는 방법으로 성장
인공지능 센서가 되는 사물인터넷(IoT)
사물인터넷은 기존에 있는 기술을 응용하는 융합 신기술 분야이다.
다양한 신기술과 융합되어 '지능형 사물인터넷'형태로 발전하고 있다.
IoT 기술은 1단계 연결형, 2단계 지능형, 3단계 자율형으로 진화할 것이며, 오늘날은 2단계로 넘어가고 있는 추세이다.
사물인터넷의 연결성은 제품과 센서, 프로세서와 같은 스마트 요소들을 통해 모니터링, 제어, 최적화를 가능하게 한다.
인공지능 확산 핵심 인프라 클라우드
클라우드는 머신러닝 툴을 이용할 수 있는 플랫폼이 됨에 따라 주목을 크게 받고 있다.
글로벌 클라우드 기업들은 인공지능 기술들을 지원하고 있다.
인공지능을 이용하기 위해서는 수많은 데이터를 저장할 공간과 컴퓨팅 성능이 필요하다.
클라우드는 이를 충족시키기에 점차 입지는 커갈 것이며, 인공지능과 머신러닝의 확산에 속력을 더할 것이다.
인공지능 원료 빅데이터
인공지능 기술은 수십 년 동안 존재해 왔지만, 원재료인 데이터가 폭발적으로 증가함에 따라 엄청난 속도로 발전하였다.
매년 데이터 생산량은 2배로 증가하고 있고, 10년 후에는 1500억 개의 네트워크 센서가 존재할 것으로 예측된다.
이 데이터는 인공지능이 인간의 지능을 모방하도록 도와줄 것이며, 결국은 인간의 개입이 필요 없어지게 될 것이다.
더 안전한 블록체인 기반 인공지능
빅데이터에 대한 정보들은 수집 방법 등 세세한 정보를 공개할 법적인 의무가 없다.
하지만 블록체인의 데이터들은 모두 사실에 기반한 데이터들이다.
이 데이터들을 활용해 보다 정확한 미래 분석이 가능해질 것이다.
3. 데이터 사이언티스트
빅데이터 머신러닝(이하 빅 러닝)을 위한 지식들
빅 러닝 : 다양한 기술과 지식을 활용하여 인사이트를 얻거나 지능화 시스템을 구현하기 위한 모든 업무
필요 지식 : 인공지능, 통계학, 데이터 분석 도구, EDA, 학습 모델, 빅데이터, 딥러닝, 데이터 프로젝트 경험
데이터 기술자 시대
시대가 발전함에 따라 DT(Data Technology) 시대가 도래하고 있다.
DT 시대에는 데이터 기반 대중 서비스와 생산 효율성 중심으로 4차 산업이 발전하게 된다는 것이다.
결국 조직이 보유한 데이터가 얼마나 미래가치를 창출하는지가 중요하다.
데이터 사이언티스트
대부분이 석사 이상의 학위를 소지하고 있으며, 프로그래밍 언어는 필수적으로 소지하고 있다.
SQL 데이터베이스에 대한 지식도 필요하며 다양한 데이터를 다룰 수 있는 능력이 필요하다.
또한 통계적 사고와 수학 능력 그리고 조직 및 고객과의 의사소통 방법과 데이터 시각화 기술도 필요하다.
빅 러닝 파이프라인
빅 러닝은 마법이 아니다.
어떠한 절차를 통해 진행을 한다면 더욱 효과적인 방법으로 데이터 파악이 가능할 것이다.
개발자는 코드 파이프라인이 있는 것처럼, 빅 러닝에도 머신러닝 설루션을 통한 빅 러닝 파이프라인이 존재한다.
Reference.
파이썬으로 경험하는 빅데이터 분석과 머신러닝 - 이영호, 이영호 지음
http://scimonitors.com/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4-%ED%95%99%EC%8A%B5-%EA%B0%80%EC%9D%B4%EB%93%9C/