문의하기

Data Science Cloud Service (DataMixi.com)

Data Science Cloud Service - DATAMIXI는 데이터 과학자를 위하여 지능형 데이터 분석을 위한 통찰과 인공지능이 결합한 인지분석 서비스로 데이터를 융합하여 심층 분석하고 다양한 관점에서 시각화함으로써 데이터 간의 숨겨진 패턴을 발견하고 미래를 예측할 수 있는 국내 유일의 데이터 과학자들을 위한 포털 서비스입니다. 데이터 과학자나 인공지능 기반 데이터 분석 서비스를 매시업 (mashup) 방식으로 프로젝트에 통합하고자 하는 IT 엔지니어, 개발자들을 위해 기획된 데이터 과학 컨설팅 서비스입니다.

Data Science Cloud Service - DATAMIXI

< Data Science Cloud Service - DATAMIXI >

Data Science Cloud Service - DATAMIXI는 데이터사이언스, 데이터 큐레이션, 인지분석 서비스로 구성되어 있습니다. 데이터사이언스는 빅데이터구축에서 분석 및 활용까지의 전 과정을 지원하는 클라우드서비스에 대한 명칭입니다. 데이터 큐레이션은 솔트룩스 데이터구축-분석 프로세스를 특징짓는 <Human-in-the-loop>를 통해서 데이터구축자와 소프트웨어 시스템이 협업할 수 있는 구조를 통칭합니다. 인지분석 서비스는 트렌드 분석, 감성분석, 시각화 서비스로 구성되어 있으며 수백억 단위의 인스턴스로 이루어진 데이터셋을 바탕으로 분석 및 시각화 서비스를 제공합니다.

주요 특징

인공지능과 데이터 과학자를 위한 국내유일의 데이터 과학 포털 DATAMIXI는 데이터 분석을 위한 통찰과 인공지능이 결합된 인지분석으로 데이터를 융합하여 심층 분석하고 다양한 관점에서 시각화 함으로써 데이터 간의 숨겨진 패턴을 발견하고 미래를 예측할 수 있습니다.

국내 유일의 Big Data & AI 커뮤니티
국내 유일의 데이터 과학자들이 함께하는 Big Data&AI 커뮤니티로써 전문가들과 소통하고 최신 정보들을 만나볼 수 있습니다. 데이터 아키텍처, 데이터 엔지니어, 데이터 과학자 등 각분야의 최고의 전문가가 DATAMIXI와 함께하고 있습니다.
지능형 OpenAPI를 통한 Big Data 분석 기술 공개
20년간 빅데이터에서부터 대규모 기계학습과 추론까지 인공지능 한길을 걸어온 솔트룩스의 기술력을 기반으로 최고의 서비스를 제공합니다. 빅데이터, 인공지능 기술력이 집약된 다양한 분석들을 통해 테스트 및 서비스에 활용할 수 있습니다.
국내 최대 규모의 지능형 빅데이터 플랫폼 활용
수집, 저장, 데이터분석, 기계학습, 추론 등 각 분야별 최고의 솔루션이 결합되어진 국내 최대 규모의 지능형 플랫폼을 활용할 수 있습니다.
아시아 최대 규모의 데이터 제공
소셜 데이터, 오픈데이터, 링크드 데이터, 실시간 데이터 외에 도메인별 다양한 사전 등의 분석에서 바로 활용가능한 빅데이터를 공급받거나 활용하 실 수 있습니다.
세계 최고 수준의 데이터 가공 서비스 제공
세계 최고 성능의 빅데이터 수집 엔진인 ‘TORNADO’와 자체 보유한 국내외 전문 큐레이션 센터와 인공지능 연구소의 기술 지원을 통해 기계가 읽고, 학습하고, 의미적으로 이해할 수 있는 세계 최고 수준의 데이터 서비스(Data as a Service)를 제공합니다.
지능형 인지분석 서비스 무료 제공
무료로 제공되는 약 200억 건의 소셜 데이터를 활용하여 인공지능 기술이 적용된 인지분석 서비스를 무료로 제공합니다. 데이터를 융합하여 심층 분석하고 다양한 관점에서 시각화 함으로써 데이터 간의 숨겨진 패턴을 발견하고 미래를 예측할 수 있습니다. 또한 100% 고객 맞춤형 수집 및 분석 컨설팅 서비스로 고객의 요청사항을 적극 반영하여 결과물을 제공하는 고객 맞춤형 프리미엄 서비스도 제공합니다.

주요 서비스

데이터사이언스 서비스

솔트룩스의 데이터사이언스 서비스는 지난 20년 동안 축적된 인지분석과 기계학습의 성공 경험과 전문가(데이터 과학자)들의 참여를 통해 데이터 수집, 정제에서 시작해 기계학습 및 분석 모델의 선정과 최적화, 예측과 지능화 결과에 대한 평가와 시각화에 이르는 전주기에 대한 실무에 바로 적용 가능한 IT 실무 지식과 기술교육 등을 제공하는 컨설팅 및 교육 서비스입니다.

데이터 사이언스 서비스

< 데이터 사이언스 서비스 >

Data Science Cloud Service - DATAMIXI의 데이터사이언스 서비스는 컴퓨터공학, 수리통계학, 데이터 모델링, 기계학습 알고리즘, 도메인 지식 모델링 기법이 솔트룩스만의 이중나선 방법론을 통해 융합되어 지능형 빅데이터 분석 서비스, 질의응답이나 대화 서비스와 같은 인공지능 기반 지식서비스 개발로 이어집니다.

이중나선 방법론 기반의 데이터 서비스

< 이중나선 방법론 기반의 데이터 서비스 >

탁월한 수준의 심층 데이터 분석과 서비스 지능화를 위해서는 사람과 기계의 적극적인 협력(human-in-the-loop)이 필요합니다. DATAMIXI의 데이터사이언스 체계는 알고리즘/도구와 전문가가 적극적으로 상호 협력하는 이중나선 방법론(dual spiral methodology)에 기반하고 있습니다.

전형적 데이터사이언스의 절차는 솔트룩스만의 이중나선 방법론을 적용하여 데이터 수집, 정제에서 시작해 기계학습 및 분석 모델의 선정과 최적화, 예측과 지능화 결과에 대한 평가와 시각화 과정이 반복적으로 수행됩니다.

데이터 사이언스 컨설팅 서비스 절차

< 데이터 사이언스 컨설팅 서비스 절차 >

① 요구 사항 분석 단계

고객이 요구하는 데이터 분석에 대하여 분석/지능화 목표 도출, 핵심 문제의 분석 및 이해를 통하여 데이터 분석에 필요한 데이터 자원들을 정의 및 방향성을 도출하는 단계입니다.

② 데이터 큐레이션 단계

심층 분석과 기계학습 수행 시의 가장 큰 고충은 오류를 포함한 대규모 데이터에 대한 정제와 학습 데이터의 부족에 있습니다. 데이터 큐레이션은 요구사항 단계에서 정의되어진 데이터 자원을 수집하고 각 분석과 지능화 목적에 부합되는 프로세스와 도구 그리고 훈련된 전문가를 통해 데이터를 정제필터링을 통해 분석 및 학습을 위한 데이터를 생산하는 단계입니다.

③ 데이터 분석 및 학습 단계

전통적 통계 분석 뿐 아니라 CRF와 SVM과 같은 다양한 기계학습 기술과 CNN, RNN과 같은 심층신경망 기반의 딥러닝 기술을 활용한 데이터 심층 분석을 수행하는 단계입니다. 솔트룩스의 다양한 분석 엔진들과 R, TensorFlow와 같은 강력한 오픈소스를 융합한 지능형 분석 플랫폼을 활용하여 대규모의 데이터의 기계학습 및 예측, 딥러링 기반의 심층분석 등을 수행하며, 모델의 검증, 평가, 모델 매개변수 튜닝. 학습 알고리즘 변경 등을 통해 고객의 요구사항에 부합되는 최적을 분석 결과를 도출해 내는 과정입니다.

④ 데이터 분석 검증 및 피드백 단계

고객에게 분석 결과를 전달하기 전 분석되어진 결과에 대하여 지식, 패턴, 예외를 발견하거나 내·외부 전문가 및 고객의 피드백을 통하여 학습·예측 분석 결과의 평가, 검증을 받는 단계입니다.

⑤ 데이터 분석 최종 보고 단계

데이터의 분석과 활용이 개인과 조직의 새로운 힘이 되고 경쟁력이 될 수 있는 고객의 요구사항에 부합하는 데이터 분석 결과보고서 제공 단계입니다.

데이터 큐레이션 서비스

데이터 수집과 정제에서 메타정보태깅(annotation)과 분류, 학습용 데이터 생성 등 데이터의 활용 가치를 높이기 위한 모든 활동을 의미합니다. 데이터 기반의 심층 분석과 기계학습을 위해서는 대규모 데이터의 확보뿐 아니라 기계가 읽고, 학습하고, 의미 이해 가능한 형태로 가공되어야 합니다. 솔트룩스의 데이터 큐레이션 서비스는 솔트룩스 20년의 데이터 품질관리와 기계학습 경험이 축적된 세계 최고 수준의 데이터 서비스를 제공합니다.

데이터 큐레이션 서비스

< 데이터 큐레이션 서비스 >

① 데이터 큐레이션 서비스 절차

데이터 큐레이션의 6단계는 모든 도메인에 공통적으로 적용되며, 각 단계별 전문가 팀이 고객의 지식서비스 구축을 위해 유기적으로 협업하게 됩니다.

Data Science Cloud Service 도식

② 데이터 큐레이션 서비스 기능

데이터 큐레이션은 데이터의 활용 가치를 높이는 모든 활동을 의미합니다. 도서 등의 데이터 디지털화, 원시 데이터 수집, 데이터 정제 등 일반 데이터 가공 분야 외에 아래와 같이 이미지&동영상 어노테이션, R&D 데이터 어노테이션, 지식베이스 구축 등 전문 데이터 큐레이션 서비스를 제공합니다.

Data Science Cloud Service 도식

지능형 인지분석 서비스

솔트룩스의 지능형 인지 분석 서비스는 무료로 제공되는 약 100억 건 이상의 소셜 데이터를 활용하여 인공지능 기술이 적용된 융합분석, 연관주제 분석, 감성 분석, 트렌드 분석, 이슈 감지, 실시간 R 연동을 통한 고급 분석 기능과 데이터 속의 의미관계망 분석 기능을 통해 심층 분석을 할 수 있는 지능형 인지 분석 기능을 무료로 제공하고 있습니다.

1) 데이터 서비스에서 제공하는 다양한 공공 데이터와 내 데이터를 직접 업로드하여 등록하고 사용할 수 있는 데이터 기능

2) 두 개 이상의 파일에서 원하는 요소들만 선택하고 병합하여 원하는 분석에 최적화된 데이터를 만들 수 있는 데이터 병합 기능

3) 제공하는 소셜 데이터를 이용하여 관심 있는 분석 주제에 대한 지능형 분석을 통하여 다양한 차트를 적용해 위젯으로 만들 수 있는 위젯 생성 기능

4) 생성한 위젯들을 간단하게 드래그 앤 드롭 방식으로 원하는 위치에 배치하여 나만의 대시보드를 생성할 수 있는 대시보드 생성 기능

5) 다양한 사람들의 시각으로 만들어진 대시보드를 갤러리를 통해 공유하거나 SNS를 사용하여 공유 할 수 있는 웹 공유 및 퍼블리싱 기능

① 내 데이터 기능

인지 분석 서비스에서 내 데이터 기능은 솔트룩스에서 제공하는 약 100건 이상의 소셜 데이터와 34만 건의 오픈 데이터를 활용하거나, 사용자 필요에 의한 사용자 데이터를 지능형 인지분석 서비스에서 활용하기 위하여 분석에 적합한 CSV 파일 혹은 엑셀 파일 형태로 가공하여 저장 및 등록 할 수 있는 기능입니다.

② 분석 위젯 기능

인지 분석 서비스에서 분석 위젯 기능은 솔트룩스에서 제공하는 약 100건 이상의 소셜 데이터와 34만 건의 오픈 데이터를 활용하거나, 사용자 필요에 의한 사용자 데이터를 활용하여 지능형 인지 분석을 하는 기능으로, 사용자 분석 주제에 대하여 지능형 인지 분석 기능을 활용하여 분석 결과를 다양한 차트에 적용할 수 있으며 이를 사용자 위젯으로 생성할 수 있습니다. 크게 소셜 빅데이터를 활용한 인지 분석 기능과, 내 데이터를 활용한 인지 분석 기능으로 나뉠 수 있으며, 상세 인지 분석 기능으로 트렌드 분석, 연관어 분석, 감성 분석을 할 수 있습니다.

③ 사용자 대시보드 및 갤러리 기능

사용자 인지 분석 결과 위젯은 분석 위젯 갤러리에 저장 및 등록을 할 수 있으며, 이렇게 등록된 인지 분석 결과 위젯을 활용하여 사용자는 대시보드를 생성할 수 있습니다. 생성된 대시보드는 사용자 대시보드 갤러리에 저장 및 등록을 할 수 있으며, 사용자 선택에 의하여 다른 사용자에게 공유 및 다운로드가 가능한 기능입니다.

데이터 처리 및 기계학습 기능 서비스 - Dataiku

중앙화된 데이터 기반 지능형 빅데이터 플랫폼으로서 비즈니스가 데이터를 단지 저장하는 수준에서 머무르지 않고 기업의 프로세스와 긴밀한 영향을 갖도록 분석 기능을 최대한 활용합니다. 이를 통해 데이터가 머신러닝 과정을 통해 모델화되고 기업 운영에 적용되는 단계까지 지원합니다.

Data Science Cloud Service - Dataiku

< Data Science Cloud Service - Dataiku >

① 데이터 탐색 기능

데이터 세트에 대한 자동 보고서를 작성하고 잠재적인 데이터 품질 문제를 지적합니다. 단일 데이터 및 다 변수 통계를 생성하여 세부 데이터 집합 감사 보고서를 생성합니다. Excel에서처럼 쉽게 데이터를 필터링 하고 검색합니다. Spark, Hadoop 또는 SQL 엔진에서의 실행을 통해 분석범위를 확장하여 통찰력을 확보합니다.

② 데이터 전처리 및 시각적 변환 기능

코드가 없는 데이터 논쟁을 막기 위해 80개 이상의 내장형 비주얼 프로세서에 쉽게 액세스 할 수 있습니다. 자동으로 제안된 문맥 변환 및 데이터에 대한 대량 작업 수행이 가능합니다.

③ 기계학습 기능

모델의 모든 종류의 데이터를 사용하는 자동 엔지니어링, 생성 및 선택이 가능합니다. 다양한 교차 유효성 검사 전략을 사용하여 모델 하이퍼 매개 변수를 최적화합니다. 모델에서 즉각적인 시각적 통찰력을 얻고(변수 중요성, 상호 작용 또는 매개 변수 특징) 상세한 메트릭을 통해 모델 성능을 평가할 수 있습니다.

④ 기계학습 기반 모델 배포 기능

분석가와 데이터 과학자가 몇 번의 클릭만으로 생산에 모델을 배치할 수 있도록 지원합니다. 데이터 정리, 풍부화, 전처리가 함께 묶여 단순화된 채점 파이프 라인이 됩니다. 배포된 모델은 버전 관리되므로 사용자는 언제든지 새 버전을 배포하고 비교하고 롤백 할 수 있습니다.

⑤ 데이터 생성 정보 관리 기능

단일 UI 내에서 데이터 생산에 필요한 1)데이터 생성 모델(워크플로우) 개발, 2)모델 및 생산 데이터 테스트, 3)데이터 시제품(생산 전 검증), 4)데이터 제품화(데이터 및 생성 모델 패키징)에 이르는 데이터 생성에 필요한 모든 단계를 포함하고 있는 배포 모델을 제공합니다.

주요 경쟁력

데이터 분석 – 분석 시각화
저자/유사논문/핵심기술/연관기술/키워드간의 네트워크 분석, 이종 기술 간의 융ㆍ복합 분석, 인지분석, 심층분석을 통해 통찰력을 얻을 수 있습니다. 경쟁사의 기술 및 연구개발 현황파악, 연구개발 분야의 정부정책 브리핑, 연구 개발 분야의 신기술 센싱 및 트렌드 모니터링이 가능합니다.
머신러닝, AI – 연구 실험 및 결과 예측화
내부에서 연구된 데이터와 외부 논문의 그래프/표/이미지/화학식 등의 실험데이터가 큐레이션(추출 및 정제 가공)되어 준비되면 이 데이터를 가지고 ML기능을 통해 연구 실험을 간접적으로 진행하여 결과값을 쉽고 빠르게 도출할 수 있습니다.
데이터 큐레이션 – 스마트 데이터화
데이터 큐레이션은 데이터 수집과 정제에서 어노테이션과 분류, 학습용 데이터 생성 등 데이터의 활용 가치를 높이기 위한 모든 활동을 의미합니다. 데이터 기반의 심층 분석과 기계학습을 위해서는 대규모 데이터의 확보뿐 아니라 기계가 읽고(readable), 학습하고(learnable), 의미 이해 가능한(understandable) 형태로 가공되어야 합니다.
내부 데이터 및 외부 데이터의 완벽한 수집 통합 – Data Bank화
내부에 산재 되어있는 연구데이터를 수집하고 공유 재활용될 수 있도록 합니다. 외부의 논문, 특허, 기술문서 등 다양한 비정형데이터의 수집을 진행하여 내재화 합니다. 실시간 데이터 수집 처리 기술 적용으로 국내외 수집 엔진 중 최대 수집 기능(6 종)을 내장하고 있으며 최고의 수집 성능을 보유하고 있습니다.
국내 유일의 데이터 과학 플랫폼 서비스 제공 – Science Total Service화
데이터의 수집, 큐레이션, 통계분석, 기계학습 등을 활용하여 인사이트를 얻거나 지능화된 시스템을 구현하기 위한 모든 업무를 지원합니다. 기술에 대한 경험이 없는 분들도 이 제품을 통해서 데이터 분석을 할 수 있도록 합니다.

주요 서비스 화면

< 대시보드 결과 화면 >

< 데이터 집계 현황 기능 >

< 사용자 데이터 인지분석 결과 >

< 소셜 데이터 인지분석 결과 >