機械学習⑩時系列分析・自然言語処理/データサイエンス入門
このシリーズでは、スキルアップAI株式会社の「データサイエンティスト基礎講座」より、ビジネスパーソンが知っておくべき内容を抜粋してお送りします。データサイエンティスト検定™ リテラシーレベルにも対応した内容となっています。 スキルアップAIは、入門、データ分析、AIエンジニア基礎、ビジネス、クラウド、AIエンジニア応用といったカテゴリで様々な講座を用意しています。 スキルアップAI株式会社 https://www.skillupai.com/open/
会員限定
より理解を深め、他のユーザーとつながりましょう。
100+人の振り返り
dteraoka
販売・サービス・事務
これまでExcelにデータを入力する際に漠然と入力していることが多かったが、今回学んだ主キーや正規化などを考えた上で入力、まとめる事で効率的に利活用できるという事が理解できた。
0
kitano_wataru
IT・WEB・エンジニア
基本情報レベルのお話なので知識として知っている内容ではあったが、少しややこしい正規形の復習が一番意義のある部分だったかと思う。
特に業務で○○マスターテーブルというように正規化する場面も多いため、情報の整理方法に名前がついていることを意識しながら仕事をすると、身に付きやすくなるかと考えた。
0
xkenz
IT・WEB・エンジニア
全国の売り上げデータをサマリしてデータマートで分析する
0
titmouse
マーケティング
データ収集・蓄積について、専門用語を学べた。
0
9032843
経営・経営企画
データの蓄積、収集がイメージできた。
0
emi88
その他
現在自部門において部門フォルダの整理が進んでおり、RDBにおける正規化の考え方は、論理的なファイル構造の作成や、重複データの整理に活用できるように思いました。
0
trident58
IT・WEB・エンジニア
初歩的な内容だったが、Webスクレイピングとクローリングの違いや、データレイク・データウェアハウス・データマートの曖昧だった概念をはっきりさせることが出来た。
0
kobaya-c
メーカー技術・研究・開発
データベースの仕組みが理解できた。
0
kennalc
営業
Tihs is the good oppunity for me to learn the entire image of DATA sience.
0
naoyuki72
IT・WEB・エンジニア
基礎的なことを端的に纒められており良い復習教材であった。
0
koji_wada
マーケティング
入門としてまずは学びました。
聞いたことがある言葉が多かったがまだしっかり定着してないので復習していきたい。
0
naoki_sasano
メーカー技術・研究・開発
具体的な事例の紹介がなかったので、まだ自分の業務にどのように活用できるのか、イメージがわかなかった。
0
t_oguogu1979
コンサルタント
データを取り扱うにあたっての前提知識という位置づけ。
0
yuki_573563
建設・土木 関連職
業務でデータベースを使用していないので、まだ具体的なイメージはわかなかった。
0
shin0216
専門職
データベース作成時には重複、冗長性、不整合がないようにすること、1対1対応にすることが重要なこと、データ分析には効率を最優先し無駄なく動作することを追求していることが理解できた。
0
tf_1991
金融・不動産 関連職
データについて短時間でとてもわかり易かった。
0
h-kozawa
メーカー技術・研究・開発
データ収集環境の概念がよく理解できた。ローコードアプリ導入にあたり、この周辺知識が必要であったため、非常に有用でした。
0
madogiwazoku
その他
難しいです、難しすぎます
0
kyo1227
営業
初歩的な内容だったが、Webスクレイピングとクローリングの違いや、データレイク・データウェアハウス・データマートの曖昧だった概念をはっきりさせることが出来た。
0
sesesese
その他
私自身は用意された環境を使うがわだが、データレイク、ウェアハウス、マートなど違いを理解できました。
0
haruka-
その他
データベースの概念が学べた。Non SQLは初めて聞いたのでデータの蓄積方法のイメージがうまくできなかった。
0
hyde6130k
その他
データの収集・蓄積に関する基本概念を理解することが出来た。
今回の講座を踏まえ、様々な応用に展開されると思うので、しっかり復習し次の講座での知識習得に繋げていきたい。
0
kesato
販売・サービス・事務
データを蓄積するには、データの特性によって手法が異なること、リレーショナルデータベースは、無駄を省いた状態が必須となる
0
yasupii
その他
データベースの設計や、使い方は初めて聞くことだったでした。そのやり方の基礎的なことを知りました。
0
yamamoto_kntk
その他
データの収取や蓄積⇒活用までの流れを学ぶことができた。実際にデータベースを作成する際の構成などを検討する必要がある業務に活用できると思う。
0
nomu_ra
IT・WEB・エンジニア
今自分が使っているデータ基盤は何なのか? データがどのような形式で格納されているのか? が分かるようになった。
0
im13423
販売・サービス・事務
なかなか興味深かったです。
0
yokoishida
コンサルタント
このように大きなデータの話ではなく、今、Excelでまとめている数種類のデータについてですが、番号をふると、なんの意味があるのかと苦情を受けておりましたが、用語がわかったため、堂々と言い返します。
0
onihei99
専門職
データベースの構成、分類を再確認できた。
0
hi-std
IT・WEB・エンジニア
データレイク・データウェアハウス・データマートの用語はほぼ初めてだが、内容的には基本的なものだった。
0
taka1962
販売・サービス・事務
実際の取引上のデータを収集するためには、現状の取引システムから必要なデータを収集する方法を開発する必要があることを認識した。
0
shigeki_f
メーカー技術・研究・開発
基本用語と、実際の動きを理解することができた。
0
hidehide2021
メーカー技術・研究・開発
リレーショナルDBやNoSQLをどうやって使うか、わかったような気がします。実際の業務でデータベースを構築して、業務の効率化を図ってみたいと思いました。
0
motsuo313
その他
RDBの正規化は、Excel等でデータを整理する際に活用できると感じた。
0
takemaru0530
販売・サービス・事務
業務上は、仕事しないため、勉強しないと理解できないところが多かった。
0
hr-sakai
その他
データの軸となる項目を公平に選択する。
0
ymck_23m
販売・サービス・事務
データレイク、データウェアハウス、データマート、RDBや非構造化DBなどは言葉として理解していたつもりだったけど、改めて学習できて理解が深まった。一度会社の研修で学んだ内容だったが、改めて復習ができてよかった。
0
toshi-iwai
経理・財務
ITパスポート資格レベルの話で復習になりました。
0
inyourmind
建設・土木 関連職
データレイクやデータマートなど、知らない用語を知ることが出いたので今後は正確な言葉遣いで外注先などと会話することができる。
0
moomn
その他
日常で正規化、ER図をさらっとできるようになりたいし、その後に必要となってくるデータ分析技術をもっと身に着けたいと思っています。
0
mitontan
IT・WEB・エンジニア
知識としてはあったが、改めてしっかりと理解することが出来た
0
petitboo
コンサルタント
SEとしての研修を受けていない後輩に説明するのに役立ちます
0
mikeover
IT・WEB・エンジニア
ちょっと基礎的すぎた。
0
ck27
その他
データベースの構成や専門用語などを理解できた。データ収集の際に意識していきたい
0
fuyuhama
経理・財務
データベーススペシャリストの試験の際に勉強したことの復習になった
0
takumi_1453
経営・経営企画
RDBの正規化概念と真逆のNoSQLDBはどんな用途で活用されてるのか、全く言及が無いままデータ基盤・データ転送の話に切り替わり、かなりフラストレーションが溜まる講座でした。とりあえず「SQL」「API」の理解は必須ですね(汗)
以下講義内容ーーーーーーーーーーーーー
①データ収集の技術
■データ収集の方法は多様
・動画撮影、録音
・アプリケーションのログデータ
・オープンデータの利用
・WEB上のデータのスクレイピング★
■Webスクレイピング
・プログラムを用いてWebサイトからデータを取得する
■Webクローリング
・Webサイトをプログラムで巡回してスクレイピングすること
・クローリングするプログラムをクローラと呼ぶ
・クローリングの活用例
・Googleの検索エンジンは、クローラを用いて既存のページ情報の更新や、新規開設されたWebサイトの収集等を実施
・企業が機密情報の漏れを確認するためにクローラを走らせる
■ツールを用いてクローリングやスクレイピングを行う方法
・公開ツールを用いれば対象ページのhtml構成を理解したりコーディングを経ずにクローリングやスクレイピングが可能
・有名なツール
・Octoparse
・Web Scraper
・import.io
■自作スクリプトを用いて行う方法
・Pythonのrequestやbeautifulsoup等のライブラリを用いて、対象のWebページから必要な情報を抽出するプログラムを作成可能
・自作する場合、htmlやAPI等に関する知識が必要
・ツールを用いるより様々なWebページに柔軟に対応可能
*クローリングやスクレイピングを行う場合は対象ページの著作権やrobot.txt(ある場合)等の記載を確認すること
■APIを用いたスクレイピングの例
・企業によってはAPIという形式でWeb上のデータを取得しやすくしている場合がある
・twitterAPIなど
②データ蓄積の技術
■データは蓄積しないと利活用ができない
■データを保管する物理的装置をストレージ(HDDやSSDなど)という
■保管されたデータを管理する仕組みをデータストアと呼ぶ
・例 オブジェクトストアやデータベースなど
■データの構造や利用用途に合わせて適切なデータストアを選ぶ
■データストア
・HDDやSSD上でデータを管理する仕組み
・代表的なデータストア実装例
・ファイルストレージ
・macOSやLinux、WindowsなどのOSで採用されているデータ管理システム
・ディレクトリ(フォルダ)という形式でデータを管理するため利用しやすい
・オブジェクトストレージ
・大規模データに対して高速に検索が可能なデータ管理システム
・データベース
・リレーショナルデータベース(RDB)
・NoSQLデータベース
・RDB以外のものを全てNoSQLデータベースと呼ぶ
■DSの使い分け
・DB
・行✕列→RDB ★SQLで加工容易
・それ以外→NoSQLDB
・ストレージ
・ファイルストレージ
・オブジェクトストレージ
■RDB
・行✕列、表形式のテーブル管理
・テーブル=行と列に要素を持つ
・カラム=列
・レコード=行
・主キー=行を一意に特定するカラム
・非キー=主キー以外のカラム
■RDBの代表例
・MySQL 設定・管理が簡単
・PostgreSQL オープンソース
・Oracle 商用
★SQLを用いてテーブルの追加削除やデータの抽出加工が可能
■RDBの設計
・各テーブルのデータ管理内容
・各テーブルの関係性
・テーブルの種類や関係性をER図で把握
・テーブルの正規化によりデータが複数のテーブルに分割される場合がある
■ER図 Entity Rerationship Diagram
・DB設計図の1つ
・エンティティ データのまとまり
例 顧客テーブル
・アトリビュート Entity中の属性情報
例 顧客ID・顧客名・住所etc
・リレーション エンティティ同士の関係
例 顧客テーブル↔受講申込テーブル
・カーディナリティ リレーションの詳細
例 1つの顧客テーブルに複数の受講申込テーブルが紐付く
■テーブルの正規化
・データの重複を無くし、テーブルから冗長性を除去する
・RDB設計には正規系の概念を用いる
■正規系の種類
・非正規系
データの冗長性や不整合がある
・第一正規系
以下の状態を解消
✕同じ列が複数ある
✕1つのセル中に複数の値が入る
✕結合セルが存在
★しかし、まだ主キーによって一意に定まるキーの関係が2つ以上ある状態
・第二正規系
第一正規系を満たし、以下の状態が解消
✕主キーが定まると非キーが定まる
★主キーによって一意に定まるキーが1つだけの状態=テーブルが複数に分割
・第三正規系
第二正規系を満たし、以下の状態が解消
✕非キーが定まると他の非キーが定まる
★非キー同士の従属性を排除=あるテーブル内の主キー変更による非キー変更は1箇所のみの状態
■NoSQLDB
・構造を持たないデータに特化
・キーバリュー型
・JSON型
・グラフ型
・特徴
・分散処理による高速な読み書き
・レスポンス重視、一度の処理量は小
・代表的なNoSQLDB
・HBase
・Cassandra
・MongoDB
・Redis
〈参考〉NoSQLDBが扱うデータ形式
キーバリュー:データに識別符号をつける
ワイドカラム:複数データを1つのキーをつけて管理→行ごとに異なる数の列を持てる
ドキュメント:ドキュメントと呼ぶ単位でデータを管理→ドキュメントの構造は自由
■データ基盤
・DSの集合体
・システム構築には必須の設計要素
・構成要素
・データレイク
・データウェアハウス
・データマート
■データレイク
・各ストレージの生データを1箇所に統合
・通常はデータ構造に依存しないストレージシステムで構築
■データウェアハウス
・編集・加工されたデータの蓄積環境
・SQLやPythonなどと連携できる必要
■データマート
・DWから利用用途に合うデータを切り出した蓄積環境
・部門ごとにストレージを設置するためデータ取得処理の負荷分散が可能
*データのULや異なるDSへの移動は転送技術が必要
■データの転送方法(Protocol)
・FTP
・最古の転送技術の1つ
・ファイル形式で転送
・通信が暗号化されない欠点
・HTTP
・WEBサーバとクライアント(ブラウザ等)間で通信する
・HTMLで記載されたテキストや画像の転送
・通信が暗号化されない欠点
・HTTPS
・通信が暗号化されたHTTP
・SCP(secure copy Protocol)
・SSH(secure shell)によって安全にファイル転送
・パスワード等の認証部分を含む全てのネットワーク上の通信が暗号化される
■データ転送のイメージ
・Webサイト制作者
→FTPサーバへデータをアップロードすることでファイルストレージにデータを登録
・閲覧者
→HTTPサーバにリクエストを送ってデータをDLし、表示された画面を閲覧
■クラウド上のDSへのデータ転送例
・Google社提供のストレージサービスGoogle Cloud Storage(GCS)へのデータ転送
・GCSのAPIではHTTPSによりデータ転送
0
zyuroku
IT・WEB・エンジニア
データ分析に向けた準備段階が整理できた。
0
atsushi_komaki
金融・不動産 関連職
まずは、用語を覚えながら知識の習得をしていかないと、理解が正直追いついていかない。
0
haruyokoi
販売・サービス・事務
用語の定義が明確になってためになりました。
0
1000-
マーケティング
データベースとデータマートの違いをみつけられるように取り組んでみる
0
karu327
メーカー技術・研究・開発
初歩用語の振り返りができた
0
rayf
建設・土木 関連職
役柄でDXに関する用語に触れることが多くなってきましたが、ここにあるようなデータのあり方などの単語もよく出てきています。
これらが明確に分かっただけでも非常に有意義な講習でした。
0
minaminopon
マーケティング
どの商品がどのくらい売り上げられたか、だれが購入しているかなどを具体的にデータとして管理ができそう
0
kou_tan
営業
非常に有意義な講習でした。
0
h_i_r_o_shi
人事・労務・法務
データストアの意味がわからなかった
0
2shi6ra
販売・サービス・事務
用語の整理に非常に役立ちました。
0
tsukamotoya
営業
難しかったです。ぜんぜん理解ができませんでした。
0
akakihara
販売・サービス・事務
データ収集・蓄積について、専門用語を学べた。
0
watanabe_aki
経営・経営企画
テーブルにおいてはExcelデータに類似する箇所が多いもののExcelよりもより簡素化する必要性があるとわかりました。
0
kazumi_100pot
金融・不動産 関連職
Webスクレイピングとクローリングの違いが十分に理解できていなかったのですが、今回、よく復習できました。
0
shin_yako
販売・サービス・事務
Ds試験対策として視聴しました
0
user-name01
販売・サービス・事務
コンピュータでデータ分析を行う際はデータの形式に気を付けることが必要だということを学んだ。
0
oknmkcti
経理・財務
はじめて聞いた用語が多かった。これから理解していきたい。
0
watanabe-tat
専門職
DS検定のデータエンジニアリング分野の用語の定義を学ぶきっかけになりました。
0
yoshikouc
販売・サービス・事務
データを使いやすくデータベースで保存することが大切。APIも利用して実際にやってみたいです。
0
makoke
その他
プロジェクトで出てくる用語について、理解することができました
0
e_co
販売・サービス・事務
内容的には既知のものでしたが、用語等知識の整理が出来ました。
0
mimo28
メーカー技術・研究・開発
これまで深い理解が無かったデータサイエンスの、ごく初歩の用語知識を学習できたと思う。これを足がかりとしてより高度なデータサイエンスの専門知識を習熟し、日常業務を新し展開に繋げたいと思う。
0
acmon
メーカー技術・研究・開発
RDBMSの正規化のイメージが理解できた。
0
yukofunada
販売・サービス・事務
業務においては何気なく慣例通りにデータを保存したり利用したりを繰り返していますが、データの利用方法などによって最適化されたパターンがいくつもあることが体系的にわかりました。
0
hararin-kobo
金融・不動産 関連職
データの収集と蓄積の基礎が理解できました。
0
kenjiro_fujita
コンサルタント
データベースの概念がわかりました。自社のデータベースについてもっと興味がわきました。
0
shin1yamanishi
メーカー技術・研究・開発
リテラシーレベルでのデータ収集についての知識を得ることができた。
0
matute
IT・WEB・エンジニア
収集したデータを蓄積する方法にデータベースやストレージ等、選択肢があることがわかった。なおデータベースに格納する際も正規形を意識したり、NoSQLを選択したり等、利用用途によってデータの蓄積方法を検討する必要があることがわかった。
0
usao1981
メーカー技術・研究・開発
必要なデータに応じてデータベースを考えて作成する必要がある。
0
nkt56
IT・WEB・エンジニア
利用用途に応じてデータマートを活用することでDWHの生データでなく素早く分析が行える。
0
cs1960
販売・サービス・事務
大変勉強になりました。
0
n_koba
メーカー技術・研究・開発
正規化によってデータベースの効率的な作り方が分かった。
0
dense
メーカー技術・研究・開発
漠然と考えていたところに、具体性が見えてきて
痒い所に手が届いた感じ
0
iso_ken
専門職
天気予報や為替相場、マーケット情報などのデータ収集は、Webからプログラムでデータスクレイピングを行うことで簡単に入手可能。
入手したデータを、テーブル構造に注意しながらRDBに蓄積することで、分析など利活用ができる。
APIを用いて、簡単にデータ蓄積と取り出しを行うことができる。
大量のデータを用いてAIの機械学習を行うこともできると思う。
0
k-akira
営業
正規化のイメージは日常でエクセルのデータベースを作成する際に利用できる。
0
wappachan
IT・WEB・エンジニア
これからの学習次第ですが、深く入っていきたいと思っています。
0
yk-tnk
その他
データ収集・蓄積の基本を学べた。
0
shun0708
その他
データを分析し、業務改善や提案に繋げるため、勉強になりました
仕組みを理解することで効率よくできることもあるため引き続き理解していきます
0
mkh8510
メディカル 関連職
現実の職場では、すぐに活用が出来る必要があります。
具体的な動く形のデータ処理の活用で、どの数字がどこに反映されるなど
最低限の学習を進めていくことは必要ですが、普通の人は、時間もないですし、途中で心が折れるのでは
と思います
WINDOWSの更新もあり、ネットニュースで、AIが取り上げられるなど、AIが、実際の職場に降りてきた状況となっています
効率的な活用を学ぶ場が求められます
0
pinguino
販売・サービス・事務
聞いたことのある用語も解説していただくと改めて理解できたので、知識が深まった。
0
test_test___
メーカー技術・研究・開発
聞いたことがある程度だったSQLについて少し理解できた。
0
sskmzh
販売・サービス・事務
データ取り扱い前の準備や設計が重要な事はもちろん、何を蓄積し活用するのかによって、使用する方式も変わってくるため、その点についての知識を常にUpdateしていかなければならいという事と、会社で使用するのであればその点の取り扱いシステムに対する理解が重要と感じた
0
wada00
その他
基礎的な用語について改めて理解・整理することが出来た
0
hrkudo
IT・WEB・エンジニア
データ蓄積方法について学びました。
0
w_axl
メーカー技術・研究・開発
これまで非効率的なデータの持ち方をしていたことに気づきました
0
temp_at
IT・WEB・エンジニア
データレイク、データウェアハウス、データマートの違いを理解していなかったので、知ることが出来てよかった。今後導入される業務システムのデータ構造の理解にも役立ちそう。
0
k_yuna
販売・サービス・事務
大変難しい内容でした。
0
cap_2712
IT・WEB・エンジニア
現在就いている業務においても、データの蓄積においてどのシステムがどの分類なのかをしっかりと区別することが大事になっているため、今回改めて視覚的に整理できたことで改めて意識が強くなりました。
0
kakiyo
販売・サービス・事務
短時間でざっくり概要をつかむにはちょうどよい内容だった。
0
jshinmura
IT・WEB・エンジニア
データサイエンスの基礎となる言葉の理解について学ぶことができた。これらの概念理解をしながら実際に手を動かすことに挑戦してみたい。
0
victory2030
人事・労務・法務
基礎知識の理解なので、活用には至らない。
0
torieast
営業
テーブルを作成する際に重複するカラムを極力少なくしテーブルを分けて管理する。
0
y-td
営業
データ活用について理解を深める事が出来た。
0
ijr
経営・経営企画
今試験勉強しているので助かってます
0