機械学習⑩時系列分析・自然言語処理/データサイエンス入門
このシリーズでは、スキルアップAI株式会社の「データサイエンティスト基礎講座」より、ビジネスパーソンが知っておくべき内容を抜粋してお送りします。データサイエンティスト検定™ リテラシーレベルにも対応した内容となっています。 スキルアップAIは、入門、データ分析、AIエンジニア基礎、ビジネス、クラウド、AIエンジニア応用といったカテゴリで様々な講座を用意しています。 スキルアップAI株式会社 https://www.skillupai.com/open/
会員限定
より理解を深め、他のユーザーとつながりましょう。
62人の振り返り
hfkd156036
金融・不動産 関連職
高速フーリエ変換と包絡スペクトルがわかった。
2
kenjiro_fujita
コンサルタント
音声の周波数分析には高速フーリエ変換が必要であるが、そのときは短時間で区切らないと何を分析しているのか分からなくなることが理解できた。
1
yokoishida
コンサルタント
私の場合、実際に使う日が来るとは思えない内容でした。今のところ、こういうことがあるのだな、くらいの理解でした。
0
e_co
販売・サービス・事務
現在の業務で活かす場面は無さそうですが、考え方として理解する事はプラスになると思うので、理解できて良かったと思いました。
0
h-kozawa
メーカー技術・研究・開発
昨今、音声認識が格段に進歩している背景が理解できました。
0
tsukamotoya
営業
たいへん興味深く学習致しました。普段使っているファイル形式が、どういう性質のものであるか、理解を深めました。JPEGは劣化するのですね。動画データファイル形式では、MXFを放送用データで使用しておりますが、今回の講義には出てきませんでした。あまりメジャーなファイル形式ではないのかもしれませんね。
0
hi-std
IT・WEB・エンジニア
今のところ使うことはなさそうですが、文字起し機能について知る事が出来た。
0
pinguino
販売・サービス・事務
断片的な知識がつながって全体像が把握できたように思います。
0
makidayo
IT・WEB・エンジニア
アナログな情報を、デジタルに落とし込むにはどのようにしているのかがわかりやすかった。データを人が認識することと、機械がデータを認識することについて、どうやって認識しているのかの違いがわかることは、取り扱い時の注意点などにもつながるので、大切だなと思った。
0
ta-mo-
IT・WEB・エンジニア
今回は画像、動画、音声のデータ処理の基礎が学べた。それぞれのファイル形式の理解ができ、深圳であり、興味深かった。
0
70sp1208
その他
画像・動画・音声処理などの基本的なしくみについてわかりやすい解説であった。特に音声処理においては、フーリエ解析の知識が必要で、学生時代にやったことを復習していきたい。
0
fukashi_uehara
メーカー技術・研究・開発
フーリエ変換については、振動解析で使用してことがあり理解が深まりました。
0
cs1960
販売・サービス・事務
大変勉強になりました。
0
inyourmind
建設・土木 関連職
話者分離が精度よくできるようになれば、MOM作成がはかどると思う。
0
i_mura888
金融・不動産 関連職
音声分析の仕方がイメージ出来ました。
0
test_test___
メーカー技術・研究・開発
フーリエ変換、大学で学んだような希ガス。
0
michiyomichiyo
その他
仕事で活用する機会はなさそうだが、興味深かった
0
s-ma
経営・経営企画
普段活用している文字起し機能の技術要素について理解できた
0
masato_86
専門職
現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。
0
grateful
専門職
動画・音声・音楽の処理を学びました。
0
shin_yako
販売・サービス・事務
参考になりました。仕事での活用を考えます
0
yoshikouc
販売・サービス・事務
画像・映像処理の内容がわかりました
0
takumi_1453
経営・経営企画
音声処理の手法がややこしい。
手法:周波数解析(スペクトル解析)
技術:離散フーリエ変換
→高速フーリエ変換
→短時間フーリエ変換
スペクトル包絡???
ーーーーーーーーーーーーーーーーーーー
【画像・動画処理】
①画像のデジタル表現
・画像は沢山の画像(ピクセル)の集合
・画素とは画像を構成する情報の単位で、1つの色で塗られた非常に小さな正方形のこと
②代表的な画像FMT
・PNG
・フルカラー(1677万色)に対応
・保存を繰り返しても画質は劣化しない
・JPG
・フルカラー(1677万色)に対応
・目視で把握できないような情報を削る事でファイルサイズを小さくする
・保存する度に画質が劣化する
・GIF
・256色しか表現できない
・ファイルサイズが非常に小さい
・パラパラ漫画のような動画を作成可能
③動画データ
・画像データの集合体
・動画データを処理する際は、画像処理と音処理を行うことになる
④代表的な動画FMT
・MP4
・多くの動画データPFで再生可能
・容量の大きい動画を圧縮することに向いている
・AVI
・Windowsでの動画編集や再生に向いている
・MOV
・Macでの動画編集や再生に向いている
・FLV
・YouTubeやニコニコ動画などで使用されている
⑤画像処理における典型的なタスク
・画像分類
(例)入力された写真をネコ、イヌ、トラなどのクラスに分類
・物体検出
(例)入力された写真に対し、人・自動車・樹木など予め定められたクラスの物体を四角い領域で特定する
・セマンティックセグメンテーション
(例)入力された写真に対し、その写真のピクセルごとに人・自動車・樹木などのクラス分類を行う
・画像生成
(例)全く新しい画像(顔写真など)を生成する
・画像キャプション生成
(例)人が写っている写真に対し、その人が何をしているかを説明する自然言語を生成する
⑥動画処理における典型的なタスク
・侵入者検知
(例)進入禁止エリアに人が侵入したことを自動的に検知
・通過物体のカウント
(例)製造ラインにおいて、通過した製品数を数える
(例)店舗において、通過した人数を数える
・自動運転
(例)車載カメラによって撮影された映像を元に、歩行者や自動車の飛び出しを検知する
・動画編集
(例)サッカーなどの試合を撮影した動画から、その試合のハイライトを自動的に抽出する
⑦画像データに対する前処理手法
・リサイズ
・モデルの入力サイズに合わせるために、画像の解像度を変更
・パディング
・モデルの入力サイズに合わせるために、画像の周りに何らかのデータを追加
・標準化
・効率よく学習を行うために、画像のピクセル値を平均0、分散1にする
・フィルタ処理
・画像に対し特殊な処理を加えること
(例)ごま塩ノイズを除去し、綺麗な画像に変換
(例)カラー画像をモノクロ画像に変換
(例)画像から輪郭情報のみ抽出
【音声・音楽処理】
①音声・音楽データとは
・音は空気の振動=波
・振幅(大きさ)と周波数(高さ)をもつ
・アナログ信号(連続信号)
・音声データをコンピュータで扱うために、アナログデータを離散的なデジタルデータに変換する必要がある
・これをA-D変換(Analog to Digital Conversion)という
②代表的な音声・音楽FMT
・WAV
・Windows用の音声ファイル形式
・非圧縮のためデータサイズは大きい
・MP3
・データサイズは原音の約10 分の1
・CDと同程度の音質
・ジャケット写真や歌詞も付けられる
・AAC
・MP3に比べ、若干データサイズは大きいが、音質は良い
③音声・音楽処理における典型的なタスク
・音楽データ
・音楽の偏変換
例 ある音楽をバッハ風の音楽に変換
・音楽の生成
例 全く新しい音楽を生成
・音声データ
・音声認識
例 音声データに含まれる単語列を推定する
・自動翻訳
例 日本語の音声を英語の音声に変換
・話者分離
例 複数人の話者が同時にしゃべったときに、人毎に発話内容を分ける
・対話
例 スマートスピーカー
・文字起こし
例 スマホ等に入力された音声を自動
でテキスト化
④音声・音楽処理の手法
・周波数解析
・音データなどの時系列データを周波数成分に分散し、得られた周波数ベクトルを用いて解析を行う
・スペクトル解析とも呼ばれる
・【高速フーリエ変換】と呼ばれる技術を使用する
→離散フーリエ変換を効率的に行う方法
→音声信号に対し、離散フーリエ変換を行うと、周波数スペクトルが得られる。
周波数スペクトルに変換すると入力された音声信号にどのような周波数がどれほどの強さで含まれているかを分析できる
【短時間フーリエ変換】
→入力音声に対し、窓関数を掛けながら数十ms程度の時間長の区間を切り出し、高速フーリエ変換を実行すること
・窓関数をかけると周波数特徴を綺麗に取り出せる
・【スペクトル包絡】
・周波数スペクトルの緩やかな変動のこと
・スペクトル包絡には声の特徴(声道特性)が表れる
0
kyo1227
営業
現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。
0
hrkudo
IT・WEB・エンジニア
画像処理と音声処理について理解できました。
0
aokitaka-tci
その他
画像・動画・音声・音楽の処理の概要につき理解した、音声関連によく関わっているが、書き起こしに不具合が出てしまうイメージがもてた
0
hibinono
その他
データ利活用基盤を構築していくのに必要だと感じました。
0
mutame
その他
大変勉強になりました。
0
risa_sss
販売・サービス・事務
普段活用している文字起し機能の技術要素について理解できた
0
inagaki_tomomi1
販売・サービス・事務
復習により理解致します。
0
homma_nanami
販売・サービス・事務
現在の業務では活用する機会はなさそうですが、興味深い内容でした。
0
yuichi_muroi
その他
データ分析に必要な処理方法を理解しました。
0
vz3000
IT・WEB・エンジニア
画像、動画、音声についてのデータの取り扱いの基礎を学ぶことができました。今後、それぞれの詳細について理解を深めていきたい。
0
t_htn
経営・経営企画
どこまでできるか不明だが、
会議や打合せでの話者特定した文字起しを行う処理を、
自ら作成する際の参考にしたいと思う。
0
k_yuna
販売・サービス・事務
大変勉強になりました。
0
watanabe-tat
専門職
高速フーリエ変換を活用して、声楽支援サービスを企画する。
0
tome0704
人事・労務・法務
自分の業務では今のところ使う予定はない
0
naoki_sasano
メーカー技術・研究・開発
製造工程管理において、動画処理のうちの通過物体カウントを利用できないかと考えている。音声処理については、自分の仕事への活用はあまり考えられないが、特徴をとらえるため短区間での周波数スペクトル変換が必要で、全体解析するためには膨大なデータを取り扱わなければいけないのだと理解した。
0
k-akira
営業
高速フーリエ変換と包絡スペクトルがよくわかった。
0
stani
専門職
画像、音声もデータである。加工しやすく、小容量で高パフォーマンスを実現したい。
0
7031
経営・経営企画
どこまで出来るかわかりませんが大変勉強になりました。
0
matute
IT・WEB・エンジニア
画像、動画、音声について、データ形式の種類、取り扱い方法や機械学習でどの様なことができるか等、理解することができた。それぞれの特徴を踏まえ、データ分析・機械学習モデル構築を行っていきたい。なお、音声について高速フーリエ変換や炮烙スペクトルは、概略は理解できたが、もう少し詳しく学んでいきたいと思う。
0
user-name01
販売・サービス・事務
画像、動画、音声、音楽の処理の基本的なことを学んだ。フーリエ変換という数学的手法が用いられていることを学んだ。
0
mainichi365
IT・WEB・エンジニア
何となく分かりました。
0
iso_ken
専門職
画像、音声を用いたAIは今後業務にも使用したいと考えているので、前処理やライブラリの使用方法などをしっかり勉強していきたい。
0
choko0504
メーカー技術・研究・開発
フーリエ変換等、メジャーな手法について理解することができた。実務で活用したい。
0
yasupii
その他
短時間フーリエ変換を使って音声データを解析していることを知り、とても興味を持ちました。実際のデータを使って、分析やってみるとより理解が深まると思いました。
0
taka1962
販売・サービス・事務
現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。
0
ken222
営業
音声処理には高性能の半導体が必要となる。
0
k--g--
その他
まずタスク設定ができることが必要と理解した。機械処理が可能であることを、それらのタスクに当てはめていけばよい。
0
wada00
その他
大変勉強になりました。
0
sesesese
その他
手法の名前を知ることができました。
どんな場面で利用されるかはまだ理解が及ばないので、今後がくしゅうしていきたいです。
0
512177
資材・購買・物流
それぞれの処理性能を理解して活用していく
0
miura_ka
販売・サービス・事務
業務へどのように活かすか検討する必要があるが、説明が行われた概要の理解は出来た。
0
take515
メーカー技術・研究・開発
画像、音声などのデータ形式 についてかくにんした。
0
hr-sakai
その他
画像、動画、音声変換についてよくわかった。もっと学習する意欲がでてきた。
0
h_kouno
販売・サービス・事務
今のところ今回の学習内容を直接活用する場はないのですが、入門として画道や音声などについて学習できたのが良かったです。
0
shirojpn
メーカー技術・研究・開発
画像・動画・音声・音楽の処理について概要を理解する事が出来た。
この単元の内容は、画像形式や、音声形式等の既に知っている内容が多かった。
0
tsuyoshi_asano
経営・経営企画
Spotifyでラジオを聴いていると話されている文字が流れてくるようになったが、この高速フーリエ変換を使ってパラメータを作り、話者の言葉をキャッチして文字起こししているのかなと思った。ただ、日本語のラジオの場合だとまだクオリティが高くないです。
0
vegitaberu
人事・労務・法務
音声処理の方法が、理解できました。これまでは、データサイエンス、AI活用というと、数字が中心で、画像や、音声までは、難しいと考えていましたが、今では、そのメカニズムを知らないままでも、活用できる状況にはなっていますが、そのメカニズムを知ることによって、応用や、新しい用途に使っていくことも考えられ、使用範囲が広がる可能性を感じました。
0
madogiwazoku
その他
素人には難しすぎました。頭が痛いです。鼻血もでそうです。
0
kazumi_100pot
金融・不動産 関連職
画像、動画、音声についてのデータの取り扱いの基礎を学ぶことができました。高速フーリエ変換の項目については、まだ十分に理解できたとは言えませんので、復習していくつもりです。
0