キャンペーン終了まで

割引情報をチェック!

すべての動画をフルで見よう!

初回登録なら7日間無料! いつでも解約OK

いますぐ無料体験へ

機械学習⑪画像・動画・音声・音楽の処理/データサイエンス入門

  • 0h 17m (1sections)
  • テクノベート (テクノロジーとイノベーション)
  • 実践知

このコースについて

このシリーズでは、スキルアップAI株式会社の「データサイエンティスト基礎講座」より、ビジネスパーソンが知っておくべき内容を抜粋してお送りします。データサイエンティスト検定™ リテラシーレベルにも対応した内容となっています。

スキルアップAIは、入門、データ分析、AIエンジニア基礎、ビジネス、クラウド、AIエンジニア応用といったカテゴリで様々な講座を用意しています。

スキルアップAI株式会社
https://www.skillupai.com/open/

コース内容

  • 画像/動画処理・音声/音楽処理

より理解を深め、他のユーザーとつながりましょう。

56人の振り返り

  • hfkd156036

    金融・不動産 関連職

    高速フーリエ変換と包絡スペクトルがわかった。

    2024-03-01
  • kenjiro_fujita

    コンサルタント

    音声の周波数分析には高速フーリエ変換が必要であるが、そのときは短時間で区切らないと何を分析しているのか分からなくなることが理解できた。

    2024-01-12
  • yokoishida

    コンサルタント

    私の場合、実際に使う日が来るとは思えない内容でした。今のところ、こういうことがあるのだな、くらいの理解でした。

    2024-08-12
  • taka1962

    販売・サービス・事務

    現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。

    2024-06-03
  • k-akira

    営業

    高速フーリエ変換と包絡スペクトルがよくわかった。

    2023-10-22
  • ken222

    営業

    音声処理には高性能の半導体が必要となる。

    2024-02-12
  • madogiwazoku

    その他

    素人には難しすぎました。頭が痛いです。鼻血もでそうです。

    2024-05-11
  • h_kouno

    販売・サービス・事務

    今のところ今回の学習内容を直接活用する場はないのですが、入門として画道や音声などについて学習できたのが良かったです。

    2024-04-06
  • s-ma

    経営・経営企画

    普段活用している文字起し機能の技術要素について理解できた

    2024-05-11
  • choko0504

    メーカー技術・研究・開発

    フーリエ変換等、メジャーな手法について理解することができた。実務で活用したい。

    2024-01-02
  • 512177

    資材・購買・物流

    それぞれの処理性能を理解して活用していく

    2024-03-18
  • test_test___

    メーカー技術・研究・開発

    フーリエ変換、大学で学んだような希ガス。

    2024-06-12
  • wada00

    その他

    大変勉強になりました。

    2024-03-03
  • shin_yako

    販売・サービス・事務

    参考になりました。仕事での活用を考えます

    2024-10-06
  • kazumi_100pot

    金融・不動産 関連職

    画像、動画、音声についてのデータの取り扱いの基礎を学ぶことができました。高速フーリエ変換の項目については、まだ十分に理解できたとは言えませんので、復習していくつもりです。

    2023-08-17
  • k_yuna

    販売・サービス・事務

    大変勉強になりました。

    2023-10-03
  • matute

    IT・WEB・エンジニア

    画像、動画、音声について、データ形式の種類、取り扱い方法や機械学習でどの様なことができるか等、理解することができた。それぞれの特徴を踏まえ、データ分析・機械学習モデル構築を行っていきたい。なお、音声について高速フーリエ変換や炮烙スペクトルは、概略は理解できたが、もう少し詳しく学んでいきたいと思う。

    2023-11-25
  • vz3000

    IT・WEB・エンジニア

    画像、動画、音声についてのデータの取り扱いの基礎を学ぶことができました。今後、それぞれの詳細について理解を深めていきたい。

    2024-01-27
  • user-name01

    販売・サービス・事務

    画像、動画、音声、音楽の処理の基本的なことを学んだ。フーリエ変換という数学的手法が用いられていることを学んだ。

    2023-12-03
  • fukashi_uehara

    メーカー技術・研究・開発

    フーリエ変換については、振動解析で使用してことがあり理解が深まりました。

    2024-07-27
  • h-kozawa

    メーカー技術・研究・開発

    昨今、音声認識が格段に進歩している背景が理解できました。

    2024-09-14
  • takumi_1453

    経営・経営企画

    音声処理の手法がややこしい。
    手法:周波数解析(スペクトル解析)
    技術:離散フーリエ変換
       →高速フーリエ変換
        →短時間フーリエ変換
       スペクトル包絡???

    ーーーーーーーーーーーーーーーーーーー

    【画像・動画処理】

    ①画像のデジタル表現
    ・画像は沢山の画像(ピクセル)の集合
    ・画素とは画像を構成する情報の単位で、1つの色で塗られた非常に小さな正方形のこと

    ②代表的な画像FMT
    ・PNG
     ・フルカラー(1677万色)に対応
     ・保存を繰り返しても画質は劣化しない
    ・JPG
     ・フルカラー(1677万色)に対応
     ・目視で把握できないような情報を削る事でファイルサイズを小さくする
     ・保存する度に画質が劣化する
    ・GIF
     ・256色しか表現できない
     ・ファイルサイズが非常に小さい
     ・パラパラ漫画のような動画を作成可能

    ③動画データ
     ・画像データの集合体
     ・動画データを処理する際は、画像処理と音処理を行うことになる

    ④代表的な動画FMT
    ・MP4
     ・多くの動画データPFで再生可能
     ・容量の大きい動画を圧縮することに向いている
    ・AVI
     ・Windowsでの動画編集や再生に向いている
    ・MOV
     ・Macでの動画編集や再生に向いている
    ・FLV
     ・YouTubeやニコニコ動画などで使用されている

    ⑤画像処理における典型的なタスク
    ・画像分類
     (例)入力された写真をネコ、イヌ、トラなどのクラスに分類
    ・物体検出
     (例)入力された写真に対し、人・自動車・樹木など予め定められたクラスの物体を四角い領域で特定する
    ・セマンティックセグメンテーション
     (例)入力された写真に対し、その写真のピクセルごとに人・自動車・樹木などのクラス分類を行う
    ・画像生成
     (例)全く新しい画像(顔写真など)を生成する
    ・画像キャプション生成
     (例)人が写っている写真に対し、その人が何をしているかを説明する自然言語を生成する

    ⑥動画処理における典型的なタスク
    ・侵入者検知
     (例)進入禁止エリアに人が侵入したことを自動的に検知
    ・通過物体のカウント
     (例)製造ラインにおいて、通過した製品数を数える
     (例)店舗において、通過した人数を数える
    ・自動運転
     (例)車載カメラによって撮影された映像を元に、歩行者や自動車の飛び出しを検知する
    ・動画編集
     (例)サッカーなどの試合を撮影した動画から、その試合のハイライトを自動的に抽出する

    ⑦画像データに対する前処理手法
    ・リサイズ
     ・モデルの入力サイズに合わせるために、画像の解像度を変更
    ・パディング
     ・モデルの入力サイズに合わせるために、画像の周りに何らかのデータを追加
    ・標準化
     ・効率よく学習を行うために、画像のピクセル値を平均0、分散1にする
    ・フィルタ処理
     ・画像に対し特殊な処理を加えること
     (例)ごま塩ノイズを除去し、綺麗な画像に変換
     (例)カラー画像をモノクロ画像に変換
     (例)画像から輪郭情報のみ抽出

    【音声・音楽処理】

    ①音声・音楽データとは
    ・音は空気の振動=波
     ・振幅(大きさ)と周波数(高さ)をもつ
     ・アナログ信号(連続信号)
    ・音声データをコンピュータで扱うために、アナログデータを離散的なデジタルデータに変換する必要がある
     ・これをA-D変換(Analog to Digital Conversion)という

    ②代表的な音声・音楽FMT
    ・WAV
     ・Windows用の音声ファイル形式
     ・非圧縮のためデータサイズは大きい
    ・MP3
     ・データサイズは原音の約10 分の1
     ・CDと同程度の音質
     ・ジャケット写真や歌詞も付けられる
    ・AAC
     ・MP3に比べ、若干データサイズは大きいが、音質は良い

    ③音声・音楽処理における典型的なタスク
    ・音楽データ
     ・音楽の偏変換
      例 ある音楽をバッハ風の音楽に変換
     ・音楽の生成
      例 全く新しい音楽を生成
    ・音声データ
     ・音声認識
      例 音声データに含まれる単語列を推定する
     ・自動翻訳
      例 日本語の音声を英語の音声に変換
     ・話者分離
      例 複数人の話者が同時にしゃべったときに、人毎に発話内容を分ける
     ・対話
      例 スマートスピーカー
     ・文字起こし
      例 スマホ等に入力された音声を自動
    でテキスト化

    ④音声・音楽処理の手法
    ・周波数解析
     ・音データなどの時系列データを周波数成分に分散し、得られた周波数ベクトルを用いて解析を行う
     ・スペクトル解析とも呼ばれる
     ・【高速フーリエ変換】と呼ばれる技術を使用する
      →離散フーリエ変換を効率的に行う方法
      →音声信号に対し、離散フーリエ変換を行うと、周波数スペクトルが得られる。
       周波数スペクトルに変換すると入力された音声信号にどのような周波数がどれほどの強さで含まれているかを分析できる
       【短時間フーリエ変換】
       →入力音声に対し、窓関数を掛けながら数十ms程度の時間長の区間を切り出し、高速フーリエ変換を実行すること
        ・窓関数をかけると周波数特徴を綺麗に取り出せる
     ・【スペクトル包絡】
      ・周波数スペクトルの緩やかな変動のこと
      ・スペクトル包絡には声の特徴(声道特性)が表れる

    2024-10-18
  • iso_ken

    専門職

    画像、音声を用いたAIは今後業務にも使用したいと考えているので、前処理やライブラリの使用方法などをしっかり勉強していきたい。

    2023-12-16
  • ta-mo-

    IT・WEB・エンジニア

    今回は画像、動画、音声のデータ処理の基礎が学べた。それぞれのファイル形式の理解ができ、深圳であり、興味深かった。

    2024-09-29
  • inyourmind

    建設・土木 関連職

    話者分離が精度よくできるようになれば、MOM作成がはかどると思う。

    2024-07-12
  • shirojpn

    メーカー技術・研究・開発

    画像・動画・音声・音楽の処理について概要を理解する事が出来た。
    この単元の内容は、画像形式や、音声形式等の既に知っている内容が多かった。

    2024-04-08
  • makidayo

    IT・WEB・エンジニア

    アナログな情報を、デジタルに落とし込むにはどのようにしているのかがわかりやすかった。データを人が認識することと、機械がデータを認識することについて、どうやって認識しているのかの違いがわかることは、取り扱い時の注意点などにもつながるので、大切だなと思った。

    2024-08-15
  • vegitaberu

    人事・労務・法務

    音声処理の方法が、理解できました。これまでは、データサイエンス、AI活用というと、数字が中心で、画像や、音声までは、難しいと考えていましたが、今では、そのメカニズムを知らないままでも、活用できる状況にはなっていますが、そのメカニズムを知ることによって、応用や、新しい用途に使っていくことも考えられ、使用範囲が広がる可能性を感じました。

    2024-05-08
  • mainichi365

    IT・WEB・エンジニア

    何となく分かりました。

    2023-12-04
  • i_mura888

    金融・不動産 関連職

    音声分析の仕方がイメージ出来ました。

    2024-06-22
  • kyo1227

    営業

    現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。

    2024-11-07
  • sesesese

    その他

    手法の名前を知ることができました。
    どんな場面で利用されるかはまだ理解が及ばないので、今後がくしゅうしていきたいです。

    2024-03-16
  • grateful

    専門職

    動画・音声・音楽の処理を学びました。

    2024-10-03
  • cs1960

    販売・サービス・事務

    大変勉強になりました。

    2024-07-15
  • hi-std

    IT・WEB・エンジニア

    今のところ使うことはなさそうですが、文字起し機能について知る事が出来た。

    2024-08-31
  • tsuyoshi_asano

    経営・経営企画

    Spotifyでラジオを聴いていると話されている文字が流れてくるようになったが、この高速フーリエ変換を使ってパラメータを作り、話者の言葉をキャッチして文字起こししているのかなと思った。ただ、日本語のラジオの場合だとまだクオリティが高くないです。

    2024-05-03
  • yoshikouc

    販売・サービス・事務

    画像・映像処理の内容がわかりました

    2024-10-17
  • tome0704

    人事・労務・法務

    自分の業務では今のところ使う予定はない

    2023-10-09
  • miura_ka

    販売・サービス・事務

    業務へどのように活かすか検討する必要があるが、説明が行われた概要の理解は出来た。

    2024-03-19
  • k--g--

    その他

    まずタスク設定ができることが必要と理解した。機械処理が可能であることを、それらのタスクに当てはめていけばよい。

    2024-02-21
  • tsukamotoya

    営業

    たいへん興味深く学習致しました。普段使っているファイル形式が、どういう性質のものであるか、理解を深めました。JPEGは劣化するのですね。動画データファイル形式では、MXFを放送用データで使用しておりますが、今回の講義には出てきませんでした。あまりメジャーなファイル形式ではないのかもしれませんね。

    2024-09-06
  • take515

    メーカー技術・研究・開発

    画像、音声などのデータ形式 についてかくにんした。

    2024-03-29
  • naoki_sasano

    メーカー技術・研究・開発

    製造工程管理において、動画処理のうちの通過物体カウントを利用できないかと考えている。音声処理については、自分の仕事への活用はあまり考えられないが、特徴をとらえるため短区間での周波数スペクトル変換が必要で、全体解析するためには膨大なデータを取り扱わなければいけないのだと理解した。

    2023-10-18
  • 70sp1208

    その他

    画像・動画・音声処理などの基本的なしくみについてわかりやすい解説であった。特に音声処理においては、フーリエ解析の知識が必要で、学生時代にやったことを復習していきたい。

    2024-08-07
  • yasupii

    その他

    短時間フーリエ変換を使って音声データを解析していることを知り、とても興味を持ちました。実際のデータを使って、分析やってみるとより理解が深まると思いました。

    2024-01-07
  • michiyomichiyo

    その他

    仕事で活用する機会はなさそうだが、興味深かった

    2024-06-04
  • masato_86

    専門職

    現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。

    2024-10-02
  • stani

    専門職

    画像、音声もデータである。加工しやすく、小容量で高パフォーマンスを実現したい。

    2023-10-30
  • hr-sakai

    その他

    画像、動画、音声変換についてよくわかった。もっと学習する意欲がでてきた。

    2024-03-30
  • hrkudo

    IT・WEB・エンジニア

    画像処理と音声処理について理解できました。

    2024-11-20
  • aokitaka-tci

    その他

    画像・動画・音声・音楽の処理の概要につき理解した、音声関連によく関わっているが、書き起こしに不具合が出てしまうイメージがもてた

    2024-11-21
  • t_htn

    経営・経営企画

    どこまでできるか不明だが、
    会議や打合せでの話者特定した文字起しを行う処理を、
    自ら作成する際の参考にしたいと思う。

    2023-09-23
  • pinguino

    販売・サービス・事務

    断片的な知識がつながって全体像が把握できたように思います。

    2024-08-18
  • watanabe-tat

    専門職

    高速フーリエ変換を活用して、声楽支援サービスを企画する。

    2023-10-08
  • 7031

    経営・経営企画

    どこまで出来るかわかりませんが大変勉強になりました。

    2023-11-11
  • e_co

    販売・サービス・事務

    現在の業務で活かす場面は無さそうですが、考え方として理解する事はプラスになると思うので、理解できて良かったと思いました。

    2024-09-29

関連動画コース

新着動画コース

10分以内の動画コース

再生回数の多い動画コース

コメントの多い動画コース

オンライン学習サービス部門 20代〜30代ビジネスパーソン334名を対象とした調査の結果 4部門で高評価達成!

7日間の無料体験を試してみよう

無料会員登録

期間内に自動更新を停止いただければ、料金は一切かかりません。