キャンペーン終了まで

割引情報をチェック！

GLOBIS 学び放題

法人向けサービス

人材育成のプロが組織の成長に伴走します。生成AIを活用した各種機能、MBA基礎〜DXなど最新知識まで測定もできるeラーニングも用意。

詳細を見る

目次

画像/動画処理・音声/音楽処理

体系的に学ぶ
AI・テクノベート
機械学習⑪画像・動画・音声・音楽の処理／データサイエンス入門

すべての動画をフルで見よう！

初回登録なら7日間無料！いつでも解約OK

いますぐ無料体験へ

機械学習⑪画像・動画・音声・音楽の処理／データサイエンス入門

0h 17m (1sections)
AI・テクノベート
実践知

このコースについて

このシリーズでは、スキルアップAI株式会社の「データサイエンティスト基礎講座」より、ビジネスパーソンが知っておくべき内容を抜粋してお送りします。データサイエンティスト検定™ リテラシーレベルにも対応した内容となっています。

スキルアップAIは、入門、データ分析、AIエンジニア基礎、ビジネス、クラウド、AIエンジニア応用といったカテゴリで様々な講座を用意しています。

スキルアップAI株式会社
https://www.skillupai.com/open/

コース内容

画像/動画処理・音声/音楽処理

より理解を深め、他のユーザーとつながりましょう。

93人の振り返り

hfkd156036
金融・不動産　関連職
高速フーリエ変換と包絡スペクトルがわかった。
2024-03-01
2
kenjiro_fujita
コンサルタント
音声の周波数分析には高速フーリエ変換が必要であるが、そのときは短時間で区切らないと何を分析しているのか分からなくなることが理解できた。
2024-01-12
1
yuichi_muroi
その他
データ分析に必要な処理方法を理解しました。
2024-12-19
0
tnema
IT・WEB・エンジニア
この章ではよく耳にする用語が比較的多く出てきますが、なぜこのような処理が必要なのかの具体的を知りたい。
2025-01-26
0
takeshita_ta
営業
画像や音声の処理技術を活用して、通話の感情分析や自動要約が可能である。また、ビデオ通話対応の品質管理や問題点の可視化によって、顧客対応の質を向上させることが期待できる。
2025-01-23
0
tadashiokamoto
専門職
活用できるよう努めます
2025-01-22
0
asakusajun
営業
楽しく学習させていただいています。
2025-01-14
0
aquico52
IT・WEB・エンジニア
文字読み取りのAIはすでに使っているが、音声をテキスト化する方は実務ではなかなか使いにくい状況。取り入れられそうなものは取り入れたい
2025-01-14
0
warashina12345
その他
大変勉強になりました
2025-01-07
0
myu-tan
コンサルタント
画像、動画、音声ファイルの形式の違いが良くわかった。日常的にも良く使うファイル形式のため、様々な場面で活用できると思います。
2025-01-07
0
mori_1991
メーカー技術・研究・開発
ファイル形式とその特徴を学ぶことができた。
2025-01-02
0
xiu14
その他
音声や画像がどのように解析・処理されるのか、基本的でありながら
あいまいになっていた部分を知ることができました。
2024-12-30
0
hirano_rikiya
専門職
画像や音声のデータ転送でフエリー変換が活用されている点について学習できました。
2025-02-10
0
homma_nanami
販売・サービス・事務
現在の業務では活用する機会はなさそうですが、興味深い内容でした。
2024-12-16
0
inagaki_tomomi1
販売・サービス・事務
復習により理解致します。
2024-12-13
0
risa_sss
販売・サービス・事務
普段活用している文字起し機能の技術要素について理解できた
2024-12-12
0
mutame
その他
大変勉強になりました。
2024-12-01
0
hibinono
その他
データ利活用基盤を構築していくのに必要だと感じました。
2024-11-26
0
aokitaka-tci
その他
画像・動画・音声・音楽の処理の概要につき理解した、音声関連によく関わっているが、書き起こしに不具合が出てしまうイメージがもてた
2024-11-21
0
hrkudo
IT・WEB・エンジニア
画像処理と音声処理について理解できました。
2024-11-20
0
kyo1227
営業
現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。
2024-11-07
0
takumi_1453
経営・経営企画
音声処理の手法がややこしい。
手法：周波数解析（スペクトル解析）
技術：離散フーリエ変換
　　　→高速フーリエ変換
　　　　→短時間フーリエ変換
　　　スペクトル包絡？？？

ーーーーーーーーーーーーーーーーーーー

【画像・動画処理】

①画像のデジタル表現
・画像は沢山の画像（ピクセル）の集合
・画素とは画像を構成する情報の単位で、1つの色で塗られた非常に小さな正方形のこと

②代表的な画像FMT
・PNG
　・フルカラー（1677万色）に対応
　・保存を繰り返しても画質は劣化しない
・JPG
　・フルカラー（1677万色）に対応
　・目視で把握できないような情報を削る事でファイルサイズを小さくする
　・保存する度に画質が劣化する
・GIF
　・256色しか表現できない
　・ファイルサイズが非常に小さい
　・パラパラ漫画のような動画を作成可能

③動画データ
　・画像データの集合体
　・動画データを処理する際は、画像処理と音処理を行うことになる

④代表的な動画FMT
・MP4
　・多くの動画データPFで再生可能
　・容量の大きい動画を圧縮することに向いている
・AVI
　・Windowsでの動画編集や再生に向いている
・MOV
　・Macでの動画編集や再生に向いている
・FLV
　・YouTubeやニコニコ動画などで使用されている

⑤画像処理における典型的なタスク
・画像分類
　（例）入力された写真をネコ、イヌ、トラなどのクラスに分類
・物体検出
　（例）入力された写真に対し、人・自動車・樹木など予め定められたクラスの物体を四角い領域で特定する
・セマンティックセグメンテーション
　（例）入力された写真に対し、その写真のピクセルごとに人・自動車・樹木などのクラス分類を行う
・画像生成
　（例）全く新しい画像（顔写真など）を生成する
・画像キャプション生成
　（例）人が写っている写真に対し、その人が何をしているかを説明する自然言語を生成する

⑥動画処理における典型的なタスク
・侵入者検知
　（例）進入禁止エリアに人が侵入したことを自動的に検知
・通過物体のカウント
　（例）製造ラインにおいて、通過した製品数を数える
　（例）店舗において、通過した人数を数える
・自動運転
　（例）車載カメラによって撮影された映像を元に、歩行者や自動車の飛び出しを検知する
・動画編集
　（例）サッカーなどの試合を撮影した動画から、その試合のハイライトを自動的に抽出する

⑦画像データに対する前処理手法
・リサイズ
　・モデルの入力サイズに合わせるために、画像の解像度を変更
・パディング
　・モデルの入力サイズに合わせるために、画像の周りに何らかのデータを追加
・標準化
　・効率よく学習を行うために、画像のピクセル値を平均0、分散1にする
・フィルタ処理
　・画像に対し特殊な処理を加えること
　（例）ごま塩ノイズを除去し、綺麗な画像に変換
　（例）カラー画像をモノクロ画像に変換
　（例）画像から輪郭情報のみ抽出

【音声・音楽処理】

①音声・音楽データとは
・音は空気の振動＝波
　・振幅（大きさ）と周波数（高さ）をもつ
　・アナログ信号（連続信号）
・音声データをコンピュータで扱うために、アナログデータを離散的なデジタルデータに変換する必要がある
　・これをA-D変換（Analog to Digital Conversion）という

②代表的な音声・音楽FMT
・WAV
　・Windows用の音声ファイル形式
　・非圧縮のためデータサイズは大きい
・MP3
　・データサイズは原音の約10 分の1
　・CDと同程度の音質
　・ジャケット写真や歌詞も付けられる
・AAC
　・MP3に比べ、若干データサイズは大きいが、音質は良い

③音声・音楽処理における典型的なタスク
・音楽データ
　・音楽の偏変換
　　例　ある音楽をバッハ風の音楽に変換
　・音楽の生成
　　例　全く新しい音楽を生成
・音声データ
　・音声認識
　　例　音声データに含まれる単語列を推定する
　・自動翻訳
　　例　日本語の音声を英語の音声に変換
　・話者分離
　　例　複数人の話者が同時にしゃべったときに、人毎に発話内容を分ける
　・対話
　　例　スマートスピーカー
　・文字起こし
　　例　スマホ等に入力された音声を自動
でテキスト化

④音声・音楽処理の手法
・周波数解析
　・音データなどの時系列データを周波数成分に分散し、得られた周波数ベクトルを用いて解析を行う
　・スペクトル解析とも呼ばれる
　・【高速フーリエ変換】と呼ばれる技術を使用する
　　→離散フーリエ変換を効率的に行う方法
　　→音声信号に対し、離散フーリエ変換を行うと、周波数スペクトルが得られる。
　　　周波数スペクトルに変換すると入力された音声信号にどのような周波数がどれほどの強さで含まれているかを分析できる
　　　【短時間フーリエ変換】
　　　→入力音声に対し、窓関数を掛けながら数十ms程度の時間長の区間を切り出し、高速フーリエ変換を実行すること
　　　　・窓関数をかけると周波数特徴を綺麗に取り出せる
　・【スペクトル包絡】
　　・周波数スペクトルの緩やかな変動のこと
　　・スペクトル包絡には声の特徴（声道特性）が表れる
2024-10-18
0
yoshikouc
販売・サービス・事務
画像・映像処理の内容がわかりました
2024-10-17
0
shin_yako
販売・サービス・事務
参考になりました。仕事での活用を考えます
2024-10-06
0
grateful
専門職
動画・音声・音楽の処理を学びました。
2024-10-03
0
egon
マーケティング
画像、動画、音声ファイルの形式の違いが良く理解できました。日常的にも良く使うファイル形式のため、仕事で活用できると思います。
2025-05-16
0
h_tsukawaki
マーケティング
実務に直結する内容ではないですが、日常使用しているツールがこのような考え方で成立しているということがわかり興味深かったです。
2025-08-07
0
holy_tech
人事・労務・法務
音声データで維持録を作成させたい。
2025-07-27
0
jj_mini
マーケティング
画像や音声は人間が捉える感覚的なものではなく、周波数成分分析により行われることがわかった
2025-07-22
0
holborn_summer
マーケティング
音源の種類など日頃業務では使わないので勉強になりました。
2025-07-10
0
unagi0904
資材・購買・物流
生成ＡＩらしいアウトプットを得るためにはこれらは必須なのでしょう。5%ぐらい知ってる。
2025-07-08
0
ohkmas
経営・経営企画
画像のデジタル表現。画像は画素ピクセルの集合。PNGは保存を繰り返しても劣化しない、JPGは目視把握できない情報を削ってファイルサイズを小さくし保存するたびに画質が劣化する、GIFは256色しか表現できずファイルサイズが非常に小さくパラパラ漫画のような動画を作成可能。
2025-06-25
0
macha511
IT・WEB・エンジニア
画像や音声の処理について、概要が理解できました。
2025-06-22
0
abarenaikun
営業
画像・音声・動画処理の技術はデータ分析やコンテンツ制作に欠かせないと感じる。特に高速フーリエ変換は音声解析に有効で、物体検出や画像生成の技術も実務で応用したい。最適な手法を理解しながら活用を進めたい。
2025-06-17
0
timetraveler
IT・WEB・エンジニア
画像や動画については、馴染のある内容であったため、わかりやすかった。
周波数解析の具体的に用途についても知りたかった。
2025-06-08
0
terulin
メディカル　関連職
目的に応じてファイル形式が違うことがわかった
2025-05-29
0
hiroshi-srkr
経営・経営企画
音声データ処理をしてさらに会議録が作成出来れば非常に便利になると思いました。
2025-05-16
0
azu_max
営業
とても勉強になりました。
2025-02-10
0
yy_nn
その他
画像や動画、音声とフォーマットを知ることで、処理方法に応じたデータフォーマットを選択できると思いました。また、典型的なタスクを知ることで、どのようなデータからどんなタスクを処理できるのかイメージが湧きました。例えば、不動産資産保護のための侵入者検知には動画データが使えるなどです。また、音声解析から侵入者の特徴を見出せるかもしれません。業務でこれらのデータを使ったタスクが浮かんだ際に見直し活かしたいです。
2025-05-15
0
kkmmyy
営業
今後参考にしたいと思います
2025-05-13
0
srk1
その他
業務でかかわることは少なそうですがよく理解できました
2025-04-30
0
everest
営業
画像データから有用な情報を抽出し、業務やサービスの品質向上に役立てる力として活用したい。
2025-04-10
0
nokt
メーカー技術・研究・開発
画像処理は例えばAdobe社が数十年前から取り組んできていましたが、最近はAIを取り入れて更に進化した処理ができるようになっています。スマホにおいては画像処理によって（ややスペックが低い）撮影画像を、デジタル一眼レフと同程度の画像に仕上げたりと、進歩が著しいと感じています。この先に考えられる次の進化はどのようになるのか、自分も考えてみたいですね。
2025-03-30
0
staka3
その他
今は画像で検索をしそれが何と表現することが多くなってますが、これをさらにデータを集めることで個人の特定や特定な情報なども可能かと思います。
またさらに進めれば動画からも可能ではないかと思います。それを可能にできるのはAIを利用すれば今後そのようなアプリなども出てくるかと思います。
2025-03-29
0
yoshiyc
その他
画像や音声等については処理には携わったことがなく、初めて聞く言葉ばかりでしたが、概要が理解出来ました。
2025-02-26
0
t03290512
営業
日常業務に取り組活動
2025-02-16
0
temp954
販売・サービス・事務
画像処理は業務に関連しているが感覚的に使用している面もあるので改めて基本に立ち返ることができた。
ほかの処理については画像ほどではないけれど身近ではあるので知識として持っておこうと思います。
2025-02-13
0
ta-mo-
IT・WEB・エンジニア
今回は画像、動画、音声のデータ処理の基礎が学べた。それぞれのファイル形式の理解ができ、深圳であり、興味深かった。
2024-09-29
0
mainichi365
IT・WEB・エンジニア
何となく分かりました。
2023-12-04
0
take515
メーカー技術・研究・開発
画像、音声などのデータ形式についてかくにんした。
2024-03-29
0
miura_ka
販売・サービス・事務
業務へどのように活かすか検討する必要があるが、説明が行われた概要の理解は出来た。
2024-03-19
0
sesesese
その他
手法の名前を知ることができました。
どんな場面で利用されるかはまだ理解が及ばないので、今後がくしゅうしていきたいです。
2024-03-16
0
wada00
その他
大変勉強になりました。
2024-03-03
0
k--g--
その他
まずタスク設定ができることが必要と理解した。機械処理が可能であることを、それらのタスクに当てはめていけばよい。
2024-02-21
0
ken222
営業
音声処理には高性能の半導体が必要となる。
2024-02-12
0
vz3000
IT・WEB・エンジニア
画像、動画、音声についてのデータの取り扱いの基礎を学ぶことができました。今後、それぞれの詳細について理解を深めていきたい。
2024-01-27
0
yasupii
その他
短時間フーリエ変換を使って音声データを解析していることを知り、とても興味を持ちました。実際のデータを使って、分析やってみるとより理解が深まると思いました。
2024-01-07
0
choko0504
メーカー技術・研究・開発
フーリエ変換等、メジャーな手法について理解することができた。実務で活用したい。
2024-01-02
0
iso_ken
専門職
画像、音声を用いたAIは今後業務にも使用したいと考えているので、前処理やライブラリの使用方法などをしっかり勉強していきたい。
2023-12-16
0
hr-sakai
その他
画像、動画、音声変換についてよくわかった。もっと学習する意欲がでてきた。
2024-03-30
0
user-name01
販売・サービス・事務
画像、動画、音声、音楽の処理の基本的なことを学んだ。フーリエ変換という数学的手法が用いられていることを学んだ。
2023-12-03
0
matute
IT・WEB・エンジニア
画像、動画、音声について、データ形式の種類、取り扱い方法や機械学習でどの様なことができるか等、理解することができた。それぞれの特徴を踏まえ、データ分析・機械学習モデル構築を行っていきたい。なお、音声について高速フーリエ変換や炮烙スペクトルは、概略は理解できたが、もう少し詳しく学んでいきたいと思う。
2023-11-25
0
7031
経営・経営企画
どこまで出来るかわかりませんが大変勉強になりました。
2023-11-11
0
stani
専門職
画像、音声もデータである。加工しやすく、小容量で高パフォーマンスを実現したい。
2023-10-30
0
k-akira
営業
高速フーリエ変換と包絡スペクトルがよくわかった。
2023-10-22
0
naoki_sasano
メーカー技術・研究・開発
製造工程管理において、動画処理のうちの通過物体カウントを利用できないかと考えている。音声処理については、自分の仕事への活用はあまり考えられないが、特徴をとらえるため短区間での周波数スペクトル変換が必要で、全体解析するためには膨大なデータを取り扱わなければいけないのだと理解した。
2023-10-18
0
tome0704
人事・労務・法務
自分の業務では今のところ使う予定はない
2023-10-09
0
watanabe-tat
専門職
高速フーリエ変換を活用して、声楽支援サービスを企画する。
2023-10-08
0
k_yuna
販売・サービス・事務
大変勉強になりました。
2023-10-03
0
t_htn
経営・経営企画
どこまでできるか不明だが、
会議や打合せでの話者特定した文字起しを行う処理を、
自ら作成する際の参考にしたいと思う。
2023-09-23
0
inyourmind
建設・土木　関連職
話者分離が精度よくできるようになれば、MOM作成がはかどると思う。
2024-07-12
0
kazumi_100pot
金融・不動産　関連職
画像、動画、音声についてのデータの取り扱いの基礎を学ぶことができました。高速フーリエ変換の項目については、まだ十分に理解できたとは言えませんので、復習していくつもりです。
2023-08-17
0
e_co
販売・サービス・事務
現在の業務で活かす場面は無さそうですが、考え方として理解する事はプラスになると思うので、理解できて良かったと思いました。
2024-09-29
0
h-kozawa
メーカー技術・研究・開発
昨今、音声認識が格段に進歩している背景が理解できました。
2024-09-14
0
tsukamotoya
資材・購買・物流
たいへん興味深く学習致しました。普段使っているファイル形式が、どういう性質のものであるか、理解を深めました。JPEGは劣化するのですね。動画データファイル形式では、MXFを放送用データで使用しておりますが、今回の講義には出てきませんでした。あまりメジャーなファイル形式ではないのかもしれませんね。
2024-09-06
0
hi-std
IT・WEB・エンジニア
今のところ使うことはなさそうですが、文字起し機能について知る事が出来た。
2024-08-31
0
pinguino
販売・サービス・事務
断片的な知識がつながって全体像が把握できたように思います。
2024-08-18
0
makidayo
IT・WEB・エンジニア
アナログな情報を、デジタルに落とし込むにはどのようにしているのかがわかりやすかった。データを人が認識することと、機械がデータを認識することについて、どうやって認識しているのかの違いがわかることは、取り扱い時の注意点などにもつながるので、大切だなと思った。
2024-08-15
0
yokoishida
コンサルタント
私の場合、実際に使う日が来るとは思えない内容でした。今のところ、こういうことがあるのだな、くらいの理解でした。
2024-08-12
0
70sp1208
その他
画像・動画・音声処理などの基本的なしくみについてわかりやすい解説であった。特に音声処理においては、フーリエ解析の知識が必要で、学生時代にやったことを復習していきたい。
2024-08-07
0
fukashi_uehara
メーカー技術・研究・開発
フーリエ変換については、振動解析で使用してことがあり理解が深まりました。
2024-07-27
0
cs1960
販売・サービス・事務
大変勉強になりました。
2024-07-15
0
masato_86
専門職
現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。
2024-10-02
0
i_mura888
金融・不動産　関連職
音声分析の仕方がイメージ出来ました。
2024-06-22
0
test_test___
メーカー技術・研究・開発
フーリエ変換、大学で学んだような希ガス。
2024-06-12
0
michiyomichiyo
その他
仕事で活用する機会はなさそうだが、興味深かった
2024-06-04
0
taka1962
販売・サービス・事務
現状の業務で音声データを扱うことはないが、コンピュータへ音声で指示を出す場面は、想定されるかもしれないと思った。
2024-06-03
0
s-ma
経営・経営企画
普段活用している文字起し機能の技術要素について理解できた
2024-05-11
0
madogiwazoku
その他
素人には難しすぎました。頭が痛いです。鼻血もでそうです。
2024-05-11
0
vegitaberu
人事・労務・法務
音声処理の方法が、理解できました。これまでは、データサイエンス、AI活用というと、数字が中心で、画像や、音声までは、難しいと考えていましたが、今では、そのメカニズムを知らないままでも、活用できる状況にはなっていますが、そのメカニズムを知ることによって、応用や、新しい用途に使っていくことも考えられ、使用範囲が広がる可能性を感じました。
2024-05-08
0
tsuyoshi_asano
経営・経営企画
Spotifyでラジオを聴いていると話されている文字が流れてくるようになったが、この高速フーリエ変換を使ってパラメータを作り、話者の言葉をキャッチして文字起こししているのかなと思った。ただ、日本語のラジオの場合だとまだクオリティが高くないです。
2024-05-03
0
shirojpn
メーカー技術・研究・開発
画像・動画・音声・音楽の処理について概要を理解する事が出来た。
この単元の内容は、画像形式や、音声形式等の既に知っている内容が多かった。
2024-04-08
0
h_kouno
販売・サービス・事務
今のところ今回の学習内容を直接活用する場はないのですが、入門として画道や音声などについて学習できたのが良かったです。
2024-04-06
0