画像処理
http://agora.ex.nii.ac.jp/~kitamoto/research/publications/k:tric06y.pdf
#ディジタル画像処理
#コンピュータービジョン #画像解析 #コンピューターグラフィックス
Search
http://agora.ex.nii.ac.jp/~kitamoto/research/publications/k:tric06y.pdf
#ディジタル画像処理
...#写真 (等) 最近はFairness(AIが的方向に偏る問題について)も取り扱われる 掛け合わせ: x x 、等 歴史 : ののベクトルで : のの手法を応用 画像の: 方法 (初歩的なもの) ベクトルに変換 改善するなら、 画像の一部分のデーターではなく、認識に適した画像()を使う One-hotではなくもっと複雑な表現を使う NLPの系譜と似たものを感じる 考え方としては、画像の縦横次元を圧縮しつつ、深さの次元を展開していく 階層構造 のところの図と同じ考え方 人間が集めたデーターセットでやっている以上、人間の認知に適応、過学習していく そりゃそう、それが目的 的な話になってくるけど、を認識できるかみたいな議論に画像認識関わってきそう 人間がラベル付けしないとは当然認識できない あえて人間の存在を極力無視した上で物体検出につながるようなことやったらどうなるんだろう それがか、教師なし学習で物体検出(に近いこと)できるのかな 自然言語によるラベル付けは当然できないけど 人間以外の視覚の知的な捉え方を生み出せたりする? 知的と呼べるレベルまで行けるのかな というか人間が理解できないと知的って言えない?......
非専門家にとってのいわゆる「AI」という概念は に書く 、等の広義「人工知能」の分野マップ Source: http://kamishima.net/archive/MLDMAImap.pdf 強い名がそれぞれの分野について書かれてる #研究 から始まった も流れの一つ? ...
https://www.nii.ac.jp/tatsujin/program/ やった事 これら全ての分野の講義動画を視聴 (+視聴内容を報告) 30講座くらいある(先生一人につき一講座)、1講座が1~2時間くらいの動画 そこらの大学の情報科より価値あるのでは? ある意味、多分野で「」状態までたどり着くみたいな講義なのかもw 元々、非研究者にも届いてくる世界(HCIとかDL系とか)しか知らなかった 数学要素強めな世界のが上がって良かった 短期間に超多分野の内容を学ぶので、分野間の方法論の繋がりだったり、複数の捉え方だったりが見えて面白い ex: と 複数の分野から見た なんとなくいろんな分野でみる共通のパターンみたいなのを感じてるんだけど、これをしたい 講義を見ただけなので、誤解している点とかもあると思う このScrapboxで、内容が合っているか不安な点は文末に「?」を付けてる と思ったので、学んだ内容にタグはつけていない(20200925に消した) https://scrapbox.io/blu3mo/search/page?q=情報科学の達人 でノートが見れる #情報科学 #Computer_Science...
201910 を使ったインターフェースの研究は過去にいくつかある のために、多くのの内側が充実してきた [マルチレンズ]]や[[赤外線]] 等の手軽なシステムも生まれている 現在の表情筋の用途 他人に感情を伝達 [[声]]を出して文字情報を伝達 一人でいるなら表情筋使わなくて良い 表情でが変わる的な研究もあるけど ブラウザで使うイメージ 口を左に歪めて戻るジェスチャー 顎を引いて下にスクロール ユーザーと方向(上下左右)という概念の間に入るテクノロジー #実装するかも...
https://dl.acm.org/citation.cfm?id=2735828 等の学習の手法の一つとして、がある。先生の話しているを追いかけて自分で発声する練習法 だけではなく、先生の[[口]]や顔等のの動きを真似することがある。 それをサポートするシステムの研究。 オンラインで繋がっている環境で使用する 先生の表情をでし、得た3Dメッシュに自分の顔を当てはめる 自分の顔が先生の顔の動きと同期するため、発音時に意識することができる ユーザースタディにはAmazon を使用 オンラインでが必要な作業を発注できるサービス ユーザースタディは、①先に本手法、そのあとに一般的手法 ②逆の順番の二つで試した 結果、発音の向上は見られたが、発声スピードには良い影響が見られなかった 上級者の動きをで自分に当てはめるのをFuturoidと名付けた この研究が第一弾、他にもサッカー等で試す予定らしい を論文の最後に書いていた 思ったこと で同じことを音声でやってみたら面白そう 自分の声だと気持ち悪いかな、そういう心理学の研究ありそう 自分の顔が制御できない気持ち悪さみたいなのってなかったのか気になる 関連研究に書いてあった #文献ログ...
とかみたいなライブラリが、どうやって検知とかみたいな処理をやっているのか この左のグリッド(フィルタ)は、全部足すと0になる を、画像の任意の9マスにかけると、9マスの中心の座標の周りがどのくらい変化してるか、みたいなのがわかる つまり、フィルタは重み もし全部同じ値なら和は0になる、もし上下左右の値が中心と大きな差があったら、重み付けしたあとの和(上の図の60)は大きな値になる http://www.mis.med.akita-u.ac.jp/~kata/image/sobelprew.html 一次差分のフィルタ、とか 差分の差分は二次差分、とかいう 輪郭強調しすぎるとも強調しちゃう がウシアンフィルタでてから輪郭検知したりする 詳しくは下の動画参照 https://www.youtube.com/watch?timecontinue=259&v=OpcFnH2V-Q&feature=emb_logo このフィルタを、自動で学習するのが 複数のフィルタを自動で作り出す、そのカーネルの数がConvolutional Layerの数 あるフィルタは、犬の耳を検出できる物かもしれない 別のフィルタは、犬の目を検出するかも #画像 #UdacityIntrotoDeepLearningwithPyTorch...
の講義 by 先生 CGより分野に近いかな 画像を、特徴のある場所(人間にとって重要な場所)は歪ませずに拡大縮小するアルゴリズム 画素毎にを計算、その後で効率的に重要度の低い経路を計算 Appleのフレームワークにも重要度計算するやつあったな https://www.youtube.com/watch?v=6NcIJXTlugc...
...情報科学の達人プログラム 1期 - 2020/5 ~ 2021/3 、、、、、などの幅広いトピックの講義を受けた後、Saliencyを用いた授業映像要約の研究に取り組みました。 出来る事・取り組みたい事 実験用システムの開発 様々なプラットフォームや技術の開発を行ってきたため、幅広いプロジェクトに対応 具体的には、以下を含む様々な技術を用いた開発の経験があります Swift, Kotlin, Java, Typescript, C++, Ruby 等の言語 iOS, Android, Web (React), Unity 等のフロントエンド関連技術 Firebase, MySQL, GCP (Compute Engine), MongoDB 等のバックエンド関連技術 OpenCV, Tensorflow, PyTorch 等のライブラリ 被験者実験用システムの開発・運用も、未踏事業時のユーザテストや高校時代のVRに関する研究で行った経験があります。 経験がない技術でも、インターン開始までに可能なキャッチアップします。 「体験を通じて研究する」サイクル 講演動画等を拝聴した限り、自分の興味にとても近いように感じています。 実際に研究に携わらせて頂く事で、このサイクルにおける思考プロセスや実践的知見を吸収させて頂きたいです。......