気づき_コーポレート・トランスフォーメーション を読んで(その2)
はじめに
前回に引き続き冨山和彦氏の「コーポレートトランスフォーメーション」を読んだ内容の気付きを書きます。
スマイルカーブについて
ある製品のバリューチェーン全体をみたときに、川上(企画・設計・部品)と川下(販売メンテナンス)側の利幅が厚くなります。一方、真ん中の製造工程(組み立て)はほとんど利幅が取れなくなる現象をスマイルカーブと呼びます。
例としてパソコン業界があります。川上のCPUを抑えたインテル、川下の顧客との接点を抑えたマイクロソフトに挟まれ、真ん中の製造工程を担っていた日本のパソコンメーカーは軒並み苦境に陥り、撤退を余儀なくされました。
インターネットとモバイルの時代に入ってからは、川下側で巨大なプラットフォーマーになったのがGAFAです。川上のコンポーネントレイヤーにクアルコムやNVIDIA等が該当します。
スマイルカーブ現象が起きてしまった産業では、真ん中の組み立て工程は儲かりません。川上のキーコーポーネントを押さえるか、川下のプラットフォームを押さえるかが重要になります。
日本の電機メーカーはこの流れを大きく受けました。ソニーは今や史上最高レベルの収益をたたき出す会社になりました。現状の収益を支えているのは、ゲーム、金融、エンタメコンテンツ、CMOSセンサーとスマイルカーブの両極端の位置するところです。
従って、現在の事業ポートフォリオと組織能力ポートフォリオを見直し、入れ替えることを日常的に行うことも著者が呼ぶ「両利き経営」の必要条件なのです。
化学、素材産業へのDX化
化学、素材産業はこれまで比較的DX化の直撃を受けてきませんでした。長年における蓄積技術、すり合わせ技術が開発技術措定も生産技術としてもまだまだモノをいう世界です。
比較的スマイルカーブにおいては左上をポジショニングできるところにいます。しかし、マテリアルインフォマティクス等のデジタル技術で開発効率が上がる一方で、日本企業特有のすり合わせ要素が生み出す付加価値要素が小さくなる可能性があるといいます。
私も化学、素材産業で働いています。特に製造現場に近い環境で働いているものの、あまりDX化という言葉が現場へ伝わっている感触はありません。また、危機感はあるものの自分たちは大丈夫だろう、と高をくくっている人が多い印象があります。
マテリアルインフォマティクス自体は適用検討が進んでいる段階で、本技術により新製品が生み出されていると聞こえてはきません。しかしながら、AI・機械技術活用は研究所含め全社的に展開したそうな雰囲気はバンバン感じます。
デジタル技術により活用をすべきポイントは、所謂俗人的な技能や技術についてだと思います。達人の頭の中にあるものをデジタル化させ、いつでも引き出せるようにする・あるいは引き継ぐ体制を作ることの方がデジタル技術にまず求められることだと思っています。
終わりに
スマイルカーブについては、各製品や事業等意識してみると非常に興味深い知見が得られました。特にソニー等は大きく川下、川上に舵を取っていることが分かりました。
気づき_コーポレート・トランスフォーメーション を読んで(その1)
はじめに
冨山和彦氏の著書「コーポレート・トランスフォーメーション 日本の会社をつくり変える」を読んだ感想と気づきについてまとめます。
日本的経営の要素
著者が挙げている日本的経営の要素は下記です。
①人事組織管理:同質性、閉鎖性、固定制
・終身雇用
・年功制
・企業別組合(⇒労使協調)
・新卒一括
・転職は基本的に悪
②組織構造と運営
・階層構造(年功ベースの世代別階層)
・意思決定も実行も全員参加型指向
③事業戦略経営:連続的改良・改善型競争、自前主義競争
・生産、開発、営業全てにおいて、同質的な集団による持続的な改良・改善を延々と積み重ねる
・コスト訴求型、大量生産大量販売型
・意思決定力<実行力・現場力
④財務経営
・財務は全社資金調達と使途の帳尻を合わせることが基本業務
・P/L数字を基本にした経理的な管理で関与
⑤コーポレートガバナンス
・取締役会は社内取締役中心
・株主のガバナンス機能は最小化(⇒持合い、株主総会対策)
・社長を含む幹部経営陣の選抜は、生え抜き内部昇格が原則(⇒高学歴かつ転職せず一つのカイシャに勤めたおっさんから選ぶ)
となっているため、特徴として外壁は極めて厚く排他的である一方、内部構造はあいまいな柔軟な構造とのことです。
この仕組みは1960年代以降の社会経済的な事情(三井三池争議)や文化的な背景とが絡み合いながら、形成されていきました。しかも1960~1990年の人世代に渡ってです。すると、この仕組みが強固となりそれを守ることが自己目的化していきます。元々、手段原理の集合体だったものが目的化するという、ありがちな展開になります。
この指摘はその通りで、私の会社も所謂日本的経営の文化が強く形成されており、変わろうとしていません。さらに、自己目的化していることは実感します。
元々は、従業員が雇用解雇を心配することなく事業に集中できるようにできた終身雇用や年功序列の機能です。それは、人間を大事にしており、倫理的に優れている機能だと日本人の中に形成されたことや1979年の東京高裁判決などで判例的に確立したことで、さらに強固な制度になりました。
従い、終身雇用を守ることが目的となってしまっているのです。確かに、人事部門において解雇をしないことが誇りとしている話を聞いたことがあるため、同感です。
日本的経営の強さ
環境変化が要求する組織能力の変異幅が、ある一定範囲に収まっていれば日本的経営は非常に強みを発揮します。気心知れた仲間同士で「あ、うん」の呼吸で迅速に改良アプローチに対応できます。
メイドインジャパン枠の中では変異対応力は高いものの、ファブレス化の波が起きたときにデザインドインジャパンへ転換する変容力は乏しいのです。
日本的経営の硬直性
この日本的経営は、要素が広範化して相互連関性が強くなると大きな改造が難しくなります。
例えば新しい事業ドメインで新しい戦い方、組織能力で戦おうとすると大変な時間と労力を要することになります。新しい成長領域はスピードが重要な競争要因になるため、戦いになりません。
M&Aを行っても、異質なモデルの会社を経営する組織能力を持たないため、結局カネをどぶに捨てる結果になります。
日本のエレクトロニクスメーカーがやってきたゲームは、生真面目に自前でコツコツと技術開発をし、モノづくりにしてもシステムづくりにしても、万が一不良が出ないように集団共同作業で徹底的に作りこんでいく。 「とりあえず市場投入しちゃえ」などという乱暴なことは絶対にしない。実行可能性が担保されてから決定し行動に移すスタイルである。
グローバル化及びデジタル技術による求められる変革
次から次へと興隆しているネットビジネスで何よりも大事なことは、丁寧にものづくりを仕上げる、作りこむことよりもとにかく高速でPDCAを回すことです。
所謂アジャイル型開発でどんどん顧客にぶつけて、そこから生じるクレームも含めてデータドリブンで次の手を打ちます。技術に関しても自前主義には無頓着で、欲しい技術は人間ごとあるいは会社ごと手に入れます。それでダメならさっさと捨てるスタイルです。
先ほどの日本的経営と真逆のスタイルとなっています。
このデジタル革命の大波の直撃を受けた産業は、ほんの数年で世界は全く変わってしまいます。特に、半導体DRAM産業はこの波を大きく受けました。
また、冨山氏が2003年の産業再生機構のCOO時代の話です。10兆円という大きな資本力を持ってある産業領域の電機メーカーに対して事業を日本国内で完全統合し、世界一生産量の大きいファウンドリー(=工場)にするよう提案したといいます。
その場合でも、メーカーは了承しなかったといいます。CEOが正しいと考える戦略的決断も、よほどのことがない限り社内のコンセンサスが取れていなければ意思決定できないのです。
終わり
日本的経営とは何か、その歴史や特徴をみてきました。企業の変革を求められている一方で、この文化は非常に障壁となることがよく分かりました。
「NewsPicks_日本企業を〝大改革〟せよ」を見た感想
はじめに
NewsPicksの番組、「日本企業を”大改革”せよ」を見た感想と気づきをまとめます。
会社が変容し続ける力が必要
日本の大企業はこれまで新卒一括採用を取り入れ、社内のルールで社員の評価をしてきました。そして、社内のルールに一番なじんで(≒同質純化)、優秀だった人間を社長とする文化を取ってきました。
これは、社内で同じ考え方の人間を大量に作っていくことになります。このメリットとしてある一定の幅の社会の変化が起こった場合は乗り越えやすい、すぐに対応しやすいことが挙げられます。
一方、昨今見られるようなデジタル技術の革新等によって大きく社会が変わろうとしている場合は、同質純化が進んだ大企業では対応ができないデメリットがあります。
これがこの三十年日本で起こってきたことであるため、日本企業が衰退してきた理由の一つであると冨田氏はいいます。例として、GAFAが出てきたときの日本電機メーカーが挙げられていました。
取る対応として、会社を一回溶かせば良いとのことです。これは、一回全部会社という定義を一から作り直して会社で働く意味から再構築しようと言っていると理解しました。
気づき
冨田氏のいう意見に非常に同感します。
私自身新卒採用後8年間同じ企業に勤めています。価値観や仕事に対するマインドはこの企業によって培ったものとなります。ずっとこの先も同じ企業に勤め続けられるかどうかの保証はありません。 その場合、会社ではなくそもそも個人自体が多様な価値観やニーズに柔軟に動きを取れることの方が価値を生み出すビジネスマンとしては重宝されると考えます。
現在、自分を変革し続けるマインドやスキルを得ることを継続していますが、その重要性を再認識することになりました。
コロナ禍での会社・管理職の在り方
次に安宅氏がコロナ禍での会社及び管理職の在り方について語られています。
まず、製造業を例にコロナ禍で浮き彫りになった必要とされていない人達についてです。製造や商品開発部隊をIT業界になぞらえてバックエンド、営業部隊をフロントエンドと呼びます。その間の中庸的な存在をミドルエンドと呼びます。
コロナ禍でこのミドルエンドが限りなく要らなくなっていることが分かったといいます。
また、管理職の在り方についても論じています。下記5つの要件のうち2つあったら良いと述べています。
気づき
小職は開発職場で技術者として働いているため、安宅氏が述べるバックエンド部隊にいます(と言いたいと思います)。そして、ミドルエンドと呼ばれる人たちは所謂機能部門、バックオフィスと呼ばれる人たちなのかもしれません。
確かに、何の仕事をしているのか見えない人達がいます。その人たちも終身雇用が続いているので固定費はかかり続けています。
会社が真綿で首を締めるような形になっていて、終身雇用をそれでも守り続けていると思い切った英断がしにくくなるのではないかと思います。
終わり
非常に刺激的な内容で興味深かったです。
会社が変容せよ、と言われていますがその構成員としての会社員も変容しようとすることがこの時代を生き抜くポイントなのだと理解しました。
製造業における損益計算書(P/L)を読む
はじめに
製造業で働いておりますが、非経理部門のため数字感があまりありません。ステップアップするうえで再度学びなおしました。
損益計算書とは
損益計算書(Profit and Loss Satement:通称P/L)とは、会社の利益を知ることができる決算書類です。 損益計算書は、収益・費用・利益が掲載されています。収益から費用を差し引いた利益を知るための書類なので、会社が「費用に何を使って」「どれだけ売り上げがあり」「どれくらい儲かったか」が分かります。
損益計算書から分かる5つの利益について
損益計算書から分かる利益は5種類あります。
売上総利益は、 売上高 - 売上原価 で表される金額です。製造業で働いている人間としては、変動費・固定費がなじみ深いのでこれで議論します。
売上原価とは変動費とほぼ同値を示す値です。変動費は必要な時、必要な量、外部から調達されるコストです。
例としてコーヒーショップを運営することを考えると、コーヒー豆や水などの材料費やアルバイトのパート代などがこれに当たります。
つまりこれら値を引いた値が売上総利益=粗利と呼ぶ値になります。
次に、ここから販管費と呼ばれる値を引くと営業利益になります。販管費とは、販売費及び一般管理費の略称で、所謂固定費です。販売費は労務費、一般管理費は固定資産税や設備の減価償却費に当たります。 この考えを図に表すと下記になります。
売上にしめる販管費や原価の割合は適当です。
会社ごとに比較してみる
興味がある業界のIRから抽出したデータを分析しました。
まず、製造業の代表としてトヨタ自動車についてです。粗利率は23%でした。これは、経済産業省が発表している大企業平均21.0%よりは若干高い結果となっていました。
また、次に商社の代表として三菱商事です。卸業者に近い形態なのか粗利率は12%でした。
逆にIT企業代表としてZホールディングス(YahooやZOZOなど)を取り上げます。多くの会社が混在しているため一概に言えないかもしれません。しかし、粗利率は60%と非常に高い値です。これは、システムを構築する上での変動費が相対的に少ないためと思われます。
一方、それに近い業態と認識しているコンサル業界のアクセンチュアですが粗利率が31%と低い値でした。 これについては理由はよくわかりませんでした。
下記にまとめた一覧があります。
終わりに
損益計算書と粗利率についてまとめました。業態の性格が反映されたもので興味深い比較をすることができました。一方、製造業においては販売費及び一般管理費に分類される固定費(=設備等)も非常に重要な管理項目であるため、こちらについてもよく分析することが必要であると思います。
シン・二ホンに関する内容と所感(マッシュアップエコノミーについて)
はじめに
「イシューからはじめよ」の著者安宅和人さんの最新著書を読んでおります。その内容の理解と私なりの所感をまとめました。
特に、マッシュアップエコノミーと著者が呼んでいる内容について取り上げました。
マッシュアップエコノミー
データ×AI時代では何もかも自分で作る必要がなくなっていきます。餅は餅屋に任せて自分が勝負したいところをしっかりと作りこみ、後は外部サービスのAPIを活用していけば良いのです。
例としてタクシー配車サービスのUberが挙げられています。
Uberは、顧客とドライバーをマッチングさせるサービスだけは自社で開発し後は既にあるサービスをAPIで活用しています。API:application program interface:とは、あるアプリケーションから別のアプリケーションのデータを呼び出すシステムのことです。
これによりあるシステムを部品化して、専門の会社のものを丸ごと使えばよいのです。
このように既にあるサービスと自社のサービスを合わせることを”マッシュアップ”と呼んでいます。
Uberはさらにサービス自体をAPI化し、外部(Google Maps等)へ公開することで集客を行っています。核となる一つの技術を武器にして、サービスを繋ぎ合わせることで成長している例になると思います。
APIエコノミー
この自社の重要なデータをあえてAPIとして公開するビジネスモデルをAPIエコノミーと呼びます。
他に応用が期待されている分野として医療分野があります。患者の健康診断結果を生命保険会社へAPI経由で連絡するサービスが既に株式会社日本医療データセンターで始まっているとのことです。 これが応用していくとスマホの歩数計やフィットネスクラブ活動等、運動習慣が高い人ほど保険料が安くなり利率が高くなる商品なども進んでいくことでしょう。
製造業と比較して考える
製造業で働いている立場として、このUberモデルとの比較を考えました。分かりやすく完成車メーカの場合を考えます。外装品、内装品、電装品を各種部品メーカーから調達する必要があります。
その際、ものづくりにおいては部品の調達、品質、製造、改善などを考える必要があります。安定的に、安く、品質が一定の部品を確実に調達する方法を確立しなければなりません。
一方、Uberの場合これら課題がかなり解決されています。ITサービスということもありますが、調達やコストなどの考え方がものづくりの場合と比較して簡便なようにみえます。
下記表に簡単にまとめています。
終わりに
Uberを例にしてAPIを活用したサービスを学びました。部品を調達するという観点でみると製造業と似ていますが、ITサービスはソフトウェアであるが故に調達とリードタイムに手間を掛けなくて良い(サービスがローンチされている前提)ことが強みであると思いました。
要約:イシューからはじめよ(Chapter0,1)+自身の振り返り
はじめに
「イシューからはじめよ」著者:安宅和人 を読みました。今回はChapter0,1についての要約及び自身の仕事への振り返りと活かし方をまとめました。
イシューの定義、目指すべきところ
イシュー度とは、「自分の置かれた局面でこの問題に答えを出す必要性の高さ」と定義されています。
私の場合で考えると、製造現場における各種の課題において、操業・品質・コスト等経営の目線からみたときの影響度の大きさ(=経営に影響を及ぼす) であると解釈しました。
これは、解の質と合わせて二軸で表現できます。
ビジネスマンとしては解の質、イシュー度が高い右上のバリューがある仕事を目指していくべきだとしています。 このとき、ただ単純に仕事をしていくと犬の道と呼ばれる方法で右上に進もうとする人が多いといいます。
重要なのは、いかに最初にイシュー度の高い問題を見極めて実行し、最初に右に進み、そのあと上に上がるかだそうです。
イシューを見極める
上記のイシュー度が高く、解の質を高めるためには、イシューを見極めることが大事であると著者はいいます。 確かに、私の仕事においてもただ漠然と工場のコスト改善や品質改善を進めるだけでは、その仕事が経営からみたときの重要度は意識しません。
例えば、工場である製品に特有な品質不具合が発生したときに、改善をしなければならないとします。 この時、この品質不具合は短期的にみたらコスト悪化に繋がると判断されるものの、製品自体が向こう1年後には生産する必要がないと分かっていれば、改善する優先順位は下がることもあります。 もちろん、その短期的なコスト悪化でも全体のコストに占める割合が大きければ取り組む必要がありますが。
この俯瞰的な視点(=会社であれば、経営の立場)で課題を捉えられているかは、常に意識しておかないと感覚が鈍るものだと私は実感しています。
良いイシューの3つの条件
さて、良いイシューとして3つ著者は挙げています。
本質的な選択肢であること、深い仮説があること、答えが出せることです。
本質的な選択肢であること
本質的な選択肢とは、カギとなる質問と著者は定義します。あまりピンとこないので、例を挙げると食品メーカにおいて「商品Aが売れない」という課題を考えます。
多くの場合、最初に出てくるイシューとして「Aの商品力がない」または「Aに商品力はあるが販売方法が良くない」となります。
しかし、そもそも「Aの市場規模が縮小している」という場合もあるかもしれません。その場合は、Aの商品力は落ちていないが、市場規模が縮小している影響を受けているだけの可能性もあるため、取り扱うイシューが変わります。
深い仮説がある
仮説を深いものにすることで、良いイシューとなります。この方法として、「常識を否定する」ことが重要と著者はいいます。
天動説の常識であった時代に、地動説を唱えたことを例に挙げています。ビジネスの世界では、「拡大していると思われている市場が、先行指標では大きく縮小している」といった例のようです。
常に、常識を疑うと説いています。しかし、ここはかなり難しい見方であるように思いました。これまでの経験や知見をベースに考えてしまう癖があるからです。
答えが出せること
明確な答えを出せるイシューが良いとされています。
ただ、実際のビジネスでは答えを出しにくい問題が山積みといわれています。例えば、「3~8社くらいまでの企業数で市場の大半を占めている場合、商品の値付けはどうすべきか」といった問です。
現在でも明確な決まり手はないとされています。
この答えを出しにくい問題に関しては、良いイシューとなりにくくそこに時間を割かないことが大事だといっています。
イシュー特定のための情報収集
イシュー特定のための材料(=情報)を取り入れる方法は3つポイントがあるといいます。
一次情報に触れる
誰のフィルターも通っていない情報のことです。
・モノづくりの場合:生産ライン、調達の現場に立つ。 ・販売の場合:販売の現場に出向く。 ・商品開発の場合:商品が使われている現場に出向く。
まさにその通りですね。製造業では(弊社特有かもしれませんが)五現主義と言い、「現場・現物・現実・原理・原則」を大事にする風土があります。
二次情報以降は、誰かの思いやフィルターが入っているため本質を捕まえられていない可能性があります。
基本情報をスキャンする
次に、一次情報から得た感覚を持ちつつ、世の中の常識・基本的なことをある程度漏れなくダブりなく素早くスキャンすることがポイントです。
通常のビジネスにおいては、
となります。
集めすぎない・知りすぎない
やりすぎないことも重要なポイントと著者はいいます。情報収集にかけた努力手間と、得られる情報量はある程度正の相関があるものの、そこを過ぎると極端に新しい取り込み量が減るとのことです。
これは、私の仕事においても気を付けるべきポイントとして、刺さりました。
人ものカネの流れを大よそ知ってしまったとき、○○さんにはこの資料の書き方だと通りにくい、△△さんがこのポジションにいるときはこの案件は通さない方が良い、等事業の本質と異なるところで止まってしまうことに繋がることを表していると考えます。
終わりに
取り組む仕事について、イシューの観点で改めて棚卸しするきっかけを得ました。また、イシューは動く標的であるという表現はよく肝に銘じておきたい言葉でした。
その時々で経営において重要となる観点は変わってくることを示しています。
頭でっかちに決めつけずに柔軟に課題を解釈・再定義していく勇気を持つことが本質的なイシューへ近づくポイントであると理解しました。
(論文読み)Instance-aware Image Colorization(領域分割:インスタンスセグメンテーションを利用したカラー画像化)
はじめに
Papers with Codeにて論文を斜め読みしていたら、一度学んでみたかった技術である白黒画像のカラー画像化について紹介されていました。 概要を訳しましたので、参考になれば幸甚です。
Instance-aware Image Colorization https://paperswithcode.com/paper/instance-aware-image-colorization
物体分割を利用した白黒画像のカラー画像化技術について、最近arxiv上に掲載されたものです。
要約:Abstract
- カラー画像化は、マルチモーダル[*1]な不確実性を含んでいることが問題である。
- 既存のモデルは、画像全体で学習及びカラー化を行っていたため複数のオブジェクトがあると失敗する。
- 著者らは既成のオブジェクト検出器を用いて、領域分割と画像レベルの特徴づけを行った。
- 既存の手法と比較して優れた性能を見出した。
*マルチモーダル:動物の五感を指す意味と理解しました。直感的に物体が何者か認識できること等。
1.背景:Introduction
白黒画像をもっともらしいカラー画像へ変換することは、今注目の研究テーマである。 しかし、白黒画像から2つの欠落したチャンネルを予測することは、本質的に難しい問題がある。 さらに物体の色付けには複数の選択肢があるため、色付け作業は複数解釈できる可能性がある(例えば、車両は白、黒、赤など)。
従来報告されてきた技術では、雑然とした背景上に多数物体がある場合は上手くカラー化されない課題があった(下記図)。
本論文では、上記の問題点を解決するために、新しいディープラーニングのフレームワーク及び領域分割を意識した色分けを実現した。 特にポイントとして、物体と背景を明確に分けることがカラー化の性能改善に効果があることが分かった。
著者らのフレームワークは大きく以下の3つから成る。
- 領域分割及び、分割された物体画像を生成するための既製の事前学習モデル
- 分割された物体及び画像全体のカラー化のために学習された2つのバックボーンネットワーク
- 2つのカラー化ネットワークのレイヤーから抽出された特徴を選択的に混ぜるための融合モジュール
2.関連技術:Related works
学習に基づいたカラー化Learning-based colorization
近年、機械学習を利用したカラー化処理の自動化が注目されている。既存の研究の中では、大規模なデータセットから色予測を学習するために、深層畳み込みニューラルネットワークが主流となっている。
領域分割に基づいた画像生成・操作:Instance-aware image synthesis and manipulation
領域分割を考慮した処理によって、物体と地面の分離が明確になるため、視覚的な外観の合成と操作が容易になる。
- 単一物体に注目するDC-GAN, FineGANと比較して、複雑な領域について対応可能
- 重なりが自然にみえる技術であるInstaGANと比較して、同時に全て重なっている可能性を考慮可能
- 合成の品質を改善するため領域分割の境界を使っているPix2PixHDと比較して、学習された重みづけを多数の領域合成で使用
3. 概観:Overview
本システムでは、白黒画像を入力とし、その欠落した2つの色チャンネルを内でエンドツーエンドで予測する。
下記図にネットワークの構成を示す。まず事前学習済み物体検出器を用いて、白黒画像から複数の物体バウンディングボックス[tex:(B_i)N_{i=1}](はインスタンス数)を取得する。
次に、検出したバウンディングボックスを用いて白黒画像から切り出した画像をリサイズして、インスタンス画像[tex:(X_i)N_{i=1}]を生成する。
次に、各インスタンス画像$X_i$と入力グレースケール画像を、それぞれインスタンスカラー化ネットワークとフルイメージカラー化ネットワークに流す。ここでは、第番目のネットワーク層におけるインスタンス画像とグレースケール画像の抽出された特徴マップを及び [tex:fX_j]と呼ぶ。
最後に、各層のインスタンス特徴量とフル画像特徴量[tex:{f_jX}]を融合する融合モジュールを用いる。融合された全画像特徴[tex:fX_j]は、番目のレイヤーに転送される。このステップを最後の層まで繰り返し予測カラー画像を得る。
本研究では、まず全画像ネットワークを学習し、次にインスタンスネットワークを学習し、最後に上記2つのネットワークをフリーズさせて融合モジュールを学習するという逐次的なアプローチを採用している。
4.手法:Method
4.1物体検知 Object detection
検出した物体インスタンスを利用して画像の色付けを行う。このために、物体検出器として市販の事前学習済みネットワークMask R-CNN を用いた。
4.3.融合モジュール:Fusion module
融合モジュールは、以下のような入力を受け取ります。融合モジュールは、(1)フル画像の特徴量[tex:fX_j]、(2)インスタンス特徴量の束とそれに対応するオブジェクト境界ボックスを入力とする。 両種類の特徴に対して、3つの畳み込み層を持つ小型のニューラルネットワークを考案し、フル画像重みマップとインスタンス毎の重みマップ[tex:W_Ii]を予測する。
4.4.損失関数と訓練:Loss Function and Training
ネットワーク全体を以下手順で学習する。まず、全画像色化を学習し、学習した重みをインスタンス色化ネットワークに転送して初期化します。 次に、インスタンス色化ネットワークを学習する。最後に、全画像モデルとインスタンスモデルの重みを解放し、融合モジュールの学習に移る。
5.実験:Experiments
5.1.実験条件:Experimental setting
データセット:Dataset
- ImageNet, COCO-Stuff, Places205の3つのデータセットを使用
訓練手法:Training details
ImageNetデータセットについて以下の3つ訓練プロセスを実施した。
- 全画像カラー化ネットワーク:既存のモデルの重みパラメータで初期化(学習率)
- 領域分割ネットワーク:データセットから抽出されたインスタンスでモデルをファインチューニング
融合モジュール:13層のニューラルネットワークで融合
最適化手法はADAMを使用( [tex:\beta_1=0.99, \beta_2 = 0.999$)
- 単一のRTX 2080Ti GPUを使って3日間訓練させた(ImageNet)
5.2.定量値の比較: Quantitative comparisons
Comparisons with the state-of-the-arts.
3つのデータセットに関する定量値の比較を上表に示す。どの指標においてもこれまでの方法より良いスコアとなった。
※ LPIPS:元画像と潜在空間に射影した後、画像を再生成したものとの距離(低いほど距離が近く似ている) SSIM:輝度、コントラスト、構造を元に周囲のピクセル平均、分散・共分散をとったもの PSNR:2枚の画像で同じ位置同士のピクセルの輝度の差分を2乗したもの(高いほうが高画質)
User study
参加者には、着色した結果のペアを見せ、好みを尋ねる(強制選択比較)。その結果、Zhanget al. (61%対39%)、DeOldify(72%対28%)と比較して平均的に著者らの手法が好まれる結果となった。 興味深いことに、DeOld-ifyはベンチマーク実験で評価された正確な着色結果が得られないが、飽和着色された結果の方がユーザに好まれることがある。
5.7失敗例:Failure cases
上図に 2 つの失敗例を示す。著者らの手法では、色が洗い流されていたり、オブジェクトの境界をまたいでいるような目に見えるアーチファクトが発生する可能性がある。
6.結論: Conclusions
本研究では、既製のオブジェクト検出モデルを用いて画像を切り出すことで、インスタンスブランチとフルイメージブランチから特徴量を抽出した。 そして、新たに提案したフュージョンモジュールと融合させることで、より良い特徴量マップを得ることを確認した。実験の結果、既存の手法と比較して、3つのブランチマークのデータセットにおいて、本研究の成果が優れていることが示された。
終わりに
領域分割(インスタンスセグメンテーション)技術を取り入れたカラー画像化の技術を学びました。 技術自体は理解できたのですが、カラー画像化したときに尤もらしい画像であることを定量的に議論することの難しさを感じました。 車の色や草木の色など、複数の選択肢がある場合、どれがもっともらしいかと決めるアルゴリズムをどのように決めるのでしょう。
著者らは人に判断してもらうテストもしていますが、このマルチモーダルな領域についてアルゴリズムができるとより人工知能感ある技術になるのでしょう。