カテゴリ

文字コード・エンコーディングガイド

CSVの文字化け・Shift_JISとUTF-8の違いなど、日本語処理でつまずきやすい文字コードの話。

記事一覧

CSVの文字化けはなぜ起きる？Shift_JISとUTF-8の違いを図解

ExcelでCSVを開くと文字化けする根本原因と、Shift_JIS・UTF-8・BOMの関係をエンジニア以外にも分かる形で解説。

約6分

読む →

全角・半角の違いと変換 — 日本語入力でつまずかないための基礎

全角「１２３」と半角「123」の起源（JIS）とUnicodeでの扱い、フォームで「半角で入力してください」と求められる理由、住所・電話番号・カタカナ変換の実務的な使い分けを解説。

約5分

読む →

改行コード CRLF・LF・CR の違い — OS間でテキストが崩れる理由

Windows（CRLF）・macOS/Linux（LF）・古いMac（CR）で改行コードが違う歴史的経緯と、ExcelでCSVを開くと行が崩れる・Gitで差分が出る・テキストが1行に繋がるなどの実トラブルと対処法を解説。

約5分

読む →

確定申告の銀行・証券CSV文字化けを直す方法（Shift_JIS↔UTF-8）

確定申告で銀行・証券会社からダウンロードしたCSVが文字化けする原因と解決方法を解説。Shift_JIS↔UTF-8変換、Excelで正しく開く手順、ブラウザ完結で機密データを安全に処理する方法を紹介。

約8分

読む →

個人事業主のCSV帳簿管理ガイド — freee・マネフォから書き出して整える

個人事業主・フリーランス向けに、会計ソフトから書き出したCSVデータの整形・統合・文字コード変換の実践ガイド。確定申告の準備を効率化する複数ファイルの結合・列整理のコツを紹介。

約8分

読む →

銀行明細CSVをfreee・マネーフォワードに取り込む方法 — 主要6行対応

三菱UFJ・みずほ・三井住友・ゆうちょ・楽天・PayPay銀行の明細CSVをfreee・マネーフォワードの取り込み形式に変換する手順を解説。銀行ごとの日付形式・列構成の違い、Shift_JIS文字化けの対処法も網羅。

約7分

読む →

e-Taxで使うCSV/XMLデータの整形ガイド — 提出データの作り方と注意点

e-Tax（国税電子申告・納税システム）で利用するCSV・XMLデータの整形手順を解説。法定調書合計表など特定形式CSVの列構成・文字コード要件・改行コードなど実務で詰まりやすいポイントを紹介。

約7分

読む →

ExcelとCSVを変換する方法 — Excelで開いて文字化け・データ崩れを防ぐ

ExcelファイルをCSVに変換・保存する方法と、CSVをExcelで開く際の文字化け防止策を解説。UTF-8・Shift_JIS・区切り文字の違いも図解。

約7分

読む →

テキストファイルの文字化けを変換して直す方法 — UTF-8・Shift_JIS・EUC-JP対応

文字化けしたテキストファイルをブラウザで変換して直す方法を解説。Shift_JIS・UTF-8・EUC-JPの見分け方、メモ帳・VSCode・ブラウザツールを使った変換手順をOS別に紹介。サーバー送信なしで機密ファイルも安心。

約6分

読む →

ファイルの文字コードを確認・判定する方法 — UTF-8かShift_JISか調べる手順

テキストファイルやCSVの文字コードがUTF-8・Shift_JIS・EUC-JPのどれかわからないときの調べ方を解説。文字化けパターンからの推測法、ブラウザツール・VSCode・コマンドラインによる判定手順を紹介。

約5分

読む →

CRLFをLFに変換する方法 — 改行コードをWindows/Mac/Linux形式に一発変換

Windowsの改行コード（CRLF）をMac/Linux（LF）形式に変換する方法を解説。文字化け・Gitの差分問題・Excel行崩れの原因と対策、ブラウザツール・VSCode・コマンドラインでの変換手順を紹介。

約5分

読む →

CSVの列を整理・結合する方法 — 不要列の削除とファイルのマージ

CSVの不要な列を削除・並び替えする方法と、複数CSVファイルをひとつにまとめる手順を解説。Excelや会計ソフトへのデータ整理に役立つ実践ガイド。

約5分

読む →

CSVファイルの差分比較のやり方 — Excel目視チェックをやめて安全に差分を見つける方法

2つのCSVファイルの違いを行・列単位で比較する方法を解説。Excelでの目視比較のリスク、キー列による突き合わせの仕組み、経理・在庫管理での実務活用例を紹介。

約6分

読む →

ExcelでCSVを開いたら日本語が「縺ゅ＞縺・＆縺､」になっていた── 日本語を扱うエンジニアや業務担当者が一度はぶつかる壁が「文字コード」です。このページでは、Shift_JISとUTF-8がなぜ併存しているのか、BOMとは何か、そして文字化けが起きる仕組みを順を追って整理します。

文字コードの基本 — 文字を「数字」に変換するルール

コンピュータは内部では数字しか扱えません。「A」という文字も、内部では 0x41（10進で65）という数字として保存されています。この「文字 ↔ 数字」の対応表が文字コードです。英数字だけならASCII（128文字、1バイト）で済みますが、日本語の漢字・ひらがな・カタカナを表現するには圧倒的に文字数が足りず、2バイト以上を使う仕組みが必要になりました。

日本語の世界では Shift_JIS（1980年代にマイクロソフトが普及させた日本語規格）とUTF-8（Unicodeをバイト列にする現代の標準）の2つが今も混在しています。どちらも「あ」という文字を扱えますが、保存しているバイト列がまったく違うため、 Shift_JISで保存されたファイルをUTF-8として読むと文字化けが起きます。

なぜ Shift_JIS と UTF-8 が混在しているのか

歴史的経緯がそのまま現在の混乱を生んでいます。

1980年代：日本のPC・OS（MS-DOS、Windows、Mac）が Shift_JIS を採用。メインフレームや官公庁システムが大量の Shift_JIS データを蓄積。
1990年代後半〜2000年代：インターネットの普及で、世界中の文字を扱える Unicode が台頭。 UTF-8 が事実上の世界標準になる。
現在：Web・プログラミング・JSON・HTMLは UTF-8 が前提。一方で Excel・会計ソフト・行政の入稿フォーマットは今も Shift_JIS 前提のものが多い。

この「新しいルールが世界的には主流だが、日本のレガシーシステムはまだ古いルールのまま」という状況が、文字化けトラブルが今も絶えない最大の理由です。「相手の環境に合わせて変換する」というスキルが、日本でPC作業をする以上避けて通れません。

よくある文字化けトラブルと原因

症状	原因	対処
「縺ゅ＞縺・＆縺」のような表示	UTF-8をShift_JISとして読んでいる	UTF-8で開き直す or BOM付きUTF-8に変換
「��」のような ▢ 表示	Shift_JISをUTF-8として読んでいる	Shift_JISで開き直す or UTF-8に変換
CSVで行が分かれない／全部1行になる	改行コードがLFのみでExcelが認識できない	CRLFに変換
先頭行に変な文字が混じる	UTF-8のBOMが文字として表示されている	BOMを削除（BOMなしUTF-8に変換）
①②③やローマ数字（Ⅰ Ⅱ Ⅲ）が消える	Shift_JIS変換時に対応文字が見つからない	UTF-8で保存し直す or 機種依存文字を置換

解決アプローチの全体マップ

文字コードまわりのトラブルは、以下のツールを組み合わせると大半が解消します。

CSV文字コード変換：CSVファイルを Shift_JIS ↔ UTF-8（BOM付き／なし）で変換。 Excel互換のBOM付きUTF-8出力に対応。
テキスト文字コード変換：CSV以外の汎用テキストファイル向けの変換ツール。
文字コード確認ツール：受け取ったファイルが何のエンコーディングか分からないときに自動判定。
改行コード変換：CRLF・LF・CRを揃える。 ExcelでCSVが1行になる、Gitで差分が荒れるなどの解決に。
全角・半角変換 / ひらがな・カタカナ変換：データクレンジングで頻出の処理。住所や電話番号の表記ゆれ統一に。

どのツールもブラウザ内で完結するため、業務データや個人情報を含むCSVを外部サーバーにアップロードする必要がありません。各記事では、エンジニア以外の方でも理解できるように図解を交えて解説しています。

このカテゴリで使えるツール

CSV文字コード変換

CSVのShift_JIS↔UTF-8文字コードをブラウザ内で変換。Excelの文字化け解消に。

使う →

CSVマージ

複数のCSVファイルを縦・横に結合。ヘッダー自動処理対応。

使う →

CSV↔Excel変換

CSVをExcel（.xlsx）に変換、またはExcelをCSVに変換。Shift_JIS・複数シート対応。

使う →

テキスト文字コード変換

テキスト・ログファイルのShift_JIS↔UTF-8↔EUC-JPをブラウザ内で変換。文字化け解消に。

使う →

文字コード確認・チェッカー

テキストファイルの文字コード（UTF-8/Shift_JIS/EUC-JP）を自動判定する文字コードチェッカー。文字化け原因特定に。

使う →

全角・半角変換

全角・半角を自由に変換。英数字・カタカナ・記号に対応。

使う →

このカテゴリのよくある質問

なぜ「文字コード」を意識しないといけないのですか？

コンピュータは文字を直接扱えず、内部では数字（バイト列）として保存しています。「あ」という文字をどの数字に対応させるかを決めたルールが文字コードです。同じファイルでも、保存した側と開いた側で別のルールを使うと「あ」を別の文字として解釈してしまい、文字化けが起こります。日本語を扱う場面では、Shift_JISとUTF-8の二大ルールが混在しているため、特に意識が必要になります。

Shift_JISとUTF-8、どちらを使うべきですか？

新しく作るファイルはUTF-8が原則です。世界中のあらゆる文字を扱えること、Web標準であること、JSON・HTML・JavaScriptの仕様で前提となっていることが理由です。一方、日本のExcelや会計ソフト、官公庁の入稿仕様などは現在もShift_JIS前提のことが多く、相手のシステムに合わせて変換する必要が残っています。「読み手の環境に合わせる」のが基本姿勢です。

BOM（Byte Order Mark）とは何ですか？必要ですか？

BOMはファイルの先頭に置かれる「これはUTF-8/UTF-16です」という目印（3バイトまたは2バイト）です。Excelは「BOM付きUTF-8」のCSVなら正しく日本語を表示しますが、「BOMなしUTF-8」だとShift_JISと誤認して文字化けします。一方、Webアプリやプログラミングでは BOM が邪魔になるケースもあります。Excel向けにはBOM付き、それ以外はBOMなしが目安です。

CSVをExcelで開くと文字化けします。どう直しますか？

原因は3パターンです。①UTF-8（BOMなし）でExcelが日本語と認識できていない → BOM付きUTF-8またはShift_JISに変換。②Shift_JISだが特殊文字が原因で崩れている → UTF-8に変換。③改行コードが LF だけで Excel が行を分けられていない → CRLF に変換。CSV文字コード変換ツールでこれらを変換できます。

「半角」「全角」と文字コードはどう関係しますか？

元はASCII（1バイト）に収まる英数字記号を「半角」、JIS規格で定められた漢字・かな・全角英数（2バイト）を「全角」と呼んでいました。Unicodeの時代になっても表記の違いは残っており、「ＡＢＣ」と「ABC」、「１２３」と「123」は別の文字として扱われます。フォーム入力で「半角で入力してください」と指示されるのは、この区別が今も残っているためです。

改行コード CRLF・LF・CR は文字コードと別物ですか？

はい、改行コードは文字コードとは独立した概念です。Windowsは CRLF（\r\n）、Mac/Linuxは LF（\n）、古いMacは CR（\r）を改行に使ってきました。ExcelでCSVを開いて行が分かれない、Gitで差分が大量に出る、といったトラブルは改行コードの違いが原因です。改行コード変換ツールで揃えると解消します。

← ガイド記事一覧トップへ戻る →