ぱんだツールズぱんだツールズ

カテゴリ

文字コード・エンコーディングガイド

CSVの文字化け・Shift_JISとUTF-8の違いなど、日本語処理でつまずきやすい文字コードの話。

記事一覧

文字コード・エンコーディング

CSVの文字化けはなぜ起きる?Shift_JISとUTF-8の違いを図解

ExcelでCSVを開くと文字化けする根本原因と、Shift_JIS・UTF-8・BOMの関係をエンジニア以外にも分かる形で解説。

約6分

読む →

文字コード・エンコーディング

全角・半角の違いと変換 — 日本語入力でつまずかないための基礎

全角「123」と半角「123」の起源(JIS)とUnicodeでの扱い、フォームで「半角で入力してください」と求められる理由、住所・電話番号・カタカナ変換の実務的な使い分けを解説。

約5分

読む →

文字コード・エンコーディング

改行コード CRLF・LF・CR の違い — OS間でテキストが崩れる理由

Windows(CRLF)・macOS/Linux(LF)・古いMac(CR)で改行コードが違う歴史的経緯と、ExcelでCSVを開くと行が崩れる・Gitで差分が出る・テキストが1行に繋がるなどの実トラブルと対処法を解説。

約5分

読む →

文字コード・エンコーディング

確定申告の銀行・証券CSV文字化けを直す方法(Shift_JIS↔UTF-8)

確定申告で銀行・証券会社からダウンロードしたCSVが文字化けする原因と解決方法を解説。Shift_JIS↔UTF-8変換、Excelで正しく開く手順、ブラウザ完結で機密データを安全に処理する方法を紹介。

約8分

読む →

文字コード・エンコーディング

個人事業主のCSV帳簿管理ガイド — freee・マネフォから書き出して整える

個人事業主・フリーランス向けに、会計ソフトから書き出したCSVデータの整形・統合・文字コード変換の実践ガイド。確定申告の準備を効率化する複数ファイルの結合・列整理のコツを紹介。

約8分

読む →

文字コード・エンコーディング

e-Taxで使うCSV/XMLデータの整形ガイド — 提出データの作り方と注意点

e-Tax(国税電子申告・納税システム)で利用するCSV・XMLデータの整形手順を解説。法定調書合計表など特定形式CSVの列構成・文字コード要件・改行コードなど実務で詰まりやすいポイントを紹介。

約7分

読む →

文字コード・エンコーディング

ExcelとCSVを変換する方法 — Excelで開いて文字化け・データ崩れを防ぐ

ExcelファイルをCSVに変換・保存する方法と、CSVをExcelで開く際の文字化け防止策を解説。UTF-8・Shift_JIS・区切り文字の違いも図解。

約7分

読む →

文字コード・エンコーディング

テキストファイルの文字化けを変換して直す方法 — UTF-8・Shift_JIS・EUC-JP対応

文字化けしたテキストファイルをブラウザで変換して直す方法を解説。Shift_JIS・UTF-8・EUC-JPの見分け方、メモ帳・VSCode・ブラウザツールを使った変換手順をOS別に紹介。サーバー送信なしで機密ファイルも安心。

約6分

読む →

文字コード・エンコーディング

ファイルの文字コードを確認・判定する方法 — UTF-8かShift_JISか調べる手順

テキストファイルやCSVの文字コードがUTF-8・Shift_JIS・EUC-JPのどれかわからないときの調べ方を解説。文字化けパターンからの推測法、ブラウザツール・VSCode・コマンドラインによる判定手順を紹介。

約5分

読む →

文字コード・エンコーディング

CRLFをLFに変換する方法 — 改行コードをWindows/Mac/Linux形式に一発変換

Windowsの改行コード(CRLF)をMac/Linux(LF)形式に変換する方法を解説。文字化け・Gitの差分問題・Excel行崩れの原因と対策、ブラウザツール・VSCode・コマンドラインでの変換手順を紹介。

約5分

読む →

ExcelでCSVを開いたら日本語が「縺ゅ>縺・&縺、」になっていた── 日本語を扱うエンジニアや業務担当者が一度はぶつかる壁が「文字コード」です。 このページでは、Shift_JISとUTF-8がなぜ併存しているのか、BOMとは何か、 そして文字化けが起きる仕組みを順を追って整理します。

文字コードの基本 — 文字を「数字」に変換するルール

コンピュータは内部では数字しか扱えません。「A」という文字も、内部では 0x41(10進で65) という数字として保存されています。この「文字 ↔ 数字」の対応表が文字コードです。 英数字だけならASCII(128文字、1バイト)で済みますが、日本語の漢字・ひらがな・カタカナを表現するには 圧倒的に文字数が足りず、2バイト以上を使う仕組みが必要になりました。

日本語の世界では Shift_JIS(1980年代にマイクロソフトが普及させた日本語規格)とUTF-8(Unicodeをバイト列にする現代の標準)の2つが今も混在しています。 どちらも「あ」という文字を扱えますが、保存しているバイト列がまったく違うため、 Shift_JISで保存されたファイルをUTF-8として読むと文字化けが起きます。

なぜ Shift_JIS と UTF-8 が混在しているのか

歴史的経緯がそのまま現在の混乱を生んでいます。

  • 1980年代:日本のPC・OS(MS-DOS、Windows、Mac)が Shift_JIS を採用。 メインフレームや官公庁システムが大量の Shift_JIS データを蓄積。
  • 1990年代後半〜2000年代:インターネットの普及で、世界中の文字を扱える Unicode が台頭。 UTF-8 が事実上の世界標準になる。
  • 現在:Web・プログラミング・JSON・HTMLは UTF-8 が前提。 一方で Excel・会計ソフト・行政の入稿フォーマットは今も Shift_JIS 前提のものが多い。

この「新しいルールが世界的には主流だが、日本のレガシーシステムはまだ古いルールのまま」 という状況が、文字化けトラブルが今も絶えない最大の理由です。 「相手の環境に合わせて変換する」というスキルが、日本でPC作業をする以上避けて通れません。

よくある文字化けトラブルと原因

症状原因対処
「縺ゅ>縺・&縺」のような表示UTF-8をShift_JISとして読んでいるUTF-8で開き直す or BOM付きUTF-8に変換
「�����」のような ▢ 表示Shift_JISをUTF-8として読んでいるShift_JISで開き直す or UTF-8に変換
CSVで行が分かれない/全部1行になる改行コードがLFのみでExcelが認識できないCRLFに変換
先頭行に変な文字が混じるUTF-8のBOMが文字として表示されているBOMを削除(BOMなしUTF-8に変換)
①②③やローマ数字(Ⅰ Ⅱ Ⅲ)が消えるShift_JIS変換時に対応文字が見つからないUTF-8で保存し直す or 機種依存文字を置換

解決アプローチの全体マップ

文字コードまわりのトラブルは、以下のツールを組み合わせると大半が解消します。

  • CSV文字コード変換:CSVファイルを Shift_JIS ↔ UTF-8(BOM付き/なし)で変換。 Excel互換のBOM付きUTF-8出力に対応。
  • テキスト文字コード変換:CSV以外の汎用テキストファイル向けの変換ツール。
  • 文字コード確認ツール:受け取ったファイルが何のエンコーディングか分からないときに自動判定。
  • 改行コード変換:CRLF・LF・CRを揃える。 ExcelでCSVが1行になる、Gitで差分が荒れるなどの解決に。
  • 全角・半角変換 / ひらがな・カタカナ変換:データクレンジングで頻出の処理。 住所や電話番号の表記ゆれ統一に。

どのツールもブラウザ内で完結するため、業務データや個人情報を含むCSVを 外部サーバーにアップロードする必要がありません。各記事では、エンジニア以外の方でも 理解できるように図解を交えて解説しています。

このカテゴリで使えるツール

このカテゴリのよくある質問

なぜ「文字コード」を意識しないといけないのですか?

コンピュータは文字を直接扱えず、内部では数字(バイト列)として保存しています。「あ」という文字をどの数字に対応させるかを決めたルールが文字コードです。同じファイルでも、保存した側と開いた側で別のルールを使うと「あ」を別の文字として解釈してしまい、文字化けが起こります。日本語を扱う場面では、Shift_JISとUTF-8の二大ルールが混在しているため、特に意識が必要になります。

Shift_JISとUTF-8、どちらを使うべきですか?

新しく作るファイルはUTF-8が原則です。世界中のあらゆる文字を扱えること、Web標準であること、JSON・HTML・JavaScriptの仕様で前提となっていることが理由です。一方、日本のExcelや会計ソフト、官公庁の入稿仕様などは現在もShift_JIS前提のことが多く、相手のシステムに合わせて変換する必要が残っています。「読み手の環境に合わせる」のが基本姿勢です。

BOM(Byte Order Mark)とは何ですか?必要ですか?

BOMはファイルの先頭に置かれる「これはUTF-8/UTF-16です」という目印(3バイトまたは2バイト)です。Excelは「BOM付きUTF-8」のCSVなら正しく日本語を表示しますが、「BOMなしUTF-8」だとShift_JISと誤認して文字化けします。一方、Webアプリやプログラミングでは BOM が邪魔になるケースもあります。Excel向けにはBOM付き、それ以外はBOMなしが目安です。

CSVをExcelで開くと文字化けします。どう直しますか?

原因は3パターンです。①UTF-8(BOMなし)でExcelが日本語と認識できていない → BOM付きUTF-8またはShift_JISに変換。②Shift_JISだが特殊文字が原因で崩れている → UTF-8に変換。③改行コードが LF だけで Excel が行を分けられていない → CRLF に変換。CSV文字コード変換ツールでこれらを変換できます。

「半角」「全角」と文字コードはどう関係しますか?

元はASCII(1バイト)に収まる英数字記号を「半角」、JIS規格で定められた漢字・かな・全角英数(2バイト)を「全角」と呼んでいました。Unicodeの時代になっても表記の違いは残っており、「ABC」と「ABC」、「123」と「123」は別の文字として扱われます。フォーム入力で「半角で入力してください」と指示されるのは、この区別が今も残っているためです。

改行コード CRLF・LF・CR は文字コードと別物ですか?

はい、改行コードは文字コードとは独立した概念です。Windowsは CRLF(\r\n)、Mac/Linuxは LF(\n)、古いMacは CR(\r)を改行に使ってきました。ExcelでCSVを開いて行が分かれない、Gitで差分が大量に出る、といったトラブルは改行コードの違いが原因です。改行コード変換ツールで揃えると解消します。