基于马尔可夫链的AI音乐生成：从原理到MRCV项目实践-深圳市維司達科技有限公司

1. 项目概述：当AI遇见五线谱

如果你对音乐创作感兴趣，但又觉得乐理知识、和声学或者乐器演奏的门槛太高，那么AI辅助作曲可能是一个有趣的切入点。我自己作为一个半路出家的音乐爱好者和程序员，很长一段时间都在寻找一种方式，能让我用代码的逻辑去理解和创造旋律。直到我深入研究了基于马尔可夫链的音乐生成，并动手实践了MRCV这个开源项目，才真正找到了连接两个世界的桥梁。

简单来说，MRCV是一个集成了经典机器学习模型（如马尔可夫链）和现代神经网络的开源工具包，它的核心目标是让用户能够相对轻松地利用AI技术生成音乐、设计声音，甚至构建虚拟乐器。它不像一些商业“黑箱”软件，你输入风格就能出曲子；相反，它更像一个“乐高工具箱”，提供了从数据预处理、模型训练到乐谱可视化的完整流程组件。你可以用一首巴赫的《法国组曲》MIDI文件训练一个模型，然后让它生成一段具有巴洛克风格片段；你也可以接入一个训练好的神经网络模型，实时合成全新的音色。它的价值在于“可解释性”和“可定制性”——你能清楚地知道模型是如何基于上一个音符预测下一个的，也能根据自己的需求调整几乎每一个环节。

这个项目特别适合几类朋友：一是对算法作曲和生成艺术感兴趣的开发者，想有一个现成的框架快速实验；二是音乐科技领域的学生或研究者，需要一个模块化的基础平台进行二次开发；三是像我一样的跨界爱好者，希望用一种新的、技术驱动的方式去理解和创作音乐。接下来，我将结合MRCV的代码片段和我的实践经验，为你拆解从马尔可夫链原理到生成一张完整乐谱的每一步。

2. 核心原理：马尔可夫链如何“学会”作曲

在深入代码之前，我们必须先理解驱动MRCV音乐生成的核心引擎之一——马尔可夫模型。它听起来高深，但思想非常直观。

2.1 从“记忆”到“预测”：马尔可夫链的直观理解

想象一下，你正在学习一首新的钢琴曲。刚开始，你是一个音符一个音符地磕。但练了几遍后，你会发现某些音符组合经常连续出现，比如“Do-Mi-Sol”之后，很大概率会接“Fa”。再后来，你甚至不用看谱，弹到“Do-Mi-Sol”时，手指会自然而然地准备按向“Fa”。这个过程，本质上就是你的大脑在构建一个简单的马尔可夫模型：你记住了在当前“状态”（“Do-Mi-Sol”这个音符序列）下，下一个最可能出现的“状态”（“Fa”）是什么。

马尔可夫链正是将这个过程数学化和概率化。它的核心假设是“无记忆性”或“马尔可夫性质”，即下一个状态出现的概率只取决于当前状态，而与更早的历史状态无关。在音乐中，我们可以把“状态”定义为各种音乐属性，例如：

音高状态：当前音符是C4、E4还是G4。
节奏状态：当前音符是四分音符、八分音符还是附点二分音符。
和弦状态：当前小节是C大三和弦、G属七和弦等。

通过分析大量的音乐数据（如MIDI文件），我们可以统计出所有状态之间的转换概率。例如，在训练数据中，音高“C4”出现了100次，其中65次后面跟着“E4”，20次后面跟着“G4”，15次后面跟着“C5”。那么，我们就可以构建一个概率分布：当当前音高为C4时，下一个音高为E4的概率是65%，G4是20%，C5是15%。这个由所有状态及其转换概率组成的表，就是状态转移概率矩阵，它是马尔可夫模型的“大脑”。

注意：这里说的“状态”可以非常灵活。在MRCV的示例中，它很可能将“音高”、“节奏”和“八度”分别建模为三个独立的马尔可夫链，或者将它们组合成一个复合状态（如“C4-四分音符”），后者能捕捉更丰富的音乐上下文，但状态空间会急剧膨胀，需要更多数据。

2.2 MRCV中的模型训练与数据解析

让我们结合提供的代码片段，看看MRCV是如何具体实现这一过程的。关键代码行是：

rhythms, pitch, abspitch, octaves = markov.learnFromMidi("frenchsuite.midi")

这行代码揭示了MRCV处理音乐数据的典型流程：

MIDI文件解析：learnFromMidi方法首先会读取指定的MIDI文件（如frenchsuite.midi）。MIDI文件本质上是一系列带有时间戳的指令序列，例如“在时间点t，按下音符C4（音高60），力度为80”；“在时间点t+480（假设一个四分音符的时长），松开音符C4”。MRCV需要从这些原始事件中，提取出我们关心的音乐特征序列。
特征序列提取：根据变量名推测，MRCV至少提取了四条独立的序列：
- rhythms: 节奏序列。可能将连续的音符起始时间差（即间隔时长）离散化为有限的节奏型类别，如“全音符”、“二分音符”、“四分音符”等。
- pitch: 音高序列。这里可能指相对音高，例如在C大调中，无论哪个八度的C都映射为同一个状态“1”（主音）。这有助于模型学习调性内的音级进行规律，使生成的旋律更和谐。
- abspitch: 绝对音高序列。即MIDI音符编号本身（60=C4，61=C#4等）。这保留了精确的音高信息，适合生成特定乐器或音色的旋律。
- octaves: 八度序列。可能从绝对音高中分离出八度信息，作为一个独立特征进行建模。
概率矩阵构建：对于提取出的每一条序列（如pitch序列），MRCV会遍历整个序列，统计每一个状态（如音高“C4”）后面出现其他状态（如“E4”、“G4”）的次数。最终，将这些计数归一化（转换为百分比），就得到了该特征对应的状态转移概率矩阵。

实操心得：选择用相对音高还是绝对音高进行训练，会极大影响生成结果。使用相对音高（pitch）训练的模型，其生成结果更容易保持调性统一，听起来“像一首曲子”，但可能缺乏音域的变化。使用绝对音高（abspitch）训练的模型，能精确复现训练数据的音域特点，但如果数据中包含大量跳跃，生成结果也可能显得突兀。在实际项目中，我通常会两种都尝试，或者将两者结合（例如用相对音高控制音级，用独立的八度链控制音区跳跃），对比听感效果。

3. 系统架构与工具链拆解

MRCV不是一个单一的脚本，而是一个由多个模块组成的工具链。理解这个架构，有助于我们更好地使用和扩展它。

3.1 核心模块功能解析

从代码片段中，我们可以识别出几个关键模块：

markovmodels.MarkovModel(马尔可夫模型核心)：
- 职责：封装马尔可夫链的完整生命周期，包括learnFromMidi（从数据学习）、plotMatrices（可视化概率矩阵，被注释掉了）和returnNextPitch（根据当前状态生成下一个状态）。
- 内部逻辑：returnNextPitch方法的工作流程是：首先获取模型当前的内部状态（比如上一个生成的音高），然后查询该状态对应的转移概率分布，最后根据这个概率分布随机采样，得到下一个状态。这个“随机采样”是音乐生成多样性的来源。
createcanvas与notationplacer(乐谱可视化引擎)：
- 职责：将抽象的符号数据（音高、节奏）渲染成可视化的乐谱图像。这是MRCV非常实用的一点，它省去了我们手动将生成的MIDI数据导入专业打谱软件（如MuseScore）的步骤。
- 工作流程：
  - createcanvas.returnCanvas：创建一张指定尺寸（如“A4”纵向）的画布，并生成五线谱的坐标信息(staffLineCoords)。
  - notationplacer.notationPlacer：初始化一个“音符放置器”，它知道如何将音符符号画到画布的正确位置上。
  - 随后，调用applyTrebleClef添加高音谱号，addTitle添加标题，addComposer添加作曲家信息，addInstrumentTextAtIndent添加乐器名称。这些步骤构建了乐谱的“版面”。
主程序流程：代码展示了从训练到生成再到可视化的标准流程。首先生成画布和放置器，然后训练马尔可夫模型，接着循环调用returnNextPitch生成一系列音符，并利用放置器将这些音符绘制到画布上，最后保存为PNG图像。

3.2 技术选型与生态整合

MRCV的设计体现了其面向开发者和研究者的定位：

语言与库：从代码风格看，很可能基于Python。Python在AI和科学计算领域有庞大的生态，如NumPy、Matplotlib（可能用于plotMatrices），以及专业的音乐处理库如pretty_midi或mido用于解析MIDI。可视化部分可能使用了PIL（Python Imaging Library）或cairo这样的2D图形库进行直接绘制。
模型扩展性：项目摘要中提到“提供许多神经网络选项”，并允许用户添加“.h5或.json格式的预训练模型”。这表明MRCV的架构是插件化的。马尔可夫链作为经典方法被内置，而更复杂的模型（如LSTM、Transformer、VAE）可以通过标准接口接入。.h5是Keras/TensorFlow常用的模型保存格式，.json可能用于更轻量级的实时音频合成模型（如RNN）。
输入输出格式：
- 输入：主要支持MIDI。MIDI是音乐AI研究的标准数据格式，因为它结构清晰，只包含音符、力度、控制器等符号信息，不包含复杂的音频波形。
- 输出：支持位图图像（如PNG）和潜在的矢量图（项目未来工作提到为Genere模块添加矢量图支持）。音频输出可能通过调用外部合成器或集成音频合成库（如FluidSynth结合SoundFont）来实现。

注意事项：处理MIDI文件时，一个常见的“坑”是MIDI文件的多样性和复杂性。有的MIDI文件是单音轨旋律，有的是多音轨合奏（如钢琴左右手分开），有的包含了复杂的控制器信息（弯音、调制）。MRCV的learnFromMidi方法可能需要预处理，比如合并所有音轨、统一量化节奏（将音符时长对齐到最接近的整数倍基本单位）、过滤掉非音符事件。如果直接用一份未经处理的、复杂的多轨MIDI文件训练，模型可能会学到很多噪音，导致生成结果混乱。在实践中，我通常会先用music21或pretty_midi库对MIDI进行清洗和简化。

4. 从零到一：复现MRCV音乐生成全流程

现在，让我们抛开代码片段，基于MRCV的设计思想，手把手走一遍构建一个简易版马尔可夫音乐生成器的核心步骤。你可以将此视为对MRCV内部原理的一次深度实操。

4.1 环境准备与数据获取

第一步：搭建Python环境我推荐使用conda或venv创建独立的Python环境（如Python 3.8+），然后安装核心依赖：

pip install pretty_midi # MIDI文件解析和处理 pip install numpy # 数值计算和矩阵操作 pip install matplotlib # 用于可视化概率矩阵（可选） pip install Pillow # 图像生成，用于替代MRCV的canvas绘制（简易版）

第二步：准备训练数据数据的质量直接决定模型的“音乐素养”。可以从以下渠道获取干净的MIDI数据：

专业数据集：如MAESTRO（钢琴曲）、Lakh MIDI Dataset（流行音乐）。这些数据集通常经过清洗，质量较高。
古典音乐库：如Mutopia Project提供大量古典音乐的MIDI文件。
自行创作或转换：使用DAW（数字音频工作站）如Ableton Live、Logic Pro或免费的MuseScore创作简单的旋律并导出为MIDI。

对于初次实验，建议选择结构简单、旋律清晰的MIDI文件，例如一首巴赫的二部创意曲，或是一段简单的流行歌曲主旋律。避免一开始就使用交响乐或复杂爵士乐的MIDI。

4.2 实现马尔可夫模型核心

我们来构建一个比MRCV示例更透明、更易于理解的马尔可夫模型类。

import numpy as np from collections import defaultdict import pretty_midi class SimpleMarkovMusicGenerator: def __init__(self, order=1): """ 初始化一个一阶马尔可夫模型。 order: 马尔可夫阶数。order=1表示下一个状态只依赖前一个状态。 """ self.order = order # 使用defaultdict来存储转移计数。键是历史状态元组，值是一个字典，记录下一个状态及其出现次数。 self.transitions = defaultdict(lambda: defaultdict(int)) # 存储所有见过的状态，用于初始化生成或处理未知状态。 self.states = [] def learn_from_midi(self, midi_path): """ 从MIDI文件学习。 """ # 1. 解析MIDI midi_data = pretty_midi.PrettyMIDI(midi_path) notes = midi_data.instruments[0].notes # 假设我们只取第一个音轨 notes.sort(key=lambda x: x.start) # 按开始时间排序 # 2. 提取特征序列（这里以绝对音高为例） pitch_sequence = [note.pitch for note in notes] self.states = list(set(pitch_sequence)) # 获取所有唯一音高作为状态集 # 3. 构建转移计数（一阶） for i in range(len(pitch_sequence) - self.order): # 当前状态：当前音符的音高 current_state = pitch_sequence[i] # 下一个状态 next_state = pitch_sequence[i + 1] # 记录转移 self.transitions[current_state][next_state] += 1 print(f"学习完成。共学习到 {len(self.transitions)} 个状态转移规则。") def get_next_state(self, current_state): """ 根据当前状态，基于学习到的概率分布，随机生成下一个状态。 """ if current_state not in self.transitions: # 如果当前状态从未在训练中出现过，则随机返回一个状态 return np.random.choice(self.states) # 获取当前状态的所有可能的下一个状态及其计数 next_state_counts = self.transitions[current_state] next_states = list(next_state_counts.keys()) counts = list(next_state_counts.values()) # 将计数转换为概率 probabilities = np.array(counts) / np.sum(counts) # 根据概率分布随机选择下一个状态 return np.random.choice(next_states, p=probabilities) def generate_sequence(self, start_state=None, length=50): """ 生成一段音符序列。 """ if not self.states: raise ValueError("请先使用 learn_from_midi 方法训练模型。") # 如果没有指定起始状态，则随机选择一个 if start_state is None: start_state = np.random.choice(self.states) sequence = [start_state] current_state = start_state for _ in range(length - 1): next_state = self.get_next_state(current_state) sequence.append(next_state) current_state = next_state return sequence

这个简易生成器已经具备了MRCV中马尔可夫模型的核心功能：学习和生成。你可以通过调用learn_from_midi训练，然后用generate_sequence生成新的音高序列。

4.3 生成结果的可视化与聆听

生成了一串MIDI音符编号（如[60, 62, 64, 65, 67]）后，我们需要将其变回可听的音乐。

方法一：生成新的MIDI文件（推荐）

def sequence_to_midi(pitch_sequence, output_path='output.mid', tempo=120): """ 将音高序列转换为MIDI文件。 这里为了简化，将所有音符设置为相同的持续时间和力度。 """ midi = pretty_midi.PrettyMIDI() piano_program = pretty_midi.instrument_name_to_program('Acoustic Grand Piano') piano = pretty_midi.Instrument(program=piano_program) # 假设每个音符的持续时间为0.5秒（八分音符），间隔为0.5秒 current_time = 0.0 duration = 0.5 for pitch in pitch_sequence: # 创建音符事件：开始时间，结束时间，音高，力度 note = pretty_midi.Note(velocity=100, pitch=pitch, start=current_time, end=current_time + duration) piano.notes.append(note) current_time += duration # 下一个音符紧接着开始 midi.instruments.append(piano) midi.write(output_path) print(f"MIDI文件已保存至：{output_path}")

方法二：简易乐谱可视化（替代MRCV的canvas）我们可以用字符在控制台画一个简单的“钢琴卷帘”来可视化：

def visualize_sequence_ascii(pitch_sequence): """ 用ASCII字符在控制台简单显示音高序列。 """ # 定义音名 note_names = ['C', 'C#', 'D', 'D#', 'E', 'F', 'F#', 'G', 'G#', 'A', 'A#', 'B'] for pitch in pitch_sequence: octave = pitch // 12 - 1 note_name = note_names[pitch % 12] print(f"{note_name}{octave}", end=' -> ') print("End")

运行流程如下：

# 1. 初始化并训练 generator = SimpleMarkovMusicGenerator(order=1) generator.learn_from_midi('frenchsuite.midi') # 替换为你的MIDI文件路径 # 2. 生成序列 start_pitch = 60 # C4 generated_pitches = generator.generate_sequence(start_state=start_pitch, length=20) # 3. 可视化与输出 print("生成的音高序列：") visualize_sequence_ascii(generated_pitches) # 4. 保存为MIDI sequence_to_midi(generated_pitches, 'my_markov_music.mid')

现在，你可以用任何媒体播放器（如VLC）或数字音频工作站（DAW）打开生成的my_markov_music.mid文件来聆听它。虽然听起来可能很简单甚至有些机械，但它确实是由模型基于巴赫的《法国组曲》“创作”出来的。

5. 进阶探索与调优策略

使用基础的一阶模型后，你可能会发现生成的旋律过于重复、缺乏长程结构，或者节奏单调。以下是一些进阶的调优方向和MRCV可能支持的扩展思路。

5.1 提升音乐性的关键技术

增加马尔可夫阶数：
- 问题：一阶模型只“记得”前一个音符，因此生成的旋律局部连贯，但容易陷入短循环，缺乏乐句感。
- 解决方案：将order参数设为2或3。这意味着状态定义为连续2个或3个音符的组合。例如，二阶模型的状态可能是(60, 62)（C4, D4），然后预测下一个音符。这能让模型学习到更长的模式。
- 代价：状态空间呈指数级增长（状态数=音高种类^阶数）。需要更多的训练数据来获得可靠的统计，否则会出现大量“未见过”的状态，导致生成时频繁回退到随机选择。
多特征联合建模：
- 问题：单独建模音高，忽略了节奏、时长、力度等信息，音乐缺乏表现力。
- 解决方案：像MRCV那样，并行建立多个马尔可夫链，分别用于音高、节奏、八度。生成时，每一步同时从各个链中采样下一个特征。更高级的方法是建立复合状态，例如状态=(音高，节奏型)，这样能学习到“什么样的音高常配什么样的节奏”这种组合规律。
引入平滑与回退：
- 问题：当遇到训练集中未出现过的状态时，模型无法给出预测（我们的简易版是随机选择，这并不理想）。
- 解决方案：采用回退平滑技术。例如，当三阶状态(A,B,C)未见过时，回退到二阶状态(B,C)的概率分布；如果仍未见过，则回退到一阶状态(C)；最后回退到全局频率分布。这能保证生成过程永不“卡住”，并增加多样性。

5.2 与神经网络模型的融合

马尔可夫链优点是简单、可解释、生成速度快，但缺点是对长期依赖和复杂结构建模能力有限。这正是神经网络（尤其是循环神经网络RNN、长短期记忆网络LSTM、Transformer）的用武之地。MRCV的框架允许接入这些模型。

LSTM/GRU：非常适合建模音乐这类时序数据。它们通过内部“记忆细胞”可以学习长距离的依赖关系，能够生成结构更完整、发展更自然的乐句。你可以用Keras或PyTorch训练一个LSTM网络来预测下一个音符（或音符的多特征向量），然后将训练好的模型（.h5或.pt格式）集成到MRCV的流程中，替代或与马尔可夫链协同工作。
变分自编码器（VAE）与生成对抗网络（GAN）：这些模型学习的是整个音乐片段的“潜在空间”。你可以在潜在空间中插值、采样，从而生成风格混合或完全新颖的音乐片段。MRCV未来工作提到的“.json for realtime audio”可能就是指一种轻量化的、适合实时生成的VAE模型。
混合方法：一个实用的策略是使用马尔可夫链快速生成一个“草稿”或动机，然后使用神经网络模型（如LSTM）对这个草稿进行“润色”和扩展，增加音乐的连贯性和表现力。

5.3 工程化与性能考量

当你想把玩具级的脚本变成一个像MRCV那样可用的工具时，需要考虑以下问题：

状态表示的优化：对于音高，使用整数索引比字符串"C4"更高效。对于节奏，使用符号化表示（如0.25代表四分音符）比浮点数更利于统计。
概率矩阵的存储与加载：训练好的转移概率矩阵可以保存为JSON、NPZ（NumPy格式）或Pickle文件。下次使用时直接加载，无需重新训练。
实时生成与交互：MRCV提到支持实时音频的.json模型。这意味着模型需要非常轻量，推理速度极快（毫秒级）。通常需要将模型转换为TensorFlow Lite或ONNX Runtime等推理优化格式，并可能使用C++或Rust编写高性能核心。
图形用户界面（GUI）：虽然MRCV的文档可能以API为主，但为其添加一个简单的GUI（使用Tkinter、PyQt或网页前端）可以极大提升易用性，让用户能实时调整参数（如生成长度、温度参数——控制随机性）、选择训练文件并立即听到生成结果。

6. 常见问题与实战排坑指南

在实际操作中，你几乎一定会遇到下面这些问题。这里是我踩过坑后总结的解决方案。

6.1 模型训练与数据相关

问题1：生成的音乐全是重复的几个音，非常单调。

原因分析：训练数据量太小，或者数据本身重复性高（比如一段简单的琶音练习曲），导致状态转移概率高度集中。
排查与解决：
1. 检查数据：用pretty_midi打印一下你训练的MIDI文件的音符序列，看看是否本身就很简单。
2. 增加数据量：使用更多、更丰富的MIDI文件进行训练。可以尝试将多首风格相近的曲子合并成一个序列进行训练。
3. 引入“温度”参数：在get_next_state函数中，不要直接按原始概率采样。可以对概率分布应用一个温度参数T：probabilities = np.power(probabilities, 1/T)，然后重新归一化。T > 1会使分布更平缓（增加随机性），T < 1会使分布更尖锐（增加确定性，更接近训练数据）。当T趋近于无穷大时，所有下一个状态等概率，变成完全随机。
4. 检查状态定义：如果你使用了过高的马尔可夫阶数（如4阶），而数据量不足，模型会过度拟合，只敢重复它见过的少数长序列。

问题2：生成的旋律听起来不和谐，有大量不协和音程跳跃。

原因分析：使用绝对音高（abspitch）训练，而训练数据中包含大量大跳（如钢琴曲中的琶音、音阶），模型忠实地学习了这些跳跃。
排查与解决：
1. 切换到相对音高：将绝对音高转换为当前调性内的音级。这需要先进行调性检测。可以使用music21库的analyze('key')功能来估计MIDI片段的调性，然后将所有音符映射到该调性的音级上（例如，C大调中，C=0, D=1, E=2...）。
2. 后处理滤波：生成序列后，添加一个简单的规则进行过滤。例如，如果连续两个音符的音程大于八度，则用它们之间的某个音（如五度音）替换第二个音。
3. 在损失函数中引入和谐性约束：如果使用神经网络，可以在训练目标中加入惩罚项，对不协和的音程（如小二度、增四度）进行轻微惩罚，引导模型生成更和谐的连接。

6.2 生成与输出相关

问题3：生成的MIDI文件播放时音符全部重叠在一起，一片混乱。

原因分析：在将生成的音高序列写回MIDI时，音符的开始时间和结束时间设置错误。最常见的问题是设置了音符的start时间，但end时间设置得过晚，或者下一个音符的start时间没有在上一个音符的end时间之后，导致音符在时间上重叠。
排查与解决：
1. 仔细检查sequence_to_midi函数：确保current_time的累加逻辑正确。通常，note.end = note.start + duration，而下一个note.start应该等于上一个note.start + duration（如果音符不重叠）或更晚。
2. 考虑音符时长：我们的简易示例给所有音符固定了0.5秒的时长。更好的做法是，在训练时也学习节奏的马尔可夫链，生成时同时生成音高和对应的时长序列，然后将时长信息也写入MIDI。
3. 使用专业库验证：用pretty_midi写回MIDI后，再用它读出来，打印每个音符的起止时间，检查时间线是否正确。

问题4：我想生成多声部（如左手和弦伴奏）的音乐，怎么办？

原因分析：基础的序列模型处理的是单一声部。多声部音乐需要更复杂的表示方法。
排查与解决：
1. “钢琴卷帘”表示法：将时间离散化为小的时间片（如16分音符为一个时间步）。在每个时间步，用一个向量表示所有88个钢琴键是否被按下。这样，多声部就变成了一个二进制矩阵。可以用卷积神经网络（CNN）或Transformer来处理这种图像式的表示。
2. 基于事件的表示法（如REMI）：这是一种更先进的表示法，将音乐编码为一系列事件，如“音符开-音高60”、“音符关-音高60”、“时间移位-16分音符”、“和弦-C大调”等。这种表示法能更自然地处理多声部和复杂节奏，是当前许多先进音乐生成模型（如Music Transformer）的基础。要实现这个，你需要对MIDI数据进行更复杂的事件编码和解码。

6.3 性能与扩展性

问题5：训练数据很大时，程序运行很慢，内存占用高。

原因分析：使用Python的defaultdict存储高阶马尔可夫模型时，如果状态空间很大（例如，128种音高的3阶组合有超过200万种可能状态），会导致内存爆炸。
排查与解决：
1. 使用稀疏矩阵：scipy.sparse库可以高效存储和计算这种大部分元素为0的转移矩阵。
2. 降维与聚类：将128种MIDI音高聚类成更少的类别（如12个音级，或24个大小调式主音）。对节奏进行粗量化（只区分几种基本时值）。
3. 使用数据库：对于超大规模数据，可以将状态转移计数存储在SQLite或Redis等轻量级数据库中。
4. 转向神经网络：当数据量极大时，神经网络模型（尤其是Embedding层）的参数效率通常高于显式存储所有转移概率的马尔可夫模型。

最后，音乐生成是一个融合了技术、艺术和大量试错的领域。MRCV这样的工具提供了一个绝佳的起点，让你能快速验证想法。不要期望第一个模型就能生成杰作。真正的乐趣在于迭代：调整参数、尝试不同的数据、混合不同的模型，并在这个过程中，你不仅是在教AI作曲，更是在以一种全新的、量化的方式去理解音乐本身的结构与美感。我自己的很多音乐灵感，正是在调试模型参数、聆听那些“失败”的生成结果时偶然获得的。